SlideShare ist ein Scribd-Unternehmen logo
xData Platform
                 Dynamisch von Hadoop zum Retargeting
www.exasol.com
                 mit EXA Solution
Vision

     1   Täglich besuchen
         viele
         User mit individuellen
                                  2   95 – 98 % von ihnen
                                      verlassen Ihre Website,
                                      ohne gekauft/gebucht
                                                                             3     Dynamische Banner mit optimalen
                                                                                   Produktempfehlungen im
                                                                                   intelligenten Retargeting-Mix
                                                                                   wecken das Interesse Ihrer vormaligen
         Produktinteressen            zu haben.                                    Besucher erneut.
         Ihre Website.




                                  4   Der User klickt
                                      und wird wieder auf Ihre Website zurückgeführt.



Die xData Platform ist ein zentrales Datenlager für Data Mining,
Realtime-Analyse-Systeme und Reporting. Im Rohdatenspeicher werden
die Daten in ihrer ursprünglichen Form gespeichert und über weitere
Schichten dynamisch gesteuert über Metadaten, von semi-strukturierten
Daten in eine strukturierte Form gebracht.


                                                                                                                  www.exasol.com
Herausforderungen

• Hoch skalierbares und dynamisches System wird für Datenwachstum
  benötigt:
   – 60 Kunden mit ca . 2 Milliarden Events pro Monat
   – Operativ ca. 0,5 TB unkomprimiertes Rohdaten Wachstum im Monat
   – Historie wächst auf 8 TB.


• Anforderungen an operative Systeme zur Aussteuerung der Kampagnen
  und Preismodelloptimierung steigen.
• Daten müssen in Echtzeit angeliefert und verarbeitet werden.
• Starker Preiskampf im Markt, erhöhter Wettbewerbsdruck bei Kunden.




                                                                 www.exasol.com
Ausgangssituation und Ziel
• Ausgangssituation
   – Das Data Warehouse besteht aus einer relationalen
     spaltenorientierten Exasol-Datenbank, der EXASolution. Diese
     speichert Informationen aus Log-Dateien der Retargeting-
     Anwendungen. Die Log-Dateien werden von dem externen
     Dienstleister erzeugt und mittels des Open Source-ETL-
     Werkzeugs Pentaho geladen. Für weitere Verarbeitungsschritte
     wird die Exasol-Programmiersprache LUA-Skripting eingesetzt.
• Ziel
   – Der Fokus liegt beim Aufbau des Raw Data Layer mit Hadoop
     (HDFS) und dem DWH in der Datenbank EXASolution von Exasol.
     In der Gesamtarchitektur soll der Raw Data Layer der Single
     Point of Truth sein und somit die Quelle für alle Daten für die
     angeschlossenen dispositiven Systeme wie z.B. das Data
     Warehouse oder die Operative Data Unit.



                                                                       www.exasol.com
Eingesetzte Technologien (polystrukturierte Datenwelt)
• Hadoop Ecosystem
    –   Hadoop Distributed File System (HDFS)
    –   Hive & Pig
    –   Apache Kafka (distributed messaging system)
    –   Apache Mahout (machine learning library)


•   EXASolution (Data Warehouse)
•   Apache Lucene (search engine library)
•   Apache Cassandra (Realtime Data Storage)
•   BicSuite (Job Scheduling System)

• Programmiersprache: Python




                                                      www.exasol.com
Architektur der xDataPlattform




                                 www.exasol.com
Projektplan bis Go Live
•   Projektstart:                November 2011
•   Konzeption:                  Februar 2012
•   Datenmodellierung:           Mai bis Juni 2012
•   Implementierung:             April bis Ende Juli 2012

• Inbetriebnahme:                August/September 2012
    – Go-Live mit Kunden(fließender Übergang)


• Migration:                     ab Oktober 2012
    – Umstellung aller Kunden bis Ende des Jahres




                                                            www.exasol.com
Kundennutzen & Marktpotential
• Mehrstufige, intelligente Analyse und Selektion für optimale
  Produktempfehlungen (Data-Mining).
• Konsequentes Frequency Capping für sensiblen Werbedruck und
  Qualitätsbewusstsein beim Mediaeinkauf.
• Conversion-basierte Abrechnungsformen (CPO, Revenue Share) für eine
  partnerschaftliche, erfolgsorientierte Zusammenarbeit.
• Deutliche Umsatzsteigerung fürs Unternehmen.
• Kunde hat Möglichkeit mehr Werbung und kostengünstiger einzukaufen.
• Steigerung der geschäftsrelevanten Kennzahlen.

• Referenzen:
  Baur, SportScheck, Heine, Bonprix, Medion, Travel24, lascana, opodo...




                                                                www.exasol.com
Fazit & Highlights

•   Dynamisch skalierbare Plattform die aus verschiedenen Quellen
    polystrukturierte Daten in Echtzeit verarbeitet.
•   Technologien werden je nach Einsatzszenario kombiniert.
•   EXASolution als zentrales DWH ermöglicht Echtzeitverarbeitung, schnelle
    Anpassungen werden direkt ins operative System zurückgespielt.
•   EXASolution für Batch Verfahren und Data Mining mit Modellentwicklung.
•   Hadoop als SPOT für alle Systeme (DWH, Realtime-Data-Storage und
    Realtime-Data-Mining-System ).
•   Hadoop Ergebnisse werden strukturiert ins System geladen.
•   Vereinfachtes Metadaten Management:
     – Hinzufügen neuer Felder direkt in den Metadaten
     – Nur Daten für das jeweilige Anwendungsszenario werden verwendet.



                                                                    www.exasol.com

Weitere ähnliche Inhalte

Ähnlich wie xplosion & Exasol Vortrag Big Data Award 2012

A NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterA NoSQL Summer - The Year After
A NoSQL Summer - The Year After
MeMo News AG
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
ISR Information Products AG
 
Data Is The New Oil
Data Is The New OilData Is The New Oil
Data Is The New OilParStream
 
DXC Technology - THRIVE Blog: Das nächste BI-Level
DXC Technology - THRIVE Blog: Das nächste BI-LevelDXC Technology - THRIVE Blog: Das nächste BI-Level
DXC Technology - THRIVE Blog: Das nächste BI-Level
Daniel Eiduzzis
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
inovex GmbH
 
SAP BusinessObjects Cloud
SAP BusinessObjects CloudSAP BusinessObjects Cloud
SAP BusinessObjects Cloud
Mohamed Abdel Hadi
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
Eduvision Ausbildungen
 
Projektbeschreibung "E-Commerce Insights Plattform für den SAP Store" 2020
Projektbeschreibung "E-Commerce Insights Plattform für den SAP Store" 2020Projektbeschreibung "E-Commerce Insights Plattform für den SAP Store" 2020
Projektbeschreibung "E-Commerce Insights Plattform für den SAP Store" 2020
Michael Groeschel
 
EXASolution für den Handel
EXASolution für den HandelEXASolution für den Handel
EXASolution für den Handel
EXASOL AG
 
Warum sap hana sql data warehousing
Warum sap hana sql data warehousingWarum sap hana sql data warehousing
Warum sap hana sql data warehousing
ISR Information Products AG
 
Big Data mit Apache Hadoop
Big Data mit Apache HadoopBig Data mit Apache Hadoop
Big Data mit Apache HadoopAlexander Alten
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business Intelligence
DataLion
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
fun communications GmbH
 
Anwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise MashupsAnwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise Mashupstischmid
 
8 Erfolgsfaktoren zukunftsfähiger Prozessintegration im Online-Handel
8 Erfolgsfaktoren zukunftsfähiger Prozessintegration im Online-Handel8 Erfolgsfaktoren zukunftsfähiger Prozessintegration im Online-Handel
8 Erfolgsfaktoren zukunftsfähiger Prozessintegration im Online-Handel
Speed4Trade GmbH
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Harald Erb
 
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...inPuncto GmbH
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Felix Lohmeier
 
Software as a Service E-Commerce Technologien
Software as a Service E-Commerce TechnologienSoftware as a Service E-Commerce Technologien
Software as a Service E-Commerce TechnologienMartina Goehring
 

Ähnlich wie xplosion & Exasol Vortrag Big Data Award 2012 (20)

A NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterA NoSQL Summer - The Year After
A NoSQL Summer - The Year After
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
 
Data Is The New Oil
Data Is The New OilData Is The New Oil
Data Is The New Oil
 
DXC Technology - THRIVE Blog: Das nächste BI-Level
DXC Technology - THRIVE Blog: Das nächste BI-LevelDXC Technology - THRIVE Blog: Das nächste BI-Level
DXC Technology - THRIVE Blog: Das nächste BI-Level
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
 
SAP BusinessObjects Cloud
SAP BusinessObjects CloudSAP BusinessObjects Cloud
SAP BusinessObjects Cloud
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
 
Projektbeschreibung "E-Commerce Insights Plattform für den SAP Store" 2020
Projektbeschreibung "E-Commerce Insights Plattform für den SAP Store" 2020Projektbeschreibung "E-Commerce Insights Plattform für den SAP Store" 2020
Projektbeschreibung "E-Commerce Insights Plattform für den SAP Store" 2020
 
EXASolution für den Handel
EXASolution für den HandelEXASolution für den Handel
EXASolution für den Handel
 
Drupal - die ideale Basis für Medien
Drupal - die ideale Basis für MedienDrupal - die ideale Basis für Medien
Drupal - die ideale Basis für Medien
 
Warum sap hana sql data warehousing
Warum sap hana sql data warehousingWarum sap hana sql data warehousing
Warum sap hana sql data warehousing
 
Big Data mit Apache Hadoop
Big Data mit Apache HadoopBig Data mit Apache Hadoop
Big Data mit Apache Hadoop
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business Intelligence
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
 
Anwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise MashupsAnwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise Mashups
 
8 Erfolgsfaktoren zukunftsfähiger Prozessintegration im Online-Handel
8 Erfolgsfaktoren zukunftsfähiger Prozessintegration im Online-Handel8 Erfolgsfaktoren zukunftsfähiger Prozessintegration im Online-Handel
8 Erfolgsfaktoren zukunftsfähiger Prozessintegration im Online-Handel
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
 
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
 
Software as a Service E-Commerce Technologien
Software as a Service E-Commerce TechnologienSoftware as a Service E-Commerce Technologien
Software as a Service E-Commerce Technologien
 

xplosion & Exasol Vortrag Big Data Award 2012

  • 1. xData Platform Dynamisch von Hadoop zum Retargeting www.exasol.com mit EXA Solution
  • 2. Vision 1 Täglich besuchen viele User mit individuellen 2 95 – 98 % von ihnen verlassen Ihre Website, ohne gekauft/gebucht 3 Dynamische Banner mit optimalen Produktempfehlungen im intelligenten Retargeting-Mix wecken das Interesse Ihrer vormaligen Produktinteressen zu haben. Besucher erneut. Ihre Website. 4 Der User klickt und wird wieder auf Ihre Website zurückgeführt. Die xData Platform ist ein zentrales Datenlager für Data Mining, Realtime-Analyse-Systeme und Reporting. Im Rohdatenspeicher werden die Daten in ihrer ursprünglichen Form gespeichert und über weitere Schichten dynamisch gesteuert über Metadaten, von semi-strukturierten Daten in eine strukturierte Form gebracht. www.exasol.com
  • 3. Herausforderungen • Hoch skalierbares und dynamisches System wird für Datenwachstum benötigt: – 60 Kunden mit ca . 2 Milliarden Events pro Monat – Operativ ca. 0,5 TB unkomprimiertes Rohdaten Wachstum im Monat – Historie wächst auf 8 TB. • Anforderungen an operative Systeme zur Aussteuerung der Kampagnen und Preismodelloptimierung steigen. • Daten müssen in Echtzeit angeliefert und verarbeitet werden. • Starker Preiskampf im Markt, erhöhter Wettbewerbsdruck bei Kunden. www.exasol.com
  • 4. Ausgangssituation und Ziel • Ausgangssituation – Das Data Warehouse besteht aus einer relationalen spaltenorientierten Exasol-Datenbank, der EXASolution. Diese speichert Informationen aus Log-Dateien der Retargeting- Anwendungen. Die Log-Dateien werden von dem externen Dienstleister erzeugt und mittels des Open Source-ETL- Werkzeugs Pentaho geladen. Für weitere Verarbeitungsschritte wird die Exasol-Programmiersprache LUA-Skripting eingesetzt. • Ziel – Der Fokus liegt beim Aufbau des Raw Data Layer mit Hadoop (HDFS) und dem DWH in der Datenbank EXASolution von Exasol. In der Gesamtarchitektur soll der Raw Data Layer der Single Point of Truth sein und somit die Quelle für alle Daten für die angeschlossenen dispositiven Systeme wie z.B. das Data Warehouse oder die Operative Data Unit. www.exasol.com
  • 5. Eingesetzte Technologien (polystrukturierte Datenwelt) • Hadoop Ecosystem – Hadoop Distributed File System (HDFS) – Hive & Pig – Apache Kafka (distributed messaging system) – Apache Mahout (machine learning library) • EXASolution (Data Warehouse) • Apache Lucene (search engine library) • Apache Cassandra (Realtime Data Storage) • BicSuite (Job Scheduling System) • Programmiersprache: Python www.exasol.com
  • 7. Projektplan bis Go Live • Projektstart: November 2011 • Konzeption: Februar 2012 • Datenmodellierung: Mai bis Juni 2012 • Implementierung: April bis Ende Juli 2012 • Inbetriebnahme: August/September 2012 – Go-Live mit Kunden(fließender Übergang) • Migration: ab Oktober 2012 – Umstellung aller Kunden bis Ende des Jahres www.exasol.com
  • 8. Kundennutzen & Marktpotential • Mehrstufige, intelligente Analyse und Selektion für optimale Produktempfehlungen (Data-Mining). • Konsequentes Frequency Capping für sensiblen Werbedruck und Qualitätsbewusstsein beim Mediaeinkauf. • Conversion-basierte Abrechnungsformen (CPO, Revenue Share) für eine partnerschaftliche, erfolgsorientierte Zusammenarbeit. • Deutliche Umsatzsteigerung fürs Unternehmen. • Kunde hat Möglichkeit mehr Werbung und kostengünstiger einzukaufen. • Steigerung der geschäftsrelevanten Kennzahlen. • Referenzen: Baur, SportScheck, Heine, Bonprix, Medion, Travel24, lascana, opodo... www.exasol.com
  • 9. Fazit & Highlights • Dynamisch skalierbare Plattform die aus verschiedenen Quellen polystrukturierte Daten in Echtzeit verarbeitet. • Technologien werden je nach Einsatzszenario kombiniert. • EXASolution als zentrales DWH ermöglicht Echtzeitverarbeitung, schnelle Anpassungen werden direkt ins operative System zurückgespielt. • EXASolution für Batch Verfahren und Data Mining mit Modellentwicklung. • Hadoop als SPOT für alle Systeme (DWH, Realtime-Data-Storage und Realtime-Data-Mining-System ). • Hadoop Ergebnisse werden strukturiert ins System geladen. • Vereinfachtes Metadaten Management: – Hinzufügen neuer Felder direkt in den Metadaten – Nur Daten für das jeweilige Anwendungsszenario werden verwendet. www.exasol.com