xData Platform
                 Dynamisch von Hadoop zum Retargeting
www.exasol.com
                 mit EXA Solution
Vision

     1   Täglich besuchen
         viele
         User mit individuellen
                                  2   95 – 98 % von ihnen
                                      verlassen Ihre Website,
                                      ohne gekauft/gebucht
                                                                             3     Dynamische Banner mit optimalen
                                                                                   Produktempfehlungen im
                                                                                   intelligenten Retargeting-Mix
                                                                                   wecken das Interesse Ihrer vormaligen
         Produktinteressen            zu haben.                                    Besucher erneut.
         Ihre Website.




                                  4   Der User klickt
                                      und wird wieder auf Ihre Website zurückgeführt.



Die xData Platform ist ein zentrales Datenlager für Data Mining,
Realtime-Analyse-Systeme und Reporting. Im Rohdatenspeicher werden
die Daten in ihrer ursprünglichen Form gespeichert und über weitere
Schichten dynamisch gesteuert über Metadaten, von semi-strukturierten
Daten in eine strukturierte Form gebracht.


                                                                                                                  www.exasol.com
Herausforderungen

• Hoch skalierbares und dynamisches System wird für Datenwachstum
  benötigt:
   – 60 Kunden mit ca . 2 Milliarden Events pro Monat
   – Operativ ca. 0,5 TB unkomprimiertes Rohdaten Wachstum im Monat
   – Historie wächst auf 8 TB.


• Anforderungen an operative Systeme zur Aussteuerung der Kampagnen
  und Preismodelloptimierung steigen.
• Daten müssen in Echtzeit angeliefert und verarbeitet werden.
• Starker Preiskampf im Markt, erhöhter Wettbewerbsdruck bei Kunden.




                                                                 www.exasol.com
Ausgangssituation und Ziel
• Ausgangssituation
   – Das Data Warehouse besteht aus einer relationalen
     spaltenorientierten Exasol-Datenbank, der EXASolution. Diese
     speichert Informationen aus Log-Dateien der Retargeting-
     Anwendungen. Die Log-Dateien werden von dem externen
     Dienstleister erzeugt und mittels des Open Source-ETL-
     Werkzeugs Pentaho geladen. Für weitere Verarbeitungsschritte
     wird die Exasol-Programmiersprache LUA-Skripting eingesetzt.
• Ziel
   – Der Fokus liegt beim Aufbau des Raw Data Layer mit Hadoop
     (HDFS) und dem DWH in der Datenbank EXASolution von Exasol.
     In der Gesamtarchitektur soll der Raw Data Layer der Single
     Point of Truth sein und somit die Quelle für alle Daten für die
     angeschlossenen dispositiven Systeme wie z.B. das Data
     Warehouse oder die Operative Data Unit.



                                                                       www.exasol.com
Eingesetzte Technologien (polystrukturierte Datenwelt)
• Hadoop Ecosystem
    –   Hadoop Distributed File System (HDFS)
    –   Hive & Pig
    –   Apache Kafka (distributed messaging system)
    –   Apache Mahout (machine learning library)


•   EXASolution (Data Warehouse)
•   Apache Lucene (search engine library)
•   Apache Cassandra (Realtime Data Storage)
•   BicSuite (Job Scheduling System)

• Programmiersprache: Python




                                                      www.exasol.com
Architektur der xDataPlattform




                                 www.exasol.com
Projektplan bis Go Live
•   Projektstart:                November 2011
•   Konzeption:                  Februar 2012
•   Datenmodellierung:           Mai bis Juni 2012
•   Implementierung:             April bis Ende Juli 2012

• Inbetriebnahme:                August/September 2012
    – Go-Live mit Kunden(fließender Übergang)


• Migration:                     ab Oktober 2012
    – Umstellung aller Kunden bis Ende des Jahres




                                                            www.exasol.com
Kundennutzen & Marktpotential
• Mehrstufige, intelligente Analyse und Selektion für optimale
  Produktempfehlungen (Data-Mining).
• Konsequentes Frequency Capping für sensiblen Werbedruck und
  Qualitätsbewusstsein beim Mediaeinkauf.
• Conversion-basierte Abrechnungsformen (CPO, Revenue Share) für eine
  partnerschaftliche, erfolgsorientierte Zusammenarbeit.
• Deutliche Umsatzsteigerung fürs Unternehmen.
• Kunde hat Möglichkeit mehr Werbung und kostengünstiger einzukaufen.
• Steigerung der geschäftsrelevanten Kennzahlen.

• Referenzen:
  Baur, SportScheck, Heine, Bonprix, Medion, Travel24, lascana, opodo...




                                                                www.exasol.com
Fazit & Highlights

•   Dynamisch skalierbare Plattform die aus verschiedenen Quellen
    polystrukturierte Daten in Echtzeit verarbeitet.
•   Technologien werden je nach Einsatzszenario kombiniert.
•   EXASolution als zentrales DWH ermöglicht Echtzeitverarbeitung, schnelle
    Anpassungen werden direkt ins operative System zurückgespielt.
•   EXASolution für Batch Verfahren und Data Mining mit Modellentwicklung.
•   Hadoop als SPOT für alle Systeme (DWH, Realtime-Data-Storage und
    Realtime-Data-Mining-System ).
•   Hadoop Ergebnisse werden strukturiert ins System geladen.
•   Vereinfachtes Metadaten Management:
     – Hinzufügen neuer Felder direkt in den Metadaten
     – Nur Daten für das jeweilige Anwendungsszenario werden verwendet.



                                                                    www.exasol.com

xplosion & Exasol Vortrag Big Data Award 2012

  • 1.
    xData Platform Dynamisch von Hadoop zum Retargeting www.exasol.com mit EXA Solution
  • 2.
    Vision 1 Täglich besuchen viele User mit individuellen 2 95 – 98 % von ihnen verlassen Ihre Website, ohne gekauft/gebucht 3 Dynamische Banner mit optimalen Produktempfehlungen im intelligenten Retargeting-Mix wecken das Interesse Ihrer vormaligen Produktinteressen zu haben. Besucher erneut. Ihre Website. 4 Der User klickt und wird wieder auf Ihre Website zurückgeführt. Die xData Platform ist ein zentrales Datenlager für Data Mining, Realtime-Analyse-Systeme und Reporting. Im Rohdatenspeicher werden die Daten in ihrer ursprünglichen Form gespeichert und über weitere Schichten dynamisch gesteuert über Metadaten, von semi-strukturierten Daten in eine strukturierte Form gebracht. www.exasol.com
  • 3.
    Herausforderungen • Hoch skalierbaresund dynamisches System wird für Datenwachstum benötigt: – 60 Kunden mit ca . 2 Milliarden Events pro Monat – Operativ ca. 0,5 TB unkomprimiertes Rohdaten Wachstum im Monat – Historie wächst auf 8 TB. • Anforderungen an operative Systeme zur Aussteuerung der Kampagnen und Preismodelloptimierung steigen. • Daten müssen in Echtzeit angeliefert und verarbeitet werden. • Starker Preiskampf im Markt, erhöhter Wettbewerbsdruck bei Kunden. www.exasol.com
  • 4.
    Ausgangssituation und Ziel •Ausgangssituation – Das Data Warehouse besteht aus einer relationalen spaltenorientierten Exasol-Datenbank, der EXASolution. Diese speichert Informationen aus Log-Dateien der Retargeting- Anwendungen. Die Log-Dateien werden von dem externen Dienstleister erzeugt und mittels des Open Source-ETL- Werkzeugs Pentaho geladen. Für weitere Verarbeitungsschritte wird die Exasol-Programmiersprache LUA-Skripting eingesetzt. • Ziel – Der Fokus liegt beim Aufbau des Raw Data Layer mit Hadoop (HDFS) und dem DWH in der Datenbank EXASolution von Exasol. In der Gesamtarchitektur soll der Raw Data Layer der Single Point of Truth sein und somit die Quelle für alle Daten für die angeschlossenen dispositiven Systeme wie z.B. das Data Warehouse oder die Operative Data Unit. www.exasol.com
  • 5.
    Eingesetzte Technologien (polystrukturierteDatenwelt) • Hadoop Ecosystem – Hadoop Distributed File System (HDFS) – Hive & Pig – Apache Kafka (distributed messaging system) – Apache Mahout (machine learning library) • EXASolution (Data Warehouse) • Apache Lucene (search engine library) • Apache Cassandra (Realtime Data Storage) • BicSuite (Job Scheduling System) • Programmiersprache: Python www.exasol.com
  • 6.
  • 7.
    Projektplan bis GoLive • Projektstart: November 2011 • Konzeption: Februar 2012 • Datenmodellierung: Mai bis Juni 2012 • Implementierung: April bis Ende Juli 2012 • Inbetriebnahme: August/September 2012 – Go-Live mit Kunden(fließender Übergang) • Migration: ab Oktober 2012 – Umstellung aller Kunden bis Ende des Jahres www.exasol.com
  • 8.
    Kundennutzen & Marktpotential •Mehrstufige, intelligente Analyse und Selektion für optimale Produktempfehlungen (Data-Mining). • Konsequentes Frequency Capping für sensiblen Werbedruck und Qualitätsbewusstsein beim Mediaeinkauf. • Conversion-basierte Abrechnungsformen (CPO, Revenue Share) für eine partnerschaftliche, erfolgsorientierte Zusammenarbeit. • Deutliche Umsatzsteigerung fürs Unternehmen. • Kunde hat Möglichkeit mehr Werbung und kostengünstiger einzukaufen. • Steigerung der geschäftsrelevanten Kennzahlen. • Referenzen: Baur, SportScheck, Heine, Bonprix, Medion, Travel24, lascana, opodo... www.exasol.com
  • 9.
    Fazit & Highlights • Dynamisch skalierbare Plattform die aus verschiedenen Quellen polystrukturierte Daten in Echtzeit verarbeitet. • Technologien werden je nach Einsatzszenario kombiniert. • EXASolution als zentrales DWH ermöglicht Echtzeitverarbeitung, schnelle Anpassungen werden direkt ins operative System zurückgespielt. • EXASolution für Batch Verfahren und Data Mining mit Modellentwicklung. • Hadoop als SPOT für alle Systeme (DWH, Realtime-Data-Storage und Realtime-Data-Mining-System ). • Hadoop Ergebnisse werden strukturiert ins System geladen. • Vereinfachtes Metadaten Management: – Hinzufügen neuer Felder direkt in den Metadaten – Nur Daten für das jeweilige Anwendungsszenario werden verwendet. www.exasol.com