Wie baut man ein
komplementäres Data Warehouse
auf Basis von Hadoop?
Gerd König
11. November 2013 / DW2013
COMPANY
PROFILE
WE ARE HERE
Vom Standort Kreuzlingen / Schweiz bedient YMC
seit 2001 namhafte nationale und internationale
Kunden.
WE CREATE

Hosting &
Support
Social-Media-Anwendungen
(z.B. Corporate Blogs, Wikis, Facebook-Apps etc.)

Web-Strategien

S...
WE WORK WITH
Customers
FALLBEISPIEL
VORSTELLUNG
FALLBEISPIEL
VORSTELLUNG
Fallbeispiel: Online Shop

Wir, die WebFashionSellers mit Sitz in Los Angeles,
USA, betreiben ein...
FALLBEISPIEL
AUSGANGSLAGE
AUSGANGSLAGE
Fallbeispiel: Online Shop

Hypothese
“Wenn wir die Lieferzeit um die Hälfte verkürzen,
führt dies zu zufriede...
AUSGANGSLAGE
Fallbeispiel: Online Shop

Wir haben ein externes Support-Call-Center zur
Bearbeitung von Kundenanfragen. All...
VON DER IDEE
ZUR LÖSUNG
LÖSUNGSANSATZ
High Level

Excel
DataMart

Big Data Pipeline
■ Ingest/ETL
■ Store
■ Analyse

Dashboard
Ingest
(ETL)

Store
...
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop
...
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop
...
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop
...
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Hadoop Tools für Storage:
■ HDFS
Excel
DataMart
Dashboard
Ingest
(ETL)

S...
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop
...
FALLBEISPIEL
UMSETZUNG
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Extract

Hue:
■ Upload der MP3Daten

■ HDFS Verzeichnis
nach Upload
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Transform

Pig:
■ Dateien einlesen
■ Extrahieren der
Metadaten mittels
Pig-Streaming...
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Ergebnis

Erkenntnis:
Bei mehr als der Hälfte
aller eingegangenen
Support Calls wurd...
EVALUATION DES OPTIMALEN STANDORTS
Schritt 1: Extract

Sqoop:
■ Importieren der
Kunden-, und
Bestelldaten aus dem
OLTP
EVALUATION DES OPTIMALEN STANDORTS
Schritt 1: Extract

Sqoop:
■ Importieren der
Kunden-, und
Bestelldaten aus dem
OLTP
EVALUATION DES OPTIMALEN STANDORTS
Schritt 2: Transform

Pig:
■ Zusätzlicher Input:
Datei latlon.tsv,
enthält für jeden
Zi...
EVALUATION DES OPTIMALEN STANDORTS
Schritt 2: Heatmap Kundenwohnorte

akd

■ Wo wohnen die
Kunden, die in den
letzten 2 Wo...
EVALUATION DES OPTIMALEN STANDORTS
Schritt 3: Aggregation

Pig:
■ Zusätzlicher Input:
alternative_verteilzent
ren.tsv, ent...
EVALUATION DES OPTIMALEN STANDORTS
Schritt 4: Visualisierung

■ St. Louis, Missouri,
ist die Alternative mit
der geringste...
FAZIT
SUMMARY
TAKEAWAYS
■ Hadoop bietet die Möglichkeit zur ad-hoc Datenanalyse auf
explorative Art und Weise. Denn es ist unrealistisch...
CONTACT US
gerd.koenig@ymc.ch
Tel. +41 (0)71 508 24 74
www.ymc.ch
@gerd_koenig

YMC AG
Sonnenstrasse 4
CH-8280 Kreuzlingen...
Nächste SlideShare
Wird geladen in …5
×

Wie baue ich ein DataWarehouse auf Basis Hadoop

957 Aufrufe

Veröffentlicht am

UseCase zu "Wie baue ich ein DataWarehouse auf Basis Hadoop"

Veröffentlicht in: Technologie
0 Kommentare
3 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
957
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
6
Aktionen
Geteilt
0
Downloads
19
Kommentare
0
Gefällt mir
3
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Wie baue ich ein DataWarehouse auf Basis Hadoop

  1. 1. Wie baut man ein komplementäres Data Warehouse auf Basis von Hadoop? Gerd König 11. November 2013 / DW2013
  2. 2. COMPANY PROFILE
  3. 3. WE ARE HERE Vom Standort Kreuzlingen / Schweiz bedient YMC seit 2001 namhafte nationale und internationale Kunden.
  4. 4. WE CREATE Hosting & Support Social-Media-Anwendungen (z.B. Corporate Blogs, Wikis, Facebook-Apps etc.) Web-Strategien Shop-Systeme, Websites, Intranets Kundenspezifische Individuallösungen fürs Web WEB SOLUTIONS Empfehlungssysteme (z.B. für Apps, Webshops, Websites und Intranet) Mobile Strategien MOBILE APPLICATIONS BIG DATA ANALYTICS Apps für Tablets und Smartphones (iPhone, Android) Massgeschneiderte Web Analytics Systeme (z.B. mit Echtzeit-Metriken und Effekten in Sozialen Netzwerken) Integration von Sozialen Netzwerken wie Facebook und Twitter Geolokalisierung für ortsspezifische Services Vorhersagemodelle (z.B. für Interessen von App-Usern) Training (Apache Hadoop) Integrierte Suchsysteme (z.B. auch für unstrukturierte Daten)
  5. 5. WE WORK WITH Customers
  6. 6. FALLBEISPIEL VORSTELLUNG
  7. 7. FALLBEISPIEL VORSTELLUNG Fallbeispiel: Online Shop Wir, die WebFashionSellers mit Sitz in Los Angeles, USA, betreiben einen Online Shop und möchten unseren Umsatz steigern. Unsere häufigsten Fragen: ■ ■ ■ ■ Was sind unsere Topseller? Wie umsatzstark war letztes Quartal? Wie entwickelt sich der Absatz von Produkt X? Wofür geben wir das meiste Geld aus? ■ Wie stehen unsere Kunden zu unseren Produkten? ■ Würde der Umsatz steigen, wenn der Versand kostenlos wäre? ■ Wie hoch ist die Abbruchrate im Checkout-Prozess und warum?
  8. 8. FALLBEISPIEL AUSGANGSLAGE
  9. 9. AUSGANGSLAGE Fallbeispiel: Online Shop Hypothese “Wenn wir die Lieferzeit um die Hälfte verkürzen, führt dies zu zufriedeneren Kunden und damit zu mehr Umsatz.” ■ ■ ■ Wie wirkt sich die heutige Lieferzeit auf die Kundenzufriedenheit aus? Sollten wir neue Lieferzentren eröffnen? Welche Standorte wären dafür optimal?
  10. 10. AUSGANGSLAGE Fallbeispiel: Online Shop Wir haben ein externes Support-Call-Center zur Bearbeitung von Kundenanfragen. Alle Aufzeichnungen sämtlicher Anrufe sind als MP3 Dateien verfügbar. Aus den Metadaten können die Hauptursachen für einen Support-Call ermittelt werden. Was benötigen wir zusätzlich, um die Fragen zu beantworten? ■ Kundendaten (CRM) ■ Bestelldaten (OLTP)
  11. 11. VON DER IDEE ZUR LÖSUNG
  12. 12. LÖSUNGSANSATZ High Level Excel DataMart Big Data Pipeline ■ Ingest/ETL ■ Store ■ Analyse Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Die komplette Pipeline wird durch Tools aus dem Hadoop-Ökosystem abgedeckt.
  13. 13. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für die Extract Phase: ■ Flume ■ Sqoop ■ Hue Mögliche Quellen ■ Datenbanken ■ Filesystem ■ Streams
  14. 14. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für die Transform Phase: ■ MapReduce ■ Hive ■ Pig Wozu? ■ Validieren ■ Normalisieren ■ Filtern ■ Aggregieren
  15. 15. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für die Load Phase: ■ Hive ■ Pig ■ Sqoop Wozu? ■ Data Marts ■ Data Cubes ■ Tabellen ■ Views
  16. 16. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Hadoop Tools für Storage: ■ HDFS Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Eigenschaften: ■ Skalierbar ■ Verteilt ■ Zuverlässig ■ Redundant ■ Kostengünstig (industrial standard hardware)
  17. 17. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für Analyze: ■ HiveQL ■ PigLatin ■ Impala ■ Drill ■ ODBC ■ MapReduce ■ Search/SolrCloud Wozu? ■ Anbindung an externe BILösung ■ SQL-basierte Analyse (low latency oder ad-hoc)
  18. 18. FALLBEISPIEL UMSETZUNG
  19. 19. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Extract Hue: ■ Upload der MP3Daten ■ HDFS Verzeichnis nach Upload
  20. 20. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Transform Pig: ■ Dateien einlesen ■ Extrahieren der Metadaten mittels Pig-Streaming ■ Aggregieren ■ Speichern
  21. 21. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Ergebnis Erkenntnis: Bei mehr als der Hälfte aller eingegangenen Support Calls wurde die Lieferzeit bemängelt. Hier besteht Optimierungsbedarf, aber welches wäre der optimale Standort für ein neues Verteilzentrum?
  22. 22. EVALUATION DES OPTIMALEN STANDORTS Schritt 1: Extract Sqoop: ■ Importieren der Kunden-, und Bestelldaten aus dem OLTP
  23. 23. EVALUATION DES OPTIMALEN STANDORTS Schritt 1: Extract Sqoop: ■ Importieren der Kunden-, und Bestelldaten aus dem OLTP
  24. 24. EVALUATION DES OPTIMALEN STANDORTS Schritt 2: Transform Pig: ■ Zusätzlicher Input: Datei latlon.tsv, enthält für jeden Zipcode den Längenu. Breitengrad ■ Ermittlung der Geodaten von Kunden, welche kürzlich bestellt haben
  25. 25. EVALUATION DES OPTIMALEN STANDORTS Schritt 2: Heatmap Kundenwohnorte akd ■ Wo wohnen die Kunden, die in den letzten 2 Wochen bestellt haben?
  26. 26. EVALUATION DES OPTIMALEN STANDORTS Schritt 3: Aggregation Pig: ■ Zusätzlicher Input: alternative_verteilzent ren.tsv, enthält 3 mögliche Standorte: Massachusetts, Texas, Missouri ■ Berechnung der durchschnittlichen Entfernung jedes im vorigen Schritt ermittelten Kunden zu jeder der 3 Alternativen
  27. 27. EVALUATION DES OPTIMALEN STANDORTS Schritt 4: Visualisierung ■ St. Louis, Missouri, ist die Alternative mit der geringsten, durchschnittlichen Entfernung zu den Kunden
  28. 28. FAZIT SUMMARY
  29. 29. TAKEAWAYS ■ Hadoop bietet die Möglichkeit zur ad-hoc Datenanalyse auf explorative Art und Weise. Denn es ist unrealistisch, alle Fragen im voraus zu wissen. Fragen ergeben sich während der Analyse. ■ Für Ihr erstes Hadoop-Projekt empfehlen wir Ihnen: ■ versuchen Sie nicht Ihr bestehendes DWH abzulösen :) ■ starten Sie “einfach”, lean & agile, implementieren Sie einen POC mit geringem Aufwand (~5MT) ■ holen Sie sich die richtigen Personen / Skills ins Boot ■ sammeln und speichern Sie alle Daten, es soll keine Information verloren gehen ■ “arbeiten” Sie mit den Daten ■ erzeugen Sie Diagramme und Grafiken um Ihre Erkenntnisse aus der Analyse zu präsentieren
  30. 30. CONTACT US gerd.koenig@ymc.ch Tel. +41 (0)71 508 24 74 www.ymc.ch @gerd_koenig YMC AG Sonnenstrasse 4 CH-8280 Kreuzlingen Switzerland

×