3. WE ARE HERE
Vom Standort Kreuzlingen / Schweiz bedient YMC
seit 2001 namhafte nationale und internationale
Kunden.
4. WE CREATE
Hosting &
Support
Social-Media-Anwendungen
(z.B. Corporate Blogs, Wikis, Facebook-Apps etc.)
Web-Strategien
Shop-Systeme, Websites, Intranets
Kundenspezifische
Individuallösungen fürs Web
WEB
SOLUTIONS
Empfehlungssysteme
(z.B. für Apps, Webshops, Websites und Intranet)
Mobile Strategien
MOBILE
APPLICATIONS
BIG DATA
ANALYTICS
Apps für Tablets und Smartphones
(iPhone, Android)
Massgeschneiderte Web Analytics Systeme
(z.B. mit Echtzeit-Metriken und Effekten in
Sozialen Netzwerken)
Integration von Sozialen Netzwerken wie
Facebook und Twitter
Geolokalisierung für
ortsspezifische Services
Vorhersagemodelle
(z.B. für Interessen von App-Usern)
Training
(Apache Hadoop)
Integrierte Suchsysteme
(z.B. auch für unstrukturierte Daten)
7. FALLBEISPIEL
VORSTELLUNG
Fallbeispiel: Online Shop
Wir, die WebFashionSellers mit Sitz in Los Angeles,
USA, betreiben einen Online Shop und möchten
unseren Umsatz steigern.
Unsere häufigsten Fragen:
■
■
■
■
Was sind unsere Topseller?
Wie umsatzstark war letztes Quartal?
Wie entwickelt sich der Absatz von Produkt X?
Wofür geben wir das meiste Geld aus?
■ Wie stehen unsere Kunden zu unseren Produkten?
■ Würde der Umsatz steigen, wenn der Versand
kostenlos wäre?
■ Wie hoch ist die Abbruchrate im Checkout-Prozess
und warum?
9. AUSGANGSLAGE
Fallbeispiel: Online Shop
Hypothese
“Wenn wir die Lieferzeit um die Hälfte verkürzen,
führt dies zu zufriedeneren Kunden und damit zu
mehr Umsatz.”
■
■
■
Wie wirkt sich die heutige Lieferzeit auf die
Kundenzufriedenheit aus?
Sollten wir neue Lieferzentren eröffnen?
Welche Standorte wären dafür optimal?
10. AUSGANGSLAGE
Fallbeispiel: Online Shop
Wir haben ein externes Support-Call-Center zur
Bearbeitung von Kundenanfragen. Alle Aufzeichnungen
sämtlicher Anrufe sind als MP3 Dateien verfügbar. Aus
den Metadaten können die Hauptursachen für einen
Support-Call ermittelt werden.
Was benötigen wir zusätzlich, um die Fragen zu
beantworten?
■ Kundendaten (CRM)
■ Bestelldaten (OLTP)
12. LÖSUNGSANSATZ
High Level
Excel
DataMart
Big Data Pipeline
■ Ingest/ETL
■ Store
■ Analyse
Dashboard
Ingest
(ETL)
Store
Analyze
Talend
….
Hadoop
Die komplette Pipeline wird
durch Tools aus dem
Hadoop-Ökosystem
abgedeckt.
13. LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline
Excel
DataMart
Dashboard
Ingest
(ETL)
Store
Analyze
Talend
….
Hadoop
Hadoop Tools für die
Extract Phase:
■ Flume
■ Sqoop
■ Hue
Mögliche Quellen
■ Datenbanken
■ Filesystem
■ Streams
14. LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline
Excel
DataMart
Dashboard
Ingest
(ETL)
Store
Analyze
Talend
….
Hadoop
Hadoop Tools für die
Transform Phase:
■ MapReduce
■ Hive
■ Pig
Wozu?
■ Validieren
■ Normalisieren
■ Filtern
■ Aggregieren
15. LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline
Excel
DataMart
Dashboard
Ingest
(ETL)
Store
Analyze
Talend
….
Hadoop
Hadoop Tools für die
Load Phase:
■ Hive
■ Pig
■ Sqoop
Wozu?
■ Data Marts
■ Data Cubes
■ Tabellen
■ Views
16. LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline
Hadoop Tools für Storage:
■ HDFS
Excel
DataMart
Dashboard
Ingest
(ETL)
Store
Analyze
Talend
….
Hadoop
Eigenschaften:
■ Skalierbar
■ Verteilt
■ Zuverlässig
■ Redundant
■ Kostengünstig (industrial
standard hardware)
17. LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline
Excel
DataMart
Dashboard
Ingest
(ETL)
Store
Analyze
Talend
….
Hadoop
Hadoop Tools für Analyze:
■ HiveQL
■ PigLatin
■ Impala
■ Drill
■ ODBC
■ MapReduce
■ Search/SolrCloud
Wozu?
■ Anbindung an externe BILösung
■ SQL-basierte Analyse
(low latency oder ad-hoc)
19. ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Extract
Hue:
■ Upload der MP3Daten
■ HDFS Verzeichnis
nach Upload
20. ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Transform
Pig:
■ Dateien einlesen
■ Extrahieren der
Metadaten mittels
Pig-Streaming
■ Aggregieren
■ Speichern
21. ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Ergebnis
Erkenntnis:
Bei mehr als der Hälfte
aller eingegangenen
Support Calls wurde die
Lieferzeit bemängelt.
Hier besteht
Optimierungsbedarf,
aber welches wäre der
optimale Standort für ein
neues Verteilzentrum?
22. EVALUATION DES OPTIMALEN STANDORTS
Schritt 1: Extract
Sqoop:
■ Importieren der
Kunden-, und
Bestelldaten aus dem
OLTP
23. EVALUATION DES OPTIMALEN STANDORTS
Schritt 1: Extract
Sqoop:
■ Importieren der
Kunden-, und
Bestelldaten aus dem
OLTP
24. EVALUATION DES OPTIMALEN STANDORTS
Schritt 2: Transform
Pig:
■ Zusätzlicher Input:
Datei latlon.tsv,
enthält für jeden
Zipcode den Längenu. Breitengrad
■ Ermittlung der
Geodaten von
Kunden, welche
kürzlich bestellt
haben
25. EVALUATION DES OPTIMALEN STANDORTS
Schritt 2: Heatmap Kundenwohnorte
akd
■ Wo wohnen die
Kunden, die in den
letzten 2 Wochen
bestellt haben?
26. EVALUATION DES OPTIMALEN STANDORTS
Schritt 3: Aggregation
Pig:
■ Zusätzlicher Input:
alternative_verteilzent
ren.tsv, enthält 3
mögliche Standorte:
Massachusetts,
Texas, Missouri
■ Berechnung der
durchschnittlichen
Entfernung jedes im
vorigen Schritt
ermittelten Kunden zu
jeder der 3
Alternativen
27. EVALUATION DES OPTIMALEN STANDORTS
Schritt 4: Visualisierung
■ St. Louis, Missouri,
ist die Alternative mit
der geringsten,
durchschnittlichen
Entfernung zu den
Kunden
29. TAKEAWAYS
■ Hadoop bietet die Möglichkeit zur ad-hoc Datenanalyse auf
explorative Art und Weise. Denn es ist unrealistisch, alle
Fragen im voraus zu wissen. Fragen ergeben sich während der
Analyse.
■ Für Ihr erstes Hadoop-Projekt empfehlen wir Ihnen:
■ versuchen Sie nicht Ihr bestehendes DWH abzulösen :)
■ starten Sie “einfach”, lean & agile, implementieren Sie einen
POC mit geringem Aufwand (~5MT)
■ holen Sie sich die richtigen Personen / Skills ins Boot
■ sammeln und speichern Sie alle Daten, es soll keine
Information verloren gehen
■ “arbeiten” Sie mit den Daten
■ erzeugen Sie Diagramme und Grafiken um Ihre Erkenntnisse
aus der Analyse zu präsentieren