Wie baue ich ein DataWarehouse auf Basis Hadoop

Wie baut man ein
komplementäres Data Warehouse
auf Basis von Hadoop?
Gerd König
11. November 2013 / DW2013

WE ARE HERE
Vom Standort Kreuzlingen / Schweiz bedient YMC
seit 2001 namhafte nationale und internationale
Kunden.

WE CREATE

Hosting &
Support
Social-Media-Anwendungen
(z.B. Corporate Blogs, Wikis, Facebook-Apps etc.)

Web-Strategien

Shop-Systeme, Websites, Intranets

Kundenspezifische
Individuallösungen fürs Web
WEB
SOLUTIONS

Empfehlungssysteme
(z.B. für Apps, Webshops, Websites und Intranet)

Mobile Strategien
MOBILE
APPLICATIONS

BIG DATA
ANALYTICS

Apps für Tablets und Smartphones
(iPhone, Android)

Massgeschneiderte Web Analytics Systeme
(z.B. mit Echtzeit-Metriken und Effekten in
Sozialen Netzwerken)

Integration von Sozialen Netzwerken wie
Facebook und Twitter

Geolokalisierung für
ortsspezifische Services

Vorhersagemodelle
(z.B. für Interessen von App-Usern)

Training
(Apache Hadoop)

Integrierte Suchsysteme
(z.B. auch für unstrukturierte Daten)

FALLBEISPIEL
VORSTELLUNG
Fallbeispiel: Online Shop

Wir, die WebFashionSellers mit Sitz in Los Angeles,
USA, betreiben einen Online Shop und möchten
unseren Umsatz steigern.
Unsere häufigsten Fragen:
■
■
■
■

Was sind unsere Topseller?
Wie umsatzstark war letztes Quartal?
Wie entwickelt sich der Absatz von Produkt X?
Wofür geben wir das meiste Geld aus?

■ Wie stehen unsere Kunden zu unseren Produkten?
■ Würde der Umsatz steigen, wenn der Versand
kostenlos wäre?
■ Wie hoch ist die Abbruchrate im Checkout-Prozess
und warum?

AUSGANGSLAGE

Hypothese
“Wenn wir die Lieferzeit um die Hälfte verkürzen,
führt dies zu zufriedeneren Kunden und damit zu
mehr Umsatz.”
■
■
■

Wie wirkt sich die heutige Lieferzeit auf die
Kundenzufriedenheit aus?
Sollten wir neue Lieferzentren eröffnen?
Welche Standorte wären dafür optimal?

AUSGANGSLAGE

Wir haben ein externes Support-Call-Center zur
Bearbeitung von Kundenanfragen. Alle Aufzeichnungen
sämtlicher Anrufe sind als MP3 Dateien verfügbar. Aus
den Metadaten können die Hauptursachen für einen
Support-Call ermittelt werden.
Was benötigen wir zusätzlich, um die Fragen zu
beantworten?
■ Kundendaten (CRM)
■ Bestelldaten (OLTP)

LÖSUNGSANSATZ
High Level

Excel
DataMart

Big Data Pipeline
■ Ingest/ETL
■ Store
■ Analyse

Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Die komplette Pipeline wird
durch Tools aus dem
Hadoop-Ökosystem
abgedeckt.

LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Hadoop Tools für die
Extract Phase:
■ Flume
■ Sqoop
■ Hue
Mögliche Quellen
■ Datenbanken
■ Filesystem
■ Streams

LÖSUNGSANSATZ

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Transform Phase:
■ MapReduce
■ Hive
■ Pig
Wozu?
■ Validieren
■ Normalisieren
■ Filtern
■ Aggregieren

LÖSUNGSANSATZ

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Load Phase:
■ Hive
■ Pig
■ Sqoop
Wozu?
■ Data Marts
■ Data Cubes
■ Tabellen
■ Views

LÖSUNGSANSATZ

Hadoop Tools für Storage:
■ HDFS
Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Eigenschaften:
■ Skalierbar
■ Verteilt
■ Zuverlässig
■ Redundant
■ Kostengünstig (industrial
standard hardware)

LÖSUNGSANSATZ

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Hadoop Tools für Analyze:
■ HiveQL
■ PigLatin
■ Impala
■ Drill
■ ODBC
■ MapReduce
■ Search/SolrCloud
Wozu?
■ Anbindung an externe BILösung
■ SQL-basierte Analyse
(low latency oder ad-hoc)

ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Extract

Hue:
■ Upload der MP3Daten

■ HDFS Verzeichnis
nach Upload

Transform

Pig:
■ Dateien einlesen
■ Extrahieren der
Metadaten mittels
Pig-Streaming
■ Aggregieren
■ Speichern

Ergebnis

Erkenntnis:
Bei mehr als der Hälfte
aller eingegangenen
Support Calls wurde die
Lieferzeit bemängelt.
Hier besteht
Optimierungsbedarf,
aber welches wäre der
optimale Standort für ein
neues Verteilzentrum?

EVALUATION DES OPTIMALEN STANDORTS
Schritt 1: Extract

Sqoop:
■ Importieren der
Kunden-, und
Bestelldaten aus dem
OLTP

Schritt 2: Transform

Pig:
■ Zusätzlicher Input:
Datei latlon.tsv,
enthält für jeden
Zipcode den Längenu. Breitengrad
■ Ermittlung der
Geodaten von
Kunden, welche
kürzlich bestellt
haben

Schritt 2: Heatmap Kundenwohnorte

akd

■ Wo wohnen die
Kunden, die in den
letzten 2 Wochen
bestellt haben?

Schritt 3: Aggregation

Pig:
■ Zusätzlicher Input:
alternative_verteilzent
ren.tsv, enthält 3
mögliche Standorte:
Massachusetts,
Texas, Missouri
■ Berechnung der
durchschnittlichen
Entfernung jedes im
vorigen Schritt
ermittelten Kunden zu
jeder der 3
Alternativen

Schritt 4: Visualisierung

■ St. Louis, Missouri,
ist die Alternative mit
der geringsten,
durchschnittlichen
Entfernung zu den
Kunden

TAKEAWAYS
■ Hadoop bietet die Möglichkeit zur ad-hoc Datenanalyse auf
explorative Art und Weise. Denn es ist unrealistisch, alle
Fragen im voraus zu wissen. Fragen ergeben sich während der
Analyse.
■ Für Ihr erstes Hadoop-Projekt empfehlen wir Ihnen:
■ versuchen Sie nicht Ihr bestehendes DWH abzulösen :)
■ starten Sie “einfach”, lean & agile, implementieren Sie einen
POC mit geringem Aufwand (~5MT)
■ holen Sie sich die richtigen Personen / Skills ins Boot
■ sammeln und speichern Sie alle Daten, es soll keine
Information verloren gehen
■ “arbeiten” Sie mit den Daten
■ erzeugen Sie Diagramme und Grafiken um Ihre Erkenntnisse
aus der Analyse zu präsentieren

CONTACT US
gerd.koenig@ymc.ch
Tel. +41 (0)71 508 24 74
www.ymc.ch
@gerd_koenig

YMC AG
Sonnenstrasse 4
CH-8280 Kreuzlingen
Switzerland

Wie baue ich ein DataWarehouse auf Basis Hadoop

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (15)

Ähnlich wie Wie baue ich ein DataWarehouse auf Basis Hadoop

Ähnlich wie Wie baue ich ein DataWarehouse auf Basis Hadoop (20)

Wie baue ich ein DataWarehouse auf Basis Hadoop