SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
Wie baut man ein
komplementäres Data Warehouse
auf Basis von Hadoop?
Gerd König
11. November 2013 / DW2013
COMPANY
PROFILE
WE ARE HERE
Vom Standort Kreuzlingen / Schweiz bedient YMC
seit 2001 namhafte nationale und internationale
Kunden.
WE CREATE

Hosting &
Support
Social-Media-Anwendungen
(z.B. Corporate Blogs, Wikis, Facebook-Apps etc.)

Web-Strategien

Shop-Systeme, Websites, Intranets

Kundenspezifische
Individuallösungen fürs Web
WEB
SOLUTIONS

Empfehlungssysteme
(z.B. für Apps, Webshops, Websites und Intranet)

Mobile Strategien
MOBILE
APPLICATIONS

BIG DATA
ANALYTICS

Apps für Tablets und Smartphones
(iPhone, Android)

Massgeschneiderte Web Analytics Systeme
(z.B. mit Echtzeit-Metriken und Effekten in
Sozialen Netzwerken)

Integration von Sozialen Netzwerken wie
Facebook und Twitter

Geolokalisierung für
ortsspezifische Services

Vorhersagemodelle
(z.B. für Interessen von App-Usern)

Training
(Apache Hadoop)

Integrierte Suchsysteme
(z.B. auch für unstrukturierte Daten)
WE WORK WITH
Customers
FALLBEISPIEL
VORSTELLUNG
FALLBEISPIEL
VORSTELLUNG
Fallbeispiel: Online Shop

Wir, die WebFashionSellers mit Sitz in Los Angeles,
USA, betreiben einen Online Shop und möchten
unseren Umsatz steigern.
Unsere häufigsten Fragen:
■
■
■
■

Was sind unsere Topseller?
Wie umsatzstark war letztes Quartal?
Wie entwickelt sich der Absatz von Produkt X?
Wofür geben wir das meiste Geld aus?

■ Wie stehen unsere Kunden zu unseren Produkten?
■ Würde der Umsatz steigen, wenn der Versand
kostenlos wäre?
■ Wie hoch ist die Abbruchrate im Checkout-Prozess
und warum?
FALLBEISPIEL
AUSGANGSLAGE
AUSGANGSLAGE
Fallbeispiel: Online Shop

Hypothese
“Wenn wir die Lieferzeit um die Hälfte verkürzen,
führt dies zu zufriedeneren Kunden und damit zu
mehr Umsatz.”
■
■
■

Wie wirkt sich die heutige Lieferzeit auf die
Kundenzufriedenheit aus?
Sollten wir neue Lieferzentren eröffnen?
Welche Standorte wären dafür optimal?
AUSGANGSLAGE
Fallbeispiel: Online Shop

Wir haben ein externes Support-Call-Center zur
Bearbeitung von Kundenanfragen. Alle Aufzeichnungen
sämtlicher Anrufe sind als MP3 Dateien verfügbar. Aus
den Metadaten können die Hauptursachen für einen
Support-Call ermittelt werden.
Was benötigen wir zusätzlich, um die Fragen zu
beantworten?
■ Kundendaten (CRM)
■ Bestelldaten (OLTP)
VON DER IDEE
ZUR LÖSUNG
LÖSUNGSANSATZ
High Level

Excel
DataMart

Big Data Pipeline
■ Ingest/ETL
■ Store
■ Analyse

Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Die komplette Pipeline wird
durch Tools aus dem
Hadoop-Ökosystem
abgedeckt.
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Hadoop Tools für die
Extract Phase:
■ Flume
■ Sqoop
■ Hue
Mögliche Quellen
■ Datenbanken
■ Filesystem
■ Streams
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Hadoop Tools für die
Transform Phase:
■ MapReduce
■ Hive
■ Pig
Wozu?
■ Validieren
■ Normalisieren
■ Filtern
■ Aggregieren
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Hadoop Tools für die
Load Phase:
■ Hive
■ Pig
■ Sqoop
Wozu?
■ Data Marts
■ Data Cubes
■ Tabellen
■ Views
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Hadoop Tools für Storage:
■ HDFS
Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Eigenschaften:
■ Skalierbar
■ Verteilt
■ Zuverlässig
■ Redundant
■ Kostengünstig (industrial
standard hardware)
LÖSUNGSANSATZ
Hadoop-basierte Big Data Pipeline

Excel
DataMart
Dashboard
Ingest
(ETL)

Store

Analyze

Talend
….

Hadoop

Hadoop Tools für Analyze:
■ HiveQL
■ PigLatin
■ Impala
■ Drill
■ ODBC
■ MapReduce
■ Search/SolrCloud
Wozu?
■ Anbindung an externe BILösung
■ SQL-basierte Analyse
(low latency oder ad-hoc)
FALLBEISPIEL
UMSETZUNG
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Extract

Hue:
■ Upload der MP3Daten

■ HDFS Verzeichnis
nach Upload
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Transform

Pig:
■ Dateien einlesen
■ Extrahieren der
Metadaten mittels
Pig-Streaming
■ Aggregieren
■ Speichern
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
Ergebnis

Erkenntnis:
Bei mehr als der Hälfte
aller eingegangenen
Support Calls wurde die
Lieferzeit bemängelt.
Hier besteht
Optimierungsbedarf,
aber welches wäre der
optimale Standort für ein
neues Verteilzentrum?
EVALUATION DES OPTIMALEN STANDORTS
Schritt 1: Extract

Sqoop:
■ Importieren der
Kunden-, und
Bestelldaten aus dem
OLTP
EVALUATION DES OPTIMALEN STANDORTS
Schritt 1: Extract

Sqoop:
■ Importieren der
Kunden-, und
Bestelldaten aus dem
OLTP
EVALUATION DES OPTIMALEN STANDORTS
Schritt 2: Transform

Pig:
■ Zusätzlicher Input:
Datei latlon.tsv,
enthält für jeden
Zipcode den Längenu. Breitengrad
■ Ermittlung der
Geodaten von
Kunden, welche
kürzlich bestellt
haben
EVALUATION DES OPTIMALEN STANDORTS
Schritt 2: Heatmap Kundenwohnorte

akd

■ Wo wohnen die
Kunden, die in den
letzten 2 Wochen
bestellt haben?
EVALUATION DES OPTIMALEN STANDORTS
Schritt 3: Aggregation

Pig:
■ Zusätzlicher Input:
alternative_verteilzent
ren.tsv, enthält 3
mögliche Standorte:
Massachusetts,
Texas, Missouri
■ Berechnung der
durchschnittlichen
Entfernung jedes im
vorigen Schritt
ermittelten Kunden zu
jeder der 3
Alternativen
EVALUATION DES OPTIMALEN STANDORTS
Schritt 4: Visualisierung

■ St. Louis, Missouri,
ist die Alternative mit
der geringsten,
durchschnittlichen
Entfernung zu den
Kunden
FAZIT
SUMMARY
TAKEAWAYS
■ Hadoop bietet die Möglichkeit zur ad-hoc Datenanalyse auf
explorative Art und Weise. Denn es ist unrealistisch, alle
Fragen im voraus zu wissen. Fragen ergeben sich während der
Analyse.
■ Für Ihr erstes Hadoop-Projekt empfehlen wir Ihnen:
■ versuchen Sie nicht Ihr bestehendes DWH abzulösen :)
■ starten Sie “einfach”, lean & agile, implementieren Sie einen
POC mit geringem Aufwand (~5MT)
■ holen Sie sich die richtigen Personen / Skills ins Boot
■ sammeln und speichern Sie alle Daten, es soll keine
Information verloren gehen
■ “arbeiten” Sie mit den Daten
■ erzeugen Sie Diagramme und Grafiken um Ihre Erkenntnisse
aus der Analyse zu präsentieren
CONTACT US
gerd.koenig@ymc.ch
Tel. +41 (0)71 508 24 74
www.ymc.ch
@gerd_koenig

YMC AG
Sonnenstrasse 4
CH-8280 Kreuzlingen
Switzerland

Weitere ähnliche Inhalte

Andere mochten auch

IBM Developer Days: Industrie 4.0
IBM Developer Days: Industrie 4.0IBM Developer Days: Industrie 4.0
IBM Developer Days: Industrie 4.0LineMetrics
 
Big Data Bullshit Bingo
Big Data Bullshit BingoBig Data Bullshit Bingo
Big Data Bullshit BingoDanny Linden
 
Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)Andreas Buckenhofer
 
Integrationsszenarien in modernen Anwendungslandschaften - OPITZ CONSULTING -...
Integrationsszenarien in modernen Anwendungslandschaften - OPITZ CONSULTING -...Integrationsszenarien in modernen Anwendungslandschaften - OPITZ CONSULTING -...
Integrationsszenarien in modernen Anwendungslandschaften - OPITZ CONSULTING -...OPITZ CONSULTING Deutschland
 
CDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der AutomobilindustrieCDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der AutomobilindustrieAndreas Buckenhofer
 
Introduction to Apache Sqoop
Introduction to Apache SqoopIntroduction to Apache Sqoop
Introduction to Apache SqoopAvkash Chauhan
 
Azure Bootcamp Hamburg
Azure Bootcamp Hamburg Azure Bootcamp Hamburg
Azure Bootcamp Hamburg Lennart Passig
 
Data Vault DWH Automation
Data Vault DWH AutomationData Vault DWH Automation
Data Vault DWH AutomationTorsten Glunde
 
(BDT317) Building A Data Lake On AWS
(BDT317) Building A Data Lake On AWS(BDT317) Building A Data Lake On AWS
(BDT317) Building A Data Lake On AWSAmazon Web Services
 
Dv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationDv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationTorsten Glunde
 
Ist Ihr DWH noch zu retten? DWH-Sanierung als risikoarme Alternative zum komp...
Ist Ihr DWH noch zu retten? DWH-Sanierung als risikoarme Alternative zum komp...Ist Ihr DWH noch zu retten? DWH-Sanierung als risikoarme Alternative zum komp...
Ist Ihr DWH noch zu retten? DWH-Sanierung als risikoarme Alternative zum komp...PPI AG
 
Seminar Presentation Hadoop
Seminar Presentation HadoopSeminar Presentation Hadoop
Seminar Presentation HadoopVarun Narang
 
Service-oriented Open Source Integration @ Moderner Staat 2012 (German)
Service-oriented Open Source Integration @ Moderner Staat 2012 (German)Service-oriented Open Source Integration @ Moderner Staat 2012 (German)
Service-oriented Open Source Integration @ Moderner Staat 2012 (German)Kai Wähner
 
Ein bisschen Backend
Ein bisschen BackendEin bisschen Backend
Ein bisschen BackendPeter Nowak
 

Andere mochten auch (15)

IBM Developer Days: Industrie 4.0
IBM Developer Days: Industrie 4.0IBM Developer Days: Industrie 4.0
IBM Developer Days: Industrie 4.0
 
Big Data Bullshit Bingo
Big Data Bullshit BingoBig Data Bullshit Bingo
Big Data Bullshit Bingo
 
Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)
 
Integrationsszenarien in modernen Anwendungslandschaften - OPITZ CONSULTING -...
Integrationsszenarien in modernen Anwendungslandschaften - OPITZ CONSULTING -...Integrationsszenarien in modernen Anwendungslandschaften - OPITZ CONSULTING -...
Integrationsszenarien in modernen Anwendungslandschaften - OPITZ CONSULTING -...
 
CDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der AutomobilindustrieCDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
 
Introduction to Apache Sqoop
Introduction to Apache SqoopIntroduction to Apache Sqoop
Introduction to Apache Sqoop
 
Azure Bootcamp Hamburg
Azure Bootcamp Hamburg Azure Bootcamp Hamburg
Azure Bootcamp Hamburg
 
Building a Data Lake on AWS
Building a Data Lake on AWSBuilding a Data Lake on AWS
Building a Data Lake on AWS
 
Data Vault DWH Automation
Data Vault DWH AutomationData Vault DWH Automation
Data Vault DWH Automation
 
(BDT317) Building A Data Lake On AWS
(BDT317) Building A Data Lake On AWS(BDT317) Building A Data Lake On AWS
(BDT317) Building A Data Lake On AWS
 
Dv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationDv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automation
 
Ist Ihr DWH noch zu retten? DWH-Sanierung als risikoarme Alternative zum komp...
Ist Ihr DWH noch zu retten? DWH-Sanierung als risikoarme Alternative zum komp...Ist Ihr DWH noch zu retten? DWH-Sanierung als risikoarme Alternative zum komp...
Ist Ihr DWH noch zu retten? DWH-Sanierung als risikoarme Alternative zum komp...
 
Seminar Presentation Hadoop
Seminar Presentation HadoopSeminar Presentation Hadoop
Seminar Presentation Hadoop
 
Service-oriented Open Source Integration @ Moderner Staat 2012 (German)
Service-oriented Open Source Integration @ Moderner Staat 2012 (German)Service-oriented Open Source Integration @ Moderner Staat 2012 (German)
Service-oriented Open Source Integration @ Moderner Staat 2012 (German)
 
Ein bisschen Backend
Ein bisschen BackendEin bisschen Backend
Ein bisschen Backend
 

Ähnlich wie Wie baue ich ein DataWarehouse auf Basis Hadoop

Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business IntelligenceDataLion
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoopinovex GmbH
 
Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)AWS Germany
 
Datensicherheit in der Cloud und ausserhalb - SharePoint Konferenz Wien 2013
Datensicherheit in der Cloud und ausserhalb - SharePoint Konferenz Wien 2013Datensicherheit in der Cloud und ausserhalb - SharePoint Konferenz Wien 2013
Datensicherheit in der Cloud und ausserhalb - SharePoint Konferenz Wien 2013Michael Kirst-Neshva
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management SolutionTorsten Glunde
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoopfun communications GmbH
 
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-EndDotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-EndOlivia Klose
 
Skalierung & Performance
Skalierung & PerformanceSkalierung & Performance
Skalierung & Performanceglembotzky
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?KurtStockinger
 
Datenanalyse in der Praxis
Datenanalyse in der PraxisDatenanalyse in der Praxis
Datenanalyse in der PraxisYvette Teiken
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzenAWS Germany
 
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015Marcel Franke
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewOMM Solutions GmbH
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rMarcel Franke
 
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...Wiiisdom
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
Digitale Datenerfassung an der Maschine | Digitale Zukunft Mittelstand Baden-...
Digitale Datenerfassung an der Maschine | Digitale Zukunft Mittelstand Baden-...Digitale Datenerfassung an der Maschine | Digitale Zukunft Mittelstand Baden-...
Digitale Datenerfassung an der Maschine | Digitale Zukunft Mittelstand Baden-...Bechtle
 
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)NETWAYS
 

Ähnlich wie Wie baue ich ein DataWarehouse auf Basis Hadoop (20)

Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business Intelligence
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
 
Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)
 
Datensicherheit in der Cloud und ausserhalb - SharePoint Konferenz Wien 2013
Datensicherheit in der Cloud und ausserhalb - SharePoint Konferenz Wien 2013Datensicherheit in der Cloud und ausserhalb - SharePoint Konferenz Wien 2013
Datensicherheit in der Cloud und ausserhalb - SharePoint Konferenz Wien 2013
 
Analytics für Einsteiger
Analytics für EinsteigerAnalytics für Einsteiger
Analytics für Einsteiger
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
 
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-EndDotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
 
Skalierung & Performance
Skalierung & PerformanceSkalierung & Performance
Skalierung & Performance
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
Datenanalyse in der Praxis
Datenanalyse in der PraxisDatenanalyse in der Praxis
Datenanalyse in der Praxis
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
 
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Digitale Datenerfassung an der Maschine | Digitale Zukunft Mittelstand Baden-...
Digitale Datenerfassung an der Maschine | Digitale Zukunft Mittelstand Baden-...Digitale Datenerfassung an der Maschine | Digitale Zukunft Mittelstand Baden-...
Digitale Datenerfassung an der Maschine | Digitale Zukunft Mittelstand Baden-...
 
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)
Icinga 2: Integration von Graphite (Webinar vom 25.09.2014)
 

Wie baue ich ein DataWarehouse auf Basis Hadoop

  • 1. Wie baut man ein komplementäres Data Warehouse auf Basis von Hadoop? Gerd König 11. November 2013 / DW2013
  • 3. WE ARE HERE Vom Standort Kreuzlingen / Schweiz bedient YMC seit 2001 namhafte nationale und internationale Kunden.
  • 4. WE CREATE Hosting & Support Social-Media-Anwendungen (z.B. Corporate Blogs, Wikis, Facebook-Apps etc.) Web-Strategien Shop-Systeme, Websites, Intranets Kundenspezifische Individuallösungen fürs Web WEB SOLUTIONS Empfehlungssysteme (z.B. für Apps, Webshops, Websites und Intranet) Mobile Strategien MOBILE APPLICATIONS BIG DATA ANALYTICS Apps für Tablets und Smartphones (iPhone, Android) Massgeschneiderte Web Analytics Systeme (z.B. mit Echtzeit-Metriken und Effekten in Sozialen Netzwerken) Integration von Sozialen Netzwerken wie Facebook und Twitter Geolokalisierung für ortsspezifische Services Vorhersagemodelle (z.B. für Interessen von App-Usern) Training (Apache Hadoop) Integrierte Suchsysteme (z.B. auch für unstrukturierte Daten)
  • 7. FALLBEISPIEL VORSTELLUNG Fallbeispiel: Online Shop Wir, die WebFashionSellers mit Sitz in Los Angeles, USA, betreiben einen Online Shop und möchten unseren Umsatz steigern. Unsere häufigsten Fragen: ■ ■ ■ ■ Was sind unsere Topseller? Wie umsatzstark war letztes Quartal? Wie entwickelt sich der Absatz von Produkt X? Wofür geben wir das meiste Geld aus? ■ Wie stehen unsere Kunden zu unseren Produkten? ■ Würde der Umsatz steigen, wenn der Versand kostenlos wäre? ■ Wie hoch ist die Abbruchrate im Checkout-Prozess und warum?
  • 9. AUSGANGSLAGE Fallbeispiel: Online Shop Hypothese “Wenn wir die Lieferzeit um die Hälfte verkürzen, führt dies zu zufriedeneren Kunden und damit zu mehr Umsatz.” ■ ■ ■ Wie wirkt sich die heutige Lieferzeit auf die Kundenzufriedenheit aus? Sollten wir neue Lieferzentren eröffnen? Welche Standorte wären dafür optimal?
  • 10. AUSGANGSLAGE Fallbeispiel: Online Shop Wir haben ein externes Support-Call-Center zur Bearbeitung von Kundenanfragen. Alle Aufzeichnungen sämtlicher Anrufe sind als MP3 Dateien verfügbar. Aus den Metadaten können die Hauptursachen für einen Support-Call ermittelt werden. Was benötigen wir zusätzlich, um die Fragen zu beantworten? ■ Kundendaten (CRM) ■ Bestelldaten (OLTP)
  • 11. VON DER IDEE ZUR LÖSUNG
  • 12. LÖSUNGSANSATZ High Level Excel DataMart Big Data Pipeline ■ Ingest/ETL ■ Store ■ Analyse Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Die komplette Pipeline wird durch Tools aus dem Hadoop-Ökosystem abgedeckt.
  • 13. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für die Extract Phase: ■ Flume ■ Sqoop ■ Hue Mögliche Quellen ■ Datenbanken ■ Filesystem ■ Streams
  • 14. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für die Transform Phase: ■ MapReduce ■ Hive ■ Pig Wozu? ■ Validieren ■ Normalisieren ■ Filtern ■ Aggregieren
  • 15. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für die Load Phase: ■ Hive ■ Pig ■ Sqoop Wozu? ■ Data Marts ■ Data Cubes ■ Tabellen ■ Views
  • 16. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Hadoop Tools für Storage: ■ HDFS Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Eigenschaften: ■ Skalierbar ■ Verteilt ■ Zuverlässig ■ Redundant ■ Kostengünstig (industrial standard hardware)
  • 17. LÖSUNGSANSATZ Hadoop-basierte Big Data Pipeline Excel DataMart Dashboard Ingest (ETL) Store Analyze Talend …. Hadoop Hadoop Tools für Analyze: ■ HiveQL ■ PigLatin ■ Impala ■ Drill ■ ODBC ■ MapReduce ■ Search/SolrCloud Wozu? ■ Anbindung an externe BILösung ■ SQL-basierte Analyse (low latency oder ad-hoc)
  • 19. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Extract Hue: ■ Upload der MP3Daten ■ HDFS Verzeichnis nach Upload
  • 20. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Transform Pig: ■ Dateien einlesen ■ Extrahieren der Metadaten mittels Pig-Streaming ■ Aggregieren ■ Speichern
  • 21. ANALYSE DER CALLCENTER AUFZEICHNUNGEN Ergebnis Erkenntnis: Bei mehr als der Hälfte aller eingegangenen Support Calls wurde die Lieferzeit bemängelt. Hier besteht Optimierungsbedarf, aber welches wäre der optimale Standort für ein neues Verteilzentrum?
  • 22. EVALUATION DES OPTIMALEN STANDORTS Schritt 1: Extract Sqoop: ■ Importieren der Kunden-, und Bestelldaten aus dem OLTP
  • 23. EVALUATION DES OPTIMALEN STANDORTS Schritt 1: Extract Sqoop: ■ Importieren der Kunden-, und Bestelldaten aus dem OLTP
  • 24. EVALUATION DES OPTIMALEN STANDORTS Schritt 2: Transform Pig: ■ Zusätzlicher Input: Datei latlon.tsv, enthält für jeden Zipcode den Längenu. Breitengrad ■ Ermittlung der Geodaten von Kunden, welche kürzlich bestellt haben
  • 25. EVALUATION DES OPTIMALEN STANDORTS Schritt 2: Heatmap Kundenwohnorte akd ■ Wo wohnen die Kunden, die in den letzten 2 Wochen bestellt haben?
  • 26. EVALUATION DES OPTIMALEN STANDORTS Schritt 3: Aggregation Pig: ■ Zusätzlicher Input: alternative_verteilzent ren.tsv, enthält 3 mögliche Standorte: Massachusetts, Texas, Missouri ■ Berechnung der durchschnittlichen Entfernung jedes im vorigen Schritt ermittelten Kunden zu jeder der 3 Alternativen
  • 27. EVALUATION DES OPTIMALEN STANDORTS Schritt 4: Visualisierung ■ St. Louis, Missouri, ist die Alternative mit der geringsten, durchschnittlichen Entfernung zu den Kunden
  • 29. TAKEAWAYS ■ Hadoop bietet die Möglichkeit zur ad-hoc Datenanalyse auf explorative Art und Weise. Denn es ist unrealistisch, alle Fragen im voraus zu wissen. Fragen ergeben sich während der Analyse. ■ Für Ihr erstes Hadoop-Projekt empfehlen wir Ihnen: ■ versuchen Sie nicht Ihr bestehendes DWH abzulösen :) ■ starten Sie “einfach”, lean & agile, implementieren Sie einen POC mit geringem Aufwand (~5MT) ■ holen Sie sich die richtigen Personen / Skills ins Boot ■ sammeln und speichern Sie alle Daten, es soll keine Information verloren gehen ■ “arbeiten” Sie mit den Daten ■ erzeugen Sie Diagramme und Grafiken um Ihre Erkenntnisse aus der Analyse zu präsentieren
  • 30. CONTACT US gerd.koenig@ymc.ch Tel. +41 (0)71 508 24 74 www.ymc.ch @gerd_koenig YMC AG Sonnenstrasse 4 CH-8280 Kreuzlingen Switzerland