Business Integration mit        CDH 4        (including Apache Hadoop)          Alexander Alten-Lorenz Customer Operations...
HerausforderungenGröße   Veränderungen   Struktur
Business Integration•   CRM               •   Rechnungsdaten•   Analysen          •   Risikomanagement•   Social Networks ...
Anwendungsbeispiele
Risiko Management• Problem: Bewertung von Kunden und  Projekten• Lösung: Finanzhistorie, Kommunikation,  Mustererkennung• ...
Empfehlungen• Problem: Passende Produkte für Kunden  empfehlen• Lösung: Geschmack durch Verhalten aller  Kunden ermitteln,...
Graph-Analyse• Problem: Trends und Meinungsbildung in  Netzwerken im Voraus erkennen• Lösung: Social Media Traffic auswerte...
Gefahrenerkennung• Problem: Spam, Kreditkartenmissbrauch• Lösung: Mustererkennung, Klassifizierung,  heuristische Analyse• ...
Textanalysen• Problem: Bedeutung von Text erkennen• Lösung: Schlüsselworte, Zusammenhänge  erkennen• Anwender: eCommerce, ...
Datenmengen• Ebay: 5 PB, Search Optimization• Facebook: 30 PB, Logs, Reports• Walmart, 2.5 PB, Customer Transactions      ...
Apache Hadoop• Software Framework für grosse Mengen an  unstrukturierten Daten• Apache-Lizenz• Zwei Kern-Komponenten • HDF...
Hadoop ClusterData Node     Data Node   Data Node    Data NodeData Node     Data Node   Data Node    Data NodeData Node   ...
Hadoop Distributed      File System                           DateiBlock    Block   Block     Block     Block   Block    B...
MapReduce                 DatenRDBMS    Query                 DatenHadoop   Query
Eigenschaften                    HDFS   MapReduce   Verteilung        ✔        ✔Ausfallsicherheit    ✔        ✔ Skalierbar...
Hadoop-Ökosystem         SQL               Scripts            HBase                                                      W...
Beispiel einer Integration
Aufgabenstellung• Auswerten von vorhandenen Daten aus  unterschiedlichen Datenbanken / CRM  Systemen• Realtime und Lifetim...
Lösungsweg• Sqoop als Connector zu CRM / DB   • Terradata, Oracle, Postgres, MySQL• Hive - HBase Integration• Hive, gesteu...
CRM Park         Integration         CDH    Authentifikation                     Sqoop                                     ...
Cloudera• 2009 in Palo Alto gegründet• Clouderas Distribution Including Hadoop• CDH4 / Cloudera Manager4• > 280 Angestellt...
Cloudera Manager•   Automated Deployment   •   Reporting•   Monitoring             •   Support Integration•   Service Mana...
Danke!• alexander@cloudera.com• Twitter: @mapredit• Blog: mapredit.blogspot.com• http://www.cloudera.com/• http://hadoop. ...
Nächste SlideShare
Wird geladen in …5
×

BI mit Apache Hadoop (CDH)

1.015 Aufrufe

Veröffentlicht am

Veröffentlicht in: Business
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.015
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
20
Aktionen
Geteilt
0
Downloads
16
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

BI mit Apache Hadoop (CDH)

  1. 1. Business Integration mit CDH 4 (including Apache Hadoop) Alexander Alten-Lorenz Customer Operations Engineer, Cloudera INC Muenchen, 18. September 2012
  2. 2. HerausforderungenGröße Veränderungen Struktur
  3. 3. Business Integration• CRM • Rechnungsdaten• Analysen • Risikomanagement• Social Networks • Universaler Datenzugriff• Marketing • Data Governance• Dokumente • SAP / Salesforce• Such-Indices • Artikelmanagement
  4. 4. Anwendungsbeispiele
  5. 5. Risiko Management• Problem: Bewertung von Kunden und Projekten• Lösung: Finanzhistorie, Kommunikation, Mustererkennung• Anwender: Banken,Versicherungen
  6. 6. Empfehlungen• Problem: Passende Produkte für Kunden empfehlen• Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse• Anwender: eCommerce, Advertising
  7. 7. Graph-Analyse• Problem: Trends und Meinungsbildung in Netzwerken im Voraus erkennen• Lösung: Social Media Traffic auswerten und statistisch aufbereiten• Anwender: Unternehmen, Behörden, NGO
  8. 8. Gefahrenerkennung• Problem: Spam, Kreditkartenmissbrauch• Lösung: Mustererkennung, Klassifizierung, heuristische Analyse• Anwender: Retailer, Banken, Einzelhandel
  9. 9. Textanalysen• Problem: Bedeutung von Text erkennen• Lösung: Schlüsselworte, Zusammenhänge erkennen• Anwender: eCommerce, Social Media Dienstleister, Meinungsforschung
  10. 10. Datenmengen• Ebay: 5 PB, Search Optimization• Facebook: 30 PB, Logs, Reports• Walmart, 2.5 PB, Customer Transactions http://wiki.apache.org/hadoop/PoweredBy http://en.wikipedia.org/wiki/Big_data
  11. 11. Apache Hadoop• Software Framework für grosse Mengen an unstrukturierten Daten• Apache-Lizenz• Zwei Kern-Komponenten • HDFS: Verteilte Datenspeicherung • MapReduce:Verteilte Datenverarbeitung
  12. 12. Hadoop ClusterData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data Node Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network
  13. 13. Hadoop Distributed File System DateiBlock Block Block Block Block Block Block Data Node Data Node Data Node
  14. 14. MapReduce DatenRDBMS Query DatenHadoop Query
  15. 15. Eigenschaften HDFS MapReduce Verteilung ✔ ✔Ausfallsicherheit ✔ ✔ Skalierbarkeit ✔ ✔
  16. 16. Hadoop-Ökosystem SQL Scripts HBase Whirr Hive Pig Oozie MapReduce Avro Java API HDFS eeper Zook Sqoop Flume Connectors Hue RDBMS Logs ... Mahout
  17. 17. Beispiel einer Integration
  18. 18. Aufgabenstellung• Auswerten von vorhandenen Daten aus unterschiedlichen Datenbanken / CRM Systemen• Realtime und Lifetime Statisken per Produkt• Wiederkehrende Analysen• Re-Import CRM• Einzelabfragen per Enduser (Analyst)
  19. 19. Lösungsweg• Sqoop als Connector zu CRM / DB • Terradata, Oracle, Postgres, MySQL• Hive - HBase Integration• Hive, gesteuert durch Oozie Workload Orchestrator• Hue Shell, Cluster gesichert durch Kerberos (Authentifizierung)
  20. 20. CRM Park Integration CDH Authentifikation Sqoop Kerberos (AD, MITv5)Real Time HBase Hive Oozie Automation Enduser HUE
  21. 21. Cloudera• 2009 in Palo Alto gegründet• Clouderas Distribution Including Hadoop• CDH4 / Cloudera Manager4• > 280 Angestellte weltweit• Training, Consulting, Support, Development• Enterprise Tools
  22. 22. Cloudera Manager• Automated Deployment • Reporting• Monitoring • Support Integration• Service Management• Log Management• Events and Alerts
  23. 23. Danke!• alexander@cloudera.com• Twitter: @mapredit• Blog: mapredit.blogspot.com• http://www.cloudera.com/• http://hadoop. apache.org/

×