BI mit Apache Hadoop (CDH)

1.005 Aufrufe

Veröffentlicht am

Veröffentlicht in: Business
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.005
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
20
Aktionen
Geteilt
0
Downloads
16
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

BI mit Apache Hadoop (CDH)

  1. 1. Business Integration mit CDH 4 (including Apache Hadoop) Alexander Alten-Lorenz Customer Operations Engineer, Cloudera INC Muenchen, 18. September 2012
  2. 2. HerausforderungenGröße Veränderungen Struktur
  3. 3. Business Integration• CRM • Rechnungsdaten• Analysen • Risikomanagement• Social Networks • Universaler Datenzugriff• Marketing • Data Governance• Dokumente • SAP / Salesforce• Such-Indices • Artikelmanagement
  4. 4. Anwendungsbeispiele
  5. 5. Risiko Management• Problem: Bewertung von Kunden und Projekten• Lösung: Finanzhistorie, Kommunikation, Mustererkennung• Anwender: Banken,Versicherungen
  6. 6. Empfehlungen• Problem: Passende Produkte für Kunden empfehlen• Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse• Anwender: eCommerce, Advertising
  7. 7. Graph-Analyse• Problem: Trends und Meinungsbildung in Netzwerken im Voraus erkennen• Lösung: Social Media Traffic auswerten und statistisch aufbereiten• Anwender: Unternehmen, Behörden, NGO
  8. 8. Gefahrenerkennung• Problem: Spam, Kreditkartenmissbrauch• Lösung: Mustererkennung, Klassifizierung, heuristische Analyse• Anwender: Retailer, Banken, Einzelhandel
  9. 9. Textanalysen• Problem: Bedeutung von Text erkennen• Lösung: Schlüsselworte, Zusammenhänge erkennen• Anwender: eCommerce, Social Media Dienstleister, Meinungsforschung
  10. 10. Datenmengen• Ebay: 5 PB, Search Optimization• Facebook: 30 PB, Logs, Reports• Walmart, 2.5 PB, Customer Transactions http://wiki.apache.org/hadoop/PoweredBy http://en.wikipedia.org/wiki/Big_data
  11. 11. Apache Hadoop• Software Framework für grosse Mengen an unstrukturierten Daten• Apache-Lizenz• Zwei Kern-Komponenten • HDFS: Verteilte Datenspeicherung • MapReduce:Verteilte Datenverarbeitung
  12. 12. Hadoop ClusterData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data Node Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network
  13. 13. Hadoop Distributed File System DateiBlock Block Block Block Block Block Block Data Node Data Node Data Node
  14. 14. MapReduce DatenRDBMS Query DatenHadoop Query
  15. 15. Eigenschaften HDFS MapReduce Verteilung ✔ ✔Ausfallsicherheit ✔ ✔ Skalierbarkeit ✔ ✔
  16. 16. Hadoop-Ökosystem SQL Scripts HBase Whirr Hive Pig Oozie MapReduce Avro Java API HDFS eeper Zook Sqoop Flume Connectors Hue RDBMS Logs ... Mahout
  17. 17. Beispiel einer Integration
  18. 18. Aufgabenstellung• Auswerten von vorhandenen Daten aus unterschiedlichen Datenbanken / CRM Systemen• Realtime und Lifetime Statisken per Produkt• Wiederkehrende Analysen• Re-Import CRM• Einzelabfragen per Enduser (Analyst)
  19. 19. Lösungsweg• Sqoop als Connector zu CRM / DB • Terradata, Oracle, Postgres, MySQL• Hive - HBase Integration• Hive, gesteuert durch Oozie Workload Orchestrator• Hue Shell, Cluster gesichert durch Kerberos (Authentifizierung)
  20. 20. CRM Park Integration CDH Authentifikation Sqoop Kerberos (AD, MITv5)Real Time HBase Hive Oozie Automation Enduser HUE
  21. 21. Cloudera• 2009 in Palo Alto gegründet• Clouderas Distribution Including Hadoop• CDH4 / Cloudera Manager4• > 280 Angestellte weltweit• Training, Consulting, Support, Development• Enterprise Tools
  22. 22. Cloudera Manager• Automated Deployment • Reporting• Monitoring • Support Integration• Service Management• Log Management• Events and Alerts
  23. 23. Danke!• alexander@cloudera.com• Twitter: @mapredit• Blog: mapredit.blogspot.com• http://www.cloudera.com/• http://hadoop. apache.org/

×