Big Data mit Apache Hadoop

2.867 Aufrufe

Veröffentlicht am

0 Kommentare
4 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.867
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
411
Aktionen
Geteilt
0
Downloads
50
Kommentare
0
Gefällt mir
4
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Big Data mit Apache Hadoop

  1. 1. “Big Data” mit Apache Hadoop Alexander LorenzCustomer Operations Engineer, Cloudera INC Muenchen, 18. April 2012 1
  2. 2. HerausforderungenGröße Veränderungen Struktur 2
  3. 3. Beispiele• Web Logs • Verbindungsdaten• RFID • Astronomie• Social Networks • Genetik• Webseiten • Überwachung• Dokumente • Medizin• Such-Indices • Bilder,Videos 3
  4. 4. Datenmengen• Ebay: 5 PB, Search Optimization• Facebook: 30 PB, Logs, Reports• Walmart, 2.5 PB, Customer Transactions http://wiki.apache.org/hadoop/PoweredBy http://en.wikipedia.org/wiki/Big_data 4
  5. 5. 10 Petabyteshttp://blog.backblaze.com/2011/01/05/10-petabytes-visualized/ 5
  6. 6. Etwas GeschichteDateisystem GFS HDFSVerarbeitung MapReduce MapReduce RealTime BigTable HBase Lizenz nicht offen Apache 6
  7. 7. Apache Hadoop• Software Framework für grosse Mengen an unstrukturierten Daten• Apache-Lizenz• Zwei Kern-Komponenten • HDFS: Verteilte Datenspeicherung • MapReduce:Verteilte Datenverarbeitung 7
  8. 8. Hadoop ClusterData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data NodeData Node Data Node Data Node Data Node Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network 8
  9. 9. Wo?• Eigenes Rechenzentrum• Dienstleister des Vertrauens• Cloud-Dienstleister • Amazon • Rackspace 9
  10. 10. Hadoop Distributed File System DateiBlock Block Block Block Block Block Block Data Node Data Node Data Node 10
  11. 11. MapReduce DatenRDBMS Query DatenHadoop Query 11
  12. 12. Eigenschaften HDFS MapReduce Verteilung ✔ ✔Ausfallsicherheit ✔ ✔ Skalierbarkeit ✔ ✔ 12
  13. 13. Hadoop-Ökosystem SQL Scripts HBase Whirr Hive Pig Oozie MapReduce Avro Java API HDFS eeper Zook Sqoop Flume Connectors Hue RDBMS Logs ... Mahout 13
  14. 14. Cloudera• 2009 in Palo Alto gegründet• Clouderas Distribution Including Hadoop • CDH4 Beta 1 verfügbar• > 200 Angestellte weltweit• Training, Consulting, Support, Development• Enterprise Tools 14
  15. 15. Cloudera Manager• Automated Deployment • Reporting• Monitoring • Support Integration• Service Management• Log Management• Events and Alerts 15
  16. 16. Anwendungsbeispiele 16
  17. 17. Risiko Management• Problem: Bewertung von Kunden und Projekten• Lösung: Finanzhistorie, Kommunikation, Mustererkennung• Anwender: Banken,Versicherungen 17
  18. 18. Empfehlungen• Problem: Passende Produkte für Kunden empfehlen• Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse• Anwender: eCommerce, Advertising 18
  19. 19. Graph-Analyse• Problem: Flaschenhälse oder Fehler in Netzwerken im Voraus erkennen• Lösung: Netzwerkverkehr auswerten und statistisch aufbereiten• Anwender: Rechenzentren, Telcos, Multiserverbetreiber, Portale 19
  20. 20. Gefahrenerkennung• Problem: Spam, Kreditkartenmissbrauch• Lösung: Mustererkennung, Klassifizierung, heuristische Analyse• Anwender: ISPs, Banken 20
  21. 21. Textanalysen• Problem: Bedeutung von Text erkennen• Lösung: Schlüsselworte, Zusammenhänge erkennen• Anwender: eCommerce 21
  22. 22. Danke!• alexander@cloudera.com• Twitter: @mapredit• Blog: mapredit.blogspot.com• http://www.cloudera.com/• http://apache.hadoop.org/• http://www.shs-viveon.com 22

×