“Big Data” mit
   Apache Hadoop
           Alexander Lorenz
Customer Operations Engineer, Cloudera INC
         Muenchen, 18. April 2012




                                             1
Herausforderungen




Größe   Veränderungen   Struktur



                                   2
Beispiele
•   Web Logs            •   Verbindungsdaten

•   RFID                •   Astronomie

•   Social Networks     •   Genetik

•   Webseiten           •   Überwachung

•   Dokumente           •   Medizin

•   Such-Indices        •   Bilder,Videos




                                               3
Datenmengen

• Ebay: 5 PB, Search Optimization
• Facebook: 30 PB, Logs, Reports
• Walmart, 2.5 PB, Customer Transactions
          http://wiki.apache.org/hadoop/PoweredBy
             http://en.wikipedia.org/wiki/Big_data



                                                     4
10 Petabytes




http://blog.backblaze.com/2011/01/05/10-petabytes-visualized/




                                                                5
Etwas Geschichte

Dateisystem       GFS          HDFS

Verarbeitung   MapReduce     MapReduce

 RealTime       BigTable       HBase

   Lizenz      nicht offen    Apache



                                         6
Apache Hadoop
• Software Framework für grosse Mengen an
  unstrukturierten Daten
• Apache-Lizenz
• Zwei Kern-Komponenten
 • HDFS: Verteilte Datenspeicherung
 • MapReduce:Verteilte Datenverarbeitung
                                            7
Hadoop Cluster
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node


       Data Node: 4-16 Cores, 4-16 Disks,
        8-64 GB RAM, 1-10GB Network


                                                   8
Wo?
• Eigenes Rechenzentrum
• Dienstleister des Vertrauens
• Cloud-Dienstleister
 • Amazon
 • Rackspace


                                 9
Hadoop Distributed
      File System
                           Datei




Block    Block   Block     Block     Block   Block    Block




  Data Node              Data Node              Data Node




                                                              10
MapReduce
                 Daten




RDBMS    Query




                 Daten




Hadoop   Query




                         11
Eigenschaften
                    HDFS   MapReduce

   Verteilung        ✔        ✔


Ausfallsicherheit    ✔        ✔


 Skalierbarkeit      ✔        ✔



                                       12
Hadoop-Ökosystem
         SQL               Scripts            HBase
                                                      Whirr
         Hive               Pig               Oozie


               MapReduce                                Avro
                                        Java API
                 HDFS
                                                 eeper
                                             Zook
 Sqoop           Flume     Connectors                    Hue


 RDBMS            Logs            ...          Mahout




                                                               13
Cloudera
• 2009 in Palo Alto gegründet
• Cloudera's Distribution Including Hadoop
 • CDH4 Beta 1 verfügbar
• > 200 Angestellte weltweit
• Training, Consulting, Support, Development
• Enterprise Tools
                                               14
Cloudera Manager
•   Automated Deployment   •   Reporting

•   Monitoring             •   Support Integration

•   Service Management

•   Log Management

•   Events and Alerts




                                                     15
Anwendungsbeispiele



                      16
Risiko Management

• Problem: Bewertung von Kunden und
  Projekten
• Lösung: Finanzhistorie, Kommunikation,
  Mustererkennung
• Anwender: Banken,Versicherungen

                                           17
Empfehlungen

• Problem: Passende Produkte für Kunden
  empfehlen
• Lösung: Geschmack durch Verhalten aller
  Kunden ermitteln, Muster erkennen,
  Statistische Analyse
• Anwender: eCommerce, Advertising

                                            18
Graph-Analyse

• Problem: Flaschenhälse oder Fehler in
  Netzwerken im Voraus erkennen
• Lösung: Netzwerkverkehr auswerten und
  statistisch aufbereiten
• Anwender: Rechenzentren, Telcos,
  Multiserverbetreiber, Portale



                                          19
Gefahrenerkennung

• Problem: Spam, Kreditkartenmissbrauch
• Lösung: Mustererkennung, Klassifizierung,
  heuristische Analyse
• Anwender: ISPs, Banken


                                             20
Textanalysen

• Problem: Bedeutung von Text erkennen
• Lösung: Schlüsselworte, Zusammenhänge
  erkennen
• Anwender: eCommerce


                                          21
Danke!
• alexander@cloudera.com
• Twitter: @mapredit
• Blog: mapredit.blogspot.com
• http://www.cloudera.com/
• http://apache.hadoop.org/
• http://www.shs-viveon.com
                                22

Big Data mit Apache Hadoop

  • 1.
    “Big Data” mit Apache Hadoop Alexander Lorenz Customer Operations Engineer, Cloudera INC Muenchen, 18. April 2012 1
  • 2.
    Herausforderungen Größe Veränderungen Struktur 2
  • 3.
    Beispiele • Web Logs • Verbindungsdaten • RFID • Astronomie • Social Networks • Genetik • Webseiten • Überwachung • Dokumente • Medizin • Such-Indices • Bilder,Videos 3
  • 4.
    Datenmengen • Ebay: 5PB, Search Optimization • Facebook: 30 PB, Logs, Reports • Walmart, 2.5 PB, Customer Transactions http://wiki.apache.org/hadoop/PoweredBy http://en.wikipedia.org/wiki/Big_data 4
  • 5.
  • 6.
    Etwas Geschichte Dateisystem GFS HDFS Verarbeitung MapReduce MapReduce RealTime BigTable HBase Lizenz nicht offen Apache 6
  • 7.
    Apache Hadoop • SoftwareFramework für grosse Mengen an unstrukturierten Daten • Apache-Lizenz • Zwei Kern-Komponenten • HDFS: Verteilte Datenspeicherung • MapReduce:Verteilte Datenverarbeitung 7
  • 8.
    Hadoop Cluster Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network 8
  • 9.
    Wo? • Eigenes Rechenzentrum •Dienstleister des Vertrauens • Cloud-Dienstleister • Amazon • Rackspace 9
  • 10.
    Hadoop Distributed File System Datei Block Block Block Block Block Block Block Data Node Data Node Data Node 10
  • 11.
    MapReduce Daten RDBMS Query Daten Hadoop Query 11
  • 12.
    Eigenschaften HDFS MapReduce Verteilung ✔ ✔ Ausfallsicherheit ✔ ✔ Skalierbarkeit ✔ ✔ 12
  • 13.
    Hadoop-Ökosystem SQL Scripts HBase Whirr Hive Pig Oozie MapReduce Avro Java API HDFS eeper Zook Sqoop Flume Connectors Hue RDBMS Logs ... Mahout 13
  • 14.
    Cloudera • 2009 inPalo Alto gegründet • Cloudera's Distribution Including Hadoop • CDH4 Beta 1 verfügbar • > 200 Angestellte weltweit • Training, Consulting, Support, Development • Enterprise Tools 14
  • 15.
    Cloudera Manager • Automated Deployment • Reporting • Monitoring • Support Integration • Service Management • Log Management • Events and Alerts 15
  • 16.
  • 17.
    Risiko Management • Problem:Bewertung von Kunden und Projekten • Lösung: Finanzhistorie, Kommunikation, Mustererkennung • Anwender: Banken,Versicherungen 17
  • 18.
    Empfehlungen • Problem: PassendeProdukte für Kunden empfehlen • Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse • Anwender: eCommerce, Advertising 18
  • 19.
    Graph-Analyse • Problem: Flaschenhälseoder Fehler in Netzwerken im Voraus erkennen • Lösung: Netzwerkverkehr auswerten und statistisch aufbereiten • Anwender: Rechenzentren, Telcos, Multiserverbetreiber, Portale 19
  • 20.
    Gefahrenerkennung • Problem: Spam,Kreditkartenmissbrauch • Lösung: Mustererkennung, Klassifizierung, heuristische Analyse • Anwender: ISPs, Banken 20
  • 21.
    Textanalysen • Problem: Bedeutungvon Text erkennen • Lösung: Schlüsselworte, Zusammenhänge erkennen • Anwender: eCommerce 21
  • 22.
    Danke! • alexander@cloudera.com • Twitter:@mapredit • Blog: mapredit.blogspot.com • http://www.cloudera.com/ • http://apache.hadoop.org/ • http://www.shs-viveon.com 22