Business Integration mit
        CDH 4
        (including Apache Hadoop)

          Alexander Alten-Lorenz
 Customer Operations Engineer, Cloudera INC
       Muenchen, 18. September 2012
Herausforderungen




Größe   Veränderungen   Struktur
Business Integration
•   CRM               •   Rechnungsdaten

•   Analysen          •   Risikomanagement

•   Social Networks   •   Universaler Datenzugriff

•   Marketing         •   Data Governance

•   Dokumente         •   SAP / Salesforce

•   Such-Indices      •   Artikelmanagement
Anwendungsbeispiele
Risiko Management

• Problem: Bewertung von Kunden und
  Projekten
• Lösung: Finanzhistorie, Kommunikation,
  Mustererkennung
• Anwender: Banken,Versicherungen
Empfehlungen

• Problem: Passende Produkte für Kunden
  empfehlen
• Lösung: Geschmack durch Verhalten aller
  Kunden ermitteln, Muster erkennen,
  Statistische Analyse
• Anwender: eCommerce, Advertising
Graph-Analyse

• Problem: Trends und Meinungsbildung in
  Netzwerken im Voraus erkennen
• Lösung: Social Media Traffic auswerten und
  statistisch aufbereiten
• Anwender: Unternehmen, Behörden, NGO
Gefahrenerkennung

• Problem: Spam, Kreditkartenmissbrauch
• Lösung: Mustererkennung, Klassifizierung,
  heuristische Analyse
• Anwender: Retailer, Banken, Einzelhandel
Textanalysen

• Problem: Bedeutung von Text erkennen
• Lösung: Schlüsselworte, Zusammenhänge
  erkennen
• Anwender: eCommerce, Social Media
  Dienstleister, Meinungsforschung
Datenmengen

• Ebay: 5 PB, Search Optimization
• Facebook: 30 PB, Logs, Reports
• Walmart, 2.5 PB, Customer Transactions
          http://wiki.apache.org/hadoop/PoweredBy
             http://en.wikipedia.org/wiki/Big_data
Apache Hadoop
• Software Framework für grosse Mengen an
  unstrukturierten Daten
• Apache-Lizenz
• Zwei Kern-Komponenten
 • HDFS: Verteilte Datenspeicherung
 • MapReduce:Verteilte Datenverarbeitung
Hadoop Cluster
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node


       Data Node: 4-16 Cores, 4-16 Disks,
        8-64 GB RAM, 1-10GB Network
Hadoop Distributed
      File System
                           Datei




Block    Block   Block     Block     Block   Block    Block




  Data Node              Data Node              Data Node
MapReduce
                 Daten




RDBMS    Query




                 Daten




Hadoop   Query
Eigenschaften
                    HDFS   MapReduce

   Verteilung        ✔        ✔


Ausfallsicherheit    ✔        ✔


 Skalierbarkeit      ✔        ✔
Hadoop-Ökosystem
         SQL               Scripts            HBase
                                                      Whirr
         Hive               Pig               Oozie


               MapReduce                                Avro
                                        Java API
                 HDFS
                                                 eeper
                                             Zook
 Sqoop           Flume     Connectors                    Hue


 RDBMS            Logs            ...          Mahout
Beispiel einer
 Integration
Aufgabenstellung
• Auswerten von vorhandenen Daten aus
  unterschiedlichen Datenbanken / CRM
  Systemen
• Realtime und Lifetime Statisken per
  Produkt
• Wiederkehrende Analysen
• Re-Import CRM
• Einzelabfragen per Enduser (Analyst)
Lösungsweg
• Sqoop als Connector zu CRM / DB
   • Terradata, Oracle, Postgres, MySQL
• Hive - HBase Integration
• Hive, gesteuert durch Oozie Workload
  Orchestrator
• Hue Shell, Cluster gesichert durch
  Kerberos (Authentifizierung)
CRM Park         Integration         CDH    Authentifikation




                     Sqoop
                                                        Kerberos
                                                       (AD, MITv5)




Real Time    HBase                   Hive                       Oozie




                                                              Automation
   Enduser                     HUE
Cloudera
• 2009 in Palo Alto gegründet
• Cloudera's Distribution Including Hadoop
• CDH4 / Cloudera Manager4
• > 280 Angestellte weltweit
• Training, Consulting, Support, Development
• Enterprise Tools
Cloudera Manager
•   Automated Deployment   •   Reporting

•   Monitoring             •   Support Integration

•   Service Management

•   Log Management

•   Events and Alerts
Danke!

• alexander@cloudera.com
• Twitter: @mapredit
• Blog: mapredit.blogspot.com
• http://www.cloudera.com/
• http://hadoop. apache.org/

BI mit Apache Hadoop (CDH)

  • 1.
    Business Integration mit CDH 4 (including Apache Hadoop) Alexander Alten-Lorenz Customer Operations Engineer, Cloudera INC Muenchen, 18. September 2012
  • 2.
    Herausforderungen Größe Veränderungen Struktur
  • 3.
    Business Integration • CRM • Rechnungsdaten • Analysen • Risikomanagement • Social Networks • Universaler Datenzugriff • Marketing • Data Governance • Dokumente • SAP / Salesforce • Such-Indices • Artikelmanagement
  • 4.
  • 5.
    Risiko Management • Problem:Bewertung von Kunden und Projekten • Lösung: Finanzhistorie, Kommunikation, Mustererkennung • Anwender: Banken,Versicherungen
  • 6.
    Empfehlungen • Problem: PassendeProdukte für Kunden empfehlen • Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse • Anwender: eCommerce, Advertising
  • 7.
    Graph-Analyse • Problem: Trendsund Meinungsbildung in Netzwerken im Voraus erkennen • Lösung: Social Media Traffic auswerten und statistisch aufbereiten • Anwender: Unternehmen, Behörden, NGO
  • 8.
    Gefahrenerkennung • Problem: Spam,Kreditkartenmissbrauch • Lösung: Mustererkennung, Klassifizierung, heuristische Analyse • Anwender: Retailer, Banken, Einzelhandel
  • 9.
    Textanalysen • Problem: Bedeutungvon Text erkennen • Lösung: Schlüsselworte, Zusammenhänge erkennen • Anwender: eCommerce, Social Media Dienstleister, Meinungsforschung
  • 10.
    Datenmengen • Ebay: 5PB, Search Optimization • Facebook: 30 PB, Logs, Reports • Walmart, 2.5 PB, Customer Transactions http://wiki.apache.org/hadoop/PoweredBy http://en.wikipedia.org/wiki/Big_data
  • 11.
    Apache Hadoop • SoftwareFramework für grosse Mengen an unstrukturierten Daten • Apache-Lizenz • Zwei Kern-Komponenten • HDFS: Verteilte Datenspeicherung • MapReduce:Verteilte Datenverarbeitung
  • 12.
    Hadoop Cluster Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network
  • 13.
    Hadoop Distributed File System Datei Block Block Block Block Block Block Block Data Node Data Node Data Node
  • 14.
    MapReduce Daten RDBMS Query Daten Hadoop Query
  • 15.
    Eigenschaften HDFS MapReduce Verteilung ✔ ✔ Ausfallsicherheit ✔ ✔ Skalierbarkeit ✔ ✔
  • 16.
    Hadoop-Ökosystem SQL Scripts HBase Whirr Hive Pig Oozie MapReduce Avro Java API HDFS eeper Zook Sqoop Flume Connectors Hue RDBMS Logs ... Mahout
  • 17.
  • 18.
    Aufgabenstellung • Auswerten vonvorhandenen Daten aus unterschiedlichen Datenbanken / CRM Systemen • Realtime und Lifetime Statisken per Produkt • Wiederkehrende Analysen • Re-Import CRM • Einzelabfragen per Enduser (Analyst)
  • 19.
    Lösungsweg • Sqoop alsConnector zu CRM / DB • Terradata, Oracle, Postgres, MySQL • Hive - HBase Integration • Hive, gesteuert durch Oozie Workload Orchestrator • Hue Shell, Cluster gesichert durch Kerberos (Authentifizierung)
  • 20.
    CRM Park Integration CDH Authentifikation Sqoop Kerberos (AD, MITv5) Real Time HBase Hive Oozie Automation Enduser HUE
  • 21.
    Cloudera • 2009 inPalo Alto gegründet • Cloudera's Distribution Including Hadoop • CDH4 / Cloudera Manager4 • > 280 Angestellte weltweit • Training, Consulting, Support, Development • Enterprise Tools
  • 22.
    Cloudera Manager • Automated Deployment • Reporting • Monitoring • Support Integration • Service Management • Log Management • Events and Alerts
  • 23.
    Danke! • alexander@cloudera.com • Twitter:@mapredit • Blog: mapredit.blogspot.com • http://www.cloudera.com/ • http://hadoop. apache.org/