SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Downloaden Sie, um offline zu lesen
Business Integration mit
        CDH 4
        (including Apache Hadoop)

          Alexander Alten-Lorenz
 Customer Operations Engineer, Cloudera INC
       Muenchen, 18. September 2012
Herausforderungen




Größe   Veränderungen   Struktur
Business Integration
•   CRM               •   Rechnungsdaten

•   Analysen          •   Risikomanagement

•   Social Networks   •   Universaler Datenzugriff

•   Marketing         •   Data Governance

•   Dokumente         •   SAP / Salesforce

•   Such-Indices      •   Artikelmanagement
Anwendungsbeispiele
Risiko Management

• Problem: Bewertung von Kunden und
  Projekten
• Lösung: Finanzhistorie, Kommunikation,
  Mustererkennung
• Anwender: Banken,Versicherungen
Empfehlungen

• Problem: Passende Produkte für Kunden
  empfehlen
• Lösung: Geschmack durch Verhalten aller
  Kunden ermitteln, Muster erkennen,
  Statistische Analyse
• Anwender: eCommerce, Advertising
Graph-Analyse

• Problem: Trends und Meinungsbildung in
  Netzwerken im Voraus erkennen
• Lösung: Social Media Traffic auswerten und
  statistisch aufbereiten
• Anwender: Unternehmen, Behörden, NGO
Gefahrenerkennung

• Problem: Spam, Kreditkartenmissbrauch
• Lösung: Mustererkennung, Klassifizierung,
  heuristische Analyse
• Anwender: Retailer, Banken, Einzelhandel
Textanalysen

• Problem: Bedeutung von Text erkennen
• Lösung: Schlüsselworte, Zusammenhänge
  erkennen
• Anwender: eCommerce, Social Media
  Dienstleister, Meinungsforschung
Datenmengen

• Ebay: 5 PB, Search Optimization
• Facebook: 30 PB, Logs, Reports
• Walmart, 2.5 PB, Customer Transactions
          http://wiki.apache.org/hadoop/PoweredBy
             http://en.wikipedia.org/wiki/Big_data
Apache Hadoop
• Software Framework für grosse Mengen an
  unstrukturierten Daten
• Apache-Lizenz
• Zwei Kern-Komponenten
 • HDFS: Verteilte Datenspeicherung
 • MapReduce:Verteilte Datenverarbeitung
Hadoop Cluster
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node


       Data Node: 4-16 Cores, 4-16 Disks,
        8-64 GB RAM, 1-10GB Network
Hadoop Distributed
      File System
                           Datei




Block    Block   Block     Block     Block   Block    Block




  Data Node              Data Node              Data Node
MapReduce
                 Daten




RDBMS    Query




                 Daten




Hadoop   Query
Eigenschaften
                    HDFS   MapReduce

   Verteilung        ✔        ✔


Ausfallsicherheit    ✔        ✔


 Skalierbarkeit      ✔        ✔
Hadoop-Ökosystem
         SQL               Scripts            HBase
                                                      Whirr
         Hive               Pig               Oozie


               MapReduce                                Avro
                                        Java API
                 HDFS
                                                 eeper
                                             Zook
 Sqoop           Flume     Connectors                    Hue


 RDBMS            Logs            ...          Mahout
Beispiel einer
 Integration
Aufgabenstellung
• Auswerten von vorhandenen Daten aus
  unterschiedlichen Datenbanken / CRM
  Systemen
• Realtime und Lifetime Statisken per
  Produkt
• Wiederkehrende Analysen
• Re-Import CRM
• Einzelabfragen per Enduser (Analyst)
Lösungsweg
• Sqoop als Connector zu CRM / DB
   • Terradata, Oracle, Postgres, MySQL
• Hive - HBase Integration
• Hive, gesteuert durch Oozie Workload
  Orchestrator
• Hue Shell, Cluster gesichert durch
  Kerberos (Authentifizierung)
CRM Park         Integration         CDH    Authentifikation




                     Sqoop
                                                        Kerberos
                                                       (AD, MITv5)




Real Time    HBase                   Hive                       Oozie




                                                              Automation
   Enduser                     HUE
Cloudera
• 2009 in Palo Alto gegründet
• Cloudera's Distribution Including Hadoop
• CDH4 / Cloudera Manager4
• > 280 Angestellte weltweit
• Training, Consulting, Support, Development
• Enterprise Tools
Cloudera Manager
•   Automated Deployment   •   Reporting

•   Monitoring             •   Support Integration

•   Service Management

•   Log Management

•   Events and Alerts
Danke!

• alexander@cloudera.com
• Twitter: @mapredit
• Blog: mapredit.blogspot.com
• http://www.cloudera.com/
• http://hadoop. apache.org/

Weitere ähnliche Inhalte

Andere mochten auch

Apache CouchDB at PHPUG Karlsruhe, Germany (Jan 27th 2009)
Apache CouchDB at PHPUG Karlsruhe, Germany (Jan 27th 2009)Apache CouchDB at PHPUG Karlsruhe, Germany (Jan 27th 2009)
Apache CouchDB at PHPUG Karlsruhe, Germany (Jan 27th 2009)Nils Adermann
 
Why NoSQL and MongoDB for Big Data
Why NoSQL and MongoDB for Big DataWhy NoSQL and MongoDB for Big Data
Why NoSQL and MongoDB for Big DataWilliam LaForest
 
MongoDB, Hadoop and humongous data - MongoSV 2012
MongoDB, Hadoop and humongous data - MongoSV 2012MongoDB, Hadoop and humongous data - MongoSV 2012
MongoDB, Hadoop and humongous data - MongoSV 2012Steven Francia
 
An Introduction to Big Data, NoSQL and MongoDB
An Introduction to Big Data, NoSQL and MongoDBAn Introduction to Big Data, NoSQL and MongoDB
An Introduction to Big Data, NoSQL and MongoDBWilliam LaForest
 
MongoDB for Beginners
MongoDB for BeginnersMongoDB for Beginners
MongoDB for BeginnersEnoch Joshua
 
SQL, NoSQL, BigData in Data Architecture
SQL, NoSQL, BigData in Data ArchitectureSQL, NoSQL, BigData in Data Architecture
SQL, NoSQL, BigData in Data ArchitectureVenu Anuganti
 
Cloudera Customer Success Story
Cloudera Customer Success StoryCloudera Customer Success Story
Cloudera Customer Success StoryXpand IT
 
The Big Data Challenge
The Big Data ChallengeThe Big Data Challenge
The Big Data ChallengeXpand IT
 
Mongo DB: Operational Big Data Database
Mongo DB: Operational Big Data DatabaseMongo DB: Operational Big Data Database
Mongo DB: Operational Big Data DatabaseXpand IT
 
Customer Success Story: Brisa
Customer Success Story: Brisa Customer Success Story: Brisa
Customer Success Story: Brisa Xpand IT
 
MapReduce & Apache Hadoop
MapReduce & Apache HadoopMapReduce & Apache Hadoop
MapReduce & Apache HadoopOliver Fischer
 
NoSQL Now! NoSQL Architecture Patterns
NoSQL Now! NoSQL Architecture PatternsNoSQL Now! NoSQL Architecture Patterns
NoSQL Now! NoSQL Architecture PatternsDATAVERSITY
 
MongoDB für Java-Programmierer
MongoDB für Java-ProgrammiererMongoDB für Java-Programmierer
MongoDB für Java-ProgrammiererUwe Printz
 
MongoDB - Riesige Datenmengen schemafrei verwalten
MongoDB - Riesige Datenmengen schemafrei verwaltenMongoDB - Riesige Datenmengen schemafrei verwalten
MongoDB - Riesige Datenmengen schemafrei verwaltenTobias Trelle
 

Andere mochten auch (18)

Apache CouchDB at PHPUG Karlsruhe, Germany (Jan 27th 2009)
Apache CouchDB at PHPUG Karlsruhe, Germany (Jan 27th 2009)Apache CouchDB at PHPUG Karlsruhe, Germany (Jan 27th 2009)
Apache CouchDB at PHPUG Karlsruhe, Germany (Jan 27th 2009)
 
Why NoSQL and MongoDB for Big Data
Why NoSQL and MongoDB for Big DataWhy NoSQL and MongoDB for Big Data
Why NoSQL and MongoDB for Big Data
 
MongoDB, Hadoop and humongous data - MongoSV 2012
MongoDB, Hadoop and humongous data - MongoSV 2012MongoDB, Hadoop and humongous data - MongoSV 2012
MongoDB, Hadoop and humongous data - MongoSV 2012
 
An Introduction to Big Data, NoSQL and MongoDB
An Introduction to Big Data, NoSQL and MongoDBAn Introduction to Big Data, NoSQL and MongoDB
An Introduction to Big Data, NoSQL and MongoDB
 
MongoDB and hadoop
MongoDB and hadoopMongoDB and hadoop
MongoDB and hadoop
 
MongoDB for Beginners
MongoDB for BeginnersMongoDB for Beginners
MongoDB for Beginners
 
Mongo db
Mongo dbMongo db
Mongo db
 
SQL, NoSQL, BigData in Data Architecture
SQL, NoSQL, BigData in Data ArchitectureSQL, NoSQL, BigData in Data Architecture
SQL, NoSQL, BigData in Data Architecture
 
Cloudera Customer Success Story
Cloudera Customer Success StoryCloudera Customer Success Story
Cloudera Customer Success Story
 
The Big Data Challenge
The Big Data ChallengeThe Big Data Challenge
The Big Data Challenge
 
Mongo DB: Operational Big Data Database
Mongo DB: Operational Big Data DatabaseMongo DB: Operational Big Data Database
Mongo DB: Operational Big Data Database
 
Customer Success Story: Brisa
Customer Success Story: Brisa Customer Success Story: Brisa
Customer Success Story: Brisa
 
Einführung Big Data
Einführung Big DataEinführung Big Data
Einführung Big Data
 
MapReduce & Apache Hadoop
MapReduce & Apache HadoopMapReduce & Apache Hadoop
MapReduce & Apache Hadoop
 
NoSQL Now! NoSQL Architecture Patterns
NoSQL Now! NoSQL Architecture PatternsNoSQL Now! NoSQL Architecture Patterns
NoSQL Now! NoSQL Architecture Patterns
 
MongoDB für Java-Programmierer
MongoDB für Java-ProgrammiererMongoDB für Java-Programmierer
MongoDB für Java-Programmierer
 
MongoDB - Riesige Datenmengen schemafrei verwalten
MongoDB - Riesige Datenmengen schemafrei verwaltenMongoDB - Riesige Datenmengen schemafrei verwalten
MongoDB - Riesige Datenmengen schemafrei verwalten
 
MongoDB Einführung
MongoDB EinführungMongoDB Einführung
MongoDB Einführung
 

Ähnlich wie BI mit Apache Hadoop (CDH)

A NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterA NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterMeMo News AG
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoopfun communications GmbH
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortragRamon Wartala
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesComsysto Reply GmbH
 
xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012xplosion_de
 
4×4: Big Data in der Cloud
4×4: Big Data in der Cloud4×4: Big Data in der Cloud
4×4: Big Data in der CloudDanny Linden
 
Oracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiOracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiGunther Pippèrr
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Gunther Pippèrr
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenMagnus Pfeffer
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?KurtStockinger
 
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE Project
 
Azure SQL Database vs. Azure SQL Data Warehouse
Azure SQL Database vs. Azure SQL Data WarehouseAzure SQL Database vs. Azure SQL Data Warehouse
Azure SQL Database vs. Azure SQL Data WarehousepmOne Analytics GmbH
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRene Burgener
 

Ähnlich wie BI mit Apache Hadoop (CDH) (20)

A NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterA NoSQL Summer - The Year After
A NoSQL Summer - The Year After
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortrag
 
Cloud Computing - PaaS
Cloud Computing - PaaSCloud Computing - PaaS
Cloud Computing - PaaS
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
 
Hadoop und SAS für Einsteiger
Hadoop und SAS für EinsteigerHadoop und SAS für Einsteiger
Hadoop und SAS für Einsteiger
 
xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012
 
Drupal - die ideale Basis für Medien
Drupal - die ideale Basis für MedienDrupal - die ideale Basis für Medien
Drupal - die ideale Basis für Medien
 
4×4: Big Data in der Cloud
4×4: Big Data in der Cloud4×4: Big Data in der Cloud
4×4: Big Data in der Cloud
 
Oracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiOracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpi
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
 
Elasticsearch Cluster Management mit Marvel
Elasticsearch Cluster Management mit MarvelElasticsearch Cluster Management mit Marvel
Elasticsearch Cluster Management mit Marvel
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
 
Azure SQL Database vs. Azure SQL Data Warehouse
Azure SQL Database vs. Azure SQL Data WarehouseAzure SQL Database vs. Azure SQL Data Warehouse
Azure SQL Database vs. Azure SQL Data Warehouse
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Warum sap hana sql data warehousing
Warum sap hana sql data warehousingWarum sap hana sql data warehousing
Warum sap hana sql data warehousing
 

Mehr von Alexander Alten-Lorenz (12)

Is big data dead?
Is big data dead?Is big data dead?
Is big data dead?
 
Creating a value chain with IoT
Creating a value chain with IoTCreating a value chain with IoT
Creating a value chain with IoT
 
Big Data in an modern Enterprise
Big Data in an modern EnterpriseBig Data in an modern Enterprise
Big Data in an modern Enterprise
 
The Future of Energy
The Future of EnergyThe Future of Energy
The Future of Energy
 
Beyond Hadoop and MapReduce
Beyond Hadoop and MapReduceBeyond Hadoop and MapReduce
Beyond Hadoop and MapReduce
 
Sentry - An Introduction
Sentry - An Introduction Sentry - An Introduction
Sentry - An Introduction
 
Cloudera Impala - HUG Karlsruhe, July 04, 2013
Cloudera Impala - HUG Karlsruhe, July 04, 2013Cloudera Impala - HUG Karlsruhe, July 04, 2013
Cloudera Impala - HUG Karlsruhe, July 04, 2013
 
Bi with apache hadoop(en)
Bi with apache hadoop(en)Bi with apache hadoop(en)
Bi with apache hadoop(en)
 
Flume and HBase
Flume and HBase Flume and HBase
Flume and HBase
 
Highlights Of Sqoop2
Highlights Of Sqoop2Highlights Of Sqoop2
Highlights Of Sqoop2
 
Apache Flume (NG)
Apache Flume (NG)Apache Flume (NG)
Apache Flume (NG)
 
Filesystems, RPC and HDFS
Filesystems, RPC and HDFSFilesystems, RPC and HDFS
Filesystems, RPC and HDFS
 

BI mit Apache Hadoop (CDH)

  • 1. Business Integration mit CDH 4 (including Apache Hadoop) Alexander Alten-Lorenz Customer Operations Engineer, Cloudera INC Muenchen, 18. September 2012
  • 2. Herausforderungen Größe Veränderungen Struktur
  • 3. Business Integration • CRM • Rechnungsdaten • Analysen • Risikomanagement • Social Networks • Universaler Datenzugriff • Marketing • Data Governance • Dokumente • SAP / Salesforce • Such-Indices • Artikelmanagement
  • 5. Risiko Management • Problem: Bewertung von Kunden und Projekten • Lösung: Finanzhistorie, Kommunikation, Mustererkennung • Anwender: Banken,Versicherungen
  • 6. Empfehlungen • Problem: Passende Produkte für Kunden empfehlen • Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse • Anwender: eCommerce, Advertising
  • 7. Graph-Analyse • Problem: Trends und Meinungsbildung in Netzwerken im Voraus erkennen • Lösung: Social Media Traffic auswerten und statistisch aufbereiten • Anwender: Unternehmen, Behörden, NGO
  • 8. Gefahrenerkennung • Problem: Spam, Kreditkartenmissbrauch • Lösung: Mustererkennung, Klassifizierung, heuristische Analyse • Anwender: Retailer, Banken, Einzelhandel
  • 9. Textanalysen • Problem: Bedeutung von Text erkennen • Lösung: Schlüsselworte, Zusammenhänge erkennen • Anwender: eCommerce, Social Media Dienstleister, Meinungsforschung
  • 10. Datenmengen • Ebay: 5 PB, Search Optimization • Facebook: 30 PB, Logs, Reports • Walmart, 2.5 PB, Customer Transactions http://wiki.apache.org/hadoop/PoweredBy http://en.wikipedia.org/wiki/Big_data
  • 11. Apache Hadoop • Software Framework für grosse Mengen an unstrukturierten Daten • Apache-Lizenz • Zwei Kern-Komponenten • HDFS: Verteilte Datenspeicherung • MapReduce:Verteilte Datenverarbeitung
  • 12. Hadoop Cluster Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network
  • 13. Hadoop Distributed File System Datei Block Block Block Block Block Block Block Data Node Data Node Data Node
  • 14. MapReduce Daten RDBMS Query Daten Hadoop Query
  • 15. Eigenschaften HDFS MapReduce Verteilung ✔ ✔ Ausfallsicherheit ✔ ✔ Skalierbarkeit ✔ ✔
  • 16. Hadoop-Ökosystem SQL Scripts HBase Whirr Hive Pig Oozie MapReduce Avro Java API HDFS eeper Zook Sqoop Flume Connectors Hue RDBMS Logs ... Mahout
  • 18. Aufgabenstellung • Auswerten von vorhandenen Daten aus unterschiedlichen Datenbanken / CRM Systemen • Realtime und Lifetime Statisken per Produkt • Wiederkehrende Analysen • Re-Import CRM • Einzelabfragen per Enduser (Analyst)
  • 19. Lösungsweg • Sqoop als Connector zu CRM / DB • Terradata, Oracle, Postgres, MySQL • Hive - HBase Integration • Hive, gesteuert durch Oozie Workload Orchestrator • Hue Shell, Cluster gesichert durch Kerberos (Authentifizierung)
  • 20. CRM Park Integration CDH Authentifikation Sqoop Kerberos (AD, MITv5) Real Time HBase Hive Oozie Automation Enduser HUE
  • 21. Cloudera • 2009 in Palo Alto gegründet • Cloudera's Distribution Including Hadoop • CDH4 / Cloudera Manager4 • > 280 Angestellte weltweit • Training, Consulting, Support, Development • Enterprise Tools
  • 22. Cloudera Manager • Automated Deployment • Reporting • Monitoring • Support Integration • Service Management • Log Management • Events and Alerts
  • 23. Danke! • alexander@cloudera.com • Twitter: @mapredit • Blog: mapredit.blogspot.com • http://www.cloudera.com/ • http://hadoop. apache.org/