SlideShare ist ein Scribd-Unternehmen logo
“Big Data” mit
   Apache Hadoop
           Alexander Lorenz
Customer Operations Engineer, Cloudera INC
         Muenchen, 18. April 2012




                                             1
Herausforderungen




Größe   Veränderungen   Struktur



                                   2
Beispiele
•   Web Logs            •   Verbindungsdaten

•   RFID                •   Astronomie

•   Social Networks     •   Genetik

•   Webseiten           •   Überwachung

•   Dokumente           •   Medizin

•   Such-Indices        •   Bilder,Videos




                                               3
Datenmengen

• Ebay: 5 PB, Search Optimization
• Facebook: 30 PB, Logs, Reports
• Walmart, 2.5 PB, Customer Transactions
          http://wiki.apache.org/hadoop/PoweredBy
             http://en.wikipedia.org/wiki/Big_data



                                                     4
10 Petabytes




http://blog.backblaze.com/2011/01/05/10-petabytes-visualized/




                                                                5
Etwas Geschichte

Dateisystem       GFS          HDFS

Verarbeitung   MapReduce     MapReduce

 RealTime       BigTable       HBase

   Lizenz      nicht offen    Apache



                                         6
Apache Hadoop
• Software Framework für grosse Mengen an
  unstrukturierten Daten
• Apache-Lizenz
• Zwei Kern-Komponenten
 • HDFS: Verteilte Datenspeicherung
 • MapReduce:Verteilte Datenverarbeitung
                                            7
Hadoop Cluster
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node
Data Node     Data Node   Data Node    Data Node


       Data Node: 4-16 Cores, 4-16 Disks,
        8-64 GB RAM, 1-10GB Network


                                                   8
Wo?
• Eigenes Rechenzentrum
• Dienstleister des Vertrauens
• Cloud-Dienstleister
 • Amazon
 • Rackspace


                                 9
Hadoop Distributed
      File System
                           Datei




Block    Block   Block     Block     Block   Block    Block




  Data Node              Data Node              Data Node




                                                              10
MapReduce
                 Daten




RDBMS    Query




                 Daten




Hadoop   Query




                         11
Eigenschaften
                    HDFS   MapReduce

   Verteilung        ✔        ✔


Ausfallsicherheit    ✔        ✔


 Skalierbarkeit      ✔        ✔



                                       12
Hadoop-Ökosystem
         SQL               Scripts            HBase
                                                      Whirr
         Hive               Pig               Oozie


               MapReduce                                Avro
                                        Java API
                 HDFS
                                                 eeper
                                             Zook
 Sqoop           Flume     Connectors                    Hue


 RDBMS            Logs            ...          Mahout




                                                               13
Cloudera
• 2009 in Palo Alto gegründet
• Cloudera's Distribution Including Hadoop
 • CDH4 Beta 1 verfügbar
• > 200 Angestellte weltweit
• Training, Consulting, Support, Development
• Enterprise Tools
                                               14
Cloudera Manager
•   Automated Deployment   •   Reporting

•   Monitoring             •   Support Integration

•   Service Management

•   Log Management

•   Events and Alerts




                                                     15
Anwendungsbeispiele



                      16
Risiko Management

• Problem: Bewertung von Kunden und
  Projekten
• Lösung: Finanzhistorie, Kommunikation,
  Mustererkennung
• Anwender: Banken,Versicherungen

                                           17
Empfehlungen

• Problem: Passende Produkte für Kunden
  empfehlen
• Lösung: Geschmack durch Verhalten aller
  Kunden ermitteln, Muster erkennen,
  Statistische Analyse
• Anwender: eCommerce, Advertising

                                            18
Graph-Analyse

• Problem: Flaschenhälse oder Fehler in
  Netzwerken im Voraus erkennen
• Lösung: Netzwerkverkehr auswerten und
  statistisch aufbereiten
• Anwender: Rechenzentren, Telcos,
  Multiserverbetreiber, Portale



                                          19
Gefahrenerkennung

• Problem: Spam, Kreditkartenmissbrauch
• Lösung: Mustererkennung, Klassifizierung,
  heuristische Analyse
• Anwender: ISPs, Banken


                                             20
Textanalysen

• Problem: Bedeutung von Text erkennen
• Lösung: Schlüsselworte, Zusammenhänge
  erkennen
• Anwender: eCommerce


                                          21
Danke!
• alexander@cloudera.com
• Twitter: @mapredit
• Blog: mapredit.blogspot.com
• http://www.cloudera.com/
• http://apache.hadoop.org/
• http://www.shs-viveon.com
                                22

Weitere ähnliche Inhalte

Was ist angesagt?

Apache Cassandra - Einführung
Apache Cassandra - EinführungApache Cassandra - Einführung
Apache Cassandra - Einführung
Andreas Finke
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
inovex GmbH
 
MongoDB für Java Programmierer (JUGKA, 11.12.13)
MongoDB für Java Programmierer (JUGKA, 11.12.13)MongoDB für Java Programmierer (JUGKA, 11.12.13)
MongoDB für Java Programmierer (JUGKA, 11.12.13)
Uwe Printz
 
Das Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQLDas Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQL
MongoDB
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
KurtStockinger
 
Back to Basics - Webinar 6: Produktivsetzung einer Anwendung
Back to Basics - Webinar 6: Produktivsetzung einer AnwendungBack to Basics - Webinar 6: Produktivsetzung einer Anwendung
Back to Basics - Webinar 6: Produktivsetzung einer Anwendung
MongoDB
 
Ceph Object Store
Ceph Object StoreCeph Object Store
Ceph Object Store
Daniel Schneller
 
Einführung in Elasticsearch
Einführung in ElasticsearchEinführung in Elasticsearch
Einführung in Elasticsearch
Florian Hopf
 
Streaming Plattformen und die Qual der Wahl
Streaming Plattformen und die Qual der WahlStreaming Plattformen und die Qual der Wahl
Streaming Plattformen und die Qual der Wahl
Matthias Niehoff
 
Portfolio 2016
Portfolio 2016Portfolio 2016
Portfolio 2016
Sascha Oehl
 
Realtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
Realtime BigData Step by Step mit Lambda, Kafka, Storm und HadoopRealtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
Realtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
Valentin Zacharias
 

Was ist angesagt? (11)

Apache Cassandra - Einführung
Apache Cassandra - EinführungApache Cassandra - Einführung
Apache Cassandra - Einführung
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
 
MongoDB für Java Programmierer (JUGKA, 11.12.13)
MongoDB für Java Programmierer (JUGKA, 11.12.13)MongoDB für Java Programmierer (JUGKA, 11.12.13)
MongoDB für Java Programmierer (JUGKA, 11.12.13)
 
Das Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQLDas Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQL
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
Back to Basics - Webinar 6: Produktivsetzung einer Anwendung
Back to Basics - Webinar 6: Produktivsetzung einer AnwendungBack to Basics - Webinar 6: Produktivsetzung einer Anwendung
Back to Basics - Webinar 6: Produktivsetzung einer Anwendung
 
Ceph Object Store
Ceph Object StoreCeph Object Store
Ceph Object Store
 
Einführung in Elasticsearch
Einführung in ElasticsearchEinführung in Elasticsearch
Einführung in Elasticsearch
 
Streaming Plattformen und die Qual der Wahl
Streaming Plattformen und die Qual der WahlStreaming Plattformen und die Qual der Wahl
Streaming Plattformen und die Qual der Wahl
 
Portfolio 2016
Portfolio 2016Portfolio 2016
Portfolio 2016
 
Realtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
Realtime BigData Step by Step mit Lambda, Kafka, Storm und HadoopRealtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
Realtime BigData Step by Step mit Lambda, Kafka, Storm und Hadoop
 

Andere mochten auch

MapReduce & Apache Hadoop
MapReduce & Apache HadoopMapReduce & Apache Hadoop
MapReduce & Apache Hadoop
Oliver Fischer
 
Apache drill
Apache drillApache drill
Apache drill
MapR Technologies
 
Oracle OpenWorld - Getting started with MySQL Cluster
Oracle OpenWorld - Getting started with MySQL ClusterOracle OpenWorld - Getting started with MySQL Cluster
Oracle OpenWorld - Getting started with MySQL Cluster
Benedita Paúl Vasconcelos
 
Introduction to Hadoop : A bird eye's view | Abhishek Mukherjee
Introduction to Hadoop : A bird eye's view | Abhishek MukherjeeIntroduction to Hadoop : A bird eye's view | Abhishek Mukherjee
Introduction to Hadoop : A bird eye's view | Abhishek Mukherjee
FinTechopedia
 
Webinar: Kennzahlen in der Produktion - gewusst wie!
Webinar: Kennzahlen in der Produktion - gewusst wie!Webinar: Kennzahlen in der Produktion - gewusst wie!
Webinar: Kennzahlen in der Produktion - gewusst wie!
Trebing & Himstedt Prozeßautomation GmbH & Co. KG
 
The New Data Imperative
The New Data ImperativeThe New Data Imperative
The New Data Imperative
Holly Ross
 
ConnectingUp Keynote: Leading Change
ConnectingUp Keynote: Leading ChangeConnectingUp Keynote: Leading Change
ConnectingUp Keynote: Leading Change
Holly Ross
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
OPITZ CONSULTING Deutschland
 
The Fourth Paradigm Book
The Fourth Paradigm BookThe Fourth Paradigm Book
The Fourth Paradigm Book
SOCIEDAD JULIO GARAVITO
 
Data Science and the Fourth Paradigm by Torben Bach Pedersen
Data Science and the Fourth Paradigm by Torben Bach PedersenData Science and the Fourth Paradigm by Torben Bach Pedersen
Data Science and the Fourth Paradigm by Torben Bach Pedersen
InfinIT - Innovationsnetværket for it
 
The fourth paradigm in safety
The fourth paradigm in safetyThe fourth paradigm in safety
The fourth paradigm in safety
Johan Roels
 
HBase introduction talk
HBase introduction talkHBase introduction talk
HBase introduction talk
Hayden Marchant
 
Real-Time-Analytics mit Spark und Cassandra
Real-Time-Analytics mit Spark und CassandraReal-Time-Analytics mit Spark und Cassandra
Real-Time-Analytics mit Spark und Cassandra
Thomas Mann
 
Endress + Hauser: Echtzeit Performance Monitoring erfolgreich umgesetzt
Endress + Hauser: Echtzeit Performance Monitoring erfolgreich umgesetzt Endress + Hauser: Echtzeit Performance Monitoring erfolgreich umgesetzt
Endress + Hauser: Echtzeit Performance Monitoring erfolgreich umgesetzt
Dynatrace
 
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
Edureka!
 
Stanford CS347 Guest Lecture: Apache Spark
Stanford CS347 Guest Lecture: Apache SparkStanford CS347 Guest Lecture: Apache Spark
Stanford CS347 Guest Lecture: Apache Spark
Reynold Xin
 
(Berkeley CS186 guest lecture) Big Data Analytics Systems: What Goes Around C...
(Berkeley CS186 guest lecture) Big Data Analytics Systems: What Goes Around C...(Berkeley CS186 guest lecture) Big Data Analytics Systems: What Goes Around C...
(Berkeley CS186 guest lecture) Big Data Analytics Systems: What Goes Around C...
Reynold Xin
 
The fourth paradigm: data intensive scientific discovery - Jisc Digifest 2016
The fourth paradigm: data intensive scientific discovery - Jisc Digifest 2016The fourth paradigm: data intensive scientific discovery - Jisc Digifest 2016
The fourth paradigm: data intensive scientific discovery - Jisc Digifest 2016
Jisc
 
Introduction to MapReduce | MapReduce Architecture | MapReduce Fundamentals
Introduction to MapReduce | MapReduce Architecture | MapReduce FundamentalsIntroduction to MapReduce | MapReduce Architecture | MapReduce Fundamentals
Introduction to MapReduce | MapReduce Architecture | MapReduce Fundamentals
Skillspeed
 
Hadoop MapReduce Fundamentals
Hadoop MapReduce FundamentalsHadoop MapReduce Fundamentals
Hadoop MapReduce Fundamentals
Lynn Langit
 

Andere mochten auch (20)

MapReduce & Apache Hadoop
MapReduce & Apache HadoopMapReduce & Apache Hadoop
MapReduce & Apache Hadoop
 
Apache drill
Apache drillApache drill
Apache drill
 
Oracle OpenWorld - Getting started with MySQL Cluster
Oracle OpenWorld - Getting started with MySQL ClusterOracle OpenWorld - Getting started with MySQL Cluster
Oracle OpenWorld - Getting started with MySQL Cluster
 
Introduction to Hadoop : A bird eye's view | Abhishek Mukherjee
Introduction to Hadoop : A bird eye's view | Abhishek MukherjeeIntroduction to Hadoop : A bird eye's view | Abhishek Mukherjee
Introduction to Hadoop : A bird eye's view | Abhishek Mukherjee
 
Webinar: Kennzahlen in der Produktion - gewusst wie!
Webinar: Kennzahlen in der Produktion - gewusst wie!Webinar: Kennzahlen in der Produktion - gewusst wie!
Webinar: Kennzahlen in der Produktion - gewusst wie!
 
The New Data Imperative
The New Data ImperativeThe New Data Imperative
The New Data Imperative
 
ConnectingUp Keynote: Leading Change
ConnectingUp Keynote: Leading ChangeConnectingUp Keynote: Leading Change
ConnectingUp Keynote: Leading Change
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
 
The Fourth Paradigm Book
The Fourth Paradigm BookThe Fourth Paradigm Book
The Fourth Paradigm Book
 
Data Science and the Fourth Paradigm by Torben Bach Pedersen
Data Science and the Fourth Paradigm by Torben Bach PedersenData Science and the Fourth Paradigm by Torben Bach Pedersen
Data Science and the Fourth Paradigm by Torben Bach Pedersen
 
The fourth paradigm in safety
The fourth paradigm in safetyThe fourth paradigm in safety
The fourth paradigm in safety
 
HBase introduction talk
HBase introduction talkHBase introduction talk
HBase introduction talk
 
Real-Time-Analytics mit Spark und Cassandra
Real-Time-Analytics mit Spark und CassandraReal-Time-Analytics mit Spark und Cassandra
Real-Time-Analytics mit Spark und Cassandra
 
Endress + Hauser: Echtzeit Performance Monitoring erfolgreich umgesetzt
Endress + Hauser: Echtzeit Performance Monitoring erfolgreich umgesetzt Endress + Hauser: Echtzeit Performance Monitoring erfolgreich umgesetzt
Endress + Hauser: Echtzeit Performance Monitoring erfolgreich umgesetzt
 
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
Which Hadoop Distribution to use: Apache, Cloudera, MapR or HortonWorks?
 
Stanford CS347 Guest Lecture: Apache Spark
Stanford CS347 Guest Lecture: Apache SparkStanford CS347 Guest Lecture: Apache Spark
Stanford CS347 Guest Lecture: Apache Spark
 
(Berkeley CS186 guest lecture) Big Data Analytics Systems: What Goes Around C...
(Berkeley CS186 guest lecture) Big Data Analytics Systems: What Goes Around C...(Berkeley CS186 guest lecture) Big Data Analytics Systems: What Goes Around C...
(Berkeley CS186 guest lecture) Big Data Analytics Systems: What Goes Around C...
 
The fourth paradigm: data intensive scientific discovery - Jisc Digifest 2016
The fourth paradigm: data intensive scientific discovery - Jisc Digifest 2016The fourth paradigm: data intensive scientific discovery - Jisc Digifest 2016
The fourth paradigm: data intensive scientific discovery - Jisc Digifest 2016
 
Introduction to MapReduce | MapReduce Architecture | MapReduce Fundamentals
Introduction to MapReduce | MapReduce Architecture | MapReduce FundamentalsIntroduction to MapReduce | MapReduce Architecture | MapReduce Fundamentals
Introduction to MapReduce | MapReduce Architecture | MapReduce Fundamentals
 
Hadoop MapReduce Fundamentals
Hadoop MapReduce FundamentalsHadoop MapReduce Fundamentals
Hadoop MapReduce Fundamentals
 

Ähnlich wie Big Data mit Apache Hadoop

A NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterA NoSQL Summer - The Year After
A NoSQL Summer - The Year After
MeMo News AG
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
fun communications GmbH
 
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache HadoopBARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
Cloudera, Inc.
 
SQL on Hadoop für praktikables BI auf Big Data
SQL on Hadoop für praktikables BI auf Big DataSQL on Hadoop für praktikables BI auf Big Data
SQL on Hadoop für praktikables BI auf Big Data
inovex GmbH
 
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
inovex GmbH
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortrag
Ramon Wartala
 
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE Project
 
Oracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiOracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpi
Gunther Pippèrr
 
4×4: Big Data in der Cloud
4×4: Big Data in der Cloud4×4: Big Data in der Cloud
4×4: Big Data in der Cloud
Danny Linden
 
Cloud Computing - PaaS
Cloud Computing - PaaSCloud Computing - PaaS
Cloud Computing - PaaS
Thomas Bachmann
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
Rene Burgener
 
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
IKS Gesellschaft für Informations- und Kommunikationssysteme mbH
 
Ceph Introduction @GPN15
Ceph Introduction @GPN15Ceph Introduction @GPN15
Ceph Introduction @GPN15
m1no
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
Eduvision Ausbildungen
 
Hadoop und SAS für Einsteiger
Hadoop und SAS für EinsteigerHadoop und SAS für Einsteiger
Hadoop und SAS für Einsteiger
SAS in Deutschland, Österreich und der Schweiz
 
Business Intelligence, Big Data und Search - Drei Seiten einer Medaille?
Business Intelligence, Big Data und Search - Drei Seiten einer Medaille?Business Intelligence, Big Data und Search - Drei Seiten einer Medaille?
Business Intelligence, Big Data und Search - Drei Seiten einer Medaille?
inovex GmbH
 
Parse: Backend as a Service @ AllFacebook Developer Conference
Parse: Backend as a Service @ AllFacebook Developer ConferenceParse: Backend as a Service @ AllFacebook Developer Conference
Parse: Backend as a Service @ AllFacebook Developer Conference
AllFacebook.de
 
xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012
xplosion_de
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Gunther Pippèrr
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
OMM Solutions GmbH
 

Ähnlich wie Big Data mit Apache Hadoop (20)

A NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterA NoSQL Summer - The Year After
A NoSQL Summer - The Year After
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
 
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache HadoopBARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
 
SQL on Hadoop für praktikables BI auf Big Data
SQL on Hadoop für praktikables BI auf Big DataSQL on Hadoop für praktikables BI auf Big Data
SQL on Hadoop für praktikables BI auf Big Data
 
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
Sql on-hadoop-fuer-praktikables-bi-auf-big-data-zorn-benz-osbi-workshop-05.03...
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortrag
 
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
 
Oracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiOracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpi
 
4×4: Big Data in der Cloud
4×4: Big Data in der Cloud4×4: Big Data in der Cloud
4×4: Big Data in der Cloud
 
Cloud Computing - PaaS
Cloud Computing - PaaSCloud Computing - PaaS
Cloud Computing - PaaS
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
 
Ceph Introduction @GPN15
Ceph Introduction @GPN15Ceph Introduction @GPN15
Ceph Introduction @GPN15
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
 
Hadoop und SAS für Einsteiger
Hadoop und SAS für EinsteigerHadoop und SAS für Einsteiger
Hadoop und SAS für Einsteiger
 
Business Intelligence, Big Data und Search - Drei Seiten einer Medaille?
Business Intelligence, Big Data und Search - Drei Seiten einer Medaille?Business Intelligence, Big Data und Search - Drei Seiten einer Medaille?
Business Intelligence, Big Data und Search - Drei Seiten einer Medaille?
 
Parse: Backend as a Service @ AllFacebook Developer Conference
Parse: Backend as a Service @ AllFacebook Developer ConferenceParse: Backend as a Service @ AllFacebook Developer Conference
Parse: Backend as a Service @ AllFacebook Developer Conference
 
xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
 

Mehr von Alexander Alten

Is big data dead?
Is big data dead?Is big data dead?
Is big data dead?
Alexander Alten
 
Creating a value chain with IoT
Creating a value chain with IoTCreating a value chain with IoT
Creating a value chain with IoT
Alexander Alten
 
Big Data in an modern Enterprise
Big Data in an modern EnterpriseBig Data in an modern Enterprise
Big Data in an modern Enterprise
Alexander Alten
 
The Future of Energy
The Future of EnergyThe Future of Energy
The Future of Energy
Alexander Alten
 
Beyond Hadoop and MapReduce
Beyond Hadoop and MapReduceBeyond Hadoop and MapReduce
Beyond Hadoop and MapReduce
Alexander Alten
 
Sentry - An Introduction
Sentry - An Introduction Sentry - An Introduction
Sentry - An Introduction
Alexander Alten
 
Cloudera Impala - HUG Karlsruhe, July 04, 2013
Cloudera Impala - HUG Karlsruhe, July 04, 2013Cloudera Impala - HUG Karlsruhe, July 04, 2013
Cloudera Impala - HUG Karlsruhe, July 04, 2013
Alexander Alten
 
Bi with apache hadoop(en)
Bi with apache hadoop(en)Bi with apache hadoop(en)
Bi with apache hadoop(en)
Alexander Alten
 
Flume and HBase
Flume and HBase Flume and HBase
Flume and HBase
Alexander Alten
 
Highlights Of Sqoop2
Highlights Of Sqoop2Highlights Of Sqoop2
Highlights Of Sqoop2
Alexander Alten
 
Apache Flume (NG)
Apache Flume (NG)Apache Flume (NG)
Apache Flume (NG)
Alexander Alten
 
Filesystems, RPC and HDFS
Filesystems, RPC and HDFSFilesystems, RPC and HDFS
Filesystems, RPC and HDFS
Alexander Alten
 

Mehr von Alexander Alten (12)

Is big data dead?
Is big data dead?Is big data dead?
Is big data dead?
 
Creating a value chain with IoT
Creating a value chain with IoTCreating a value chain with IoT
Creating a value chain with IoT
 
Big Data in an modern Enterprise
Big Data in an modern EnterpriseBig Data in an modern Enterprise
Big Data in an modern Enterprise
 
The Future of Energy
The Future of EnergyThe Future of Energy
The Future of Energy
 
Beyond Hadoop and MapReduce
Beyond Hadoop and MapReduceBeyond Hadoop and MapReduce
Beyond Hadoop and MapReduce
 
Sentry - An Introduction
Sentry - An Introduction Sentry - An Introduction
Sentry - An Introduction
 
Cloudera Impala - HUG Karlsruhe, July 04, 2013
Cloudera Impala - HUG Karlsruhe, July 04, 2013Cloudera Impala - HUG Karlsruhe, July 04, 2013
Cloudera Impala - HUG Karlsruhe, July 04, 2013
 
Bi with apache hadoop(en)
Bi with apache hadoop(en)Bi with apache hadoop(en)
Bi with apache hadoop(en)
 
Flume and HBase
Flume and HBase Flume and HBase
Flume and HBase
 
Highlights Of Sqoop2
Highlights Of Sqoop2Highlights Of Sqoop2
Highlights Of Sqoop2
 
Apache Flume (NG)
Apache Flume (NG)Apache Flume (NG)
Apache Flume (NG)
 
Filesystems, RPC and HDFS
Filesystems, RPC and HDFSFilesystems, RPC and HDFS
Filesystems, RPC and HDFS
 

Big Data mit Apache Hadoop

  • 1. “Big Data” mit Apache Hadoop Alexander Lorenz Customer Operations Engineer, Cloudera INC Muenchen, 18. April 2012 1
  • 2. Herausforderungen Größe Veränderungen Struktur 2
  • 3. Beispiele • Web Logs • Verbindungsdaten • RFID • Astronomie • Social Networks • Genetik • Webseiten • Überwachung • Dokumente • Medizin • Such-Indices • Bilder,Videos 3
  • 4. Datenmengen • Ebay: 5 PB, Search Optimization • Facebook: 30 PB, Logs, Reports • Walmart, 2.5 PB, Customer Transactions http://wiki.apache.org/hadoop/PoweredBy http://en.wikipedia.org/wiki/Big_data 4
  • 6. Etwas Geschichte Dateisystem GFS HDFS Verarbeitung MapReduce MapReduce RealTime BigTable HBase Lizenz nicht offen Apache 6
  • 7. Apache Hadoop • Software Framework für grosse Mengen an unstrukturierten Daten • Apache-Lizenz • Zwei Kern-Komponenten • HDFS: Verteilte Datenspeicherung • MapReduce:Verteilte Datenverarbeitung 7
  • 8. Hadoop Cluster Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node Data Node: 4-16 Cores, 4-16 Disks, 8-64 GB RAM, 1-10GB Network 8
  • 9. Wo? • Eigenes Rechenzentrum • Dienstleister des Vertrauens • Cloud-Dienstleister • Amazon • Rackspace 9
  • 10. Hadoop Distributed File System Datei Block Block Block Block Block Block Block Data Node Data Node Data Node 10
  • 11. MapReduce Daten RDBMS Query Daten Hadoop Query 11
  • 12. Eigenschaften HDFS MapReduce Verteilung ✔ ✔ Ausfallsicherheit ✔ ✔ Skalierbarkeit ✔ ✔ 12
  • 13. Hadoop-Ökosystem SQL Scripts HBase Whirr Hive Pig Oozie MapReduce Avro Java API HDFS eeper Zook Sqoop Flume Connectors Hue RDBMS Logs ... Mahout 13
  • 14. Cloudera • 2009 in Palo Alto gegründet • Cloudera's Distribution Including Hadoop • CDH4 Beta 1 verfügbar • > 200 Angestellte weltweit • Training, Consulting, Support, Development • Enterprise Tools 14
  • 15. Cloudera Manager • Automated Deployment • Reporting • Monitoring • Support Integration • Service Management • Log Management • Events and Alerts 15
  • 17. Risiko Management • Problem: Bewertung von Kunden und Projekten • Lösung: Finanzhistorie, Kommunikation, Mustererkennung • Anwender: Banken,Versicherungen 17
  • 18. Empfehlungen • Problem: Passende Produkte für Kunden empfehlen • Lösung: Geschmack durch Verhalten aller Kunden ermitteln, Muster erkennen, Statistische Analyse • Anwender: eCommerce, Advertising 18
  • 19. Graph-Analyse • Problem: Flaschenhälse oder Fehler in Netzwerken im Voraus erkennen • Lösung: Netzwerkverkehr auswerten und statistisch aufbereiten • Anwender: Rechenzentren, Telcos, Multiserverbetreiber, Portale 19
  • 20. Gefahrenerkennung • Problem: Spam, Kreditkartenmissbrauch • Lösung: Mustererkennung, Klassifizierung, heuristische Analyse • Anwender: ISPs, Banken 20
  • 21. Textanalysen • Problem: Bedeutung von Text erkennen • Lösung: Schlüsselworte, Zusammenhänge erkennen • Anwender: eCommerce 21
  • 22. Danke! • alexander@cloudera.com • Twitter: @mapredit • Blog: mapredit.blogspot.com • http://www.cloudera.com/ • http://apache.hadoop.org/ • http://www.shs-viveon.com 22