Hadoop Einführung
Dev Friday
Frankfurt
Every 2 Days We Create As Much Information
As We Did Up To 2003
Eric Schmidt
Weltweit
MongoDB
Hadoop
Cassandra
Google Trends
Deutschland
MongoDB
Hadoop
Cassandra
Google Trends
Einführung Hadoop Ausblick
Einführung
Big Data
3V
Volume
Data in Rest
Velocity
Data in Motion
Variety
Data in Many
Forms
Scale up vs. Scale out
many “small” nodesBig single node system
Advantages
Problems
• Transparent for database system
• Management complexity constant
• Expensive hardware
• Limited scalability
Advantages
Problems
• Less expensive hardware
• High scalability
• Load balancing necessary
• Distributed lock and replication

protocols
• Increased management complexity
• Data distribution necessary
• Increased error rate
Key-Value-Datenbanken
Dokumentenorientierte
Datenbanken
Spaltenorientierte Datenbanken Graph Datenbanken
Hadoop
Sqoop
Oozie
Flume
Hadoop
Pig
HBase
Mahout
Drill
Lucene
Hive
Spark
Ambari
HDFS
HCatalog
Kafka
Yarn
MapR
Zookeeper
Cassandra
Spark
COMPUTE,
SEARCH
ANALYTICS,
MACHINEL.
PERSIST
MONITOR,
ADMINISTER
DESCRIBE,
DEVELOP
INGEST,
PROPAGATE
Mahout Drill
OozieAmbari
FlumeKafka Sqoop
Pig
HBase
Hive
HDFS MapR
HCatalog
Lucene
Zookeeper
Cassandra
Spark
Name Node
Secondary Name
Node
Data Node Data Node ….. Data Node
Periodic check point
Master
Slave
HDFS
Name Node
Secondary Name
Node
Data Node Data Node ….. Data Node
Name Node verwaltet Verzeichnisse, Dateien im HDFS und Blöcke in den Data
Nodes
Data Nodes enthalten die eigentlichen Dateien und sind zuständig die
Auslieferung der Dateien für die Anfragen.
Master
Slave
Second. NN überprüft periodisch den NN und logt die checkpoints um den NN
bei Absturz neuzustarten.
HDFS
Job Tracker
Task Tracker Task Tracker ….. Task Tracker
Master
Slave
Map Reduce
Job Tracker
Task Tracker Task Tracker ….. Task Tracker
Master
Slave
Job Tracker verwaltet die Jobs und Ressourcen im Cluster
Task Tracker eigentliche Ausführung von MapReduce-Jobs zuständig.
Map Reduce
http://2.bp.blogspot.com/-o6GdA8CBDv0/T-g_H8Dso6I/AAAAAAAAAY4/B21YgDYvxM8/s1600/MR.png
Map Reduce
Demo
Ausblick
http://de.hortonworks.com/products/hortonworks-sandbox/#install
Ersten Schritte…
Download Hortonworks Sandbox
5GB
Danke
Akhlaq Malik

Hadoop Einführung @codecentric