Hadoop 2.0
The Next Level
Sascha Dittmann
Twitter: @SaschaDittmann
Blog: http://www.sascha-dittmann.de
Hadoop 2.0 - Was ist Neu?
• Apache Hadoop YARN + HDFS 2.0
• Apache Tez
• Apache Hive v0.12 und die Stinger Initiative
• Apache Ambari v1.4.1
• Apache HBase v0.96
Apache Hadoop YARN
Das neue Hadoop Daten-Betriebssystem
Yet Another Resource Negotiator (YARN)
Architektur von Hadoop 1.x
JobTracker
• Globale Ablaufplanung
• Globale Ressourcenverwaltung
TaskTracker
• Lokale Aufgabenverwaltung
Grenzen von Hadoop 1.x
Skalierbarkeit
• Max. Clustergröße ~5.000 Knoten
• Max. Parallele Aufgaben ~40.000
• Grobe Aufgabenverteilung
Integriertes MapReduce Framework
• Nicht-Optimale Ressourcennutzung
• Fehlende Unterstützung für Alternative Verarbeitung
Architektur von Hadoop 2.x
ResourceManager
• Globale Job-Ablaufplanung
• Globale, Erweiterbare
Ressourcenverwaltung
NodeManager
• Lokale Ressourcenverwaltung
Architektur von Hadoop 2.x
ApplicationMaster
• Framework-Spezifische Instanz
• Fordert Ressourcen beim
ResourceManager an
• Verantwortlich für die
Ausfallsicherheit
Container
• Verwenden gemeinsam genutzte
Ressourcen
Daten-Betriebssystem für Hadoop 2.0
Flexibel

Effizient

Verteilt

Neue Verarbeitungsmodel

Verdoppelt Verarbeitung

Stabile, verlässliche, verteilte
Basis

Native Datenverarbeitung IN Hadoop
BATCH
MapReduce

INTERAKTIV
Tez

ONLINE
HBase

STREAMING
Storm, S4, …

GRAPH
Giraph

MICROSOFT
REEF

SAS
LASR, HPA

YARN: Cluster Ressourcenverwaltung
HDFS2: Redundanter, Verlässlicher Speicher

ANDERE
HDFS 2.0
Next Generation Architecture
HDFS 2.0 – Was ist Neu?
• NameNode Hochverfügbarkeit
• HDFS Federation
• HDFS Snapshots
Point-In-Time Wiederherstellung
• NFSv3 Lese-/Schreibzugriff
• Verschlüsselung für das
HDFS Data Transfer Protokol
• ...
Veränderte Anforderungen
Stapelverarbeitung

Interaktive Zugriffe

• Hoher Durchsatz
• Sequentielle Datenzugriffe

• Schnelle Zugriffszeiten
• Wahlfreier / Direkter Zugriffe
Data Nodes - Speichermedien
• Bestimmte Speichermedien nutzen
• Dateien Cachen
Quorum Journal Management
Before QJM

Shared Edits

• Shared Storage
• Grenzen: Spezielle Hardware, Komplexe Konfiguration…
JournalNode

QJM

JournalNode

JournalNode

Read

Write

• Quorum schickt das Log an spez. Dienste (JournalNodes)
• Paxos-ähnliches Protokol
NameNode

NameNode

JournalNodes

Active

• Leichtgewichtig, Kann z.B. auf NN, JT oder RM installiert werden
• Empfohlene Anzahl: 3 oder 5
DataNode

Block
Reports to
Active &
Standby

DataNode

...
..

Standby

DataNode
Apache Tez
Ein neues Kapitel der Datenverarbeitung in Hadoop
Hive/Pig Queries
Classic (MapReduce)
Job 1

Apache Tez

Mapper

Mapper

Reducer

Job 2

Mapper

Mapper

Job

Mapper

Mapper

Reducer

Reducer

Reducer
Job 3

Mapper

Mapper

Reducer

Mapper

Join
Apache Hive v0.12
Hive – Was ist Neu?
• HiveQL angleichen an andere SQL-Sprachen
• Skalierverhalten
• Geschwindigkeit (100mal schneller als V1.x)
Demo

Hive Speed Test
Apache Ambari v1.4.1
Ambari – Was ist Neu?
• YARN Unterstützung
(Konfiguration & Überwachung)
• NameNode HA Unterstützung
• JDK 7
• Vereinfachte Installation
• SCCM als Client
•…
YARN Unterstützung
Apache HBase v0.96
HBase – Was ist Neu?
• Läuft jetzt aus Windows
• Verringerte MeantimeToRecover <1 Min
• Snapshots
• Metrics Framework
• Intergration Testing Infrastruktur
•…
Ressourcen
• HDInsight Video-Podcast
RSS: http://feeds.feedburner.com/HDInsightPodcast
YouTube: http://www.youtube.com/user/HDInsightPodcast
• Windows Azure HDInsight
http://www.windowsazure.com/en-us/services/hdinsight/
• HDP for Windows
http://hortonworks.com/products/hdp-windows/
• Meine HDInsight Blog Posts
http://www.sascha-dittmann.de/?tag=/HDInsight
Vielen
Dank!
Sascha Dittmann
Twitter: @SaschaDittmann
Blog: http://www.sascha-dittmann.de

Hadoop 2.0 - The Next Level

  • 1.
    Hadoop 2.0 The NextLevel Sascha Dittmann Twitter: @SaschaDittmann Blog: http://www.sascha-dittmann.de
  • 2.
    Hadoop 2.0 -Was ist Neu? • Apache Hadoop YARN + HDFS 2.0 • Apache Tez • Apache Hive v0.12 und die Stinger Initiative • Apache Ambari v1.4.1 • Apache HBase v0.96
  • 3.
    Apache Hadoop YARN Dasneue Hadoop Daten-Betriebssystem
  • 4.
    Yet Another ResourceNegotiator (YARN)
  • 5.
    Architektur von Hadoop1.x JobTracker • Globale Ablaufplanung • Globale Ressourcenverwaltung TaskTracker • Lokale Aufgabenverwaltung
  • 6.
    Grenzen von Hadoop1.x Skalierbarkeit • Max. Clustergröße ~5.000 Knoten • Max. Parallele Aufgaben ~40.000 • Grobe Aufgabenverteilung Integriertes MapReduce Framework • Nicht-Optimale Ressourcennutzung • Fehlende Unterstützung für Alternative Verarbeitung
  • 7.
    Architektur von Hadoop2.x ResourceManager • Globale Job-Ablaufplanung • Globale, Erweiterbare Ressourcenverwaltung NodeManager • Lokale Ressourcenverwaltung
  • 8.
    Architektur von Hadoop2.x ApplicationMaster • Framework-Spezifische Instanz • Fordert Ressourcen beim ResourceManager an • Verantwortlich für die Ausfallsicherheit Container • Verwenden gemeinsam genutzte Ressourcen
  • 9.
    Daten-Betriebssystem für Hadoop2.0 Flexibel Effizient Verteilt Neue Verarbeitungsmodel Verdoppelt Verarbeitung Stabile, verlässliche, verteilte Basis Native Datenverarbeitung IN Hadoop BATCH MapReduce INTERAKTIV Tez ONLINE HBase STREAMING Storm, S4, … GRAPH Giraph MICROSOFT REEF SAS LASR, HPA YARN: Cluster Ressourcenverwaltung HDFS2: Redundanter, Verlässlicher Speicher ANDERE
  • 10.
  • 11.
    HDFS 2.0 –Was ist Neu? • NameNode Hochverfügbarkeit • HDFS Federation • HDFS Snapshots Point-In-Time Wiederherstellung • NFSv3 Lese-/Schreibzugriff • Verschlüsselung für das HDFS Data Transfer Protokol • ...
  • 12.
    Veränderte Anforderungen Stapelverarbeitung Interaktive Zugriffe •Hoher Durchsatz • Sequentielle Datenzugriffe • Schnelle Zugriffszeiten • Wahlfreier / Direkter Zugriffe
  • 13.
    Data Nodes -Speichermedien • Bestimmte Speichermedien nutzen • Dateien Cachen
  • 14.
    Quorum Journal Management BeforeQJM Shared Edits • Shared Storage • Grenzen: Spezielle Hardware, Komplexe Konfiguration… JournalNode QJM JournalNode JournalNode Read Write • Quorum schickt das Log an spez. Dienste (JournalNodes) • Paxos-ähnliches Protokol NameNode NameNode JournalNodes Active • Leichtgewichtig, Kann z.B. auf NN, JT oder RM installiert werden • Empfohlene Anzahl: 3 oder 5 DataNode Block Reports to Active & Standby DataNode ... .. Standby DataNode
  • 15.
    Apache Tez Ein neuesKapitel der Datenverarbeitung in Hadoop
  • 16.
    Hive/Pig Queries Classic (MapReduce) Job1 Apache Tez Mapper Mapper Reducer Job 2 Mapper Mapper Job Mapper Mapper Reducer Reducer Reducer Job 3 Mapper Mapper Reducer Mapper Join
  • 17.
  • 18.
    Hive – Wasist Neu? • HiveQL angleichen an andere SQL-Sprachen • Skalierverhalten • Geschwindigkeit (100mal schneller als V1.x)
  • 19.
  • 20.
  • 21.
    Ambari – Wasist Neu? • YARN Unterstützung (Konfiguration & Überwachung) • NameNode HA Unterstützung • JDK 7 • Vereinfachte Installation • SCCM als Client •…
  • 22.
  • 23.
  • 24.
    HBase – Wasist Neu? • Läuft jetzt aus Windows • Verringerte MeantimeToRecover <1 Min • Snapshots • Metrics Framework • Intergration Testing Infrastruktur •…
  • 25.
    Ressourcen • HDInsight Video-Podcast RSS:http://feeds.feedburner.com/HDInsightPodcast YouTube: http://www.youtube.com/user/HDInsightPodcast • Windows Azure HDInsight http://www.windowsazure.com/en-us/services/hdinsight/ • HDP for Windows http://hortonworks.com/products/hdp-windows/ • Meine HDInsight Blog Posts http://www.sascha-dittmann.de/?tag=/HDInsight
  • 26.