Apache Hadoop-based Services für Windows AzureSascha DittmannSoftware Developer / Solution ArchitectTwitter: @SaschaDittma...
Apache Hadoop & Co             Zookeeper    Pig
Hadoop Distributed File System           Cluster Startvorgang
Hadoop Distributed File System           Ausfall des Namenodes (Failover)
Hadoop Distributed File System       Benuteranfrage                        ①           ②     ②          ②
Hadoop Distributed File System Portable Operating System Interface (POSIX) Replikation auf mehrere Datenknotenjs> #ls in...
Map/Reduce DataNode   DataNode   DataNode   0067011990999991950051507004+68750                                  0043011990...
Map/Reduce DataNode   DataNode   DataNode   0067011990999991950051507004+68750                                  0043011990...
RDBMS vs. Map/Reduce                          RDBMS                  Map/ReduceDatenmenge                Gigabytes        ...
Apache Hadoop & Co             Zookeeper    Pig
Demos Hadoop Dashboard Interactive Console Remote Desktop Nutzung des WA Storage Map/Reduce via JavaScript C# Stream...
Cloud BloggersDie Blogs der deutschen Cloud Computing-CommunityLink: http://cloudbloggers.de
Nächste SlideShare
Wird geladen in …5
×

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Services für Windows Azure

815 Aufrufe

Veröffentlicht am

Wir leben in einem Datenzeitalter! Nach Schätzungen in 2006, betrug das weltweite "Datenuniversum" ca. 0.18 Zettabytes (1 ZB => 10 hoch 21 Bytes bzw. 1 Mrd. Terabytes). In 2011 hatte sich dieses Volumen sogar verzehnfacht (1,8 Zettabytes). Somit wird in vielen Anwendungsszenarien das Thema Big Data und Big Processing immer wichtiger.

Klassische relationale Datenbanksysteme, sowie Statistik und Visualisierungstools, sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die massiv parallel auf bis zu hunderten oder tausenden von Prozessoren bzw. Servern arbeitet.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
815
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
377
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Services für Windows Azure

  1. 1. Apache Hadoop-based Services für Windows AzureSascha DittmannSoftware Developer / Solution ArchitectTwitter: @SaschaDittmannBlog: http://www.sascha-dittmann.de
  2. 2. Apache Hadoop & Co Zookeeper Pig
  3. 3. Hadoop Distributed File System Cluster Startvorgang
  4. 4. Hadoop Distributed File System Ausfall des Namenodes (Failover)
  5. 5. Hadoop Distributed File System Benuteranfrage ① ② ② ②
  6. 6. Hadoop Distributed File System Portable Operating System Interface (POSIX) Replikation auf mehrere Datenknotenjs> #ls input/ncdcFound 9 itemsdrwxr-xr-x - Sascha supergroup 0 2012-04-24 13:01 /user/Sascha/input/ncdc/_distcp_logs_g0dedndrwxr-xr-x - Sascha supergroup 0 2012-04-24 12:04 /user/Sascha/input/ncdc/_distcp_logs_ofj0u6drwxr-xr-x - Sascha supergroup 0 2012-04-24 13:09 /user/Sascha/input/ncdc/alldrwxr-xr-x - Sascha supergroup 0 2012-04-24 13:01 /user/Sascha/input/ncdc/all2drwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/metadatadrwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/microdrwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/micro-tab-rw-r--r-- 3 Sascha supergroup 529 2012-04-23 13:06 /user/Sascha/input/ncdc/sample.txt-rw-r--r-- 3 Sascha supergroup 168 2012-04-23 13:06 /user/Sascha/input/ncdc/sample.txt.gz
  7. 7. Map/Reduce DataNode DataNode DataNode 0067011990999991950051507004+68750 0043011990999991950051512004+68750 0043011990999991950051518004+68750 0043012650999991949032412004+62300 0043012650999991949032418004+62300 1949,0 1952,-11 1950,22 Map Map Map 1950,55 1950,33 Sort Sort Sort 1949,0 1950,[22,33,55] Shuffle Shuffle Shuffle 1952,-11 Reduce 1949,0 1950,55 1952,-11
  8. 8. Map/Reduce DataNode DataNode DataNode 0067011990999991950051507004+68750 0043011990999991950051512004+68750 0043011990999991950051518004+68750 0043012650999991949032412004+62300 0043012650999991949032418004+62300 1949,0 1952,-11 1950,22 Map Map Map 1950,55 1950,33 1949,0 1952,-11 Combine Combine Combine 1950,55 1950,33 Sort Sort Sort 1949,0 1950,[33,55] Shuffle Shuffle Shuffle 1952,-11 Reduce 1949,0 1950,55 1952,-11
  9. 9. RDBMS vs. Map/Reduce RDBMS Map/ReduceDatenmenge Gigabytes PetabytesZugriff Interaktiv und Batch BatchLese- / Schreibzugriffe Viele Lese- und Einmaliges Schreiben Schreibzugriffe Viele LesezugriffeDatenstruktur Statisches Schema Dynamisches SchemaDatenintegrität Hoch NiedrigSkalierverhalten Nicht-Linear Linear
  10. 10. Apache Hadoop & Co Zookeeper Pig
  11. 11. Demos Hadoop Dashboard Interactive Console Remote Desktop Nutzung des WA Storage Map/Reduce via JavaScript C# Streaming Power Pivot
  12. 12. Cloud BloggersDie Blogs der deutschen Cloud Computing-CommunityLink: http://cloudbloggers.de

×