SlideShare ist ein Scribd-Unternehmen logo
PASS Camp 2012


Big Data mit Microsoft (Teil 1)

Software Developer / Solution Architect
Twitter: @SaschaDittmann
Blog: http://www.sascha-dittmann.de
Was könnte das sein?


       180.000.000.000.000.000.000



     1.800.000.000.000.000.000.000
Weltweites Datenvolumen


       180.000.000.000.000.000.000
     = 0,18 ZB (Zettabytes) - Stand 2006


     1.800.000.000.000.000.000.000
      = 1,8 ZB (Zettabytes) - Stand 2011
Skalierung




    Vertikale Skalierung   Horizontale Skalierung
Apache Hadoop Ecosystem
                                      Oozie                                                    HBase / Cassandra
                                                               Traditional BI Tools
                                    (Workflow)                                              (Columnar NoSQL Databases)


                                               Hive
                                                           Cascading
                             Pig (Data      (Warehouse                       Apache
                                                         (programming                         Flume          Sqoop
                               Flow)         and Data                        Mahout
                                                             model)
                                              Access)
  Zookeeper (Coordination)




                                                                                                                         Avro (Serialization)
                                         HBase (Column DB)


                                                 MapReduce (Job Scheduling/Execution System)

                                                 Hadoop = MapReduce + HDFS
                                                                     HDFS
                                                         (Hadoop Distributed File System)
Apache Hadoop Ecosystem
                                                                                                     Visual Studio


                                                                         Oozie                                                              HBase / Cassandra
                                                                                                      Traditional BI Tools
                                                                       (Workflow)                                                      (Columnar NoSQL Databases)



                                                                                  Hive
                                                                                                  Cascading
                                                               Pig (Data       (Warehouse                            Apache
                                                                                                (programming                            Flume            Sqoop
                                                                 Flow)          and Data                             Mahout
                                                                                                    model)
                                                                                 Access)
                 Active Directory
 System Center




                                    Zookeeper (Coordination)




                                                                                                                                                                    Avro (Serialization)
                                                                            HBase (Column DB)


                                                                                         MapReduce (Job Scheduling/Execution System)


                                                                                                Hadoop = MapReduce + HDFS


                                                                                                            HDFS
                                                                                                (Hadoop Distributed File System)




                                                                                            Windows
Hadoop Distributed File System

Bootvorgang
Ausfallsicherheit
Benutzeranfrage
Hadoop Distributed File System

Bootvorgang
Ausfallsicherheit
Benutzeranfrage
Hadoop Distributed File System

Bootvorgang
Ausfallsicherheit
Benutzeranfrage
Hadoop Distributed File System

   Portable Operating System Interface (POSIX)
   Replikation auf mehrere Datenknoten
  js> #ls input/ncdc
  Found 9 items
  drwxr-xr-x - Sascha   supergroup   0 2012-04-24 13:01 /user/Sascha/input/ncdc/_distcp_logs_g0dedn
  drwxr-xr-x - Sascha   supergroup   0 2012-04-24 12:04 /user/Sascha/input/ncdc/_distcp_logs_ofj0u6
  drwxr-xr-x - Sascha   supergroup   0 2012-04-24 13:09 /user/Sascha/input/ncdc/all
  drwxr-xr-x - Sascha   supergroup   0 2012-04-24 13:01 /user/Sascha/input/ncdc/all2
  drwxr-xr-x - Sascha   supergroup   0 2012-04-23 13:06 /user/Sascha/input/ncdc/metadata
  drwxr-xr-x - Sascha   supergroup   0 2012-04-23 13:06 /user/Sascha/input/ncdc/micro
  drwxr-xr-x - Sascha   supergroup   0 2012-04-23 13:06 /user/Sascha/input/ncdc/micro-tab
  -rw-r--r-- 3 Sascha   supergroup   529 2012-04-23 13:06 /user/Sascha/input/ncdc/sample.txt
  -rw-r--r-- 3 Sascha   supergroup   168 2012-04-23 13:06 /user/Sascha/input/ncdc/sample.txt.gz
Map / Reduce

   DataNode   DataNode   DataNode   0067011990999991950051507004+68750
                                    0043011990999991950051512004+68750
                                    0043011990999991950051518004+68750
                                    0043012650999991949032412004+62300
                                    0043012650999991949032418004+62300




                                    1949,0
                                                           1952,-11
                                    1950,22
     Map        Map        Map      1950,55
                                                           1950,33




     Sort       Sort       Sort     1949,0
                                    1950,[22,33,55]
    Shuffle    Shuffle    Shuffle   1952,-11




               Reduce
                                    1949,0
                                    1950,55
                                    1952,-11
Combine Methode

  DataNode   DataNode   DataNode   0067011990999991950051507004+68750
                                   0043011990999991950051512004+68750
                                   0043011990999991950051518004+68750
                                   0043012650999991949032412004+62300
                                   0043012650999991949032418004+62300




                                   1949,0
                                                          1952,-11
                                   1950,22
    Map        Map        Map      1950,55
                                                          1950,33




                                   1949,0                 1952,-11
   Combine    Combine    Combine   1950,55                1950,33




    Sort       Sort       Sort     1949,0
                                   1950,[33,55]
   Shuffle    Shuffle    Shuffle   1952,-11




              Reduce
                                   1949,0
                                   1950,55
                                   1952,-11
RDBMS vs. Hadoop


                           RDBMS                  Hadoop
 Datenmenge                Gigabytes              Petabytes
 Zugriff                   Interaktiv und Batch   Batch
 Lese- / Schreibzugriffe   Viele Lese- und        Einmaliges Schreiben
                           Schreibzugriffe        Viele Lesezugriffe
 Datenstruktur             Statisches Schema      Dynamisches Schema
 Datenintegrität           Hoch                   Niedrig
 Skalierungsverhalten      Nicht-Linear           Linear
Demo‘s


    Hadoop Umgebung
    HDFS
    Map/Reduce via JavaScript
    Data Streaming mit C#
    Power Pivot
Pig Latin
   pig
   .from("/user/Sascha/input/texte")
   .mapReduce("/user/…/WordCount.js"
               , "Woerter, Anzahl:long")
   .orderBy("Anzahl DESC")
   .take(15)
   .to("/user/Sascha/output/Top15Woerter")

Weitere ähnliche Inhalte

Ähnlich wie PASS Camp 2012 - Big Data mit Microsoft (Teil 1)

Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentric
imalik8088
 
Tom Gansor: Agile Business Intelligence
Tom Gansor: Agile Business IntelligenceTom Gansor: Agile Business Intelligence
Tom Gansor: Agile Business Intelligence
Stephan Trahasch
 
How to use Big Data
How to use Big DataHow to use Big Data
How to use Big Data
Digicomp Academy AG
 
SAP BW/4HANA - Ein Überblick
SAP BW/4HANA - Ein ÜberblickSAP BW/4HANA - Ein Überblick
SAP BW/4HANA - Ein Überblick
ISR Information Products AG
 
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE Project
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
fun communications GmbH
 
SAS Forum Switzerland 2015: Big Data - Guido Oswald
SAS Forum Switzerland 2015: Big Data - Guido OswaldSAS Forum Switzerland 2015: Big Data - Guido Oswald
SAS Forum Switzerland 2015: Big Data - Guido Oswald
Guido Oswald
 
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)inovex GmbH
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
inovex GmbH
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
Sven Schlarb
 
Big Data mit Apache Hadoop
Big Data mit Apache HadoopBig Data mit Apache Hadoop
Big Data mit Apache HadoopAlexander Alten
 
Webanwendungen mit Apache HBase entwickeln
Webanwendungen mit Apache HBase entwickelnWebanwendungen mit Apache HBase entwickeln
Webanwendungen mit Apache HBase entwickeln
Roman Roelofsen
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
Trivadis
 
Warum sap hana sql data warehousing
Warum sap hana sql data warehousingWarum sap hana sql data warehousing
Warum sap hana sql data warehousing
ISR Information Products AG
 
mongoDB im Einsatz - Grundlagen
mongoDB im Einsatz - GrundlagenmongoDB im Einsatz - Grundlagen
mongoDB im Einsatz - Grundlagen
inovex GmbH
 
Hazelcast bei der SBB (jug.ch)
Hazelcast bei der SBB (jug.ch)Hazelcast bei der SBB (jug.ch)
Hazelcast bei der SBB (jug.ch)
Korhan Gülseven
 
Rails in Production - telewebber Architektur
Rails in Production - telewebber ArchitekturRails in Production - telewebber Architektur
Rails in Production - telewebber Architektur
Heiko Seebach
 

Ähnlich wie PASS Camp 2012 - Big Data mit Microsoft (Teil 1) (17)

Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentric
 
Tom Gansor: Agile Business Intelligence
Tom Gansor: Agile Business IntelligenceTom Gansor: Agile Business Intelligence
Tom Gansor: Agile Business Intelligence
 
How to use Big Data
How to use Big DataHow to use Big Data
How to use Big Data
 
SAP BW/4HANA - Ein Überblick
SAP BW/4HANA - Ein ÜberblickSAP BW/4HANA - Ein Überblick
SAP BW/4HANA - Ein Überblick
 
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
 
SAS Forum Switzerland 2015: Big Data - Guido Oswald
SAS Forum Switzerland 2015: Big Data - Guido OswaldSAS Forum Switzerland 2015: Big Data - Guido Oswald
SAS Forum Switzerland 2015: Big Data - Guido Oswald
 
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
 
Big Data mit Apache Hadoop
Big Data mit Apache HadoopBig Data mit Apache Hadoop
Big Data mit Apache Hadoop
 
Webanwendungen mit Apache HBase entwickeln
Webanwendungen mit Apache HBase entwickelnWebanwendungen mit Apache HBase entwickeln
Webanwendungen mit Apache HBase entwickeln
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Warum sap hana sql data warehousing
Warum sap hana sql data warehousingWarum sap hana sql data warehousing
Warum sap hana sql data warehousing
 
mongoDB im Einsatz - Grundlagen
mongoDB im Einsatz - GrundlagenmongoDB im Einsatz - Grundlagen
mongoDB im Einsatz - Grundlagen
 
Hazelcast bei der SBB (jug.ch)
Hazelcast bei der SBB (jug.ch)Hazelcast bei der SBB (jug.ch)
Hazelcast bei der SBB (jug.ch)
 
Rails in Production - telewebber Architektur
Rails in Production - telewebber ArchitekturRails in Production - telewebber Architektur
Rails in Production - telewebber Architektur
 

Mehr von Sascha Dittmann

C# + SQL = Big Data
C# + SQL = Big DataC# + SQL = Big Data
C# + SQL = Big Data
Sascha Dittmann
 
Hochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft AzureHochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft Azure
Sascha Dittmann
 
Microsoft R - Data Science at Scale
Microsoft R - Data Science at ScaleMicrosoft R - Data Science at Scale
Microsoft R - Data Science at Scale
Sascha Dittmann
 
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSONSQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
Sascha Dittmann
 
dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric
Sascha Dittmann
 
SQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der PraxisSQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der Praxis
Sascha Dittmann
 
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelHadoop 2.0 - The Next Level
Hadoop 2.0 - The Next Level
Sascha Dittmann
 
Microsoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsightMicrosoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsight
Sascha Dittmann
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
Sascha Dittmann
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
Sascha Dittmann
 
dotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Servicesdotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile ServicesSascha Dittmann
 
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwicklerdotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
Sascha Dittmann
 
Developer Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing WorkshopDeveloper Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing Workshop
Sascha Dittmann
 
CloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudCloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudSascha Dittmann
 
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv....NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
Sascha Dittmann
 
NoSQL mit RavenDB und Azure
NoSQL mit RavenDB und AzureNoSQL mit RavenDB und Azure
NoSQL mit RavenDB und Azure
Sascha Dittmann
 
Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Sascha Dittmann
 

Mehr von Sascha Dittmann (18)

C# + SQL = Big Data
C# + SQL = Big DataC# + SQL = Big Data
C# + SQL = Big Data
 
Hochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft AzureHochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft Azure
 
Microsoft R - Data Science at Scale
Microsoft R - Data Science at ScaleMicrosoft R - Data Science at Scale
Microsoft R - Data Science at Scale
 
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSONSQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
 
dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric
 
SQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der PraxisSQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der Praxis
 
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelHadoop 2.0 - The Next Level
Hadoop 2.0 - The Next Level
 
Microsoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsightMicrosoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsight
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
 
dotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Servicesdotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Services
 
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwicklerdotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
 
Developer Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing WorkshopDeveloper Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing Workshop
 
CloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudCloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die Cloud
 
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv....NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
 
Big Data & NoSQL
Big Data & NoSQLBig Data & NoSQL
Big Data & NoSQL
 
NoSQL mit RavenDB und Azure
NoSQL mit RavenDB und AzureNoSQL mit RavenDB und Azure
NoSQL mit RavenDB und Azure
 
Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Windows Azure für Entwickler V1
Windows Azure für Entwickler V1
 

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)

  • 1. PASS Camp 2012 Big Data mit Microsoft (Teil 1) Software Developer / Solution Architect Twitter: @SaschaDittmann Blog: http://www.sascha-dittmann.de
  • 2. Was könnte das sein? 180.000.000.000.000.000.000 1.800.000.000.000.000.000.000
  • 3. Weltweites Datenvolumen 180.000.000.000.000.000.000 = 0,18 ZB (Zettabytes) - Stand 2006 1.800.000.000.000.000.000.000 = 1,8 ZB (Zettabytes) - Stand 2011
  • 4. Skalierung Vertikale Skalierung Horizontale Skalierung
  • 5. Apache Hadoop Ecosystem Oozie HBase / Cassandra Traditional BI Tools (Workflow) (Columnar NoSQL Databases) Hive Cascading Pig (Data (Warehouse Apache (programming Flume Sqoop Flow) and Data Mahout model) Access) Zookeeper (Coordination) Avro (Serialization) HBase (Column DB) MapReduce (Job Scheduling/Execution System) Hadoop = MapReduce + HDFS HDFS (Hadoop Distributed File System)
  • 6. Apache Hadoop Ecosystem Visual Studio Oozie HBase / Cassandra Traditional BI Tools (Workflow) (Columnar NoSQL Databases) Hive Cascading Pig (Data (Warehouse Apache (programming Flume Sqoop Flow) and Data Mahout model) Access) Active Directory System Center Zookeeper (Coordination) Avro (Serialization) HBase (Column DB) MapReduce (Job Scheduling/Execution System) Hadoop = MapReduce + HDFS HDFS (Hadoop Distributed File System) Windows
  • 7. Hadoop Distributed File System Bootvorgang Ausfallsicherheit Benutzeranfrage
  • 8. Hadoop Distributed File System Bootvorgang Ausfallsicherheit Benutzeranfrage
  • 9. Hadoop Distributed File System Bootvorgang Ausfallsicherheit Benutzeranfrage
  • 10. Hadoop Distributed File System  Portable Operating System Interface (POSIX)  Replikation auf mehrere Datenknoten js> #ls input/ncdc Found 9 items drwxr-xr-x - Sascha supergroup 0 2012-04-24 13:01 /user/Sascha/input/ncdc/_distcp_logs_g0dedn drwxr-xr-x - Sascha supergroup 0 2012-04-24 12:04 /user/Sascha/input/ncdc/_distcp_logs_ofj0u6 drwxr-xr-x - Sascha supergroup 0 2012-04-24 13:09 /user/Sascha/input/ncdc/all drwxr-xr-x - Sascha supergroup 0 2012-04-24 13:01 /user/Sascha/input/ncdc/all2 drwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/metadata drwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/micro drwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/micro-tab -rw-r--r-- 3 Sascha supergroup 529 2012-04-23 13:06 /user/Sascha/input/ncdc/sample.txt -rw-r--r-- 3 Sascha supergroup 168 2012-04-23 13:06 /user/Sascha/input/ncdc/sample.txt.gz
  • 11. Map / Reduce DataNode DataNode DataNode 0067011990999991950051507004+68750 0043011990999991950051512004+68750 0043011990999991950051518004+68750 0043012650999991949032412004+62300 0043012650999991949032418004+62300 1949,0 1952,-11 1950,22 Map Map Map 1950,55 1950,33 Sort Sort Sort 1949,0 1950,[22,33,55] Shuffle Shuffle Shuffle 1952,-11 Reduce 1949,0 1950,55 1952,-11
  • 12. Combine Methode DataNode DataNode DataNode 0067011990999991950051507004+68750 0043011990999991950051512004+68750 0043011990999991950051518004+68750 0043012650999991949032412004+62300 0043012650999991949032418004+62300 1949,0 1952,-11 1950,22 Map Map Map 1950,55 1950,33 1949,0 1952,-11 Combine Combine Combine 1950,55 1950,33 Sort Sort Sort 1949,0 1950,[33,55] Shuffle Shuffle Shuffle 1952,-11 Reduce 1949,0 1950,55 1952,-11
  • 13. RDBMS vs. Hadoop RDBMS Hadoop Datenmenge Gigabytes Petabytes Zugriff Interaktiv und Batch Batch Lese- / Schreibzugriffe Viele Lese- und Einmaliges Schreiben Schreibzugriffe Viele Lesezugriffe Datenstruktur Statisches Schema Dynamisches Schema Datenintegrität Hoch Niedrig Skalierungsverhalten Nicht-Linear Linear
  • 14. Demo‘s  Hadoop Umgebung  HDFS  Map/Reduce via JavaScript  Data Streaming mit C#  Power Pivot
  • 15. Pig Latin pig .from("/user/Sascha/input/texte") .mapReduce("/user/…/WordCount.js" , "Woerter, Anzahl:long") .orderBy("Anzahl DESC") .take(15) .to("/user/Sascha/output/Top15Woerter")