Suche senden
Hochladen
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
•
0 gefällt mir
•
331 views
Sascha Dittmann
Folgen
http://www.passcamp.de/
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 15
Empfohlen
The Hadoop Connection
The Hadoop Connection
inovex GmbH
MapRecude: The Hadoop Connection
MapRecude: The Hadoop Connection
vesparun
Schweine latein-vortrag
Schweine latein-vortrag
Ramon Wartala
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
inovex GmbH
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
inovex GmbH
Einfuehrung in Apache Spark
Einfuehrung in Apache Spark
Jens Albrecht
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
inovex GmbH
BI mit Apache Hadoop (CDH)
BI mit Apache Hadoop (CDH)
Alexander Alten-Lorenz
Empfohlen
The Hadoop Connection
The Hadoop Connection
inovex GmbH
MapRecude: The Hadoop Connection
MapRecude: The Hadoop Connection
vesparun
Schweine latein-vortrag
Schweine latein-vortrag
Ramon Wartala
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
inovex GmbH
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
inovex GmbH
Einfuehrung in Apache Spark
Einfuehrung in Apache Spark
Jens Albrecht
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
inovex GmbH
BI mit Apache Hadoop (CDH)
BI mit Apache Hadoop (CDH)
Alexander Alten-Lorenz
Hadoop Einführung @codecentric
Hadoop Einführung @codecentric
imalik8088
Tom Gansor: Agile Business Intelligence
Tom Gansor: Agile Business Intelligence
Stephan Trahasch
How to use Big Data
How to use Big Data
Digicomp Academy AG
SAP BW/4HANA - Ein Überblick
SAP BW/4HANA - Ein Überblick
ISR Information Products AG
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE Project
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
fun communications GmbH
SAS Forum Switzerland 2015: Big Data - Guido Oswald
SAS Forum Switzerland 2015: Big Data - Guido Oswald
Guido Oswald
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
inovex GmbH
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
inovex GmbH
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
Sven Schlarb
Big Data mit Apache Hadoop
Big Data mit Apache Hadoop
Alexander Alten-Lorenz
Webanwendungen mit Apache HBase entwickeln
Webanwendungen mit Apache HBase entwickeln
Roman Roelofsen
Big Data Konnektivität
Big Data Konnektivität
Trivadis
Warum sap hana sql data warehousing
Warum sap hana sql data warehousing
ISR Information Products AG
mongoDB im Einsatz - Grundlagen
mongoDB im Einsatz - Grundlagen
inovex GmbH
Hazelcast bei der SBB (jug.ch)
Hazelcast bei der SBB (jug.ch)
Korhan Gülseven
Rails in Production - telewebber Architektur
Rails in Production - telewebber Architektur
Heiko Seebach
C# + SQL = Big Data
C# + SQL = Big Data
Sascha Dittmann
Hochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft Azure
Sascha Dittmann
Microsoft R - Data Science at Scale
Microsoft R - Data Science at Scale
Sascha Dittmann
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
Sascha Dittmann
dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric
Sascha Dittmann
Weitere ähnliche Inhalte
Ähnlich wie PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
Hadoop Einführung @codecentric
Hadoop Einführung @codecentric
imalik8088
Tom Gansor: Agile Business Intelligence
Tom Gansor: Agile Business Intelligence
Stephan Trahasch
How to use Big Data
How to use Big Data
Digicomp Academy AG
SAP BW/4HANA - Ein Überblick
SAP BW/4HANA - Ein Überblick
ISR Information Products AG
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE Project
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
fun communications GmbH
SAS Forum Switzerland 2015: Big Data - Guido Oswald
SAS Forum Switzerland 2015: Big Data - Guido Oswald
Guido Oswald
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
inovex GmbH
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
inovex GmbH
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
Sven Schlarb
Big Data mit Apache Hadoop
Big Data mit Apache Hadoop
Alexander Alten-Lorenz
Webanwendungen mit Apache HBase entwickeln
Webanwendungen mit Apache HBase entwickeln
Roman Roelofsen
Big Data Konnektivität
Big Data Konnektivität
Trivadis
Warum sap hana sql data warehousing
Warum sap hana sql data warehousing
ISR Information Products AG
mongoDB im Einsatz - Grundlagen
mongoDB im Einsatz - Grundlagen
inovex GmbH
Hazelcast bei der SBB (jug.ch)
Hazelcast bei der SBB (jug.ch)
Korhan Gülseven
Rails in Production - telewebber Architektur
Rails in Production - telewebber Architektur
Heiko Seebach
Ähnlich wie PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
(17)
Hadoop Einführung @codecentric
Hadoop Einführung @codecentric
Tom Gansor: Agile Business Intelligence
Tom Gansor: Agile Business Intelligence
How to use Big Data
How to use Big Data
SAP BW/4HANA - Ein Überblick
SAP BW/4HANA - Ein Überblick
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital p...
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
SAS Forum Switzerland 2015: Big Data - Guido Oswald
SAS Forum Switzerland 2015: Big Data - Guido Oswald
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
Hadoop aus IT-Operations-Sicht - Teil 1 (Hadoop-Grundlagen)
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
Big Data mit Apache Hadoop
Big Data mit Apache Hadoop
Webanwendungen mit Apache HBase entwickeln
Webanwendungen mit Apache HBase entwickeln
Big Data Konnektivität
Big Data Konnektivität
Warum sap hana sql data warehousing
Warum sap hana sql data warehousing
mongoDB im Einsatz - Grundlagen
mongoDB im Einsatz - Grundlagen
Hazelcast bei der SBB (jug.ch)
Hazelcast bei der SBB (jug.ch)
Rails in Production - telewebber Architektur
Rails in Production - telewebber Architektur
Mehr von Sascha Dittmann
C# + SQL = Big Data
C# + SQL = Big Data
Sascha Dittmann
Hochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft Azure
Sascha Dittmann
Microsoft R - Data Science at Scale
Microsoft R - Data Science at Scale
Sascha Dittmann
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
Sascha Dittmann
dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric
Sascha Dittmann
SQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der Praxis
Sascha Dittmann
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next Level
Sascha Dittmann
Microsoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsight
Sascha Dittmann
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
Sascha Dittmann
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
Sascha Dittmann
dotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Services
Sascha Dittmann
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
Sascha Dittmann
Developer Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing Workshop
Sascha Dittmann
CloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die Cloud
Sascha Dittmann
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
Sascha Dittmann
Big Data & NoSQL
Big Data & NoSQL
Sascha Dittmann
NoSQL mit RavenDB und Azure
NoSQL mit RavenDB und Azure
Sascha Dittmann
Windows Azure für Entwickler V1
Windows Azure für Entwickler V1
Sascha Dittmann
Mehr von Sascha Dittmann
(18)
C# + SQL = Big Data
C# + SQL = Big Data
Hochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft Azure
Microsoft R - Data Science at Scale
Microsoft R - Data Science at Scale
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric
SQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der Praxis
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next Level
Microsoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsight
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
dotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
Developer Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing Workshop
CloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die Cloud
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
Big Data & NoSQL
Big Data & NoSQL
NoSQL mit RavenDB und Azure
NoSQL mit RavenDB und Azure
Windows Azure für Entwickler V1
Windows Azure für Entwickler V1
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
1.
PASS Camp 2012 Big
Data mit Microsoft (Teil 1) Software Developer / Solution Architect Twitter: @SaschaDittmann Blog: http://www.sascha-dittmann.de
2.
Was könnte das
sein? 180.000.000.000.000.000.000 1.800.000.000.000.000.000.000
3.
Weltweites Datenvolumen
180.000.000.000.000.000.000 = 0,18 ZB (Zettabytes) - Stand 2006 1.800.000.000.000.000.000.000 = 1,8 ZB (Zettabytes) - Stand 2011
4.
Skalierung
Vertikale Skalierung Horizontale Skalierung
5.
Apache Hadoop Ecosystem
Oozie HBase / Cassandra Traditional BI Tools (Workflow) (Columnar NoSQL Databases) Hive Cascading Pig (Data (Warehouse Apache (programming Flume Sqoop Flow) and Data Mahout model) Access) Zookeeper (Coordination) Avro (Serialization) HBase (Column DB) MapReduce (Job Scheduling/Execution System) Hadoop = MapReduce + HDFS HDFS (Hadoop Distributed File System)
6.
Apache Hadoop Ecosystem
Visual Studio Oozie HBase / Cassandra Traditional BI Tools (Workflow) (Columnar NoSQL Databases) Hive Cascading Pig (Data (Warehouse Apache (programming Flume Sqoop Flow) and Data Mahout model) Access) Active Directory System Center Zookeeper (Coordination) Avro (Serialization) HBase (Column DB) MapReduce (Job Scheduling/Execution System) Hadoop = MapReduce + HDFS HDFS (Hadoop Distributed File System) Windows
7.
Hadoop Distributed File
System Bootvorgang Ausfallsicherheit Benutzeranfrage
8.
Hadoop Distributed File
System Bootvorgang Ausfallsicherheit Benutzeranfrage
9.
Hadoop Distributed File
System Bootvorgang Ausfallsicherheit Benutzeranfrage
10.
Hadoop Distributed File
System Portable Operating System Interface (POSIX) Replikation auf mehrere Datenknoten js> #ls input/ncdc Found 9 items drwxr-xr-x - Sascha supergroup 0 2012-04-24 13:01 /user/Sascha/input/ncdc/_distcp_logs_g0dedn drwxr-xr-x - Sascha supergroup 0 2012-04-24 12:04 /user/Sascha/input/ncdc/_distcp_logs_ofj0u6 drwxr-xr-x - Sascha supergroup 0 2012-04-24 13:09 /user/Sascha/input/ncdc/all drwxr-xr-x - Sascha supergroup 0 2012-04-24 13:01 /user/Sascha/input/ncdc/all2 drwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/metadata drwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/micro drwxr-xr-x - Sascha supergroup 0 2012-04-23 13:06 /user/Sascha/input/ncdc/micro-tab -rw-r--r-- 3 Sascha supergroup 529 2012-04-23 13:06 /user/Sascha/input/ncdc/sample.txt -rw-r--r-- 3 Sascha supergroup 168 2012-04-23 13:06 /user/Sascha/input/ncdc/sample.txt.gz
11.
Map / Reduce
DataNode DataNode DataNode 0067011990999991950051507004+68750 0043011990999991950051512004+68750 0043011990999991950051518004+68750 0043012650999991949032412004+62300 0043012650999991949032418004+62300 1949,0 1952,-11 1950,22 Map Map Map 1950,55 1950,33 Sort Sort Sort 1949,0 1950,[22,33,55] Shuffle Shuffle Shuffle 1952,-11 Reduce 1949,0 1950,55 1952,-11
12.
Combine Methode
DataNode DataNode DataNode 0067011990999991950051507004+68750 0043011990999991950051512004+68750 0043011990999991950051518004+68750 0043012650999991949032412004+62300 0043012650999991949032418004+62300 1949,0 1952,-11 1950,22 Map Map Map 1950,55 1950,33 1949,0 1952,-11 Combine Combine Combine 1950,55 1950,33 Sort Sort Sort 1949,0 1950,[33,55] Shuffle Shuffle Shuffle 1952,-11 Reduce 1949,0 1950,55 1952,-11
13.
RDBMS vs. Hadoop
RDBMS Hadoop Datenmenge Gigabytes Petabytes Zugriff Interaktiv und Batch Batch Lese- / Schreibzugriffe Viele Lese- und Einmaliges Schreiben Schreibzugriffe Viele Lesezugriffe Datenstruktur Statisches Schema Dynamisches Schema Datenintegrität Hoch Niedrig Skalierungsverhalten Nicht-Linear Linear
14.
Demo‘s
Hadoop Umgebung HDFS Map/Reduce via JavaScript Data Streaming mit C# Power Pivot
15.
Pig Latin
pig .from("/user/Sascha/input/texte") .mapReduce("/user/…/WordCount.js" , "Woerter, Anzahl:long") .orderBy("Anzahl DESC") .take(15) .to("/user/Sascha/output/Top15Woerter")