Microsoft on Big Data

901 Aufrufe

Veröffentlicht am

.NET Usergroup Oldenburg 28. Mai 2015 - von Dr. Yvette Teiken
Big Data ist in aller Munde. Auch Microsoft ist mit HDInsight auf den Zug aufgesprungen. Aber wie passt das zusammen, Open Source, Hadoop und Microsoft? Wo sind die Anknüpfungspunkte zu klassischem BI? Wie werden Daten gespeichert und analysiert? Was ändert sich mit Big Data und was nicht? Unter anderem soll es gehen um.

Erstellung, Anfragen und Export von Hive Tabellen
Umsetzung von ETL-Prozessen mit Hilfe von PIG
Entwicklung nativer Map Reduce-Jobs mit C#
Interaktion mit traditionellen RDBMS und Streaming-Technologien
Datenspeicherung mit DocumentDB
Skalierung von Analysen

Veröffentlicht in: Daten & Analysen
0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
901
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
214
Aktionen
Geteilt
0
Downloads
4
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • Datenquelle: 60 Protokolldateien
  • Wordcount anhand Liste von Schlüsselwörtern
  • Microsoft on Big Data

    1. 1. Microsoft on Big Data Donnerstag, 28.05.2015
    2. 2. Vorweg:  Wir sind heute live auf Meerkat
    3. 3. Agenda  Was ist Big Data?  Funktionsweise und Ansätze  Microsoft Architektur  Hadoop und Map Reduce  Pig
    4. 4. Die 3 Vs Quelle: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data
    5. 5. Was ist Big Data ?
    6. 6. Was ist Big Data?
    7. 7. Why Big Data?  2008: Google processes 20 PB a day  2009: Facebook has 2.5 PB user data + 15 TB/day  2009: eBay has 6.5 PB user data + 50 TB/day  2011: Yahoo! has 180-200 PB of data  2012: Facebook ingests 500 TB/day
    8. 8. Nächster Großer Datenlieferant
    9. 9. Funktionsweise und Ansätze
    10. 10. How to store data?  Data storage is not trivial  Data volumes are massive  Reliably storing PBs of data is challenging  Disk/hardware/network failures  Probability of failure event increases with number of machines  For example:  1000 hosts, each with 10 disks  a disk lasts 3 year  how many failures per day?
    11. 11. Historical basics  Hadoop is an open-source implementation based on GFS and MapReduce from Google Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. (2003)  The Google File System Jeffrey Dean and Sanjay Ghemawat. (2004)  MapReduce: Simplified Data Processing on Large Clusters OSDI 2004
    12. 12. Klassische Big Data Architektur  Hadop
    13. 13. Characteristics and Features  Distributed file system  Redundant storage  Designed to reliably store data using commodity hardware  Designed to expect hardware failures  Intended for large files  Designed for batch inserts  The Hadoop Distributed File System
    14. 14. HDFS - files and blocks  Files are stored as a collection of blocks  Blocks are 64 MB chunks of a file (configurable)  Blocks are replicated on 3 nodes (configurable)  The NameNode (NN) manages metadata about files and blocks  The SecondaryNameNode (SNN) holds a backup of the NN data  DataNodes (DN) store and serve blocks
    15. 15. Replication  Multiple copies of a block are stored  Replication strategy:  Copy #1 on another node on same rack  Copy #2 on another node on different rack
    16. 16. Failure DataNode  DNs check in with the NN to report health  Upon failure NN orders DNs to replicate under-replicated blocks
    17. 17. Microsoft
    18. 18. Distributed Storage (HDFS) Query (Hive) Distributed Processing (MapReduce) ODBC Legend Red = Core Hadoop Blue = Data processing Purple = Microsoft integration points and value adds Orange = Data Movement Green = Packages
    19. 19. Wie funktioniert Hadoop
    20. 20. So How Does It Work?
    21. 21. So How Does It Work?
    22. 22. Programming Models Pig Data scripting language Hive SQL-like set-oriented language Pegasus, Giraph Graph processing
    23. 23. Demo
    24. 24. Example Video Streams
    25. 25. Meerkat API
    26. 26. Vorgehen  Ziel Verteilung von Streams über Tag und Nutzer  C# Dienst  Daten sammeln  Persistierung in Azure  Aufbereitung und Analyse mit Hive  Analyse in Excel
    27. 27. Erwartetes Ergebnis
    28. 28. Weitere Beispiele
    29. 29. Beispiel: Social Media Analyse
    30. 30. Quelle: Facebook Graph API
    31. 31. Analyse der Ergebnisse mit Excel
    32. 32. Eigene Map Reduce Tasks
    33. 33. Beispiel: Analyse von Freitext
    34. 34. Quelle: Plenarprotokolle Bundestag
    35. 35. Verarbeitung der Daten mit Hadoop
    36. 36. Analyse der Ergebnisse mit Excel
    37. 37. DocumentDB
    38. 38. What is Azure DocumentDB? It is a fully managed, highly scalable, queryable, schema-free document database, delivered as a service, for modern applications. Query against Schema-Free JSON Multi-Document transactions Tunable, High Performance Designed for cloud first 40
    39. 39. Azure DocumentDB Resources 41 Source: http://azure.microsoft.com/en-us/documentation/articles/documentdb-introduction/
    40. 40. Document DB Data model
    41. 41. Verwaltung in Azure
    42. 42. Darstellung als Webseite
    43. 43. Traditional RDBMS vs. MapReduce
    44. 44. Do I really need Hadoop? Velocity Variety Highly Structured Poly Structured Batch Realtime
    45. 45. Ausblick: Data Management Prozesse  Ziel: Big Data Pipeline kombinieren  Steuern und Administrieren von Diensten  Produkt: Azure Data Factory
    46. 46. Call Log Files Customer Table Call Log Files Customer Table Customer Churn Table Data Factory Concepts Data Sources Ingest Transform & Analyze Publish Customer Call Details Customers Likely to Churn
    47. 47. Zusammenfassung  Datenanalyse verändert sich  Technologien abwägen (JSON in Integration Services)  Daten Analysten sind nicht überflüssig  Das Toolset muss sich erweitern  Coole Vorlesung zum Weiter machen http://blogs.ischool.berkeley.edu/i290-abdt-s12/
    48. 48. Vielen Dank!

    ×