Big Data - Eine Tour d'Horizon

1.881 Aufrufe

Veröffentlicht am

Slides von meine Keynote auf der Fachtagung "Big Data & Social Media Research. Marktforschung im Exabyte-Zeitalter" von BVM und AG Social Media

Veröffentlicht in: Business

Big Data - Eine Tour d'Horizon

  1. 1. Big Data – Eine Tour d‘Horizon Benedikt Koehler, d.core GmbH Twitter: @furukamaVortrag auf der Fachtagung von BVM / AG Social Media „Big Data and Social Media Research“, 15. Mai 2012
  2. 2. Big Data = Große Herausforderungen?
  3. 3. Der „Big-Data-Sweetspot“
  4. 4. Big Data als Geschäftsmodell Acquired by IBM for $1.7 B Acquired by EMC Acquired by Oracle Acquired by Teradata for $263 M IPO $230 MQuelle: Crunchbase
  5. 5. Big Data als GeschäftsmodellDaten: Crunchbase, eigene Darstellung
  6. 6. Big Data als ArbeitsmarktBig-Data-Stellenanzeigen in Deutschland auf monster.de (n=165), 11.5.2012
  7. 7. Die drei Big-Data-Probleme1. Volume – „Sehr sehr große Datenmengen“ – Norvig: Data Center → Data Warehouse → Internet Scale – Typische Größenordnung: Milliarden bis Billionen Fälle, Millionen bis Milliarden Variablen – Beispiel: Twitter 1 Mrd. Tweets in der Woche – Technologien: MapReduce, HDFS, Project Voldemort
  8. 8. Die drei Big-Data-Probleme1. Volume2. Velocity – Sehr sehr schnelle Datenströme – Sensordaten, Smartphones, Social Media → Datendurchsatz – Typische Größenordnungen: 15k-300k/s – Echtzeit-Inputs → Echtzeit Outputs – Stream/Event Processing – Technologien: Storm, S4, Esper
  9. 9. Die drei Big-Data-Probleme1. Volume2. Velocity3. Variety / Variability – Sehr sehr vielfältige und veränderbare Datenstrukturen – Datenbereinigung >> Datenanalyse – Datenmarktplätze z.B. Datasift, GNIP – Schemafreie Datenbanken / NoSQL, Netzwerkdatenbanken
  10. 10. Velocity
  11. 11. Mehr Daten statt bessere Algorithmen• Sehr große Datenmengen: – Einfache Mathematik statt komplexe statistische Modelle (Häufigkeiten, Korrelationen, lineare Algebra) – Parallelisierung von Algorithmen• Sehr schnelle Datenströme – Näherungswerte vs. exakte Zahlen – Caching• Sehr unterschiedliche Formate – Datenbereinigung größerer Aufwand als Datenanalyse – NoSQL-Datenbanken
  12. 12. Trainingsdaten >> Algorithmus • Vergleich unterschiedlicher Algorithmen für die Disambiguierung von Begriffen • Trainingsdatensatz mit 1 Mrd. Wörtern • Trade-off zwischen Umfang der Trainingsdaten und Algorithmus • Größere Datenbasis wichtiger als Verbesserung AlgorithmenMichele Banko und Eric Brill 2001: http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf
  13. 13. Agnostisches VorgehenGoogle Correlate Ergebnis für die amtl. Arbeitslosenzahlen in Deutschland, http://www.google.com/trends/correlate
  14. 14. Verteiltes Machine Learning
  15. 15. Velocity
  16. 16. Shitstorm-Meter • BrandTweet- Markenmonitoring auf Twitter: Tracking der Häufigkeiten von Markennennungen • Analyse von Trends und Zyklen • „Shitstorm“-Warnung bei Abweichungen von Volumen und Sentimen von der Baseline-AktivitätQuelle: http://brandtweet.com
  17. 17. App-Network • Auswertung der Empfehlungen des iTunes Appstores • Welche Apps werden häufig gemeinsam installiert? • Ergebnis: Netzwerk von Apps und sprachlich, inhaltlich und soziodemographischen Clustern
  18. 18. Passiver Wahl-o-mat • Text-Mining von Wahlprogrammen • Darstellung der inhaltlichen Nähe von Parteien anhand der Kosinus-Ähnlichkeit • „Passiver Wahl-o-mat“ ermöglicht Einordnung anderer Corpora (z.B. Blog, Twitter-Timeline) in politisches SpektrumPiraten 0,14108935Gruene 0,12956345SPD 0,08088609CDU 0,06258422Linke 0,09733024FDP 0,04376875
  19. 19. Funnel plots • Funnel Plots in der Meta- Analyse von Medikamentenstudien • Schiefe Verteilungen können auf Publikationsbias hinweisen
  20. 20. Predictive Policing • „Predictive Policing“-Projekt in Santa Cruz, CA • Vorhersage künftiger Verbrechenswahrschein- lichkeiten („Aftercrimes“) analog zur Erdbeben- prognose
  21. 21. VelocityD3
  22. 22. Vielen Dank!Twitter: @furukamaBlog: beautifuldata.comWeb: www.dcore.de

×