Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Big Data - Eine Tour d'Horizon

2.136 Aufrufe

Veröffentlicht am

Slides von meine Keynote auf der Fachtagung "Big Data & Social Media Research. Marktforschung im Exabyte-Zeitalter" von BVM und AG Social Media

Veröffentlicht in: Business

Big Data - Eine Tour d'Horizon

  1. 1. Big Data – Eine Tour d‘Horizon Benedikt Koehler, d.core GmbH Twitter: @furukamaVortrag auf der Fachtagung von BVM / AG Social Media „Big Data and Social Media Research“, 15. Mai 2012
  2. 2. Big Data = Große Herausforderungen?
  3. 3. Der „Big-Data-Sweetspot“
  4. 4. Big Data als Geschäftsmodell Acquired by IBM for $1.7 B Acquired by EMC Acquired by Oracle Acquired by Teradata for $263 M IPO $230 MQuelle: Crunchbase
  5. 5. Big Data als GeschäftsmodellDaten: Crunchbase, eigene Darstellung
  6. 6. Big Data als ArbeitsmarktBig-Data-Stellenanzeigen in Deutschland auf monster.de (n=165), 11.5.2012
  7. 7. Die drei Big-Data-Probleme1. Volume – „Sehr sehr große Datenmengen“ – Norvig: Data Center → Data Warehouse → Internet Scale – Typische Größenordnung: Milliarden bis Billionen Fälle, Millionen bis Milliarden Variablen – Beispiel: Twitter 1 Mrd. Tweets in der Woche – Technologien: MapReduce, HDFS, Project Voldemort
  8. 8. Die drei Big-Data-Probleme1. Volume2. Velocity – Sehr sehr schnelle Datenströme – Sensordaten, Smartphones, Social Media → Datendurchsatz – Typische Größenordnungen: 15k-300k/s – Echtzeit-Inputs → Echtzeit Outputs – Stream/Event Processing – Technologien: Storm, S4, Esper
  9. 9. Die drei Big-Data-Probleme1. Volume2. Velocity3. Variety / Variability – Sehr sehr vielfältige und veränderbare Datenstrukturen – Datenbereinigung >> Datenanalyse – Datenmarktplätze z.B. Datasift, GNIP – Schemafreie Datenbanken / NoSQL, Netzwerkdatenbanken
  10. 10. Velocity
  11. 11. Mehr Daten statt bessere Algorithmen• Sehr große Datenmengen: – Einfache Mathematik statt komplexe statistische Modelle (Häufigkeiten, Korrelationen, lineare Algebra) – Parallelisierung von Algorithmen• Sehr schnelle Datenströme – Näherungswerte vs. exakte Zahlen – Caching• Sehr unterschiedliche Formate – Datenbereinigung größerer Aufwand als Datenanalyse – NoSQL-Datenbanken
  12. 12. Trainingsdaten >> Algorithmus • Vergleich unterschiedlicher Algorithmen für die Disambiguierung von Begriffen • Trainingsdatensatz mit 1 Mrd. Wörtern • Trade-off zwischen Umfang der Trainingsdaten und Algorithmus • Größere Datenbasis wichtiger als Verbesserung AlgorithmenMichele Banko und Eric Brill 2001: http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf
  13. 13. Agnostisches VorgehenGoogle Correlate Ergebnis für die amtl. Arbeitslosenzahlen in Deutschland, http://www.google.com/trends/correlate
  14. 14. Verteiltes Machine Learning
  15. 15. Velocity
  16. 16. Shitstorm-Meter • BrandTweet- Markenmonitoring auf Twitter: Tracking der Häufigkeiten von Markennennungen • Analyse von Trends und Zyklen • „Shitstorm“-Warnung bei Abweichungen von Volumen und Sentimen von der Baseline-AktivitätQuelle: http://brandtweet.com
  17. 17. App-Network • Auswertung der Empfehlungen des iTunes Appstores • Welche Apps werden häufig gemeinsam installiert? • Ergebnis: Netzwerk von Apps und sprachlich, inhaltlich und soziodemographischen Clustern
  18. 18. Passiver Wahl-o-mat • Text-Mining von Wahlprogrammen • Darstellung der inhaltlichen Nähe von Parteien anhand der Kosinus-Ähnlichkeit • „Passiver Wahl-o-mat“ ermöglicht Einordnung anderer Corpora (z.B. Blog, Twitter-Timeline) in politisches SpektrumPiraten 0,14108935Gruene 0,12956345SPD 0,08088609CDU 0,06258422Linke 0,09733024FDP 0,04376875
  19. 19. Funnel plots • Funnel Plots in der Meta- Analyse von Medikamentenstudien • Schiefe Verteilungen können auf Publikationsbias hinweisen
  20. 20. Predictive Policing • „Predictive Policing“-Projekt in Santa Cruz, CA • Vorhersage künftiger Verbrechenswahrschein- lichkeiten („Aftercrimes“) analog zur Erdbeben- prognose
  21. 21. VelocityD3
  22. 22. Vielen Dank!Twitter: @furukamaBlog: beautifuldata.comWeb: www.dcore.de

×