Big Data – Eine Tour d‘Horizon           Benedikt Koehler, d.core GmbH                Twitter: @furukamaVortrag auf der Fa...
Big Data = Große Herausforderungen?
Der „Big-Data-Sweetspot“
Big Data als Geschäftsmodell                               Acquired by IBM                                  for $1.7 B    ...
Big Data als GeschäftsmodellDaten: Crunchbase, eigene Darstellung
Big Data als ArbeitsmarktBig-Data-Stellenanzeigen in Deutschland auf monster.de (n=165), 11.5.2012
Die drei Big-Data-Probleme1. Volume      –     „Sehr sehr große Datenmengen“      –     Norvig: Data Center → Data Warehou...
Die drei Big-Data-Probleme1. Volume2. Velocity       –      Sehr sehr schnelle Datenströme       –      Sensordaten, Smart...
Die drei Big-Data-Probleme1. Volume2. Velocity3. Variety / Variability       –      Sehr sehr vielfältige und veränderbare...
Velocity
Mehr Daten statt bessere Algorithmen•   Sehr große Datenmengen:     –    Einfache Mathematik statt komplexe statistische M...
Trainingsdaten >> Algorithmus                                                                          •      Vergleich un...
Agnostisches VorgehenGoogle Correlate Ergebnis für die amtl. Arbeitslosenzahlen in Deutschland, http://www.google.com/tren...
Verteiltes Machine Learning
Velocity
Shitstorm-Meter                                •   BrandTweet-                                    Markenmonitoring auf    ...
App-Network              •   Auswertung der                  Empfehlungen des iTunes                  Appstores           ...
Passiver Wahl-o-mat                       •   Text-Mining von                           Wahlprogrammen                    ...
Funnel plots               •   Funnel Plots in der Meta-                   Analyse von                   Medikamentenstudi...
Predictive Policing                      •   „Predictive Policing“-Projekt                          in Santa Cruz, CA     ...
VelocityD3
Vielen Dank!Twitter: @furukamaBlog: beautifuldata.comWeb: www.dcore.de
Big Data - Eine Tour d'Horizon
Big Data - Eine Tour d'Horizon
Big Data - Eine Tour d'Horizon
Nächste SlideShare
Wird geladen in …5
×

Big Data - Eine Tour d'Horizon

2.060 Aufrufe

Veröffentlicht am

Slides von meine Keynote auf der Fachtagung "Big Data & Social Media Research. Marktforschung im Exabyte-Zeitalter" von BVM und AG Social Media

Veröffentlicht in: Business

Big Data - Eine Tour d'Horizon

  1. 1. Big Data – Eine Tour d‘Horizon Benedikt Koehler, d.core GmbH Twitter: @furukamaVortrag auf der Fachtagung von BVM / AG Social Media „Big Data and Social Media Research“, 15. Mai 2012
  2. 2. Big Data = Große Herausforderungen?
  3. 3. Der „Big-Data-Sweetspot“
  4. 4. Big Data als Geschäftsmodell Acquired by IBM for $1.7 B Acquired by EMC Acquired by Oracle Acquired by Teradata for $263 M IPO $230 MQuelle: Crunchbase
  5. 5. Big Data als GeschäftsmodellDaten: Crunchbase, eigene Darstellung
  6. 6. Big Data als ArbeitsmarktBig-Data-Stellenanzeigen in Deutschland auf monster.de (n=165), 11.5.2012
  7. 7. Die drei Big-Data-Probleme1. Volume – „Sehr sehr große Datenmengen“ – Norvig: Data Center → Data Warehouse → Internet Scale – Typische Größenordnung: Milliarden bis Billionen Fälle, Millionen bis Milliarden Variablen – Beispiel: Twitter 1 Mrd. Tweets in der Woche – Technologien: MapReduce, HDFS, Project Voldemort
  8. 8. Die drei Big-Data-Probleme1. Volume2. Velocity – Sehr sehr schnelle Datenströme – Sensordaten, Smartphones, Social Media → Datendurchsatz – Typische Größenordnungen: 15k-300k/s – Echtzeit-Inputs → Echtzeit Outputs – Stream/Event Processing – Technologien: Storm, S4, Esper
  9. 9. Die drei Big-Data-Probleme1. Volume2. Velocity3. Variety / Variability – Sehr sehr vielfältige und veränderbare Datenstrukturen – Datenbereinigung >> Datenanalyse – Datenmarktplätze z.B. Datasift, GNIP – Schemafreie Datenbanken / NoSQL, Netzwerkdatenbanken
  10. 10. Velocity
  11. 11. Mehr Daten statt bessere Algorithmen• Sehr große Datenmengen: – Einfache Mathematik statt komplexe statistische Modelle (Häufigkeiten, Korrelationen, lineare Algebra) – Parallelisierung von Algorithmen• Sehr schnelle Datenströme – Näherungswerte vs. exakte Zahlen – Caching• Sehr unterschiedliche Formate – Datenbereinigung größerer Aufwand als Datenanalyse – NoSQL-Datenbanken
  12. 12. Trainingsdaten >> Algorithmus • Vergleich unterschiedlicher Algorithmen für die Disambiguierung von Begriffen • Trainingsdatensatz mit 1 Mrd. Wörtern • Trade-off zwischen Umfang der Trainingsdaten und Algorithmus • Größere Datenbasis wichtiger als Verbesserung AlgorithmenMichele Banko und Eric Brill 2001: http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf
  13. 13. Agnostisches VorgehenGoogle Correlate Ergebnis für die amtl. Arbeitslosenzahlen in Deutschland, http://www.google.com/trends/correlate
  14. 14. Verteiltes Machine Learning
  15. 15. Velocity
  16. 16. Shitstorm-Meter • BrandTweet- Markenmonitoring auf Twitter: Tracking der Häufigkeiten von Markennennungen • Analyse von Trends und Zyklen • „Shitstorm“-Warnung bei Abweichungen von Volumen und Sentimen von der Baseline-AktivitätQuelle: http://brandtweet.com
  17. 17. App-Network • Auswertung der Empfehlungen des iTunes Appstores • Welche Apps werden häufig gemeinsam installiert? • Ergebnis: Netzwerk von Apps und sprachlich, inhaltlich und soziodemographischen Clustern
  18. 18. Passiver Wahl-o-mat • Text-Mining von Wahlprogrammen • Darstellung der inhaltlichen Nähe von Parteien anhand der Kosinus-Ähnlichkeit • „Passiver Wahl-o-mat“ ermöglicht Einordnung anderer Corpora (z.B. Blog, Twitter-Timeline) in politisches SpektrumPiraten 0,14108935Gruene 0,12956345SPD 0,08088609CDU 0,06258422Linke 0,09733024FDP 0,04376875
  19. 19. Funnel plots • Funnel Plots in der Meta- Analyse von Medikamentenstudien • Schiefe Verteilungen können auf Publikationsbias hinweisen
  20. 20. Predictive Policing • „Predictive Policing“-Projekt in Santa Cruz, CA • Vorhersage künftiger Verbrechenswahrschein- lichkeiten („Aftercrimes“) analog zur Erdbeben- prognose
  21. 21. VelocityD3
  22. 22. Vielen Dank!Twitter: @furukamaBlog: beautifuldata.comWeb: www.dcore.de

×