Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Big Data – Eine Tour d‘Horizon           Benedikt Koehler, d.core GmbH                Twitter: @furukamaVortrag auf der Fa...
Big Data = Große Herausforderungen?
Der „Big-Data-Sweetspot“
Big Data als Geschäftsmodell                               Acquired by IBM                                  for $1.7 B    ...
Big Data als GeschäftsmodellDaten: Crunchbase, eigene Darstellung
Big Data als ArbeitsmarktBig-Data-Stellenanzeigen in Deutschland auf monster.de (n=165), 11.5.2012
Die drei Big-Data-Probleme1. Volume      –     „Sehr sehr große Datenmengen“      –     Norvig: Data Center → Data Warehou...
Die drei Big-Data-Probleme1. Volume2. Velocity       –      Sehr sehr schnelle Datenströme       –      Sensordaten, Smart...
Die drei Big-Data-Probleme1. Volume2. Velocity3. Variety / Variability       –      Sehr sehr vielfältige und veränderbare...
Velocity
Mehr Daten statt bessere Algorithmen•   Sehr große Datenmengen:     –    Einfache Mathematik statt komplexe statistische M...
Trainingsdaten >> Algorithmus                                                                          •      Vergleich un...
Agnostisches VorgehenGoogle Correlate Ergebnis für die amtl. Arbeitslosenzahlen in Deutschland, http://www.google.com/tren...
Verteiltes Machine Learning
Velocity
Shitstorm-Meter                                •   BrandTweet-                                    Markenmonitoring auf    ...
App-Network              •   Auswertung der                  Empfehlungen des iTunes                  Appstores           ...
Passiver Wahl-o-mat                       •   Text-Mining von                           Wahlprogrammen                    ...
Funnel plots               •   Funnel Plots in der Meta-                   Analyse von                   Medikamentenstudi...
Predictive Policing                      •   „Predictive Policing“-Projekt                          in Santa Cruz, CA     ...
VelocityD3
Vielen Dank!Twitter: @furukamaBlog: beautifuldata.comWeb: www.dcore.de
Big Data - Eine Tour d'Horizon
Big Data - Eine Tour d'Horizon
Big Data - Eine Tour d'Horizon
Nächste SlideShare
Wird geladen in …5
×

Big Data - Eine Tour d'Horizon

2.121 Aufrufe

Veröffentlicht am

Slides von meine Keynote auf der Fachtagung "Big Data & Social Media Research. Marktforschung im Exabyte-Zeitalter" von BVM und AG Social Media

Veröffentlicht in: Business

Big Data - Eine Tour d'Horizon

  1. 1. Big Data – Eine Tour d‘Horizon Benedikt Koehler, d.core GmbH Twitter: @furukamaVortrag auf der Fachtagung von BVM / AG Social Media „Big Data and Social Media Research“, 15. Mai 2012
  2. 2. Big Data = Große Herausforderungen?
  3. 3. Der „Big-Data-Sweetspot“
  4. 4. Big Data als Geschäftsmodell Acquired by IBM for $1.7 B Acquired by EMC Acquired by Oracle Acquired by Teradata for $263 M IPO $230 MQuelle: Crunchbase
  5. 5. Big Data als GeschäftsmodellDaten: Crunchbase, eigene Darstellung
  6. 6. Big Data als ArbeitsmarktBig-Data-Stellenanzeigen in Deutschland auf monster.de (n=165), 11.5.2012
  7. 7. Die drei Big-Data-Probleme1. Volume – „Sehr sehr große Datenmengen“ – Norvig: Data Center → Data Warehouse → Internet Scale – Typische Größenordnung: Milliarden bis Billionen Fälle, Millionen bis Milliarden Variablen – Beispiel: Twitter 1 Mrd. Tweets in der Woche – Technologien: MapReduce, HDFS, Project Voldemort
  8. 8. Die drei Big-Data-Probleme1. Volume2. Velocity – Sehr sehr schnelle Datenströme – Sensordaten, Smartphones, Social Media → Datendurchsatz – Typische Größenordnungen: 15k-300k/s – Echtzeit-Inputs → Echtzeit Outputs – Stream/Event Processing – Technologien: Storm, S4, Esper
  9. 9. Die drei Big-Data-Probleme1. Volume2. Velocity3. Variety / Variability – Sehr sehr vielfältige und veränderbare Datenstrukturen – Datenbereinigung >> Datenanalyse – Datenmarktplätze z.B. Datasift, GNIP – Schemafreie Datenbanken / NoSQL, Netzwerkdatenbanken
  10. 10. Velocity
  11. 11. Mehr Daten statt bessere Algorithmen• Sehr große Datenmengen: – Einfache Mathematik statt komplexe statistische Modelle (Häufigkeiten, Korrelationen, lineare Algebra) – Parallelisierung von Algorithmen• Sehr schnelle Datenströme – Näherungswerte vs. exakte Zahlen – Caching• Sehr unterschiedliche Formate – Datenbereinigung größerer Aufwand als Datenanalyse – NoSQL-Datenbanken
  12. 12. Trainingsdaten >> Algorithmus • Vergleich unterschiedlicher Algorithmen für die Disambiguierung von Begriffen • Trainingsdatensatz mit 1 Mrd. Wörtern • Trade-off zwischen Umfang der Trainingsdaten und Algorithmus • Größere Datenbasis wichtiger als Verbesserung AlgorithmenMichele Banko und Eric Brill 2001: http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf
  13. 13. Agnostisches VorgehenGoogle Correlate Ergebnis für die amtl. Arbeitslosenzahlen in Deutschland, http://www.google.com/trends/correlate
  14. 14. Verteiltes Machine Learning
  15. 15. Velocity
  16. 16. Shitstorm-Meter • BrandTweet- Markenmonitoring auf Twitter: Tracking der Häufigkeiten von Markennennungen • Analyse von Trends und Zyklen • „Shitstorm“-Warnung bei Abweichungen von Volumen und Sentimen von der Baseline-AktivitätQuelle: http://brandtweet.com
  17. 17. App-Network • Auswertung der Empfehlungen des iTunes Appstores • Welche Apps werden häufig gemeinsam installiert? • Ergebnis: Netzwerk von Apps und sprachlich, inhaltlich und soziodemographischen Clustern
  18. 18. Passiver Wahl-o-mat • Text-Mining von Wahlprogrammen • Darstellung der inhaltlichen Nähe von Parteien anhand der Kosinus-Ähnlichkeit • „Passiver Wahl-o-mat“ ermöglicht Einordnung anderer Corpora (z.B. Blog, Twitter-Timeline) in politisches SpektrumPiraten 0,14108935Gruene 0,12956345SPD 0,08088609CDU 0,06258422Linke 0,09733024FDP 0,04376875
  19. 19. Funnel plots • Funnel Plots in der Meta- Analyse von Medikamentenstudien • Schiefe Verteilungen können auf Publikationsbias hinweisen
  20. 20. Predictive Policing • „Predictive Policing“-Projekt in Santa Cruz, CA • Vorhersage künftiger Verbrechenswahrschein- lichkeiten („Aftercrimes“) analog zur Erdbeben- prognose
  21. 21. VelocityD3
  22. 22. Vielen Dank!Twitter: @furukamaBlog: beautifuldata.comWeb: www.dcore.de

×