Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...
Big Data - Eine Tour d'Horizon
1. Big Data – Eine Tour d‘Horizon
Benedikt Koehler, d.core GmbH
Twitter: @furukama
Vortrag auf der Fachtagung von BVM / AG Social Media „Big
Data and Social Media Research“, 15. Mai 2012
4. Big Data als Geschäftsmodell
Acquired by IBM
for $1.7 B
Acquired by EMC
Acquired by Oracle
Acquired by Teradata
for $263 M
IPO $230 M
Quelle: Crunchbase
5. Big Data als Geschäftsmodell
Daten: Crunchbase, eigene Darstellung
6. Big Data als Arbeitsmarkt
Big-Data-Stellenanzeigen in Deutschland auf monster.de (n=165), 11.5.2012
7.
8. Die drei Big-Data-Probleme
1. Volume
– „Sehr sehr große Datenmengen“
– Norvig: Data Center → Data Warehouse → Internet Scale
– Typische Größenordnung: Milliarden bis Billionen Fälle,
Millionen bis Milliarden Variablen
– Beispiel: Twitter 1 Mrd. Tweets in der Woche
– Technologien: MapReduce, HDFS, Project Voldemort
9. Die drei Big-Data-Probleme
1. Volume
2. Velocity
– Sehr sehr schnelle Datenströme
– Sensordaten, Smartphones, Social Media →
Datendurchsatz
– Typische Größenordnungen: 15k-300k/s
– Echtzeit-Inputs → Echtzeit Outputs
– Stream/Event Processing
– Technologien: Storm, S4, Esper
10. Die drei Big-Data-Probleme
1. Volume
2. Velocity
3. Variety / Variability
– Sehr sehr vielfältige und veränderbare Datenstrukturen
– Datenbereinigung >> Datenanalyse
– Datenmarktplätze z.B. Datasift, GNIP
– Schemafreie Datenbanken / NoSQL, Netzwerkdatenbanken
13. Mehr Daten statt bessere Algorithmen
• Sehr große Datenmengen:
– Einfache Mathematik statt komplexe statistische Modelle
(Häufigkeiten, Korrelationen, lineare Algebra)
– Parallelisierung von Algorithmen
• Sehr schnelle Datenströme
– Näherungswerte vs. exakte Zahlen
– Caching
• Sehr unterschiedliche Formate
– Datenbereinigung größerer Aufwand als Datenanalyse
– NoSQL-Datenbanken
14. Trainingsdaten >> Algorithmus
• Vergleich unterschiedlicher
Algorithmen für die
Disambiguierung von
Begriffen
• Trainingsdatensatz mit 1
Mrd. Wörtern
• Trade-off zwischen Umfang
der Trainingsdaten und
Algorithmus
• Größere Datenbasis
wichtiger als Verbesserung
Algorithmen
Michele Banko und Eric Brill 2001: http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf
19. Shitstorm-Meter
• BrandTweet-
Markenmonitoring auf
Twitter: Tracking der
Häufigkeiten von
Markennennungen
• Analyse von Trends und
Zyklen
• „Shitstorm“-Warnung bei
Abweichungen von Volumen
und Sentimen von der
Baseline-Aktivität
Quelle: http://brandtweet.com
20. App-Network
• Auswertung der
Empfehlungen des iTunes
Appstores
• Welche Apps werden häufig
gemeinsam installiert?
• Ergebnis: Netzwerk von
Apps und sprachlich,
inhaltlich und
soziodemographischen
Clustern
21. Passiver Wahl-o-mat
• Text-Mining von
Wahlprogrammen
• Darstellung der inhaltlichen
Nähe von Parteien anhand
der Kosinus-Ähnlichkeit
• „Passiver Wahl-o-mat“
ermöglicht Einordnung
anderer Corpora (z.B. Blog,
Twitter-Timeline) in
politisches Spektrum
Piraten 0,14108935
Gruene 0,12956345
SPD 0,08088609
CDU 0,06258422
Linke 0,09733024
FDP 0,04376875
22. Funnel plots
• Funnel Plots in der Meta-
Analyse von
Medikamentenstudien
• Schiefe Verteilungen können
auf Publikationsbias
hinweisen
23. Predictive Policing
• „Predictive Policing“-Projekt
in Santa Cruz, CA
• Vorhersage künftiger
Verbrechenswahrschein-
lichkeiten („Aftercrimes“)
analog zur Erdbeben-
prognose