Big Data - Eine Tour d'Horizon

Big Data – Eine Tour d‘Horizon
Benedikt Koehler, d.core GmbH
Twitter: @furukama

Vortrag auf der Fachtagung von BVM / AG Social Media „Big
Data and Social Media Research“, 15. Mai 2012

Big Data = Große Herausforderungen?

Big Data als Geschäftsmodell

Acquired by IBM
for $1.7 B

Acquired by EMC

Acquired by Oracle

Acquired by Teradata
for $263 M

IPO $230 M

Quelle: Crunchbase

Big Data als Geschäftsmodell

Daten: Crunchbase, eigene Darstellung

Big Data als Arbeitsmarkt

Big-Data-Stellenanzeigen in Deutschland auf monster.de (n=165), 11.5.2012

Die drei Big-Data-Probleme

1. Volume
– „Sehr sehr große Datenmengen“
– Norvig: Data Center → Data Warehouse → Internet Scale
– Typische Größenordnung: Milliarden bis Billionen Fälle,
Millionen bis Milliarden Variablen
– Beispiel: Twitter 1 Mrd. Tweets in der Woche
– Technologien: MapReduce, HDFS, Project Voldemort


1. Volume
2. Velocity
– Sehr sehr schnelle Datenströme
– Sensordaten, Smartphones, Social Media →
Datendurchsatz
– Typische Größenordnungen: 15k-300k/s
– Echtzeit-Inputs → Echtzeit Outputs
– Stream/Event Processing
– Technologien: Storm, S4, Esper


1. Volume
2. Velocity
3. Variety / Variability
– Sehr sehr vielfältige und veränderbare Datenstrukturen
– Datenbereinigung >> Datenanalyse
– Datenmarktplätze z.B. Datasift, GNIP
– Schemafreie Datenbanken / NoSQL, Netzwerkdatenbanken

Mehr Daten statt bessere Algorithmen

• Sehr große Datenmengen:
– Einfache Mathematik statt komplexe statistische Modelle
(Häufigkeiten, Korrelationen, lineare Algebra)
– Parallelisierung von Algorithmen
• Sehr schnelle Datenströme
– Näherungswerte vs. exakte Zahlen
– Caching
• Sehr unterschiedliche Formate
– Datenbereinigung größerer Aufwand als Datenanalyse
– NoSQL-Datenbanken

Trainingsdaten >> Algorithmus
• Vergleich unterschiedlicher
Algorithmen für die
Disambiguierung von
Begriffen
• Trainingsdatensatz mit 1
Mrd. Wörtern
• Trade-off zwischen Umfang
der Trainingsdaten und
Algorithmus
• Größere Datenbasis
wichtiger als Verbesserung
Algorithmen

Michele Banko und Eric Brill 2001: http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf

Agnostisches Vorgehen

Google Correlate Ergebnis für die amtl. Arbeitslosenzahlen in Deutschland, http://www.google.com/trends/correlate

Shitstorm-Meter
• BrandTweet-
Markenmonitoring auf
Twitter: Tracking der
Häufigkeiten von
Markennennungen
• Analyse von Trends und
Zyklen
• „Shitstorm“-Warnung bei
Abweichungen von Volumen
und Sentimen von der
Baseline-Aktivität

Quelle: http://brandtweet.com

App-Network
• Auswertung der
Empfehlungen des iTunes
Appstores
• Welche Apps werden häufig
gemeinsam installiert?
• Ergebnis: Netzwerk von
Apps und sprachlich,
inhaltlich und
soziodemographischen
Clustern

Passiver Wahl-o-mat
• Text-Mining von
Wahlprogrammen
• Darstellung der inhaltlichen
Nähe von Parteien anhand
der Kosinus-Ähnlichkeit
• „Passiver Wahl-o-mat“
ermöglicht Einordnung
anderer Corpora (z.B. Blog,
Twitter-Timeline) in
politisches Spektrum

Piraten 0,14108935
Gruene 0,12956345
SPD 0,08088609
CDU 0,06258422
Linke 0,09733024
FDP 0,04376875

Funnel plots
• Funnel Plots in der Meta-
Analyse von
Medikamentenstudien
• Schiefe Verteilungen können
auf Publikationsbias
hinweisen

Predictive Policing
• „Predictive Policing“-Projekt
in Santa Cruz, CA
• Vorhersage künftiger
Verbrechenswahrschein-
lichkeiten („Aftercrimes“)
analog zur Erdbeben-
prognose

Vielen Dank!
Twitter: @furukama
Blog: beautifuldata.com
Web: www.dcore.de

Big Data - Eine Tour d'Horizon

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Big Data - Eine Tour d'Horizon

Ähnlich wie Big Data - Eine Tour d'Horizon (20)

Mehr von Benedikt Köhler

Mehr von Benedikt Köhler (7)

Big Data - Eine Tour d'Horizon