SlideShare ist ein Scribd-Unternehmen logo
1 von 25
Big Data – Eine Tour d‘Horizon
           Benedikt Koehler, d.core GmbH
                Twitter: @furukama

Vortrag auf der Fachtagung von BVM / AG Social Media „Big
       Data and Social Media Research“, 15. Mai 2012
Big Data = Große Herausforderungen?
Der „Big-Data-Sweetspot“
Big Data als Geschäftsmodell

                               Acquired by IBM
                                  for $1.7 B


                     Acquired by EMC

                                           Acquired by Oracle



                             Acquired by Teradata
                                 for $263 M



                                       IPO $230 M




Quelle: Crunchbase
Big Data als Geschäftsmodell




Daten: Crunchbase, eigene Darstellung
Big Data als Arbeitsmarkt




Big-Data-Stellenanzeigen in Deutschland auf monster.de (n=165), 11.5.2012
Die drei Big-Data-Probleme

1. Volume
      –     „Sehr sehr große Datenmengen“
      –     Norvig: Data Center → Data Warehouse → Internet Scale
      –     Typische Größenordnung: Milliarden bis Billionen Fälle,
            Millionen bis Milliarden Variablen
      –     Beispiel: Twitter 1 Mrd. Tweets in der Woche
      –     Technologien: MapReduce, HDFS, Project Voldemort
Die drei Big-Data-Probleme

1. Volume
2. Velocity
       –      Sehr sehr schnelle Datenströme
       –      Sensordaten, Smartphones, Social Media →
              Datendurchsatz
       –      Typische Größenordnungen: 15k-300k/s
       –      Echtzeit-Inputs → Echtzeit Outputs
       –      Stream/Event Processing
       –      Technologien: Storm, S4, Esper
Die drei Big-Data-Probleme

1. Volume
2. Velocity
3. Variety / Variability
       –      Sehr sehr vielfältige und veränderbare Datenstrukturen
       –      Datenbereinigung >> Datenanalyse
       –      Datenmarktplätze z.B. Datasift, GNIP
       –      Schemafreie Datenbanken / NoSQL, Netzwerkdatenbanken
Velocity
Mehr Daten statt bessere Algorithmen

•   Sehr große Datenmengen:
     –    Einfache Mathematik statt komplexe statistische Modelle
          (Häufigkeiten, Korrelationen, lineare Algebra)
     –    Parallelisierung von Algorithmen
•   Sehr schnelle Datenströme
     –    Näherungswerte vs. exakte Zahlen
     –    Caching
•   Sehr unterschiedliche Formate
     –    Datenbereinigung größerer Aufwand als Datenanalyse
     –    NoSQL-Datenbanken
Trainingsdaten >> Algorithmus
                                                                          •      Vergleich unterschiedlicher
                                                                                 Algorithmen für die
                                                                                 Disambiguierung von
                                                                                 Begriffen
                                                                          •      Trainingsdatensatz mit 1
                                                                                 Mrd. Wörtern
                                                                          •      Trade-off zwischen Umfang
                                                                                 der Trainingsdaten und
                                                                                 Algorithmus
                                                                          •      Größere Datenbasis
                                                                                 wichtiger als Verbesserung
                                                                                 Algorithmen


Michele Banko und Eric Brill 2001: http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf
Agnostisches Vorgehen




Google Correlate Ergebnis für die amtl. Arbeitslosenzahlen in Deutschland, http://www.google.com/trends/correlate
Verteiltes Machine Learning
Velocity
Shitstorm-Meter
                                •   BrandTweet-
                                    Markenmonitoring auf
                                    Twitter: Tracking der
                                    Häufigkeiten von
                                    Markennennungen
                                •   Analyse von Trends und
                                    Zyklen
                                •   „Shitstorm“-Warnung bei
                                    Abweichungen von Volumen
                                    und Sentimen von der
                                    Baseline-Aktivität




Quelle: http://brandtweet.com
App-Network
              •   Auswertung der
                  Empfehlungen des iTunes
                  Appstores
              •   Welche Apps werden häufig
                  gemeinsam installiert?
              •   Ergebnis: Netzwerk von
                  Apps und sprachlich,
                  inhaltlich und
                  soziodemographischen
                  Clustern
Passiver Wahl-o-mat
                       •   Text-Mining von
                           Wahlprogrammen
                       •   Darstellung der inhaltlichen
                           Nähe von Parteien anhand
                           der Kosinus-Ähnlichkeit
                       •   „Passiver Wahl-o-mat“
                           ermöglicht Einordnung
                           anderer Corpora (z.B. Blog,
                           Twitter-Timeline) in
                           politisches Spektrum

Piraten   0,14108935
Gruene    0,12956345
SPD       0,08088609
CDU       0,06258422
Linke     0,09733024
FDP       0,04376875
Funnel plots
               •   Funnel Plots in der Meta-
                   Analyse von
                   Medikamentenstudien
               •   Schiefe Verteilungen können
                   auf Publikationsbias
                   hinweisen
Predictive Policing
                      •   „Predictive Policing“-Projekt
                          in Santa Cruz, CA
                      •   Vorhersage künftiger
                          Verbrechenswahrschein-
                          lichkeiten („Aftercrimes“)
                          analog zur Erdbeben-
                          prognose
Velocity




D3
Vielen Dank!
Twitter: @furukama
Blog: beautifuldata.com
Web: www.dcore.de

Weitere ähnliche Inhalte

Ähnlich wie Big Data - Eine Tour d'Horizon

Big Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A RelationsBig Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A RelationsGeorg Blum
 
Daten ohne Grenzen – Big Data
Daten ohne Grenzen – Big DataDaten ohne Grenzen – Big Data
Daten ohne Grenzen – Big DataAWS Germany
 
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013luna-park GmbH
 
Suche ein effizientes Mittel zur Datenintegration
Suche ein effizientes Mittel zur DatenintegrationSuche ein effizientes Mittel zur Datenintegration
Suche ein effizientes Mittel zur DatenintegrationThomas Kurz
 
Social Media Monitoring & Analyse (Präsentation Infopaq beim 5. Twittwoch Rhe...
Social Media Monitoring & Analyse (Präsentation Infopaq beim 5. Twittwoch Rhe...Social Media Monitoring & Analyse (Präsentation Infopaq beim 5. Twittwoch Rhe...
Social Media Monitoring & Analyse (Präsentation Infopaq beim 5. Twittwoch Rhe...Infopaq Deutschland
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?BARC GmbH
 
Zum Social Media Erfolg mit AMPEL
Zum Social Media Erfolg mit AMPELZum Social Media Erfolg mit AMPEL
Zum Social Media Erfolg mit AMPELStefan Evertz
 
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...Axel Bruns
 
Social Media Monitoring von kostenlosen und kostenpflichtigen Tools
Social Media Monitoring von kostenlosen und kostenpflichtigen ToolsSocial Media Monitoring von kostenlosen und kostenpflichtigen Tools
Social Media Monitoring von kostenlosen und kostenpflichtigen ToolsUbermetrics Technologies GmbH
 
Wegweiser durch den Social Media Monitoring-Dschungel
Wegweiser durch den Social Media Monitoring-DschungelWegweiser durch den Social Media Monitoring-Dschungel
Wegweiser durch den Social Media Monitoring-DschungelForschungsWeb GmbH
 
Digitale Nachhaltigkeit mit Open Clouds
Digitale Nachhaltigkeit mit Open CloudsDigitale Nachhaltigkeit mit Open Clouds
Digitale Nachhaltigkeit mit Open CloudsMatthias Stürmer
 
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas Berth
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas BerthWerbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas Berth
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas BerthWerbeplanung.at Summit
 
Big Data als Instrument der Politik - Social Media Week Hamburg 2013
Big Data als Instrument der Politik - Social Media Week Hamburg 2013Big Data als Instrument der Politik - Social Media Week Hamburg 2013
Big Data als Instrument der Politik - Social Media Week Hamburg 2013Lars Brücher
 
Vernetzte Öffentlichkeiten 2013, Sitzung 4, "Technische Grundlagen"
Vernetzte Öffentlichkeiten 2013, Sitzung 4, "Technische Grundlagen"Vernetzte Öffentlichkeiten 2013, Sitzung 4, "Technische Grundlagen"
Vernetzte Öffentlichkeiten 2013, Sitzung 4, "Technische Grundlagen"Jan Schmidt
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRene Burgener
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
 

Ähnlich wie Big Data - Eine Tour d'Horizon (20)

Big Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A RelationsBig Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A Relations
 
Big Data und Business Intelligence
Big Data und Business IntelligenceBig Data und Business Intelligence
Big Data und Business Intelligence
 
Daten ohne Grenzen – Big Data
Daten ohne Grenzen – Big DataDaten ohne Grenzen – Big Data
Daten ohne Grenzen – Big Data
 
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013
Matthias Bettag, DAALA Berlin: Veränderungen digital analytics in 2013
 
Suche ein effizientes Mittel zur Datenintegration
Suche ein effizientes Mittel zur DatenintegrationSuche ein effizientes Mittel zur Datenintegration
Suche ein effizientes Mittel zur Datenintegration
 
Smart Data Workshop
Smart Data WorkshopSmart Data Workshop
Smart Data Workshop
 
Social Media Monitoring & Analyse (Präsentation Infopaq beim 5. Twittwoch Rhe...
Social Media Monitoring & Analyse (Präsentation Infopaq beim 5. Twittwoch Rhe...Social Media Monitoring & Analyse (Präsentation Infopaq beim 5. Twittwoch Rhe...
Social Media Monitoring & Analyse (Präsentation Infopaq beim 5. Twittwoch Rhe...
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?
 
Zum Social Media Erfolg mit AMPEL
Zum Social Media Erfolg mit AMPELZum Social Media Erfolg mit AMPEL
Zum Social Media Erfolg mit AMPEL
 
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...
Neue Öffentlichkeiten auf Social-Media-Plattformen: Zur Nutzung von ‚Big Data...
 
Social Media Monitoring von kostenlosen und kostenpflichtigen Tools
Social Media Monitoring von kostenlosen und kostenpflichtigen ToolsSocial Media Monitoring von kostenlosen und kostenpflichtigen Tools
Social Media Monitoring von kostenlosen und kostenpflichtigen Tools
 
Wegweiser durch den Social Media Monitoring-Dschungel
Wegweiser durch den Social Media Monitoring-DschungelWegweiser durch den Social Media Monitoring-Dschungel
Wegweiser durch den Social Media Monitoring-Dschungel
 
Digitale Nachhaltigkeit mit Open Clouds
Digitale Nachhaltigkeit mit Open CloudsDigitale Nachhaltigkeit mit Open Clouds
Digitale Nachhaltigkeit mit Open Clouds
 
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas Berth
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas BerthWerbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas Berth
Werbeplanung.at SUMMIT 15 - Conversion Optimierung in Echtzeit - Andreas Berth
 
Analytics für Einsteiger
Analytics für EinsteigerAnalytics für Einsteiger
Analytics für Einsteiger
 
Big Data als Instrument der Politik - Social Media Week Hamburg 2013
Big Data als Instrument der Politik - Social Media Week Hamburg 2013Big Data als Instrument der Politik - Social Media Week Hamburg 2013
Big Data als Instrument der Politik - Social Media Week Hamburg 2013
 
Vernetzte Öffentlichkeiten 2013, Sitzung 4, "Technische Grundlagen"
Vernetzte Öffentlichkeiten 2013, Sitzung 4, "Technische Grundlagen"Vernetzte Öffentlichkeiten 2013, Sitzung 4, "Technische Grundlagen"
Vernetzte Öffentlichkeiten 2013, Sitzung 4, "Technische Grundlagen"
 
2010 09 29 13-30 michael gniffke
2010 09 29 13-30 michael gniffke2010 09 29 13-30 michael gniffke
2010 09 29 13-30 michael gniffke
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 

Mehr von Benedikt Köhler

Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014
Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014
Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014Benedikt Köhler
 
Street Fighting Data Science
Street Fighting Data ScienceStreet Fighting Data Science
Street Fighting Data ScienceBenedikt Köhler
 
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...Benedikt Köhler
 

Mehr von Benedikt Köhler (7)

Data-Driven Everything
Data-Driven EverythingData-Driven Everything
Data-Driven Everything
 
Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014
Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014
Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014
 
Wie tickt das Publikum?
Wie tickt das Publikum?Wie tickt das Publikum?
Wie tickt das Publikum?
 
Blogging Science
Blogging ScienceBlogging Science
Blogging Science
 
Street Fighting Data Science
Street Fighting Data ScienceStreet Fighting Data Science
Street Fighting Data Science
 
Free Burma
Free BurmaFree Burma
Free Burma
 
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...
 

Big Data - Eine Tour d'Horizon

  • 1. Big Data – Eine Tour d‘Horizon Benedikt Koehler, d.core GmbH Twitter: @furukama Vortrag auf der Fachtagung von BVM / AG Social Media „Big Data and Social Media Research“, 15. Mai 2012
  • 2. Big Data = Große Herausforderungen?
  • 4. Big Data als Geschäftsmodell Acquired by IBM for $1.7 B Acquired by EMC Acquired by Oracle Acquired by Teradata for $263 M IPO $230 M Quelle: Crunchbase
  • 5. Big Data als Geschäftsmodell Daten: Crunchbase, eigene Darstellung
  • 6. Big Data als Arbeitsmarkt Big-Data-Stellenanzeigen in Deutschland auf monster.de (n=165), 11.5.2012
  • 7.
  • 8. Die drei Big-Data-Probleme 1. Volume – „Sehr sehr große Datenmengen“ – Norvig: Data Center → Data Warehouse → Internet Scale – Typische Größenordnung: Milliarden bis Billionen Fälle, Millionen bis Milliarden Variablen – Beispiel: Twitter 1 Mrd. Tweets in der Woche – Technologien: MapReduce, HDFS, Project Voldemort
  • 9. Die drei Big-Data-Probleme 1. Volume 2. Velocity – Sehr sehr schnelle Datenströme – Sensordaten, Smartphones, Social Media → Datendurchsatz – Typische Größenordnungen: 15k-300k/s – Echtzeit-Inputs → Echtzeit Outputs – Stream/Event Processing – Technologien: Storm, S4, Esper
  • 10. Die drei Big-Data-Probleme 1. Volume 2. Velocity 3. Variety / Variability – Sehr sehr vielfältige und veränderbare Datenstrukturen – Datenbereinigung >> Datenanalyse – Datenmarktplätze z.B. Datasift, GNIP – Schemafreie Datenbanken / NoSQL, Netzwerkdatenbanken
  • 12.
  • 13. Mehr Daten statt bessere Algorithmen • Sehr große Datenmengen: – Einfache Mathematik statt komplexe statistische Modelle (Häufigkeiten, Korrelationen, lineare Algebra) – Parallelisierung von Algorithmen • Sehr schnelle Datenströme – Näherungswerte vs. exakte Zahlen – Caching • Sehr unterschiedliche Formate – Datenbereinigung größerer Aufwand als Datenanalyse – NoSQL-Datenbanken
  • 14. Trainingsdaten >> Algorithmus • Vergleich unterschiedlicher Algorithmen für die Disambiguierung von Begriffen • Trainingsdatensatz mit 1 Mrd. Wörtern • Trade-off zwischen Umfang der Trainingsdaten und Algorithmus • Größere Datenbasis wichtiger als Verbesserung Algorithmen Michele Banko und Eric Brill 2001: http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf
  • 15. Agnostisches Vorgehen Google Correlate Ergebnis für die amtl. Arbeitslosenzahlen in Deutschland, http://www.google.com/trends/correlate
  • 18.
  • 19. Shitstorm-Meter • BrandTweet- Markenmonitoring auf Twitter: Tracking der Häufigkeiten von Markennennungen • Analyse von Trends und Zyklen • „Shitstorm“-Warnung bei Abweichungen von Volumen und Sentimen von der Baseline-Aktivität Quelle: http://brandtweet.com
  • 20. App-Network • Auswertung der Empfehlungen des iTunes Appstores • Welche Apps werden häufig gemeinsam installiert? • Ergebnis: Netzwerk von Apps und sprachlich, inhaltlich und soziodemographischen Clustern
  • 21. Passiver Wahl-o-mat • Text-Mining von Wahlprogrammen • Darstellung der inhaltlichen Nähe von Parteien anhand der Kosinus-Ähnlichkeit • „Passiver Wahl-o-mat“ ermöglicht Einordnung anderer Corpora (z.B. Blog, Twitter-Timeline) in politisches Spektrum Piraten 0,14108935 Gruene 0,12956345 SPD 0,08088609 CDU 0,06258422 Linke 0,09733024 FDP 0,04376875
  • 22. Funnel plots • Funnel Plots in der Meta- Analyse von Medikamentenstudien • Schiefe Verteilungen können auf Publikationsbias hinweisen
  • 23. Predictive Policing • „Predictive Policing“-Projekt in Santa Cruz, CA • Vorhersage künftiger Verbrechenswahrschein- lichkeiten („Aftercrimes“) analog zur Erdbeben- prognose
  • 25. Vielen Dank! Twitter: @furukama Blog: beautifuldata.com Web: www.dcore.de