SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Downloaden Sie, um offline zu lesen
Street Fighting Data Science
von
@furukama (Benedikt Köhler, d.core)
@jbenno (Jörg Blumtritt, Datarella)
#rp13
Street Fighting Data Science
• Umnutzen vorhandener
Daten (Tweets -> Bewe-
gungsgeschwindigkeit)
• Umwidmen von
Methoden (BioTech ->
Sozialwissenschaften)
• Agile Ad-hoc-Analysen
• Improvisation
http://en.wikipedia.org/wiki/File:Fightingmanstones.jpg
Wir glauben an Gauß!
Data Science
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Data Scientists?
http://www.forbes.com/sites/danwoods/2012/03/08/hilary-mason-what-is-a-data-scientist/
Data Science 101
• Crawling / Scraping
• APIs
• Datenbanken, Hadoop, Stream Processing
• „Data Munging“: Bereinigen / Formatieren / Konvertieren
• Machine Learning (Python Scikit-Learn / NumPy, SciPy, R,
Mahout)
• Textanalyse (NLTK, R)
• Network Analysis (Gephi, NodeXL)
• Statistik (R, Python)
N-Gramme
• N-Gramme zerlegen Texte in kleinere Fragmente. 1-
Gramm = „Street“, 2-Gramm = „Street Fighter“ ->
Google Corpus 2006/12
Google Ngram Viewer http://books.google.com/ngrams + DB http://books.google.com/ngrams/datasets
WordNet
• WordNet:
semantische
und lexikalische
Bedeutung von
Wörtern
• Daraus z.B.
Wörter mit
Stimmungen
identifizierbar
(WN Affect)
WordNet http://wordnet.princeton.edu/ WordNet Affect http://wndomains.fbk.eu/wnaffect.html
N-Gramme + WordNet
• Emotionen im Zeitverlauf
Acerbi et al 2013 http://www.plosone.org/article/info:doi/10.1371/journal.pone.0059030
Food Pairings
Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
Food Pairings
Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
Food Pairings
Ahn et al 2011 http://www.nature.com/srep/2011/111215/srep00196/full/srep00196.html
Flickr für Touristen
Eric Fischer „See something or say something“http://www.flickr.com/photos/walkingsf/5935471000/in/set-
72157627140310742 and „Locals and Tourists“http://www.flickr.com/photos/walkingsf/4671578001/in/set-
72157624209158632
Farbgeschichte mit Flickr
http://beautifuldata.net/2013/05/color-analysis-of-flickr-images/
Sandy: Meteorologie für alle
http://rpubs.com/JoFrhwld/sandy
Windmap
US Wind Patterns www.senchalabs.org/philogl/PhiloGL/examples/winds/
Google Correlate
Google Correlate www.google.com/trends/correlate
NodeXL – Twitter-Netzwerk #rp13
NodeXL http://nodexl.codeplex.com/
Netvizz – Facebook-Daten
NetVizz https://apps.facebook.com/netvizz/
Gephi – Visualisierungstool
Gephi http://gephi.org
Das Ergebnis
Facebook-Netzwerk von https://www.facebook.com/benediktkoehler
Twitter - Bewegungsdaten
Eric Fischer: Travel Patterns http://www.flickr.com/photos/walkingsf/6794335193
Der Passive Wahlomat
Piraten 0,14108935
Gruene 0,12956345
SPD 0,08088609
CDU 0,06258422
Linke 0,09733024
FDP 0,04376875
http://blog.metaroll.de/2012/03/23/der-passive-wahlomat-textmining-mit-politischen-programmen-und-
konversationen-teil-1/
Funnel Plots
http://www.cochrane-net.org/openlearning/html/mod15-3.htm
Web-Crawler
• HTTrack Website Copier etc.
• Simple Web Crawler in Python etc.
Crunchbase VC-Netzwerke
Big Data Investment Map http://beautifuldata.net/2012/02/big-data-investment-map/
Danke!
http://beautifuldata.net

Weitere ähnliche Inhalte

Ähnlich wie Street Fighting Data Science

Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...Cornelius Puschmann
 
Vom Projekt zum Service – zur Rolle von re3data.org in der Forschungsdateninf...
Vom Projekt zum Service – zur Rolle von re3data.org in der Forschungsdateninf...Vom Projekt zum Service – zur Rolle von re3data.org in der Forschungsdateninf...
Vom Projekt zum Service – zur Rolle von re3data.org in der Forschungsdateninf...Heinz Pampel
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?KurtStockinger
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenMartin Voigt
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRene Burgener
 
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...Thomas Hapke
 
Pandas und matplotlib im praktischen Einsatz
Pandas und matplotlib im praktischen EinsatzPandas und matplotlib im praktischen Einsatz
Pandas und matplotlib im praktischen EinsatzThomas Koch
 

Ähnlich wie Street Fighting Data Science (8)

Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
 
Einfuhrung datascience
Einfuhrung datascienceEinfuhrung datascience
Einfuhrung datascience
 
Vom Projekt zum Service – zur Rolle von re3data.org in der Forschungsdateninf...
Vom Projekt zum Service – zur Rolle von re3data.org in der Forschungsdateninf...Vom Projekt zum Service – zur Rolle von re3data.org in der Forschungsdateninf...
Vom Projekt zum Service – zur Rolle von re3data.org in der Forschungsdateninf...
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...
 
Pandas und matplotlib im praktischen Einsatz
Pandas und matplotlib im praktischen EinsatzPandas und matplotlib im praktischen Einsatz
Pandas und matplotlib im praktischen Einsatz
 

Mehr von Benedikt Köhler

Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014
Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014
Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014Benedikt Köhler
 
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...Benedikt Köhler
 
Big Data - Eine Tour d'Horizon
Big Data - Eine Tour d'HorizonBig Data - Eine Tour d'Horizon
Big Data - Eine Tour d'HorizonBenedikt Köhler
 

Mehr von Benedikt Köhler (7)

Data-Driven Everything
Data-Driven EverythingData-Driven Everything
Data-Driven Everything
 
Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014
Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014
Oh, the Places You'll Go! Location Tracking @ LocalWebConference 2014
 
Wie tickt das Publikum?
Wie tickt das Publikum?Wie tickt das Publikum?
Wie tickt das Publikum?
 
Blogging Science
Blogging ScienceBlogging Science
Blogging Science
 
Free Burma
Free BurmaFree Burma
Free Burma
 
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...
Seven days that shook the Blogosphere - Mobilizing protest in weblog communic...
 
Big Data - Eine Tour d'Horizon
Big Data - Eine Tour d'HorizonBig Data - Eine Tour d'Horizon
Big Data - Eine Tour d'Horizon
 

Street Fighting Data Science