Big data - Gewinnung, Auswertung und Darstellung großer Mengen onlinegenerierter Daten
BIG DATAGEWINNUNG, AUSWERTUNG UND DARSTELLUNG
GROßER MENGEN ONLINEGENERIERTER DATEN
IN DEN SOZIALWISSENSCHAFTEN
WORKSHOP AN DER HEINRICH-HEINE-UNIVERSITÄT DÜSSELDORF
13.04.2014
DOZENTIN: KATRIN WELLER
UND KOMMENTARE VON: MERJA MAHRT
WILLKOMMEN!
Dr. Katrin Weller
GESIS Leibniz Institut für Sozialwissenschaften
katrin.weller@gesis.org
@kwelle
http://katrinweller.net
Dr. Merja Mahrt
Heinrich-Heine-Universität Düsseldorf
mahrt@phil.uni-duesseldorf.de
https://www.phil-fak.uni-duesseldorf.de/kmw-
weiss/mitarbeiterinnen/dr-merja-mahrt/
2
„I keep saying that the sexy job in the next
10 years will be statisticians,“ said Hal
Varian, chief economist at Google.
„And I’m not kidding.“
„The ability to take data - to be able to understand it, to process it, to
extract value from it, to visualize it, to communicate it - that's going to
be a hugely important skill in the next decades...“
http://www.mckinsey.com/insights/innovation/hal_varian_on_how_the_web_challenges_managers
4
WIE GROß IST GROß?
• Datensätze, die nur von Supercomputern bearbeitet werden
können?
• Terabyte, Petabytes und Exabytes?
• So groß, dass man die Daten nicht mehr händisch analysieren
kann?
7
BIG DATA (FRÜHER)
„large surveys such as th NCVS may have 60,000
or more observations, and only recently has
research begun on how to plot these massive
datasets“
1996, Fesco et al.
aus: Unwin, A. / Theus, M. / Hofmann, H., Graphics of Large Datasets. Visualizing a Million (= Statistics and Computing),
Springer 2006.
Beispiele via Thomas Rahlf
„the analysis of data recorded by Tel-Star, an
early communication satellite, involved tens of
thousands of observations and challenged
contemporary computing technology“
1965, Chambers „restricted in their analysis because the
software there could only handle
88,000 real numbers.“
1981, Aitken et al.
8
>900 Millionen Facebook-Nutzer, 30 Petabyte Daten
(täglich kommen etwa 15 Terabyte hinzu )
täglich zu verarbeitendes Datenvolumen bei Facebook:
500 Terabyte, (mehr als das zehnfache der täglichen
Datenproduktion der Detektoren des großen
Teilchenbeschleunigers im Forschungszentrum Cern)
Youtube: vier Milliarden Views pro Tag,
davon 500 Millionen mobil.
App-Store (2008 eröffnet): 25
Milliarden Downloads (2012)
Google-Earth: > 1 Milliarde Downloads
400 Millionen Twitter Tweets
weltweit pro Tag
BIG DATA (HEUTE)
9
Beispiele via Thomas Rahlf
ARTEN VON BIG DATA?
• Naturwissenschaftliche Forschung: z.B. Klimadaten, Genetik („Big
Science“)
• Finanz-Sektor: Börsendaten, Bankbewegungen
• Gesundheitswesen: z.B.Krankenhausdaten, Krankmeldungen
• Verwaltungsdaten aus öffentlichen Einrichtungen) / Open
Governmental Data (auch unter Linked Open Data)
• Kundendaten: z.B. Kassendaten, Telefonverbindungsdaten,
Treukartendaten
• Social Media Daten: Aktionen und Kommentare z.B. auf Facebook,
Youtube, Wikipedia
• Andere Online-Nutzungsdaten: z.B. Suchanfragen, Seitenaufrufe,
Online-Käufe, Bewertungen
• Gerätedaten / Sensordaten: z.B. GPS-Signale aus
Navigationssystemen, RFID Chips
10
AKTEURE
• Wissenschaft: immer mehr Disziplinen, z.B. Informatik, Bio-
Informatik, Physik, Wirtschaftswissenschaft, Mathematik,
Politikwissenschaft, Soziologie…
• Privatwirtschaft: Unternehmen als Datenerzeuger und
Besitzer; Marktforschung
• Öffentlicher Sektor / Verwaltung
• Politik / Geheimdienste
• Nutzer: Citizen Science / Crowdsourcing
12
BIG DATA, SMALL DATA?
NEW DATA!
13
Diskussion: Was liefern diese Daten Neues?
• Möglichkeiten für zeitnahe Analysen und Prognosen
• Entdeckung von Unregelmäßigkeiten (z.B. Epidemien, Finanzen),
Entscheidungshilfe in Krisensituationen.
Diskussion: Woher kommt der Hype?
• Bessere Rechnerkapazität
• Zunehmend „beiläufige“ Datenerzeugung
FAZIT
• Es gibt keine einheitliche Definition für Big Data – die
Einschätzung, was als „big“ gilt, ist stark kontextabhängig und
kann sich im Laufe der Zeit verändern.
• Unterschiedliche Akteure haben unterschiedliche Interessen im
Umgang mit Big Data.
14
GOOGLE FLU TRENDS
“In short, the initial version of GFT was part flu detector, part
winter detector.“ (Lazer et al., 2014)
• Googles Ergebnisse sind nicht besser als „klassische“
Vorhersagedaten.
• Aber: Kombination ist sinnvoll.
20
Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google Flu: Traps in
big data analysis. Science, 343(6176), 1203-1205.
ARBEITSLOSIGKEIT
Nikolaos Askitas / Klaus F. Zimmermann, Google Econometrics and Unemployment Forecasting,
Forschungsinstitut zur Zukunft der Arbeit IZA DP No. 4201. June 2009. Daten: Google
21
WAHLERGEBNISSE
22
Metaxas, P. T., Mustafaraj, E., & Gayo-Avello, D. (2011, 9-11 Oct. 2011). How (not) to predict elections. Paper
presented at the Privacy, security, risk and trust (passat) conference, Boston, MA. Doi:
10.1109/PASSAT/SocialCom.2011.98
SENTIMENT ANALYSE FÜR
POLITIK-TWEETS
28
Bakliwal, et al. (2013). Sentiment Analysis of Political Tweets: Towards an Accurate Classifier. In Workshop on
Language Analysis in Social Media (LASM 2013), Atlanta, Georgia, US. Retrieved from: http://www.mpi-
sws.org/~cristian/LASM_2013_files/LASM/pdf/LASM06.pdf
WEITERE ANSÄTZE
• Mietspiegel, z.B. mit Immobilienscout.
• Naturkatastrophen
• Sprachgebrauch
32
http://www.guardian.co.uk/news/datablog/2012/nov/28/data-
shadows-twitter-uk-floods-mapped#zoomed-picture
WER KENNT WEN?
34
Facebook (Paul Butler)
Daten: Facebook
https://www.facebook.com/note.php?note_id=469716398919
INTERAKTION
35
Paßmann, J., Boeschoten, T., & Shäfer, M.T. (2014). The Gift of the Gab: Retweet Cartels and Gift Economies on
Twitter. In K. Weller, A. Bruns, J. Burgess, M. Mahrt & C. Puschmann (Eds.), Twitter and Society. New York et al.:
Peter Lang.
WEITERE DATEN FÜR
SOZIALWISSENSCHAFTLER?
• Ebay: Kaufverhalten, Preisentwicklung
• Wikipedia: Versionshistorie von „umstrittenen“ Themen.
• Google: Häufigkeiten von Suchbegriffen
• Kommentare
• Bewertungen: Amazon, Movie Ratings, …
• Video on Demand: Netflix, Lovefilm, YouTube, …
• TV-Backchannel: z.B. Twitter
• RFID Chips für Interaktionen
• Voting Advice Applications: Wahl-O-Mat
36
BEISPIEL:
TWITTER & WAHLEN
38
0
10
20
30
40
50
60
2008 2009 2010 2011 2012 2013
Twitter and elections (Scopus and Web of
Science)
Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R.
Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.
Year of
election
Name of election Country/region No. of papers
(2013)
Date of
election
2008 40th Canadian General Election Canada 1 14.10.20
08
2009 European Parliament election, 2009 Europe 1 07.06.20
09
2009 German federal election, 2009 Germany 2 27.09.20
09
2010 2010 UK general election United Kingdom 4 06.05.20
10
2010 South Korean local elections, 2010 South Korea 1 02.06.20
10
2010 Dutch general election, 2010 Netherlands 2 09.06.20
10
2010 Australian federal election, 2010 Australia 1 21.08.20
10
2010 Swedish general election, 2010 Sweden 1 19.09.20
10
2010 Midterm elections / United States House of Representatives elections,
2010
USA 4 02.11.20
10
2010 Gubernational elections: Georgia USA 1 02.11.20
10
2010 Gubernational elections: Ohio USA 1 02.11.20
10
2010 Gubernational elections: Rhode Island USA 1 02.11.20
10
2010 Gubernational elections: Vermont USA 1 02.11.20
10
2010 2010 superintendent elections South Korea 1 17.12.20
10
2011 Baden-Württemberg state election, 2011 Germany 1 27.03.20
11
2011 Rhineland-Palatinate state election, 2011 Germany 1 27.03.20
11
2011 Scottish parliament election 2011 Scotland 1 05.05.20
11
2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.20
11
2011 Norwegian local elections, 2011 Norway 2 12.09.20
11
2011 2011 Danish parliamentary election Denmark 2 15.09.20
11
2011 Scottish parliament election 2011 Scotland 1 05.05.20
11
2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.20
11
2011 Norwegian local elections, 2011 Norway 2 12.09.20
11
2011 2011 Danish parliamentary election Denmark 2 15.09.20
11
2011 Berlin state election, 2011 Germany 2 18.09.20
11
2011 Gubernational elections: West Virginia USA 1 04.10.20
11
2011 Gubernational elections: Louisiana USA 1 22.10.20
11
2011 Swiss federal election, 2011 Switzerland 1 23.10.20
11
2011 2011 Seoul mayoral elections South Korea 1 26.10.20
11
2011 Gubernational eletions: Kentucky USA 1 08.11.20
11
2011 Gubernational elections: Mississippi USA 1 08.11.20
11
2011 Spanish national election 2011 Spain 1 20.11.20
11
2012 Queensland State election Australia 1 24.03.20
12
2012 South Korean legislative election, 2012 South Korea 1 11.04.20
12
2012 French presidential election, 2012 France 2 22.04.20
12
2012 Mexican general election, 2012 Mexico 1 01.07.20
12
2012 United States presidential election, 2012 / United States House of
Representatives elections, 2012
USA 17 06.11.20
12
2012 South Korean presidential election, 2012 South Korea 2 19.12.20
12
2013 Ecuadorian general election, 2013 Ecuador 1 17.02.20
13
2013 Venezuelan presidential election, 2013 Venezuela 1 14.04.20
13
2013 Paraguayan general election, 2013 Paraguay 1 21.04.20
13
BIG DATA?
2013: TWITTER AND ELECTION
No. of Tweets No. Of publications (2013)
0-500 3
501-1.000 4
1.001-5.000 1
5.001-10.000 1
10.001-50.000 7
50.001-100.000 4
100.001-500.000 5
500.001-1.000.000. 3
1.000.001-5.000.000 3
mehr als 5.000.000 3
mehr als 100.000.000 1
mehr als 1.000.000.000 1
keine/ungenaue Angabe 13
METHODEN
Methodisch unterscheiden sich die Studien weiter darin, ob sie...
• Tweet-Inhalte analysieren (automatisch mit
Sprachverarbeitungsprogrammen oder manuell codiert),
• Nutzer-Profile und Nutzer-Netzwerke vermessen,
• Tweet-Typen unterscheiden
• oder URLs in Tweets untersuchen.
• Neben Wahlvorhersagen können auch Verfahren zur automatischen
Erkennung von Stimmungen in Tweets (Sentiment Analyse) als
wiederkehrende Thematik indentifiziert werden.
Knapp mehr als die Hälfte der betrachteten Studien (26 von 49) setzen die
Twitter-Datensätze mit anderen Daten in Beziehung. Dabei kann es sich
sowohl um Wahlprognosen und Wahlergebnisse oder Umfragedaten
handeln, als auch um Daten aus anderen Social-Media-Diensten wie
Facebook oder Blogs.
42
Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R.
Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.
BEISPIEL:
POLITISCHE KOMMUNIKATION
43
Scharkow, M., & Vogelgesang, J. (2011). Measuring the public agenda using search engine queries. International
Journal of Public Opinion Research, 23(1), 104-113. doi: 10.1093/ijpor/edq048
BEISPIEL:
MEDIALE KOMMUNIKATION
44
Groshek, J., & Groshek, M. C. (2013). Agenda trending: Reciprocity and the predictive capacity of social networking
sites in intermedia agenda setting across topics over time. Media and Communication, 1(1), 15-27. doi:
10.12924/mac2013.01010015
FAZIT
Big Data, die für Sozialwissenschaftler interessant sind, sind nicht
unbedingt die größten Datensätze. Entscheidend ist hier die Art
der Daten und die damit verbundenen ggf. neuartigen Einblicke.
Die neuen Daten werfen aber auch viele neue Fragen auf, v.a.
bezüglich der Methoden.
45
47
METHODEN (IN DER SOZIALW.
TWITTER FORSCHUNG)
Weller, K. (in press). What do we get from Twitter – and what not? A close look at Twitter research in the social
sciences. Knowledge Organization.
QUELLEN FÜR BIG DATA
• Application Programming Interface (API)
• Web Crawling
• Reseller
• Crowdsourcing (z.B. 23andMe)
• Bislang kaum: Datenarchive, Korpora.
48
DATENSAMMLUNG
Datenquelle Anzahl
Keine Angabe 11
Manuelle Datensammlung auf der Twitter-Website (Copy-Paste /
Screenshot)
6
Twitter API (one näheren Angaben) 8
Twitter Search API 3
Twitter Streaming API 1
Twitter Rest API 1
Twitter API user timeline 1
Selbstgeschriebenes Programm mit Zugriff auf Twitter APIs 4
Twitter Gardenhose 1
Offizielle Reseller (Gnip, DataSift) 3
YourTwapperKeeper 3
Andere Drittanbieter (z.B. Topsy) 6
Von Kooperationspartner erhalten 1
50
Weller, K (im Druck): Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. Erscheint in: R.
Reichert (Hrsg), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Transcript.
Twitter and Election (2013 papers)
ENDE DER THEORIE?
Sozialwissenschaften
1. Problem
2. Forschungsfrage/
Hypothesen
3. Theorien
4. Methoden
5. Daten
6. Analyse
7. Ergebnispräsentation
64
Typische Big Data-Analyse
1. Methoden
2. Daten
3. Analyse
4. Ergebnispräsentation
5. Problem
Korrelation vs. Kausalität
Pfeffer, J. (2013). Big data, big research? Opportunities and constraints for computer supported social science.
Keynote zur „Digital methods“-Tagung der DGPuK-Fachgruppe Computervermittelte Kommunikation, Wien.
Abgerufen von http://www.pfeffer.at/slides/DigitalMethods-BigData.pdf
ANFANG DER THEORIE?
“The interesting point is that these limitations can (and have to) be
addressed by theory guided research that is typically conducted
by social scientists. Accordingly, opportunities emerge for those
social and behavioral scientists who are willing to collaborate with
the Big Data researchers in the natural, engineering, and
computer sciences.”
65
Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet.
International Journal of Internet Science, 7, 1-5. Retrieved from http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
METHODENPROBLEME
“There are a lot of small data problems that occur in big data,”
says Spiegelhalter. “They don’t disappear because you’ve got lots
of the stuff. They get worse.”
Tim Harford (2014): Big data: are we making a big mistake? FT Magazine, retrieved from:
http://www.ft.com/cms/s/2/21a6e7d8-b479-11e3-a09a-
00144feabdc0.html#axzz2xGqAnW8a?utm_source=pocket&utm_medium=email&utm_campaign=pockethits
66
REPRÄSENTATIVITÄT
“The core challenge is that most big data that have
received popular attention are not the output of
instruments designed to produce valid and reliable data
amenable for scientific analysis.“
67
Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google
Flu: Traps in big data analysis. Science, 343(6176), 1203-1205.
REPRÄSENTATIVITÄT
69
Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research
GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank-
Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final
13
29
14
44
17
51
32
56
44
69
54
74
44
82
67
87
75
87
73
99
0
20
40
60
80
100
ViceCreative
produc-
tion
Blog-
ging
School
&
work
Info-
tain-
ment
Commer-
cial
activity
Enter-
tain-
ment
Classic
news
Infor-
mation
seeking
Social-
ize
OxIS current users: 2013 N=1,613
Figure 2: Activities of Twitter Users & Non-users
Twitter user Non-user
REPRÄSENTATIVITÄT
70
Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research
GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank-
Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final
34
26
8
12
18
14
10
17
12
23
28
3330
35
0
20
40
60
80
100
InterestPolitical activities
Interest
in politics
Send
political
message
Contact
MP online
Re-post
political
news
Political
comment
on SNS
Find
political
facts
Sign
online
petition
OxIS current users: 2013 N=1,613
Figure 6: Political Activities of Twitter Users
Twitter user Non-user
REPRÄSENTATIVITÄTS-
PROBLEME AUF MEHREREN
EBENEN
“About a third of all UK Internet users have a twitter profile; a
subset of that group are the active tweeters who produce the bulk
of content; and then a tiny subset of that group (about 1%)
geocode their tweets (essential information if you want to know
about where your information is coming from).”
71
Graham M. (2012). Big data and the end of theory?". The Guardian. Retrieved from:
http://www.theguardian.com/news/datablog/2012/mar/09/big-data-theory
GEFAHREN DURCH FEHLENDE
REPRÄSENTATIVITÄT
Diskussion: Menschen, die durch Big Data nicht repräsentiert sind
72
http://streetbump.org
Siehe auch: http://www.wired.com/2014/03/potholes-big-data-
crowdsourcing-way-better-government/
LANDTAGSWAHL NRW 2012
76
• Vorgezogene Wahl am 13. Mai 2012.
• Rot-grüne Mehrheit, Kraft bleibt Ministerpräsidentin
• CDU schlechtestes Ergebnis seit 1947, Rücktritt Röttgen
• Piratenpartei erstmals im Landtag
• Linke scheitert an 5%-Hürde
http://de.wikipedia.org/wiki/Landtagswahl_in_Nordrhein-Westfalen_2012
LANDTAGSWAHL BEI TWITTER
77
Hashtag Tweets
(27.03.-15.06.13)
#ltw12 5.656
#ltwnrw 11.116
#ltw2012 165
#ltwnrw12 1.621
#ltwnrw2012 27
#nrw12 41.106
#nrw2012 1.991
Total (ohne Dubletten) 56.145
Demmer, C.J., & Weller, K. (2013). Stimmungsschwankungen bei Twitter? Eine Sentiment-Analyse anhand von Tweets nach der
Landtagswahl in Nordrhein-Westfalen 2012. In H.-C. Hobohm (Ed.), Proceedings of the 13th International Symposium of Information
Science (ISI 2013), Potsdam, March 2013 (pp. 482-485). Glückstadt: Hülsbusch.
WER DISKUTIERT MIT?
Aufgabe: #nrw12 oder #ltw12 oder #tlwnrw Tweets öffnen
Nutzer identifizieren, die min. einen Tweet geschrieben haben.
Wie viele Nutzer haben genau einen Tweet?
Wie sieht die Verteilung der Tweets pro User aus?
Wer sind die fünf aktivsten Nutzer?
82
WAS MACHEN DIE
KANDIDATEN?
Aufgabe: einen der Kandidaten auswählen, Dateien
fromKandidat und atKandidat öffnen
Wie viele Tweets hat „ihr Kandidat“ veröffentlicht?
Wie viele @messages und Retweets hat „ihr“ Kandidat erhalten?
Was wurde besonders häufig geretweetet?
84
NETZWERK:
BUNDESTAGSWAHL
85
following
85
Lietz, H., Wagner, C., Bleier, A., & Strohmaier, M. (2014). When politicians talk: Assessing online
conversational practices of political parties on twitter. In International AAAI Conference on Weblogs and
Social Media (ICWSM2014), Ann Arbor, MI, USA, June 2-4, 2014.
mentioningretweeting