Twitter-Daten in der sozialwissenschaftlichen Forschung
Twitter-Daten in der
sozialwissenschaftlichen Forschung:
Möglichkeiten und Herausforderungen
7. Oktober 2013, 13:00-18:00
8. Oktober, 9:30-15:00
GESIS Workshop, Köln
Dr. Katrin Weller, katrin.weller@gesis.org, @kwelle
Aufbau des Workshops
Ziele
• Twitter als Datenquelle kennenlernen
• Einschätzen lernen, was mit Twitter-Daten möglich ist, und was nicht
• Überblick über Herangehensweisen, Methoden, Stand der Forschung,
Schwierigkeiten
Aufbau des Workshops
1. Einführung in Twitter (mit Übung)
2. Stand der Twitter-Forschung – Ein Überblick
3. Twitter-Tools
4a. Ein erster Blick in die Twitter-Daten
4b. Twitter-Datensätze unter der Lupe
5. Studien planen – was geht, was geht nicht?
6. Übung: Studien planen
7. Diskussion: Datenqualität, Forschungsethik, rechtlicher Rahmen
Unterrichtsmaterialien
• Folien werden online zur Verfügung gestellt: http://katrinweller.net
• Weiterführende Informationen:
http://kwelle.wordpress.com/2013/08/14/some-useful-resources-forstarting-twitter-research/#more-100
• Test-Datensätze bitte nicht weitergeben!
Twitter in Zahlen
• March 2012: 140 million active users and 340 million Tweets a day
• December 2012: more than 200 million users
• USA, 2012: 15% of online adults use Twitter
• Germany, 2012: 4% of population
ARD/ZDF online Studie
http://www.ard-zdfonlinestudie.de/fileadmin
/Online12/07082012_Busemann_Gscheidl
e.pdf
@twitter:
https://twitter.c
om/twitter/stat
us/2810516522
35087872
PEW Internet:
http://www.pewinte
rnet.org/Reports/201
2/Twitter-Use2012.aspx
Twitter Blog:
http://blog.twit
ter.com/2012/0
3/twitter-turnssix.html
Twitter vs. Facebook
In Deutschland
Facebook: 72.1% (aller Internetnutzer)
Twitter: 10.5% (aller Internetnutzer)
German Social Media Consumer Report:
http://www.socialmediathinklab.com/wpcontent/uploads/2013/02/WWU_SocialMedia-Consumer-Report_0213_Ansicht.pdf
10
Followers / Followees
Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a Social Network or a News Media? In Proceedings of
the 19th International World Wide Web (WWW) Conference, April 26-30, 2010, Raleigh NC, USA.
Retweet (RT)
Kooti, F., Yang, H., Cha, M., Gummadi, K.P. & Mason, W.A. (2012). The Emergence of Conventions in Online Social Networks. Proceedings of the
International Conference on Weblogs and Social Media (ICWSM 2012), Dublin.
Übung 1: Suchen
• Nach Tweets:
– mit und ohne Hashtag
• Nach Personen
– nach dem offiziellen Account der eigenen Institution
– nach einem verifizierten Account
• (Suchen ohne Login: https://twitter.com/search-home)
Übung 2: Account anlegen
Wer keinen eigenen Account anlegen möchte:
Twitter Test-Account: [aus den Folien gelöscht]
Passwort: [aus den Folien gelöscht]
Übung 3: Folgen
• 2-3 interessante Accounts aussuchen und diesen folgen
• Min. einem anderen Kursteilnehmer folgen
• Zurück-folgen!
Übung 4: Tweets schreiben
•
•
•
•
zuerst einen ‚normalen‘ Tweet
dann einen mit Hashtag
und dann eine @message an einen anderen Kursteilnehmer
und nun noch ein Retweet
Übung 5: Hashtag auswählen
• Einen gemeinsamen Hashtag für den Workshop festlegen
Übung 6: Trending topics
• Die Trending Topics ansehen
– Für Deutschland
– Weltweit
– Für ein anderes Land oder für die eigene Heimatstadt
Übung 7: Direct message schreiben
• Einem anderen Teilnehmer eine direct message schicken.
Frühe Twitter-Forschung
• Java et al. (2007) identifizieren einen Großteil an Tweets als “daily
chatter”.
• Pear Analytics study: 40% of tweets are pointless babble (Kelly, 2009).
Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: understanding microblogging usage and communities. In
Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis
(WebKDD/SNA-KDD ’07). ACM, New York, NY, USA, 56-65. DOI=10.1145/1348549.1348556
http://doi.acm.org/10.1145/1348549.1348556
Kelly, R. (2009). Twitter Study. Pear Analytics, retrieved from http://www.pearanalytics.com/wpcontent/uploads/2012/12/Twitter-Study-August-2009.pdf
Twitter Evolution
• Kommunikation bei Twitter entwickelt sich weiter
• @-Symbol für Antworten (Honeycutt & Herring, 2009)
• Retweets
Neue Studien untersuchen Kommunikationsstruktur und Netzwerke
Honeycutt, C., and Herring, Susan C. (2009). Beyond microblogging: Conversation and collaboration via Twitter. Proceedings of the
Forty-Second Hawaii International Conference on System Sciences.Los Alamitos, CA IEEE Press.
De-benalizing Twitter!
Rogers, R. (2014). Debanalizing Twitter: The transformation of an object of study. In: K. Weller, A. Bruns, J.
Burgess, M. Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. ix-xxvi). New York et al.: Peter Lang.
Ausgewählte Forschungsbereiche
Kommunikations- und Medienwissenschaft
•
•
•
•
•
Übertragung von Methoden der Medienanalyse
Brand communication
Crisis communication
Verschiedene Zielgruppen, verschiedene Kommunikationssituationen
Rolle von @messages, RTs etc.
45
Twitter in der sozialwissenschaftlichen
Forschung?
Weller, K. (2013). What you can get from Twitter – and what not. Presentation at ISSC’s World Social Science Forum (WSSF) 2013. Montreal, Canada. Slides: http://de.slideshare.net/katrinweller/wellerwssf-2013presentation . Extended Abstract: http://kwelle.files.wordpress.com/2013/10/wssf2013_weller_what-do-we-get-from-twitter.pdf
Publication
Huberman, B. A., Romero, D. M., & Wu, F. (2009). Social networks that matter: Twitter under the microscope. First Monday,
14(1). Retrieved from http://firstmonday.org/ojs/index.php/fm/article/view/2317/2063
[2]
Weller, K. (2013). What you can get from Twitter – and what not. Presentation at ISSC’s World Social Science Forum
(WSSF) 2013. Montreal, Canada. Slides: http://de.slideshare.net/katrinweller/weller-wssf-2013presentation .
Extended Abstract: http://kwelle.files.wordpress.com/2013/10/wssf2013_weller_what-do-we-get-from-twitter.pdf
No.
[1]
Citations
155
Data
309740 Twitter users (with followers and
tweets)
Marwick, A. E., & boyd, d. (2011). I tweet honestly, I tweet passionately: Twitter users, context collapse, and the imagined
audience. New Media & Society, 13(1), 114–133. doi:10.1177/1461444810365313
77
Interviews with 181 Twitter users
[3]
Junco, R., Heiberger, G., & Loken, E. (2011). The effect of Twitter on college student engagement and grades. Journal of
Computer Assisted Learning, 27(2), 119–132. doi:10.1111/j.1365-2729.2010.00387.x
55
Experiment with 125 students.
[4]
Yardi, S., Romero, D., Schoenebeck, G., & boyd, d. (2010). Detecting spam in a Twitter network. First Monday, 15(1). Retrieved
from http://firstmonday.org/ojs/index.php/fm/article/view/2793/2431
28
17,803 tweets from 8,616 users + 1st degree
network (3,048,360 directed edges, 631,416
unique followers, and 715,198 unique friends)
[5]
Ritter, A., Cherry, C., & Dolan, B. (2010). Unsupervised modeling of Twitter conversations. In HTL'10 Human Language
Technologies. The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics
(pp. 172–180). Stroudsburg, Pa: Association for Computational Linguistics (ACL). Retrieved from
http://dl.acm.org/citation.cfm?id=1858019
27
1.3 million Twitter conversations, with each
conversation containing between 2 and 243
posts
[6]
Petrovic, S., Osborne, M., & Lavrenko, V. (2010). Streaming first story detection with application to Twitter. In HTL'10 Human
Language Technologies. The 2010 Annual Conference of the North American Chapter of the Association for Computational
Linguistics (pp. 181–189). Stroudsburg, Pa: Association for Computational Linguistics (ACL). Retrieved from
http://dl.acm.org/citation.cfm?id=1858020
26
163,500,000 tweets
[7]
Jiang, L., Yu, M., Zhou, M., Liu, X., & Zhao, T. (2011). Target-dependent Twitter sentiment classification. In HLT '11 Proceedings
of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies:. Short papers Volume 2 (pp. 151–160). Retrieved from http://dl.acm.org/citation.cfm?id=2002492
22
20,000 tweets
[8]
Han, B., & Baldwin, T. (2011). Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the
49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Short papers - Volume 2
(pp. 368–378). Retrieved from http://dl.acm.org/citation.cfm?id=2002520
22
449 tweets sampled from 1.5 GB of Twitter data
[9]
Gimpel, K., Schneider, N., O'Connor, B., Das, D., Mills, D., Eisenstein, J., Heilmann, M., … (2011). Part-of-speech tagging for
Twitter: Annotation, features, and experiments. In HLT '11 Proceedings of the 49th Annual Meeting of the Association for
Computational Linguistics: Human Language Technologies. Short papers - Volume 2 (pp. 42–47). Retrieved from
http://dl.acm.org/citation.cfm?id=2002747
21
1,827 annotated tweets
[10]
Schultz, F., Utz, S., & Göritz, A. (2011). Is the medium the message? Perceptions of and reactions to crisis communication via
twitter, blogs and traditional media. Public Relations Review, 37(1), 20–27. doi:10.1016/j.pubrev.2010.12.001
19
Experiment with 1677 participants
[11]
Barbosa, L., & Feng, J. (2010). Robust sentiment detection on twitter from biased and noisy data. In COLING '10 Proceedings of
the 23rd International Conference on Computational Linguistics (pp. 36–44).
19
200,000 annotated tweets
[12]
Davidov, D., Tsur, O., & Rappoport, A. (2010). Enhanced sentiment lerarning using Twitter hashtags and smileys. In COLING '10
Proceedings of the 23rd International Conference on Computational Linguistics (pp. 241–249). Retrieved from
http://dl.acm.org/citation.cfm?id=1944566.1944594
19
475,000,000 tweets
[13]
Hargittai, E., & Litt, E. (2011). The tweet smell of celebrity success: Explaining variation in Twitter adoption among a diverse
group of young adults. New Media & Society, 13(5), 824–842. doi:10.1177/1461444811405805
18
Survey with 505 young American adults
[14]
Zhou, X., Lee, W.-C., Peng, W.-C., Xie, X., Lee, R., & Sumiya, K. Measuring geographical regularities of crowd behaviors for
Twitter-based geo-social event detection, 1. doi:10.1145/1867699.1867701
18
21,623,947 geo-tagged tweets
[15]
Gruzd, A., Wellman, B., & Takhteyev, Y. (2011). Imagining Twitter as an Imagined Community. American Behavioral Scientist,
55(10), 1294–1318. doi:10.1177/0002764211409378
17
One person’s Twitter network (652 followers,
114 followings).
3,112 tweets.
[16]
Johnson, K. A. (2011). The effect of Twitter posts on students’ perceptions of instructor credibility. Learning, Media and
Technology, 36(1), 21–38. doi:10.1080/17439884.2010.534798
16
Experiments with 120 undergrad students
[17]
Alina Mungiu-Pippidi, & Igor Munteanu. (2009). Moldova's "Twitter Revolution". Journal of Democracy, 20(3), 136–142.
doi:10.1353/jod.0.0102
16
none
[18]
Larsson, A. O., & Moe, H. (2012). Studying political microblogging: Twitter users in the 2010 Swedish election campaign. New
Media & Society, 14(5), 729–747. doi:10.1177/1461444811422894
15
99,832 tweets
[19]
Lasorsa, D. L., Lewis, S. C., & Holton, A. E. (2012). Normalizing Twitter: Journalism practice in an emerging communication
space. Journalism Studies, 13(1), 19–36. doi:10.1080/1461670X.2011.571825
15
22,248 tweets
[20]
Takhteyev, Y., Gruzd, A., & Wellman, B. (2012). Geography of Twitter networks. Social Networks, 34(1), 73–81.
doi:10.1016/j.socnet.2011.05.006
14
481,248 tweets, 1,953 user pairs
Methoden?
Angewandte Methoden in den meistzitierten Publikationen:
• Interviews mit Twitter-Nutzern,
• Experimente,
• Quantitative Analysen von Tweets und deren Eigenschaften,
• Netzwerkananlysen,
• Linguistische Analysen, z.B. word clustering, event detection,
sentiment analysis,
• Inhaltsanalysen von Tweets.
Bisher eher selten mehrere in Kombination
Standard-Metriken?
• Anzahl der Tweets
• Anzahl der Nutzer mit min. einem Tweet
• Tweets pro Nutzer
• Structural Analysis of Tweets:
– Original tweets, RTs, (modified RTs), @message
– Tweets mit URLs
Bruns, A., & Stieglitz, S. (2012). Quantitative Approaches to Comparing Communication Patterns on Twitter. Journal
of Technology in Human Services, 30(3-4), 160–185. doi:10.1080/15228835.2012.744249
52
Anzahl der Tweets pro Stunde
Beispiel für einen Zeitverlauf:
#mla09
Zeitachse: Messung in Stunden
Graphik von Cornelius Puschmann
Beispiel für ein Personennetzwerk
basierend auf RTs – im Zeitverlauf
Puschmann, C., Weller, K., Dröge, E. (2011):
Studying Twitter Conversations as
(Dynamic) Graphs: Visualization and
Structural Comparison. Poster at General
Online Research (GOR 11), Düsseldorf.
http://ynada.com/posters/gor11.pdf
Beispiel für Personeninformationen:
#www2010
Anzahl Tweets
Aktivität einzelner Personen: Tweetanzahl (#www2010)
200
180
160
140
120
100
80
60
40
20
0
Dröge, E., Maghferat, P., Puschmann, C., Verbina, J., & Weller, K. (2011). Konferenz-Tweets. Ein Ansatz zur Analyse der TwitterKommunikation bei wisseschaftlichen Konferenzen. In J. Griesbaum, T. Mandl, C. Womser-Hacker (Eds.), Information und Wissen:
global, sozial und frei? Proceedings des 12. Internationalen Symposiums für Informationswissenchaft (pp. 98–110). Boizenburg: VWH.
Inhaltsanalyse
• CAQDAS Computer-Assisted Qualitative Data AnalysiS
– (z.B. MAXQDA, QDAMiner, ATLAS.ti, Qualrus, Nvivo)
– Speech Act Analyse
– Statistische Auswertungen
Einspänner, J., Dang-Anh, M., & Thimm, C. (2014). Computer-assisted content analysis of Twitter data. In: K. Weller,
A. Bruns, J. Burgess, M. Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. 97-108). New York et al.: Peter Lang.
57
Sentiment Analyse
Automatische Berechnung von emotionalen Tonalitäten von
Tweets.
Benötigt werden Wörterbücher mit Sentiment-Werten, z.B. ANEW.
Generell mit Vorsicht zu betrachten.
Für deutsche Tweets besonders kritisch.
Thelwall, M. (2014). Sentiment analysis and time series with Twitter. In: K. Weller, A. Bruns, J. Burgess, M.
Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. 83-96). New York et al.: Peter Lang.
58
Siehe:
Bruns, Axel; Weller, Katrin; Harrington, Stephen (2014): Twitter and Sports: Football Fandom in Emerging and Established Markets. In:
80000
Weller, Katrin; Bruns, Axel; Burgess, Jean; Mahrt, Merja; Puschmann, Cornelius (Hrsg.): Twitter and Society, New Yort et al.: Peter Lang,
S. 263-280
Weller, Katrin; Bruns, Axel (2013): Das Spiel dauert 140 Zeichen: Wie deutsche Fußballvereine Twitter für Marketing und Fan70000
Kommunikation entdecken. In: Griesbaum, Joachim; Heuwing, Ben; Ruppenhofer, Josef; Werner, Katrin (Hrsg.): HiER 2013. Proceedings
BVB Dortmund 09 II (@BVB)
des 8. Hildesheimer Evaluierungs- und Retrievalworkshop, Hildesheim: Universität Hildesheim, S. 119-131
60000
FC Bayern München (@BayMuenchen)
number of followers
50000
40000
SV Werder Bremen II (@werderbremen)
Hamburger SV (@HSV)
30000
FC Schalke 04 II (@s04, official)
1. FC Köln (@fckoeln)
20000
SV Werder Bremen I (@Werder_Bremen)
Borussia Mönchengladbach
(@VfLBorussia)
FC Schalke 04 I (@FCSchalke04, inofficial)
10000
0
Jun 11
Jul 11
Aug 11
Sep 11
Oct 11
Nov 11
Dec 11
Jan 12
Feb 12
Mar 12
Apr 12
May 12
Jun 12
month
1. FC Augsburg (@FCAugsburg)
1. FC Nürnberg (@1_fc_nuernberg)
Bayer 04 Leverkusen (@bayer04fussball)
BVB Dortmund 09 II (@BVB)
FC Schalke 04 I (@FCSchalke04, inofficial)
Hannover 96 II (@hannover96)
SV Werder Bremen I (@Werder_Bremen)
1. FC Kaiserslautern (@Rote_Teufel)*
1. FSV Mainz 05 (1FSVMainz05)
Borussia Mönchengladbach (@VfLBorussia)
FC Bayern München (@BayMuenchen)
Hamburger SV (@HSV)
Hertha BSC Berlin (@HerthaBSC)*
SV Werder Bremen II (@werderbremen)
1. FC Köln (@fckoeln)
1899 Hoffenheim (achtzehn99)
BVB Dortmund 09 I (@BVBDortmund09)
FC Schalke 04 II (@s04, official)
Hannover 96 I (@ichbin96)
SC Freiburg (@sc_freiburg)
64
VfB Stuttgart (@VfB)
Bruns, A., & Burgess, J. (2012). Notes towards the scientific study of Twitter. In Tokar, A., Beurskens, M., Keuneke,
S., Mahrt, M., Peters, I., Puschmann, C., van Treeck, T., & Weller, K. (Eds.). (2012). Science and the Internet (pp. 159169). Düsseldorf: Düsseldorf University Press http://nfgwin.uni-duesseldorf.de/sites/default/files/Bruns.pdf
66
Übung
http://topsy.com
- Bei Topsy suchen nach a) einem Nutzer, b) einem Stichwort, c) einem
Hashtag.
- Bei Topsy Analytics zwei Nutzer und zwei Hashtags vergleichen.
- Auffälligkeiten?
Twitter APIs
•
•
•
•
API = Application Programming Interface
Zugang, um Daten für Anwendungen/Apps zu verwenden
Nicht explizit für die wissenschaftliche Nutzung vorgesehen
Streaming API, Rest APIs, Search API
Gaffney, D., & Puschmann, C. (2014). Data collection on Twitter. In A. Bruns, K. Weller, J. Burgess, M. Mahrt
& C. Puschmann (Eds.), Twitter and Society (pp. 55-67). New York, NY: Peter Lang.
81
Twitter APIs
STREAMING API
- push-basiert, Live-Stream
- Public stream vs. User stream
- Forscher brauchen Tools, die eine Verbindung zu diesem Stream aufrecht
erhalten.
82
Twitter APIs
REST API
• Eingeschränkte Anzahl Anfragen pro Stunde
• Social graph data (wer folgt wem)
• Trending topics
• Und vieles mehr
https://dev.twitter.com/docs/using-search
83
Rechtlicher Rahmen
• Terms of Services: https://twitter.com/tos
• Twitter Privacy Policy: https://twitter.com/privacy
• Developer’s Rules of the Road: https://dev.twitter.com/terms/api-terms
Diskussion
• Erste Selbsteinschätzung: wo könnten sich Twitter-Daten für meine
Forschungsfrage lohnen?
• Was muss ich noch wissen, bevor ich tatsächlich entscheiden kann, ob ich
mit Twitter-Daten arbeiten möchte?
Allgemein:
• Fragen / Wünsche / Anregungen
Fallstudie: Twitter bei der
Landtagswahl NRW
Übung:
- Notieren, welche Fragestellungen in diesem Zusammenhang interessant
sein könnten.
- Überlegen, welche Daten dafür benötigt werden würden.
Studien planen
•
•
•
•
Was soll untersucht werden?
Warum brauche ich dafür Twitter-Daten?
Welche Art Twitter-Daten benötige ich?
Vorab-Recherche!
Kriterien zur Datenerhebung
Typischerweise:
- Tweets eines bestimmten Nutzers
- Tweets, die einen Nutzer erwähnen
- Tweets, die ein Wort (Zeichenkette) oder ein Hashtag enthalten
Diverse weitere, z.B.
- Anzahl und Namen der Follower eines Accounts
- Tweets, die eine bestimmte URL (domain) enthalten
115
Probleme
•
•
•
•
Wie lange sollen Daten gesammelt werden?
Mit welcher Technik sollen Daten gesammelt werden?
Mit welchen Suchkriterien sollen Daten gesammelt werden?
Wie sollen die Daten später ausgewertet werden?
Technische Feinheiten
•
•
•
•
•
Manuelle vs. Button Retweets
URLs erkennen und auflösen
@messages vs. @mentions
Informationen über einzelne Twitter-Nutzer herausfinden
Hashtag vs. Volltextsuche
Datenbereinigung
• Mehrere Datensätze zusammenfügen und dabei Dubletten entfernen.
• ‚False positives‘ entfernen (z.B. bvb)
• Ggf. Dateiformate für die Bearbeitung in Analysetools anpassen
Studiendesign
Entweder bereits vorhandene Fragestellung – oder gemeinsam Fragen
erarbeiten.
• Ausgehend von Fragestellung: welche Daten werden benötigt, wie können
diese erhoben werden, was muss beachtet werden?
• Welche Probleme können auftreten?
Kurzpräsentation des eigenen Ansatzes
Forschungsethik
• Anonymisierung/Pseudonymisierung möglich bzw. nötig?
• Richtlinien für den Umgang mit Personendaten?
Aktuelle Hinweise
• So wenig personenbezogene Daten wie möglich teilen
• Tweet-Sammlungen nicht öffentlich zur Verfügung stellen