Anzeige
Anzeige

Más contenido relacionado

Presentaciones para ti(20)

Similar a Twitter-Daten in der sozialwissenschaftlichen Forschung – Möglichkeiten und Herausforderungen(20)

Anzeige

Twitter-Daten in der sozialwissenschaftlichen Forschung – Möglichkeiten und Herausforderungen

  1. Twitter-Daten in der sozialwissenschaftlichen Forschung: Möglichkeiten und Herausforderungen 16. Oktober 2014, 10:30-17:00 17. Oktober 2014, 9:30-15:00 GESIS Workshop, Köln Dr. Katrin Weller, katrin.weller@gesis.org, @kwelle 1
  2. Herzlich Willkommen! 2
  3. Aufbau des Workshops Ziele •Twitter als Datenquelle kennenlernen •Einschätzen lernen, was mit Twitter-Daten möglich ist, und was nicht •Überblick über Herangehensweisen, Methoden, Stand der Forschung, Schwierigkeiten 3
  4. Aufbau des Workshops Tag 1: Möglichkeiten 10:30-10:45 Begrüßung 10:45-11:45 Was ist Twitter? Eine Einführung mit Übung. 11:45-12:30 Überblick über den Stand der Twitter-Forschung, Teil I 12:30-13:30 Mittagessen 13:30-15:00 Überblick über den Stand der Twitter-Forschung, Teil II 15:00-15:30 Kaffeepause 15:30-17:00 Möglichkeiten zur Datenerhebung: Tools und Rahmenbedingungen (anschließend optional: gemeinsames Abendessen) 4
  5. Aufbau des Workshops Tag 2: Herausforderungen 9:30-10:30 Übung mit Beispieldatensatz 10:30-11:00 Kaffeepause 11:00-12:30 Forschungsethik, Repräsentativität, Reproduzierbarkeit 12:30-13:30 Mittagspause 13:30-15:00 Übung zur Studien-Konzeption: Was geht, was geht nicht? (anschließend optional: Einzelberatung für konkrete Forschungsprojekte) 5
  6. Unterrichtsmaterialien •Folien werden online zur Verfügung gestellt: http://de.slideshare.net/katrinweller •Weiterführende Informationen: http://kwelle.wordpress.com/2013/08/14/some-useful-resources-for- starting-twitter-research/#more-100 •Sammelband Twitter & Society als PDF für Teilnehmer verfügbar •Test-Datensätze nicht weitergeben! 6
  7. Fragen? Jederzeit gerne! 7
  8. Vorstellung •Interessen, Forschungshintergrund •Erwartungen •Konkrete Pläne mit Twitterdaten? 8
  9. Was ist Twitter? Eine Einführung mit Übung 9
  10. Jack Dorsey (2000): “twttr sketch”. http://www.flickr.com/photos/jackdorsey/182613360/ Twitter – Eine Einführung 10
  11. gegründet in 2006, eigenständige Plattform seit 2007 Jack Dorsey (2000): “twttr sketch”. http://www.flickr.com/photos/jackdorsey/182613360/ 11
  12. Twitter 2014 12
  13. Twitter in Zahlen  https://about.twitter.com/company 13
  14. Twitter in Zahlen  http://www.statista.com/statistics/282087/number-of-monthly-active-twitter-users/ 14
  15. Twitter in Zahlen •March 2012: 140 million active users and 340 million Tweets a day •December 2012: more than 200 million users •USA, 2012: 15% of online adults use Twitter •Germany, 2012: 4% of population PEW Internet: http://www.pewinternet.org/Reports/2012/Twitter-Use- 2012.aspx Twitter Blog: http://blog.twitter.com/2012/03/twitter-turns- six.html @twitter: https://twitter.com/twitter/status/281051652235087872 ARD/ZDF online Studie http://www.ard-zdf- onlinestudie.de/fileadmin/Online12/0708- 2012_Busemann_Gscheidle.pdf 15
  16. 16
  17. Twitter vs. Facebook 17 In Deutschland (2013) Facebook: 72.1% (aller Internetnutzer) Twitter: 10.5% (aller Internetnutzer) German Social Media Consumer Report: http://www.socialmediathinklab.com/wp- content/uploads/2013/02/WWU_Social- Media-Consumer-Report_0213_Ansicht.pdf
  18. Randnotizen •Trends 2012: Olympics, Wahlen in USA. •Twitter-Nutzer mit den meisten Followern? •Foto mit den meisten Retweets 2012: https://2012.twitter.com/de/golden-tweets.html 18
  19. Randnotizen •Trends 2012: Olympics, Wahlen in USA. •Twitter-Nutzer mit den meisten Followern? •Foto mit den meisten Retweets 2014: https://twitter.com/TheEllenShow/status/440322224407314432/photo/1 19
  20.  Oktober 2014, http://twittercounter.com/pages/100 20
  21. Und wie funktioniert das? 21
  22. Und wie funktioniert das? Tweet = max. 140 Zeichen 22
  23. Followers / Followees  Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a Social Network or a News Media? In Proceedings of the 19th International World Wide Web (WWW) Conference, April 26-30, 2010, Raleigh NC, USA. 23
  24. 24
  25. Timeline 25
  26. Retweet (RT)  Kooti, F., Yang, H., Cha, M., Gummadi, K.P. & Mason, W.A. (2012). The Emergence of Conventions in Online Social Networks. Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2012), Dublin. 26
  27. @message (@mention) ≠ direct message 27
  28. #hashtags 28
  29. #hashtags - Suchen 29
  30. #hashtags - Suchen 30
  31. #hashtags + Trends 06 Oktober 2013 14 Oktober 2013 31
  32. Trends 32
  33. URLs 33
  34. Fotos 34
  35. Favorites 35
  36. Nutzerprofile 36
  37. Nutzerprofile: „verified“ 37
  38. Übung 38
  39. Übung 1: Suchen •Nach Tweets: –mit und ohne Hashtag •Nach Personen –nach dem offiziellen Account der eigenen Institution –nach einem verifizierten Account •(Suchen ohne Login: https://twitter.com/search-home) 39
  40. Übung 2: Account anlegen Neuer Account: https://twitter.com/signup  Tipp: kurze Namen wählen! Wer keinen eigenen Account anlegen möchte: Twitter Test-Account: @learn_2_tweet Passwort: -------------- 40
  41. Übung 3: Folgen •2-3 interessante Accounts aussuchen und diesen folgen •Min. einem anderen Kursteilnehmer folgen •Zurück-folgen! 41
  42. Übung 4: Tweets schreiben •zuerst einen ‚normalen‘ Tweet •dann einen mit Hashtag •und dann eine @message an einen anderen Kursteilnehmer •und nun noch ein Retweet •und einen Tweet favorisieren 42
  43. Übung 5: Hashtag auswählen •Einen gemeinsamen Hashtag für den Workshop festlegen 43
  44. Übung 6: Trending topics •Die Trending Topics ansehen –Für Deutschland –Weltweit –Für ein anderes Land oder für die eigene Heimatstadt 44
  45. Übung 7: Direct message schreiben •Einem anderen Teilnehmer eine direct message schicken. 45
  46. Überblick über den Stand der Twitter-Forschung, Teil I: Twitter-Forschung in Zahlen 46
  47. The bigger picture Social media research 2000-today 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 No. of publications (Scopus) 47
  48. Social Media Ecology •Plattform-spezifische Studien dominieren, wenig zu plattformübergreifenden Fragestellungen. •Links von Twitter zu anderen Plattformen und zurück. •Multi-Postings 48
  49. Welche Social Media Dienste werden erforscht? 0 100 200 300 400 500 600 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 Twitter Facebook YouTube Blogs Wikis Foursquare LinkedIn MySpace  http://kwelle.wordpress.com/2014/04/07/bibliometric-analysis-of-social-media-research/ 49
  50. Twitter vs. Facebook 50
  51. Andere Internetdaten für Sozialwissenschaftler? •Social Networks (z.B. Facebook): Beziehungen, Verhalten •Ebay: Kaufverhalten, Preisentwicklung •Wikipedia: Versionshistorie von „umstrittenen“ Themen. •Google: Häufigkeiten von Suchbegriffen •Kommentare •Bewertungen: Amazon, Movie Ratings, … •Video on Demand: Netflix, Lovefilm, YouTube, … •RFID Chips für Interaktionen •Voting Advice Applications: Wahl-O-Mat 51
  52. Entwicklung der Twitter-Forschung 52
  53. Twitter-Forschung nach Disziplinen 53
  54. Scopus 2006-2013: Twitter-Publikationen aus 70 Ländern 54
  55. Top journals for social media research (social science papers) 0 20 40 60 80 100 120 Information Communication and Society Public Relations Review Econtent Profesional De La Informacion Proceedings of the Asist Annual Meeting New Media and Society First Monday Procedia Social and Behavioral Sciences 18th Americas Conference on Information Systems… Cutting Edge Technologies in Higher Education (TITLE-ABS-KEY("social media") OR TITLE-ABS-KEY("social web") OR TITLE-ABS-KEY("social software") OR TITLE- ABS-KEY("web 2.0")) AND PUBYEAR > 1999 55
  56. Sozialwissenschaftliche Twitter-Forschung 56
  57. Big DATA? 2013: twitter and election No. of Tweets No. Of publications (2013) 0-500 3 501-1.000 4 1.001-5.000 1 5.001-10.000 1 10.001-50.000 7 50.001-100.000 4 100.001-500.000 5 500.001-1.000.000. 3 1.000.001-5.000.000 3 mehr als 5.000.000 3 mehr als 100.000.000 1 mehr als 1.000.000.000 1 keine/ungenaue Angabe 13  Weller, K. (2014). Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. In: R. Reichert (Ed.), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie (pp. 239-257). Bielefeld: transcript. 57
  58. Big Data? •Nicht die Größe ist entscheidend, sondern die Art der Daten und die damit verbundenen ggf. neuartigen Einblicke  New Data. •Die neuen Daten werfen aber auch viele neue Fragen auf, v.a. bezüglich der Methoden. 58
  59. Vergleichbarkeit von Studien? •Beispiel Wahlen –Verschiedene Erhebungszeiträume –Verschiedene Analysemethoden –Verschiedene Größenordnungen –Verschiedene Fallstudien 59
  60. Year of election Name of election Country/region No. of papers (2013) Date of election 2008 40th Canadian General Election Canada 1 14.10.2008 2009 European Parliament election, 2009 Europe 1 07.06.2009 2009 German federal election, 2009 Germany 2 27.09.2009 2010 2010 UK general election United Kingdom 4 06.05.2010 2010 South Korean local elections, 2010 South Korea 1 02.06.2010 2010 Dutch general election, 2010 Netherlands 2 09.06.2010 2010 Australian federal election, 2010 Australia 1 21.08.2010 2010 Swedish general election, 2010 Sweden 1 19.09.2010 2010 Midterm elections / United States House of Representatives elections, 2010 USA 4 02.11.2010 2010 Gubernational elections: Georgia USA 1 02.11.2010 2010 Gubernational elections: Ohio USA 1 02.11.2010 2010 Gubernational elections: Rhode Island USA 1 02.11.2010 2010 Gubernational elections: Vermont USA 1 02.11.2010 2010 2010 superintendent elections South Korea 1 17.12.2010 2011 Baden-Württemberg state election, 2011 Germany 1 27.03.2011 2011 Rhineland-Palatinate state election, 2011 Germany 1 27.03.2011 2011 Scottish parliament election 2011 Scotland 1 05.05.2011 2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.2011 2011 Norwegian local elections, 2011 Norway 2 12.09.2011 2011 2011 Danish parliamentary election Denmark 2 15.09.2011 2011 Berlin state election, 2011 Germany 2 18.09.2011 60  Weller, K. (2014). Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. In: R. Reichert (Ed.), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie (pp. 239-257). Bielefeld: transcript.
  61. 2011 Scottish parliament election 2011 Scotland 1 05.05.2011 2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.2011 2011 Norwegian local elections, 2011 Norway 2 12.09.2011 2011 2011 Danish parliamentary election Denmark 2 15.09.2011 2011 Berlin state election, 2011 Germany 2 18.09.2011 2011 Gubernational elections: West Virginia USA 1 04.10.2011 2011 Gubernational elections: Louisiana USA 1 22.10.2011 2011 Swiss federal election, 2011 Switzerland 1 23.10.2011 2011 2011 Seoul mayoral elections South Korea 1 26.10.2011 2011 Gubernational eletions: Kentucky USA 1 08.11.2011 2011 Gubernational elections: Mississippi USA 1 08.11.2011 2011 Spanish national election 2011 Spain 1 20.11.2011 2012 Queensland State election Australia 1 24.03.2012 2012 South Korean legislative election, 2012 South Korea 1 11.04.2012 2012 French presidential election, 2012 France 2 22.04.2012 2012 Mexican general election, 2012 Mexico 1 01.07.2012 2012 United States presidential election, 2012 / United States House of Representatives elections, 2012 USA 17 06.11.2012 2012 South Korean presidential election, 2012 South Korea 2 19.12.2012 2013 Ecuadorian general election, 2013 Ecuador 1 17.02.2013 2013 Venezuelan presidential election, 2013 Venezuela 1 14.04.2013 2013 Paraguayan general election, 2013 Paraguay 1 21.04.2013 61
  62. Top 5 Herausforderungen in der Twitter Forschung •Representativeness and validity •Cross-platform studies •Comparisons •Multi-method approaches •Context and meaning  Bruns, Axel, and Katrin Weller. 2014. "Twitter data analytics – or: the pleasures and perils of studying Twitter (guest editorial for special issue)". Aslib Journal of Information Management 66 (3): 246-249. http://www.emeraldinsight.com/toc/ajim/66/3. 62
  63. Zwischenfazit zum Forschungsstand •Wachsendes Forschungsinteresse an Social Media allgemein, v.a. in der Informatik. •Das Interesse an Twitter ist besonders groß. 63
  64. Überblick über den Stand der Twitter-Forschung, Teil II: Twitter-Forschung in Themen 64
  65. pointless babble? 65
  66. Frühe Twitter-Forschung •Java et al. (2007) identifizieren einen Großteil an Tweets als “daily chatter”. •Pear Analytics study: 40% of tweets are pointless babble (Kelly, 2009).  Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: understanding microblogging usage and communities. In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis (WebKDD/SNA-KDD ’07). ACM, New York, NY, USA, 56-65. DOI=10.1145/1348549.1348556 http://doi.acm.org/10.1145/1348549.1348556  Kelly, R. (2009). Twitter Study. Pear Analytics, retrieved from http://www.pearanalytics.com/wp- content/uploads/2012/12/Twitter-Study-August-2009.pdf 66
  67. Twitter Evolution •Kommunikation bei Twitter entwickelt sich weiter •@-Symbol für Antworten (Honeycutt & Herring, 2009) •Retweets  Neue Studien untersuchen Kommunikationsstruktur und Netzwerke  Honeycutt, C., and Herring, Susan C. (2009). Beyond microblogging: Conversation and collaboration via Twitter. Proceedings of the Forty-Second Hawaii International Conference on System Sciences.Los Alamitos, CA IEEE Press.  Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a Social Net k or a News Media? In Proceedings of the 19th International World Wide Web (WWW) Conference, April 26-30, 2010, Raleigh NC, USA. 67
  68. De-benalizing Twitter!  Rogers, R. (2014). Preface. In: Weller, K. et al. (Hrsg.): Twitter and Society. New York: Peter Lang. 68
  69. Was wird erforscht? 69
  70. Warum Twitter? •Neue / andere Einblicke in Kommunikation •„ephemeral“ data •Twitter-Nutzung verstehen •(Twitter als Abbild der Gesellschaft?) 70
  71. Methoden Content analysis Survey (interview) (experiment) 71
  72. Wie wird geforscht? 72
  73. 73 Methoden (in der Sozialw. Twitter Forschung)  Weller, K. (2014). What do we get from Twitter – and what not? A close look at Twitter research in the social sciences. Knowledge Organization. 41(3), 238-248
  74. Methoden •In der Forschung: viele Case Studies •Noch wenig methodische Standards – aber es tut sich derzeit eine Menge •Viele Möglichkeiten, zu experimentieren & Neues zu entdecken 74
  75. Standard-Metriken? 75 •Anzahl der Tweets in einem Zeitraum •Anzahl der Nutzer mit min. einem Tweet •Tweets pro Nutzer •Structural Analysis of Tweets: –Original tweets, RTs, (modified RTs), @message –Tweets mit URLs
  76. Beispiel für einen Zeitverlauf: #mla09 Zeitachse: Messung in Stunden Anzahl der Tweets pro Stunde Graphik von Cornelius Puschmann 76
  77. Beispiel für ein Personennetzwerk basierend auf RTs Graphik von Cornelius Puschmann 77
  78. Beispiel für Personeninformationen: #www2010 Aktivität einzelner Personen: Tweetanzahl (#www2010) 0 20 40 60 80 100 120 140 160 180 200 Anzahl Tweets 78
  79. Personeninformationen Aktivität einzelner Personen: @-Nachrichten (#mla09) 0 5 10 15 20 25 30 35 40 Anzahl @-Nachrichten @-Nachrichten gesendet @-Nachrichten empfangen 79
  80. Inhaltsanalyse 80 •CAQDAS Computer-Assisted Qualitative Data AnalysiS –(z.B. MAXQDA, QDAMiner, ATLAS.ti, Qualrus, Nvivo) –Speech Act Analyse –Statistische Auswertungen  Einspänner, J., Dang-Anh, M., & Thimm, C. (2014). Computer-assisted content analysis of Twitter data. In: Weller, K., Bruns, A., Burgess, J., Mahrt, M., Puschmann, C. (Eds): Twitter and Society (pp. 97-108). New York et al.: Peter Lang.
  81. Sentiment Analyse 81 Automatische Berechnung von emotionalen Tonalitäten von Tweets. Benötigt werden Wörterbücher mit Sentiment-Werten, z.B. ANEW. Generell mit Vorsicht zu betrachten. Für deutsche Tweets besonders kritisch.
  82. Besondere Fallstudien 82
  83. 83 http://www.cci.edu.au/node/1362 The Australian Twitter-Sphere von Axel Bruns
  84. http://www.jeuneafrique.com/Article/ARTJAWEB20130215165826/internet-libreville-accra-addis- abebareseaux-sociaux-les-capitales-africaines-de-twitter-quartier-par-quartier.html#Tunis 84
  85. Mobilität Livehood Project Daten: Foursquare (via Twitter) http://livehoods.org/maps/montreal 85
  86. Rhythm of a City 86 http://engineering.twitter.com/2012/06/studying-rapidly-evolving-user.html
  87. Stimmungen in US-Tweets 87 http://www.ccs.neu.edu/home/amislove/twittermoo/
  88. Interaktion Paßmann, J., Boeschoten, T., & Shäfer, M.T. (2014). The Gift of the Gab: Retweet Cartels and Gift Economies on Twitter. In K. Weller, A. Bruns, J. Burgess, M. Mahrt & C. Puschmann (Eds.), Twitter and Society. New York et al.: Peter Lang. 88
  89. 1. FC Köln (@fckoeln) Borussia Mönchengladbach (@VfLBorussia) BVB Dortmund 09 II (@BVB) FC Bayern München (@BayMuenchen) FC Schalke 04 II (@s04, official) FC Schalke 04 I (@FCSchalke04, inofficial) Hamburger SV (@HSV) SV Werder Bremen I (@Werder_Bremen) SV Werder Bremen II (@werderbremen) 0 10000 20000 30000 40000 50000 60000 70000 80000 Jun 11 Jul 11 Aug 11 Sep 11 Oct 11 Nov 11 Dec 11 Jan 12 Feb 12 Mar 12 Apr 12 May 12 Jun 12 number of followers month 1. FC Augsburg (@FCAugsburg) 1. FC Kaiserslautern (@Rote_Teufel)* 1. FC Köln (@fckoeln) 1. FC Nürnberg (@1_fc_nuernberg) 1. FSV Mainz 05 (1FSVMainz05) 1899 Hoffenheim (achtzehn99) Bayer 04 Leverkusen (@bayer04fussball) Borussia Mönchengladbach (@VfLBorussia) BVB Dortmund 09 I (@BVBDortmund09) BVB Dortmund 09 II (@BVB) FC Bayern München (@BayMuenchen) FC Schalke 04 II (@s04, official) FC Schalke 04 I (@FCSchalke04, inofficial) Hamburger SV (@HSV) Hannover 96 I (@ichbin96) Hannover 96 II (@hannover96) Hertha BSC Berlin (@HerthaBSC)* SC Freiburg (@sc_freiburg) SV Werder Bremen I (@Werder_Bremen) SV Werder Bremen II (@werderbremen) VfB Stuttgart (@VfB) Bruns, Axel, Katrin Weller, and Stephen Harrington. 2014. "Twitter and sports: football fandom in emerging and established markets". InTwitter and society, edited by Katrin Weller, Axel Bruns, Jean Burgess, Merja Mahrt, and Cornelius Puschmann, 263-280. New Yort u.a.: Peter Lang. Follower-Zahlen
  90. http://www.guardian.co.uk/uk/2011/dec/07/twitter-riots-how-news-spread Bilder 90 Vis, F., Faulkner, S., Parry, K., Manyukhina, Y., Evens, L. 2014. „Twitpic-ing the riots: analyzing images shared on Twitter during the 2011 U.K. riots". InTwitter and society, edited by Katrin Weller, Axel Bruns, Jean Burgess, Merja Mahrt, and Cornelius Puschmann, 385-398. New Yort u.a.: Peter Lang.
  91. Bruns, A., & Burgess, J. (2012). Notes towards the scientific study of Twitter. In Tokar, A., Beurskens, M., Keuneke, S., Mahrt, M., Peters, I., Puschmann, C., van Treeck, T., & Weller, K. (Eds.). (2012). Science and the Internet (pp. 159-169). Düsseldorf: Düsseldorf University Press http://nfgwin.uni-duesseldorf.de/sites/default/files/Bruns.pdf 91 Hashtags
  92. Mediale Kommunikation Groshek, J., & Groshek, M. C. (2013). Agenda trending: Reciprocity and the predictive capacity of social networking sites in intermedia agenda setting across topics over time. Media and Communication, 1(1), 15-27. doi: 10.12924/mac2013.01010015 92
  93. Forschungsbereiche 93
  94. Ausgewählte Forschungsbereiche 94 Politikwissenschaft •Kommunikationsverhalten v.a. im Wahlkampf •Stimmungen im Wahlkampf •Interaktionen zwischen Parteien •eDemocracy
  95. Beispiel: Twitter & Wahlen 0 10 20 30 40 50 60 2008 2009 2010 2011 2012 2013 Twitter and elections (Scopus and Web of Science)  Weller, K. (2014). Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. In: R. Reichert (Ed.), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie (pp. 239-257). Bielefeld: transcript. 95
  96. Twitter & Wahlen •Zahlreiche Fallstudien •Wenig Vergleichmöglichkeiten •Kaum Langzeitstudien •Teilweise Bezüge zu anderen Datenquellen 96
  97. Election Prediction? •Zahlreiche Ansätze •Bisher keine reproduzierbaren Ergebnisse  Daniel Gayo-Avello: No, You Cannot Predict Elections with Twitter. IEEE Internet Computing 16(6): 91-94 (2012) PT Metaxas, E Mustafaraj, D Gayo-Avello (2011). How (not) to predict elections. In Privacy, security, risk and trust (PASSAT), 2011 97
  98. Ausgewählte Forschungsbereiche 98 Kommunikations- und Medienwissenschaft •Übertragung von Methoden der Medienanalyse •Brand communication •Crisis communication •Verschiedene Zielgruppen, verschiedene Kommunikationssituationen •Rolle von @messages, RTs etc.
  99. Krisenkommunikation •Disaster Response •Unternehmenskrisen 99
  100. Diskussion Welche Themenbereiche/Methoden interessieren besonders? Eigene Erfahrungen/ Anknüpfungspunkte? 100
  101. Möglichkeiten zur Datenerhebung: Tools und Rahmenbedingungen 101
  102. Tools 102
  103. Tools für verschiedene Zwecke Twitter-Nutzung Twitter-Forschung Data Collection Data Analysis / Manipulation 103
  104. Co-tweeting * follower recommendation * automatic tweets * twitterwalls * data visualization * URL monitoring * follower visualization * communities * hashtag meanings * trends Tools für die Nutzung von Twitter 104
  105. TweetDeck 105
  106. Tweetdeck online http://www.tweetdeck.com/ 106
  107. Foto: http://www.zephoria.org/thoughts/archives/2009/11/24/spectacle_at_we.html Twitter Walls 107
  108. Vorsicht: Aktivitätskennwerte •Tweetstats.com •Klout •Twitalyzer •Twittercounter •… 108
  109. Tools zur Datensammlung & Rahmenbedingungen 109
  110. Social Media Daten •Texte •Bilder •Videos •Multimedia •Connections I (friends, followers) •Connections II (links) •Connections/Actions (likes, favs, comments, downloads) •(Metadata: Zeitstempel, Geodaten) 110
  111. Wie erhält man die Daten? 111 API https://dev.twitter.com/docs/api/1.1 https://dev.twitter.com/blog
  112. Twitter APIs 112 •API = Application Programming Interface •Zugang, um Daten für Anwendungen/Apps zu verwenden •Nicht explizit für die wissenschaftliche Nutzung vorgesehen •Streaming API, Rest APIs, Search API  Gaffney, D., & Puschmann, C. (2014). Data Collection on Twitter. In Weller et al. (Eds). Twitter and Society (pp. 55-68). New York, et al.: Peter Lang.
  113. Twitter APIs 113 1. STREAMING API -push-basiert, Live-Stream -Public stream vs. User stream -Forscher brauchen Tools, die eine Verbindung zu diesem Stream aufrecht erhalten. -Nicht rückwirkend -Suche nach Keywords, Usern, Geo-codes
  114. Twitter APIs 114 2. REST + SEARCH API •Eingeschränkte Anzahl Anfragen pro Stunde •Verschiedene Möglichkeiten, die Twitter-Oberfläche „ferngesteuert“ zu bedienen, u.a. die Suche •Liefert u.a. Suchergebnisse aus kürzlich veröffentlichten Tweets •Social graph data (wer folgt wem) •Trending topics •Und vieles mehr https://dev.twitter.com/docs/using-search
  115. 115
  116. 116
  117. 117
  118. https://dev.twitter.com/console Eigene User-ID finden: http://www.idfromuser.com/ Ausprobieren: GET /statuses/mentions_timeline.json 118
  119. Datensammlung? 119 Herausforderungen: Archivierung in Echtzeit Eingeschränkte Anteile
  120. „historische“ Tweets •verschwinden nicht, sind aber über die Suche nach wenigen Tagen i.d.R. nicht mehr auffindbar –Alternativ: über die ID abfragen –Über Nutzerprofilseiten sind Tweets noch zugänglich (max. die letzten 3200 Tweets eines Nutzers). •bilden Twitters Geschäftsmodell  hohe Kosten 120
  121. Volumenbegrenzungen •Normal (Spritzer): max. 1% des aktuellen Datenvolumens •Gardenhose: ca. 10% •Firehose: kompletter Zugang  Geschäftsmodell!  Morstatter et al. (2013): http://www.aaai.org/ocs/index.php/ICWSM/ICWSM13/paper/viewFile/6071/6379 121
  122. Weitere Begrenzungen •Rate limit: Begrenzung der Anzahl an Abfragen pro 15- Minuten Fenster. •Begrenzungen für die normale Nutzung (z.B. max. Anzahl an veröffentlichten Tweets pro Tag). https://dev.twitter.com/overview/general/things-every-developer-should-know https://dev.twitter.com/rest/public/rate-limiting 122
  123. Rechtlicher Rahmen •Terms of Services: https://twitter.com/tos •Twitter Privacy Policy: https://twitter.com/privacy •Developer’s Rules of the Road: https://dev.twitter.com/terms/api-terms
  124. Privilegierte Zugänge •Kooperationspartner mit Firehose Zugang (Whitelist) •Data Grants – Ausschreibung: 6 aus 1300 https://blog.twitter.com/2014/twitter-datagrants-selections •MIT Laboratory for Social Machines. http://newsoffice.mit.edu/2014/twitter- funds-mit-media-lab-program-1001 •(Library of Congress) http://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the- library-of-congress/ 124
  125. Data Grants https://blog.twitter.com/2014/twitter-datagrants-selections 125
  126. Möglichkeiten •Zufällige Tweets aus der gesamten Twitter- Datenbasis sammeln •Tweets mit bestimmten Eigenschaften •Tweets von bestimmten Autoren •Follower Netzwerke 126
  127. Möglichkeiten •Eigenes Programm schreiben •Vorhandene Skripte anderer Wissenschaftler weiterverwenden •Kostenlose Tools zur Datensammlung (müssen i.d.R. auf eigenem Server installiert werden) •Desktopbasierte Programme (laufen nicht kontinuierlich) •Kostenpflichtige Tools mit limitiertem Zugriff •Vollzugriff über offizielle Reseller •(Archivierte Datensammlungen nachnutzen) •Copy Paste 127
  128. Tools •Viele noch in Entwicklung •Nicht immer mit Support 128
  129. GNIP  http://blog.gnip.com/gnip-twitter-join-forces/ 129
  130. Datasift 130
  131. Datasift 131
  132. Datasift •Preismodell: –Monatsgebühr plus Preise pro abgerufene Daten –Historische Tweets sind teurer als aktuelle  http://dev.datasift.com/docs/billing 132
  133. TOPSY 133
  134. 134
  135. 135
  136. Übung http://topsy.com -Bei Topsy suchen nach a) einem Nutzer, b) einem Stichwort, c) einem Hashtag. -Bei Topsy Analytics zwei Nutzer und zwei Hashtags vergleichen. -Auffälligkeiten? 136
  137. YourTwapperkeeper 137
  138. YourTwapperkeeper 138
  139. Tweet Archivist http://www.tweetarchivist.com 139
  140. Tweet Archivist 140
  141. 141
  142. TweetArchivist Übung: Verschiedene Suchen ausprobieren: http://www.tweetarchivist.com/SetLanguage 142
  143. TAGS http://mashe.hawksey.info/2014/10/need-a-better-twitter-archiving-google-sheet-tags-v6-0-is-here/ 143
  144. NVIVO http://www.qsrinternational.com/products_nvivo_add-ons.aspx 144
  145. DiscoverText https://www.discovertext.com/ http://www.screencast.com/t/opNfbdoVnaC 145
  146. DiscoverText 146
  147. Datensammlung in der Praxis Datenquelle Anzahl Keine Angabe 11 Manuelle Datensammlung auf der Twitter-Website (Copy-Paste / Screenshot) 6 Twitter API (one näheren Angaben) 8 Twitter Search API 3 Twitter Streaming API 1 Twitter Rest API 1 Twitter API user timeline 1 Selbstgeschriebenes Programm mit Zugriff auf Twitter APIs 4 Twitter Gardenhose 1 Offizielle Reseller (Gnip, DataSift) 3 YourTwapperKeeper 3 Andere Drittanbieter (z.B. Topsy) 6 Von Kooperationspartner erhalten 1  Weller, K. (2014). Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. In: R. Reichert (Ed.), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie (pp. 239-257). Bielefeld: transcript. Twitter and Election (2013 papers) 147
  148. NodeXL Network Analysis Sammelt Daten aus (u.a.): Facebook, Twitter, •YouTube, Flickr, Wikipedia 148
  149. NodeXL http://nodexl.codeplex.com/ 149
  150. NodeXL NodeXLGraphGallery.org 150
  151. COSMOS Burnap, P., Rana, O., Williams, M., Housley, W., Edwards, A., Morgan, J, Sloan, L. and Conejero, J. (2014) ‘COSMOS: Towards an Integrated and Scalable Service for Analyzing Social Media on Demand’, International Journal of Parallel, Emergent and Distributed Systems. DOI:10.1080/17445760.2014.902057 http://cosmosproject.net/ 151
  152. Gephi 152
  153. Spezielle Tools Textanalyse / NLP •Allgemein: Discover text: http://discovertext.com/ •Twitter NLP: http://www.ark.cs.cmu.edu/TweetNLP/ Sentiment Analysis •SentiStrength Analysing Folllower numbers •What Happened Then? Using Approximated Twitter Follower Accession to Identify Political Events. Tony Hirst, blog post March 4, 2013: http://tiny.cc/twitter-references 153
  154. Gibt es noch mehr? 154
  155. Sammlungen •Max Planck Institut, Twitter tools: http://twitter-app.mpi-sws.org/ •Statistical Cybermetrics Research Group Wolverhampton: http://cybermetrics.wlv.ac.uk/resources.htm •Liste von Twitter und Facebook Collection Tools, curated by Deen Freelon: https://docs.google.com/document/d/1UaERzROI986HqcwrBDLaqGG8X_lYwctj6ek6ryqDOiQ/edit 155
  156. Digital Methods Initiative https://wiki.digitalmethods.net/Dmi/ToolDatabase 156
  157. Stephen Wolfram Daten: Facebook http://blog.stephenwolfram.com/2013/04/data-science-of-the-facebook-world/ 157 Alternative? Crowdsourcing
  158. 158 Stephen Wolfram Daten: Facebook http://blog.stephenwolfram.com/2013/04/data-science-of-the-facebook-world/
  159. Erste Herausforderungen 159
  160. Herausforderungen •Technisch: in den meisten Fällen sind technische Grundkenntnisse erforderlich •Technisch: Datenverlust / Server downtime •Praktisch: Rechtzeitig planen, was gesammelt werden soll •Rechtlich: Zugangsbeschränkungen •Finanziell: Daten einkaufen 160
  161. Herausforderungen black box 161
  162. Herausforderungen •Zugänglichkeit •Data Sharing •Änderungen (moving target) •Manipulation (z.B. Twitter Bomb) & Spam •Personalisierte Ergebnisse • Fehlende Reproduzierbarkeit und Nachvollziehbarkeit 162
  163. Social Media Data •Texte •Bilder •Videos •Multimedia •Connections I (friends, followers) •Connections II (links) •Connections/Actions (likes, favs, comments, downloads) 163
  164. Sonderfall: URLs •URL Shortener: bit.ly und co. •Gekürzte URLs müssen wieder de-codiert werden – und zwar möglichst zeitnah •Verfahren dauert lange 164
  165. Übung mit Beispieldatensatz
  166. Landtagswahl NRW 2012 166 •Vorgezogene Wahl am 13. Mai 2012. •Rot-grüne Mehrheit, Kraft bleibt Ministerpräsidentin •CDU schlechtestes Ergebnis seit 1947, Rücktritt Röttgen •Piratenpartei erstmals im Landtag •Linke scheitert an 5%-Hürde http://de.wikipedia.org/wiki/Landtagswahl_in_Nordrhein-Westfalen_2012
  167. Fallstudie: Twitter bei der Landtagswahl NRW -Welche Fragestellungen könnten in diesem Zusammenhang interessant sein? -Welche Daten werden dafür benötigt?
  168. Landtagswahl bei Twitter 168 Hashtag Tweets (27.03.-15.06.13) #ltw12 5.656 #ltwnrw 11.116 #ltw2012 165 #ltwnrw12 1.621 #ltwnrw2012 27 #nrw12 41.106 #nrw2012 1.991 Total (ohne Dubletten) 56.145  Demmer, C.J., & Weller, K. (2013). Stimmungsschwankungen bei Twitter? Eine Sentiment-Analyse anhand von Tweets nach der Landtagswahl in Nordrhein-Westfalen 2012. In H.-C. Hobohm (Ed.), Proceedings of the 13th International Symposium of Information Science (ISI 2013), Potsdam, March 2013 (pp. 482-485). Glückstadt: Hülsbusch.
  169. Personen und Parteien bei Twitter @nrwspd @gruenenrw @cdunrw_de @fdp_nrw @dielinkenrw @piratennrw
  170. Personen und Parteien bei Twitter @hannelorekraft (Sylvia Löhrmann) (Norbert Röttgen) @c_lindner Katharina Schwabedissen @Nick_Haflinger
  171. CSV importieren
  172. CSV importieren
  173. Wer diskutiert mit? •Aufgabe: #nrw12 oder #ltw12 oder #tlwnrw Tweets öffnen •Nutzer identifizieren, die min. einen Tweet geschrieben haben. •Wie viele Nutzer haben genau einen Tweet? •Wie sieht die Verteilung der Tweets pro User aus? •Wer sind die fünf aktivsten Nutzer?
  174. Hashtag-Diskussion 27.03.-15.06.2013 174 •10.438 User •Davon 5.048 mit mehr als 1 Tweet •2.046 mit mehr als 5 Tweets 0 100 200 300 400 500 600 700 1 501 1001 1501 2001 Tweets pro User
  175. Was machen die Kandidaten? •Aufgabe: einen der Kandidaten auswählen, Dateien fromKandidat und atKandidat öffnen •Wie viele Tweets hat „ihr Kandidat“ veröffentlicht? •Wie viele @messages und Retweets hat „ihr“ Kandidat erhalten? •Was wurde besonders häufig geretweetet?
  176. Netzwerk: Bundestagswahl 176 following  Lietz, H., Wagner, C., Bleier, A., & Strohmaier, M. (2014). When politicians talk: Assessing online conversational practices of political parties on twitter. In International AAAI Conference on Weblogs and Social Media (ICWSM2014), Ann Arbor, MI, USA, June 2-4, 2014. mentioning retweeting
  177. Weitere Einblicke •#ltw12 Tweets •Wie viele Tweets haben einen Geo-Code? •Tweets im Zeitverlauf? 177
  178. Zeitverlauf Bundestagswahl  Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.
  179. Zeitverlauf Bundestagswahl  Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.
  180. Tweet-Inhalte 1.Manuelle Codierung –Ca. 10 Tweets lesen – was fällt auf? –Zu zweit: versuchen Sie einen Entwurf für die Codierung von Tweet-Inhalten aufzustellen
  181. Tweet-Inhalte 2. Automatische Analyse möglich? –Problem: deutschsprachige Texte –http://sentistrength.wlv.ac.uk/ ausprobieren mit einzelnen englischen Tweets (z.B. Twitter suche nach election https://twitter.com/search)
  182. Diskussion •Welche Fragestellungen wären interessant? 182
  183. Was kommt zuerst? •Forschungsfrage? •Daten?
  184. 184 Big Data vs. Sinnvolle Forschungsfragen
  185. Forschungsethik, Repräsentativität, Reproduzierbarkeit
  186. ETHIK 186 Ethik
  187. Forschungsethik •Anonymisierung/Pseudonymisierung möglich bzw. nötig? •Richtlinien für den Umgang mit Personendaten? Aktuelle Hinweise •So wenig personenbezogene Daten wie möglich teilen •Tweet-Sammlungen nicht öffentlich zur Verfügung stellen
  188. Privacy •Informed Consent? •Öffentlichkeit der Daten? •Bislang keine Standards, aber Diskussionen. 188
  189. Nutzernamen •Nutzernamen nennen? •Tweets zitieren? –„normale“ Nutzer vs. Prominente –Viel-zitierte Inhalte •Was ist noch problematisch?
  190. Rechtlicher Rahmen Twitter‘s Nutzungsbedingungen Datenschutzbestimmungen
  191. Repräsentativität
  192. Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank- Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final 13 29 14 44 17 51 32 56 44 69 54 74 44 82 67 87 75 87 73 99 0 20 40 60 80 100 Creative Vice produc-tion Blog-ging School & work Info-tain-ment Commer-cial activity Enter-tain-ment Classic news Infor-mation seeking Social-ize OxIS current users: 2013 N=1,613 Figure 2: Activities of Twitter Users & Non-users Twitter user Non-user Repräsentativität
  193. Repräsentativität Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank- Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final 342681218141017122328333035020406080100 InterestPolitical activitiesInterestin politicsSendpoliticalmessageContactMP onlineRe-postpoliticalnewsPoliticalcommenton SNSFindpoliticalfactsSignonlinepetition OxIS current users: 2013 N=1,613Figure 6: Political Activities of Twitter UsersTwitter userNon-user
  194. Repräsentativitätsprobleme auf mehreren Ebenen “About a third of all UK Internet users have a twitter profile; a subset of that group are the active tweeters who produce the bulk of content; and then a tiny subset of that group (about 1%) geocode their tweets (essential information if you want to know about where your information is coming from).” Graham M. (2012). Big data and the end of theory?". The Guardian. Retrieved from: http://www.theguardian.com/news/datablog/2012/mar/09/big-data-theory
  195. Repräsentativität •“estimating demographic data from a sample of more than 113 million Twitter users collected during July 2012” •“Of the 48% of Twitter users for which we could identify gender, approximately 45% were male and approximately 47% were female.” L.Sloan, J.Morgan, W.Housley, M.L.Williams, A.Edwards, P.Burnap, and O.Rana, Knowing the tweeters: Deriving sociologically relevant demographics from twitter, Sociological Res. Online, 18 (2013).
  196. Gefahren durch fehlende Repräsentativität •Diskussion: Menschen, die durch Big Data nicht repräsentiert sind http://streetbump.org Siehe auch: http://www.wired.com/2014/03/potholes-big-data- crowdsourcing-way-better-government/
  197. Repräsentativität? •Spam / Bots
  198. Repräsentativität? beeinflusst von: •Nutzerzahlen •Zeitpunkt/Dauer der Datenerhebung •Datenauswahl Wie Stichproben festlegen? Wie Zeiträume auswählen? Beispiel: letzte x tweets vs. Jeden xten Tweet.
  199. Herausforderung •Stichprobe ziehen, z.B. 500 Accounts von deutschen Twitter-Nutzern?
  200. Verlässlichkeit 200 •Verifizierte Accounts •Verifizierte Inhalte?  A definitive guide to verifying digital content for emergency coverage http://verificationhandbook.com/
  201. 201
  202. 202 today vs. tomorrow
  203. Reproduzierbarkeit 203 Die gleichen Daten zweimal erheben? Mit bestehenden Datensätzen arbeiten?
  204. Übung zur Studien- Konzeption: Was geht, was geht nicht?
  205. Studien planen
  206. Forschungsablauf (ideal) Studie planen Daten erheben Daten auswerten (Daten archivieren)
  207. Studien planen •Was soll untersucht werden? •Warum brauche ich dafür Twitter-Daten? •Welche Art Twitter-Daten benötige ich? •Vorab-Recherche! (Thema, Keywords, Akteure, besondere Vorkommnisse).
  208. Kriterien zur Datenerhebung 208 Typischerweise: -Tweets eines bestimmten Nutzers -Tweets, die einen Nutzer erwähnen -Tweets, die ein Wort (Zeichenkette) oder ein Hashtag enthalten Diverse weitere, z.B. -Anzahl und Namen der Follower eines Accounts -Tweets, die eine bestimmte URL (domain) enthalten -Zufällige Tweets in einem bestimmten Zeitraum -Tweets mit Geo-Code -Uvm.
  209. Datensammlung •Nutzer-bezogen •Themen-bezogen •Struktur-bezogen
  210. Probleme •Wie lange / wie häufig sollen Daten gesammelt werden? •Mit welcher Technik sollen Daten gesammelt werden? •Mit welchen Suchkriterien sollen Daten gesammelt werden? •Wie sollen die Daten später ausgewertet werden? •Wer soll alles damit arbeiten?
  211. Auswertung Inhaltsanalysen Quantitative Analysen
  212. Technische Feinheiten •Manuelle vs. Button Retweets •URLs erkennen und auflösen •@messages vs. @mentions •Informationen über einzelne Twitter-Nutzer herausfinden •Hashtag vs. Volltextsuche
  213. Datenbereinigung •Mehrere Datensätze zusammenfügen und dabei Dubletten entfernen. •‚False positives‘ entfernen (z.B. bvb) •Ggf. Dateiformate für die Bearbeitung in Analysetools anpassen
  214. Datenmanagement •Versionierung – Metadaten •Dokumentation des Erhebungs- und Bereinigungsprozesses •Sicherungskopien
  215. 6. Übung: Studien planen
  216. Studiendesign Wählen Sie eine der folgenden Fragestellungen / Szenarien •Welche Daten werden benötigt? •Wie können diese erhoben werden? Wie muss vorgegangen werden? •Was muss beachtet werden? •Welche Probleme können auftreten?  Kurzpräsentation des eigenen Ansatzes
  217. Fall 1 •Disaster Response bei einer Naturkatastrophe –Nachrichten melden drohende Unwetter und Hochwasser in Nordrhein-Westfahlen. –Untersucht werden soll wie verschiedene Akteure Twitter zur Krisenkommunikation nutzen.
  218. Fall 2 •Twitter als TV Backchannel bei einem Sportgroßereignis (z.B. Fußball-WM) –Wie agieren und interagieren verschiedene Fan- Gruppen? –Untersucht werden sollen Aktivitäten im Verlauf des Turniers.
  219. Ihre Ergebnisse
  220. Was geht? Was geht nicht? •Alle Tweets, die sich auf ein bestimmtes Ereignis beziehen? •Alle Tweets eines Nutzers? •Alle Personen, die zu einer bestimmten Gruppe gehören (z.B. Bundestagskandidaten) •Alle Tweets, die auf eine bestimmte Webseite verlinken?
  221. Was geht? Was geht nicht? •Alle Tweets, die sich auf ein bestimmtes Ereignis beziehen? •Alle Tweets eines Nutzers? •Alle Personen, die zu einer bestimmten Gruppe gehören (z.B. Bundestagskandidaten) •Alle Tweets, die auf eine bestimmte Webseite verlinken?
  222. „Lessons learnt“
  223. 1. Man muss die Twitter- Dynamik kennen, um mit Twitter-Daten arbeiten zu können.
  224. 2. Twitter als Moving Target: alles kann sich verändern!
  225. 3. Ideal: Erst die Forschungsfrage, dann die Datenerhebung.
  226. 4. Aber: Twitter-Daten immer rechtzeitig (live) erheben!
  227. 5. Man erhält i.d.R. nur einen Ausschnitt aus Twitter
  228. 6. Bestimmte Daten sind nicht oder nur gegen Geld erhältlich
  229. 7. Sorgfältige Planung und Dokumentation sind entscheidend
  230. Fazit und Feedback
  231. Vielen Dank für Ihre Teilnahme! Dr. Katrin Weller ● GESIS Leibniz Institut für Sozialwissenschaften katrin.weller@gesis.org ● @kwelle ● http://katrinweller.net
Anzeige