Digitale Methoden in den Sozial- und
Geisteswissenschaften: Chancen und
         Herausforderungen

                  Dr. Cornelius Puschmann
     Berlin School of Library and Information Science /
        Humboldt Institute for Internet and Society
          Göttingen Center for Digital Humanities
             Ringvorlesung „Internet & Society“
                    17. Dezember 2012
Inhalt

            #1
„Digitale Methoden“ -- ein
   Einordnungsversuch

                              #2
            Analysen anhand von Social Media-Daten

           #3
Potentiale und Probleme
  digitaler Methoden
„Internetforschung?“

                              Netz als Datenquelle


                       Netz als Gegenstand


      Netz als Forschungsinfrastruktur
Text- und Korpusananalyse

                                 Netzwerkanalyse
Bildanalyse


               „Digitale Methoden“


Sentimentanalyse                     Visualisierung

                   Maschinenlernverfahren
Durch das Internet und die steigende Beliebtheit von
Social Media-Diensten gewinnen Forschungsansätze für
den Umgang mit digitalen Kommunikationsdaten an
Relevanz:
• digital methods (Rogers, 2009)
• cultural analytics (Manovich, 2007)
• computational social science (Lazer et al, 2009)
Issue Crawler (Rogers et al)
ImagePlot (Manovich/Software Studies Initiative)
„Digitale Methoden“

Software                   Datenquellen
• open source              • große Zahl von Quellen
• benutzerfreundlich   +
                             unterschiedlicher Daten
• leistungsstark           • Netz-nativ und
                             digitalisiert
                           • größtenteils öffentlich
Quelle: http://socialmediainbusiness.com
Web 1.0
• kaum nutzergenerierte
  Inhalte
• kein einfacher Zugriff auf
  Daten (scraping)



                       Web 2.0
                       • große Menge nutzergenerierter
                         Inhalte
                       • besserer Zugriff auf Daten über
                         Programmierschnittstellen (APIs)
Zugang                           Kontrolle




TOS                                                     API
“law”    regeln Umgang   Daten   ermöglicht Zugriff   “code”




        Besitz                     Interpretation
Was sind die Implikationen von „Big Data“?

“There are also significant questions of truth, control, and
power in Big Data studies: researchers have the tools and the
access, while social media users as a whole do not. Their data
were created in highly context-sensitive spaces, and it is entirely
possible that some users would not give permission for their
data to be used elsewhere.”
(boyd & Crawford, 2012, p.12)
Beispiel Twitter


• Mikroblog/Online-Kurznachrichtendienst,
  gestartet 2006
• inzwischen 500 Millionen aktive Benutzer
• wird für die Verbreitung von Nachrichten,
  öffentliche Kommunikation genutzt
• Daten größtenteils über API öffentlich
  zugänglich
Daten aus Twitter extrahieren

HTTP request
           liefere alle Daten eines bestimmten Users/von einem
                             bestimmten Ort/...


                Application Programming
                     Interface (API)



                                                                 Daten*
Archivieren von Tweets via yourTwapperKeeper
Software

Sammeln:

 •   The Archivist (Windows)

 •   yourTwapperKeeper (erfordert Webserver)

 •   140kit.com (web-basierte Plattform)
Analysieren:

 •   Excel, Open Office Calc, SPSS, R, Google Docs..
Visualisieren:

 •   (Excel, OO Calc, R), Gephi, NodeXL
Rechtliche und ethische
            Hürden
• Daten dürfen nicht weitergegeben werden
  (Twitter Terms of Service)
• Datenschutzrichtlinien müssen eingehalten
  werden (etwa European Data Protection
  Directive)
• ethische Fragen stellen sich auch dann,
  wenn die Daten öffentlich sind!
Beispiel: eine Untersuchung der akademischen
Blogplattform hypotheses.org
0   500   1000   1500




2004−01
2004−02
2004−03
2004−04
2004−05
2004−06
2004−07
2004−08
2004−09
2004−10
2004−11
2004−12
2005−01
2005−02
2005−03
2005−04
2005−05
2005−06
2005−07
2005−08
2005−09
2005−10
2005−11
2005−12
2006−01
2006−02
2006−03
2006−04
2006−05
2006−06
2006−07
2006−08
2006−09
2006−10
2006−11
2006−12
2007−01
2007−02
2007−03
2007−04
2007−05
2007−06
2007−07
2007−08
2007−09
2007−10
2007−11
2007−12
2008−01
2008−02
2008−03
2008−04
2008−05
2008−06
2008−07
2008−08
2008−09
2008−10
2008−11
2008−12
                                              Posts per 2004 - 2004−01




2009−01
2009−02
2009−03
2009−04
                                  Aktivität Januar month startingJuli 2012




2009−05
2009−06
2009−07
2009−08
2009−09
2009−10
2009−11
2009−12
2010−01
2010−02
                                                                             Blogplattform hypotheses.org




2010−03
2010−04
2010−05
2010−06
2010−07
2010−08
2010−09
2010−10
2010−11
2010−12
2011−01
2011−02
2011−03
2011−04
2011−05
2011−06
2011−07
2011−08
2011−09
2011−10
2011−11
2011−12
2012−01
2012−02
2012−03
2012−04
2012−05
2012−06
2012−07
Blogplattform hypotheses.org
                                                                  Aktivste Blogs10nach Beiträgen (n=45.528)
                                                                              Top  Blogs by numer of posts (n=45528)
6000
5000
4000
3000
2000
1000
0




       Indústrias Culturais   Criminocorpus Radar   Veille énergie climat   Veille sur la Corée   Le Cresson veille   Corps et Médecine   URFIST Info   No Mundo dos Museus   Nuevo Mundo radar   Blog de l'IRHiS
Blogplattform hypotheses.org
           Sprachen
Blogplattform hypotheses.org
    Verlinkungen externer Webseiten
Offene Fragen:
• Wem gehören die Daten?
• Wie wird die Privatsphäre der Nutzer gewahrt?
• Wer sichert die Qualität der Daten?
• Wie reproduzierbar sind die Ergebnisse?
• Über welche Art von Prozesse lassen sich
  Aussagen treffen?
• Wie generalisierbar sind Einzelstudien?
Potentielle Probleme:
• Wettlauf um Kompetenzen und Ressourcen
  (zwischen Fachbereichen, Wissenschaft/
  Industrie), um komplexe Phänomene
  untersuchen zu können
• Wandel der Forschungsfragen
• Stärkerer Druck zu Team- und
  Verbundforschung
Vielen Dank für Ihre Aufmerksamkeit!

Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herausforderungen

  • 1.
    Digitale Methoden inden Sozial- und Geisteswissenschaften: Chancen und Herausforderungen Dr. Cornelius Puschmann Berlin School of Library and Information Science / Humboldt Institute for Internet and Society Göttingen Center for Digital Humanities Ringvorlesung „Internet & Society“ 17. Dezember 2012
  • 2.
    Inhalt #1 „Digitale Methoden“ -- ein Einordnungsversuch #2 Analysen anhand von Social Media-Daten #3 Potentiale und Probleme digitaler Methoden
  • 3.
    „Internetforschung?“ Netz als Datenquelle Netz als Gegenstand Netz als Forschungsinfrastruktur
  • 4.
    Text- und Korpusananalyse Netzwerkanalyse Bildanalyse „Digitale Methoden“ Sentimentanalyse Visualisierung Maschinenlernverfahren
  • 5.
    Durch das Internetund die steigende Beliebtheit von Social Media-Diensten gewinnen Forschungsansätze für den Umgang mit digitalen Kommunikationsdaten an Relevanz: • digital methods (Rogers, 2009) • cultural analytics (Manovich, 2007) • computational social science (Lazer et al, 2009)
  • 6.
  • 7.
  • 8.
    „Digitale Methoden“ Software Datenquellen • open source • große Zahl von Quellen • benutzerfreundlich + unterschiedlicher Daten • leistungsstark • Netz-nativ und digitalisiert • größtenteils öffentlich
  • 9.
  • 10.
    Web 1.0 • kaumnutzergenerierte Inhalte • kein einfacher Zugriff auf Daten (scraping) Web 2.0 • große Menge nutzergenerierter Inhalte • besserer Zugriff auf Daten über Programmierschnittstellen (APIs)
  • 11.
    Zugang Kontrolle TOS API “law” regeln Umgang Daten ermöglicht Zugriff “code” Besitz Interpretation
  • 12.
    Was sind dieImplikationen von „Big Data“? “There are also significant questions of truth, control, and power in Big Data studies: researchers have the tools and the access, while social media users as a whole do not. Their data were created in highly context-sensitive spaces, and it is entirely possible that some users would not give permission for their data to be used elsewhere.” (boyd & Crawford, 2012, p.12)
  • 13.
    Beispiel Twitter • Mikroblog/Online-Kurznachrichtendienst, gestartet 2006 • inzwischen 500 Millionen aktive Benutzer • wird für die Verbreitung von Nachrichten, öffentliche Kommunikation genutzt • Daten größtenteils über API öffentlich zugänglich
  • 16.
    Daten aus Twitterextrahieren HTTP request liefere alle Daten eines bestimmten Users/von einem bestimmten Ort/... Application Programming Interface (API) Daten*
  • 17.
    Archivieren von Tweetsvia yourTwapperKeeper
  • 18.
    Software Sammeln: • The Archivist (Windows) • yourTwapperKeeper (erfordert Webserver) • 140kit.com (web-basierte Plattform) Analysieren: • Excel, Open Office Calc, SPSS, R, Google Docs.. Visualisieren: • (Excel, OO Calc, R), Gephi, NodeXL
  • 19.
    Rechtliche und ethische Hürden • Daten dürfen nicht weitergegeben werden (Twitter Terms of Service) • Datenschutzrichtlinien müssen eingehalten werden (etwa European Data Protection Directive) • ethische Fragen stellen sich auch dann, wenn die Daten öffentlich sind!
  • 20.
    Beispiel: eine Untersuchungder akademischen Blogplattform hypotheses.org
  • 21.
    0 500 1000 1500 2004−01 2004−02 2004−03 2004−04 2004−05 2004−06 2004−07 2004−08 2004−09 2004−10 2004−11 2004−12 2005−01 2005−02 2005−03 2005−04 2005−05 2005−06 2005−07 2005−08 2005−09 2005−10 2005−11 2005−12 2006−01 2006−02 2006−03 2006−04 2006−05 2006−06 2006−07 2006−08 2006−09 2006−10 2006−11 2006−12 2007−01 2007−02 2007−03 2007−04 2007−05 2007−06 2007−07 2007−08 2007−09 2007−10 2007−11 2007−12 2008−01 2008−02 2008−03 2008−04 2008−05 2008−06 2008−07 2008−08 2008−09 2008−10 2008−11 2008−12 Posts per 2004 - 2004−01 2009−01 2009−02 2009−03 2009−04 Aktivität Januar month startingJuli 2012 2009−05 2009−06 2009−07 2009−08 2009−09 2009−10 2009−11 2009−12 2010−01 2010−02 Blogplattform hypotheses.org 2010−03 2010−04 2010−05 2010−06 2010−07 2010−08 2010−09 2010−10 2010−11 2010−12 2011−01 2011−02 2011−03 2011−04 2011−05 2011−06 2011−07 2011−08 2011−09 2011−10 2011−11 2011−12 2012−01 2012−02 2012−03 2012−04 2012−05 2012−06 2012−07
  • 22.
    Blogplattform hypotheses.org Aktivste Blogs10nach Beiträgen (n=45.528) Top Blogs by numer of posts (n=45528) 6000 5000 4000 3000 2000 1000 0 Indústrias Culturais Criminocorpus Radar Veille énergie climat Veille sur la Corée Le Cresson veille Corps et Médecine URFIST Info No Mundo dos Museus Nuevo Mundo radar Blog de l'IRHiS
  • 23.
  • 24.
    Blogplattform hypotheses.org Verlinkungen externer Webseiten
  • 25.
    Offene Fragen: • Wemgehören die Daten? • Wie wird die Privatsphäre der Nutzer gewahrt? • Wer sichert die Qualität der Daten? • Wie reproduzierbar sind die Ergebnisse? • Über welche Art von Prozesse lassen sich Aussagen treffen? • Wie generalisierbar sind Einzelstudien?
  • 26.
    Potentielle Probleme: • Wettlaufum Kompetenzen und Ressourcen (zwischen Fachbereichen, Wissenschaft/ Industrie), um komplexe Phänomene untersuchen zu können • Wandel der Forschungsfragen • Stärkerer Druck zu Team- und Verbundforschung
  • 27.
    Vielen Dank fürIhre Aufmerksamkeit!