1
Institut für Sozialwissenschaften
WS 2014/2015
VS Der Fall Wulff unter Politikwissenschaftlicher Perspektive
Dozent: Pro...
2
Inhalt
1. Einleitung.......................................................................................................
3
1. Einleitung
Wie wurde das Amt des Bundespräsidenten in der Geschichte der deutschen
Politikwissenschaft nicht bereits ...
4
Der weitere Aufbau gliedert sich zu diesem Zweck in einige kurze theoretische
Ausführungen zum Begriff des politischen S...
5
2. Der politische Skandal
Der Skandal ist eng mit den Fundamenten unserer Kultur verwoben. Bereits im Alten
Testament is...
6
Twitter werden zu unkalkulierbaren Instrumenten des Skandalisierungsprozesses, die
Möglichkeiten der Kontrolle oder Steu...
7
3. Zur Person Wulff
Im Rahmen dieses Abschnitts soll ein geraffter Überblick über die Präsidentschaft von
Christian Wulf...
8
Ministerpräsident sei ein Werbeträger". Wulff sprach von einer "Verflechtung und
Verfilzung", die dringend aufgeklärt we...
9
hier die Eröffnungsrede der 4. Tagung der Wirtschaftsnobelpreisträger am 24.8.2011
hervorzuheben, welche die FAZ wie fol...
10
Zwei Tage später: Wulffs vielfach rezipiertes Interview mit Vertretern von ARD und
ZDF, in welchem er versucht, Reumüti...
11
4 Forschungsstand
4.1 Sentiment Analysis
Der Begriff der Sentiment Analysis (gelegentlich auch Opinion Mining) bezeichn...
12
Pak & Patrick Paroubek 2010) nutzen ähnliche Methoden wie Go et al, erweitern das
Problem aber mit Hilfe von Nachrichte...
13
mit verschiedenen Verfahren des Web-Minings auseinandersetzen wie zum Beispiel
(Russell 2011a) und (Russell 2011b). Auf...
14
Peer Reach zu einem ernüchternden Ergebnis: Die Anzahl der Bundesbürger, welche
Twitter täglich nutzen, liegt ihren Erg...
15
Auf der Grundlage dieser stimmenden Befunde stellt sich mangelnde Repräsentativität
zwar generell als Problem dar, glei...
16
5 Quantitative Untersuchung
Im Folgenden soll die Gewinnung, Analyse und Auswertung von annähernd 120000
Tweets, welche...
17
gewesen, dies hätte zu exponentieller Verlangsamung des Programms und frequenten
Abstürzen geführt. Deshalb war eine se...
18
gepostet wurden (z.B. im Fall großer Nachrichtenportale). Auf der Grundlage dieses
Training-Sets (vgl. Abschnitt 4.1) k...
19
desto trotz wurde der beste Algorithmus, Multinomial Naive Bayes mit 63,1 %
korrekten Zuordnungen, zur Klassifikation d...
20
Es lassen sich sechs zentrale Spitzen ausmachen, von denen fünf mehr als 500 Tweets
nach sich zogen.
Peak 1 ist auf den...
21
Phase mit gerade 39 Tweets pro Tag die 4. Tagung der Wirtschaftsnobelpreisträger am
24.August 2011 eröffnet. Hier geht ...
22
dritten Februar hält. Eine deutliche Häufung der Worte „Rücktritt“, „tritt zurück“ und
„zurücktreten“ lässt sich für di...
23
6. Fazit
In der vorliegenden Arbeit wurde die Präsidentschaft Christian Wulffs inklusive ihrer
wenigen Höhen und rückbl...
24
befeuerte und damit letztlich den medialen Druck auf die Staatsanwaltschaft so sehr
erhöhte, dass Untersuchungen begann...
25
7. Literaturverzeichnis
Alexander Pak & Patrick Paroubek 2010. Twitter as a Corpus for Sentiment Analysis
and Opinion M...
26
Go, Alec, Bhayani, Richa & Huang, Lei 2009. Twitter sentiment classification using
distant supervision. CS224N Project ...
27
Manning, Christopher D., Raghavan, Prabhakar & Schütze, Hinrich 2008. Introduction
to information retrieval: Cambridge ...
28
Schoonderwoerd, Nico 2013. 4 ways how Twitter can keep growing. URL:
http://blog.peerreach.com/2013/11/4-ways-how-twitt...
29
8. Abbildungsverzeichnis
Abb. 1 Anteil korrekter Zuordnungen verschiedener Algorithmen
(Klassifikationsschritt I)
Abb. ...
30
Abb. 3 Minibatch K-Means-Clustering (reduziert auf 2 Dimensionen)
Abb. 4 Häufigkeitsanalyse (1.5.2010 – 1.7.2012)
31
Abb. 5 Häufigkeitsanalyse (1.6.2010 – 12.12.2011)
Abb. 6 Häufigkeitsanalyse (1.12.2011 – 1.5.2012)
32
Abb. 7 Häufigkeitsanalyse (11.12.2011 – 9.1.2012)
Abb. 8 Häufigkeiten verschiedener Begriffe aus der Wortfamilie
„Rückt...
33
Abb. 9 Häufigste Worte im Zeitraum der Affäre
Abb. 10 Häufigkeiten des Begriffs „Jauch“
920
754 733 710
537
458
392
330...
Nächste SlideShare
Wird geladen in …5
×

Christian Wulff im Spiegel der Sozialen Medien

31 Aufrufe

Veröffentlicht am

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
31
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Christian Wulff im Spiegel der Sozialen Medien

  1. 1. 1 Institut für Sozialwissenschaften WS 2014/2015 VS Der Fall Wulff unter Politikwissenschaftlicher Perspektive Dozent: Prof. Dr. Friedbert Rüb HAUSARBEIT DER „FALL WULFF“ IM SPIEGEL DER SOZIALEN MEDIEN Name: Tobias Wolfram Studienfach: Sozialwissenschaften Monobachelor Fachsemester:5 Matrikelnummer: 551547 E-Mail: Twolfram.Eisenach@gmail.com
  2. 2. 2 Inhalt 1. Einleitung.................................................................................................................................. 3 2. Der politische Skandal .............................................................................................................. 5 3. Zur Person Wulff....................................................................................................................... 7 3.1 Die Karriere......................................................................................................................... 7 3.2 Die Präsidentschaft.............................................................................................................. 8 3.3 Der Skandal......................................................................................................................... 9 4 Forschungsstand....................................................................................................................... 11 4.1 Sentiment Analysis............................................................................................................ 11 4.2 Web Mining ...................................................................................................................... 12 4.3 Twitter............................................................................................................................... 13 4.3.1 Repräsentativität......................................................................................................... 13 4.3.2 Sozialwissenschaftliche Studien auf Basis von Twitter-Daten .................................. 14 5 Quantitative Untersuchung....................................................................................................... 16 5.1 Methodologisches Vorgehen............................................................................................. 16 5.1.1 Datengewinnung ............................................................................................................ 16 5.1.2 Datenaufbereitung...................................................................................................... 17 5.1.3 Klassifikation ............................................................................................................. 17 5.2 Analyse.............................................................................................................................. 19 5.2.1 Die Präsidentschaft..................................................................................................... 19 5.1.2 Der Skandal................................................................................................................ 21 6. Fazit......................................................................................................................................... 23 7. Literaturverzeichnis................................................................................................................. 25 8. Abbildungsverzeichnis............................................................................................................ 29
  3. 3. 3 1. Einleitung Wie wurde das Amt des Bundespräsidenten in der Geschichte der deutschen Politikwissenschaft nicht bereits tituliert: Ersatzmonarch, Moderator, Koordinator oder gar Hüter der Politik soll er sein(Hesse & Ellwein 2010:333f). Und wie tief gestaltete sich neben derartigen Amtsbeschreibungen der „tiefe Fall des Christian Wulff“, wie die Leitmedien titelten? Jeder der Akteure, sowohl Skandalisierten (vgl. Wulff 2012 und Wulff 2014) als auch die Skandalisierer (vgl. Heidemanns & Harbusch 2012 und Götschenberg 2013) hat inzwischen seine Sicht der Dinge in Buchform niedergelegt, gar ein Film wurde veröffentlicht (vgl. Schadt 2013). Wie kaum eine andere steht die Geschichte des präsidialen Rücktritts dabei für die Ambivalenz des politischen Handelns: Kleine, über die Jahre angehäufte moralische Schwächen, geringe Vergünstigungen und Kredite, deren Annahme letztlich nicht einmal justiziabel war - das, zusammen mit einem unbedachten Anruf läutete eine der größten medialen Investigationen in der jüngeren bundesrepublikanischen Geschichte ein: Die „Affäre Wulff“ war geboren und zwang durch detaillierteste Berichterstattung zu jedem noch so kleinem biographischen Detail und jedem ganz gleich wie minimalem Vergehen der Persona des Bundespräsidenten schließlich die niedersächsische Staatsanwaltschaft zur Aufnahme der Ermittlungen und Wulff damit letztlich zum Rücktritt. Christian Wulffs Präsidentschaft war dabei gleichzeitig die Erste, welche sich von der Bekanntgabe der Kandidatur über das unwürdige Spiel der Skandalisierung bis zum schlussendlichen Rücktritt im Spiegel der sozialen Medien des Netzes reflektiert sah. Dies ermöglicht es erstmals, die Amtszeit eines Bundespräsidenten, seine Reden und Taten in Relation zu den von ihnen gezeitigten Reaktionen im Netz zu setzen. Dies ist das Ziel der vorliegenden Ausführungen: Explorativ sollen die Daten des sozialen Netzwerks „Twitter“, sofern sie sich mit Wulff auseinandersetzen, automatisiert gesammelt und ausgewertet werden. Hierbei soll vor allem auch die Nutzbarkeit des Instruments der Sentiment Analysis für die Untersuchung personenbezogener Tweets evaluiert werden.
  4. 4. 4 Der weitere Aufbau gliedert sich zu diesem Zweck in einige kurze theoretische Ausführungen zum Begriff des politischen Skandals, gefolgt von einem kurzen Abriss der Präsidentschaft des Christian Wulff. Darauf folgend wird der Forschungsstand zu den genutzten Methoden eingeführt, bevor im zentralen Teil der Arbeit das Vorgehen im Rahmen der quantitativen Analyse detailliert beschrieben wird. Hierbei wird unter anderem eine neue Methode vorgestellt, welche es ermöglicht, Twitterdaten durch Rückgriff auf Methoden des Web-Scrapings automatisiert zu sammeln. Die so gewonnenen Daten werden im weiteren Verlauf ausgewertet, wobei zwischen der Phase des Skandals und der restlichen Präsidentschaft unterschieden wird. Schlussendlich folgt eine Zusammenfassung der Ergebnisse.
  5. 5. 5 2. Der politische Skandal Der Skandal ist eng mit den Fundamenten unserer Kultur verwoben. Bereits im Alten Testament ist das „Skandalon“ ein Kernbegriff und bezeichnet darin alles Böse, das vom christlichen Gott wegführt (Schmitz & Burkhardt 2010). Die Verwendung ist im Deutschen seit dem 16. Jahrhundert dokumentiert und meint ein Aufsehen erregendes Ärgernis und die Reaktionen, die es nach sich zieht (Alsleben 2007). Der klassische Skandal verfügt in Anlehnung an (Hondrich 2002) über mehrere Merkmale: Die Verfehlung des Skandalisierten, die Enthüllung dieser Verfehlung (meist durch den Journalisten), die kollektive Empörung, Aufarbeitung (öffentliche Anklage und Reaktion) und schließlich das Vergessen. All das dauert nicht länger als 4- 8 Wochen. (Ellwein & Hesse 2012:20–21) Burkhardt unterscheidet in diesem Sinne fünf Phasen der medialen Berichterstattung: Die Latenzphase, in welcher der Missstand erkannt wird und die Berichterstattung beginnt. Ein Schlüsselereignis sorgt hierbei dafür, dass der Konflikt eskaliert. Daraufhin folgt die Aufschwungphase, in welcher Informationen bekannt werden, die den Skandal erweitern. Falls dies gelingt, erreicht der Skandal in der Etablierungsphase seinen Höhepunkt. Konsequenzen werden gefordert. Auf Reaktionen des Betroffenen (z.B. einen Rücktritt) hin lässt das Interesse schließlich in der Abschwungphase wieder nach. Die Rehabilitationsphase bezeichnet den Zeitraum nach dem Ende des eigentlichen Skandals, die Medienberichterstattung findet nur noch vereinzelt statt. (Burkhardt 2006:181ff) Die Affäre Wulff erscheint als archetypisches Beispiel eines politischen Skandals, zeigt aber durch ihre Verankerung im multimedialen Geflecht der digitalisierten Gesellschaft Merkmale, die sie vom den klassischen Skandalen abheben. So Ellwein et al: „[D]ie digitalen Überall-Medien haben, dies ist für jeden erfahrbar geworden, eine mediale Allgegenwart erzeugt - das Universum einer neuen Sichtbarkeit, in dem jedem Einzelnen die Kontrolle über sein Selbstbild und sein Image abhandengekommen ist.“ (Ellwein & Hesse 2012:14) Der von ihnen definierte "entfesselte Skandal" einer digitalisierten Welt verändert so die Strukturen der Skandalisierung. Soziale Medien wie Facebook, Youtube und eben auch
  6. 6. 6 Twitter werden zu unkalkulierbaren Instrumenten des Skandalisierungsprozesses, die Möglichkeiten der Kontrolle oder Steuerung der Geschehnisse, so sie denn vorher gegeben waren, verschwinden. Diese neue Logik betrifft nicht nur, aber auch den klassischen politischen Skandal. (Ellwein & Hesse 2012:23–25) In diesem Sinne ist es interessant nachzuvollziehen, inwiefern die klassische Skandaldynamik, wie sie Burkhardt beschreibt, noch auf den digitalen Raum am Beispiel Twitter anzuwenden ist.
  7. 7. 7 3. Zur Person Wulff Im Rahmen dieses Abschnitts soll ein geraffter Überblick über die Präsidentschaft von Christian Wulff gegeben werden. Um eine Einordung zu ermöglichen, wird zuerst kurz auf seine bisherige politische Karriere eingegangen, im Anschluss daran das Wirken in der Präsidentschaft vorgestellt und schließlich der Skandal, welcher Wulffs Rücktritt forderte, ins Auge gefasst. 3.1 Die Karriere Christian Wulff wird 1959 in kleinbürgerlichen Verhältnissen in Osnabrück geboren. In für die Zeit untypischer Manier lassen sich seine Eltern 1961 scheiden, seine Mutter zieht ihn alleine auf. Es schließt sich eine geradlinige Politikerkarriere an, die über das Amt des Schulsprechers, die Schüler-Union und die Junge Union schließlich in die höheren Positionen der niedersächsischen CDU führt. Währenddessen beginnt Wulff ein Jurastudium in Osnabrück, nebenbei pflegt er für mehrere Jahre seine an Multipler Sklerose erkrankte Mutter. 1994 wird Wulff (damals als Rechtsanwalt tätig und noch nicht im Landesparlament vertreten) Spitzenkandidat der CDU für die anstehenden Landtagswahlen, welche er an Gerhard Schröder verliert. Das gleiche Spiel wiederholt sich 1998. 2003 gelingt es Wulff schließlich das Amt des Ministerpräsidenten zu erringen, in welchem er sich ein solides Maß an Beliebtheit erarbeitet und bereits als zukünftiger Kanzlerkandidat gehandhabt wird. (Fuhrer 2010:10ff) In dieser Zeit macht Wulff zudem Bekanntschaft mit den „falschen Freunden“, welche ihm später das Genick brechen wird. Carsten Maschmeyer, David Groenewold und nicht zuletzt seine spätere Gattin Bettina Koerner – die Zeit der Urlaube, Einladungen und Vergünstigungen. (Fuhrer 2012) spricht retrospektiv von einem Verlust der Maßstäbe, gar von Hybris. Während seiner politischen Karriere fällt Wulff nichtsdestotrotz immer wieder mit Aussagen auf, die sein „Saubermann“-Image unterstreichen sollten: So kritisierte er zum Beispiel den damaligen niedersächsischen Ministerpräsidenten Gerhard Glogowski, als dieser 1999 auf seiner Hochzeitsfeier lokale Brauereien kostenlos Getränke ausschenken ließ und die Rechnung einer Urlaubsreise nach Ägypten verspätet beglichen hatte: Durch die Zuwendungen privater Firmen zur Hochzeitsfeier Glogowskis sei der "Schein von Abhängigkeit und der Eindruck entstanden, der
  8. 8. 8 Ministerpräsident sei ein Werbeträger". Wulff sprach von einer "Verflechtung und Verfilzung", die dringend aufgeklärt werden müsse. Ähnlich äußerte sich Wulff zu Gerhard Schröders Engagement bei Gazprom oder Ulla Schmidts Dienstwagenaffäre. (Reimann 2011) Ebenfalls nicht unerwähnt bleibensollte sein in den Debatten immer wieder genüsslich ins Feld geführter Ausspruch zur Privatflug-Affäre Johannes Raus aus dem Jahr 2000. Damals sagte Wulff wörtlich: "Ich leide physisch darunter, dass wir keinen unbefangenen Bundespräsidenten haben." (Dargent 2011) 3.2 Die Präsidentschaft Nach dem überraschenden Rücktritt Horst Köhlers wurde Wulff am 3. Juni als Kandidat der Regierungskoalition für die nächste Bundesversammlung vorgestellt. Als parteilich gebundener „Biedermann“ (Fischer 2010) verschrien, hatte Wulff einen schweren Stand gegenüber dem Kandidaten von SPD und Grünen, Joachim Gauck, was sich auch in den Ergebnissen der Bundesversammlung am 30.Juni widerspiegelt: Erst im dritten Wahlgang gelingt die Wahl. Wulff ist mit 51 Jahren der jüngste und Bettina Wulff die jüngste Gattin eines Bundespräsidenten.1 Zu den in der Öffentlichkeit wahrgenommenen Schwerpunkten der nicht einmal anderthalb Jahre, in denen Wulff sein Amt regulär ausübt, zählen vor allem seine Positionierungen gegen Fremdenfeindlichkeit und für Toleranz, insbesondere gegenüber dem Islam, wofür paradigmatisch der in seiner ersten großen Rede am Tag der deutschen Einheit geäußerte Satz „Aber der Islam gehört inzwischen auch zu Deutschland.“ (Wulff 2010) steht. Im aufgeheizten diskursiven Klima des Herbstes 2010 kann diese bis heute rezipierte Aussage als direkte Gegenthese zu islam- und migrationskritischen Ansichten, wie sie insbesondere in (Sarrazin 2011) öffentlichkeitswirksam zu jener Zeit vertreten wurden, gesehen werden. Neben seinen 13 Staatsbesuchen findet vor allem Wulffs Kritik am Euro- Rettungsschirm ESM und der aus demokratietheoretischer Sicht fragwürdigen Entscheidungsfindung zu dieser Maßnahme ein positives Medienecho. Beispielhaft ist 1 Wulffs Verhältnis zu den Medien bzw. insbesondere das seiner Gattin Bettina während seiner Präsidentschaft weisen immer wieder Elemente einer Boulevardisierung oder gar Entertainisierung, wie sie Holtz-Bacha 2004 beschreibt, auf – ein verhältnismäßig untypischer Befund für einen Bundespräsidenten, der möglicherweise in direktem Zusammenhang zum Alter des Paares Wulff steht. Beispielhaft sind die Kontroverse und das folgende Medienecho zu Bettina Wulffs inzwischen berühmter Tätowierung.
  9. 9. 9 hier die Eröffnungsrede der 4. Tagung der Wirtschaftsnobelpreisträger am 24.8.2011 hervorzuheben, welche die FAZ wie folgt kommentiert: „Mit einem solchen Donnerwetter hatte am Bodensee niemand gerechnet. […] [V]iele erwarten eine präsidial-langweilige Eröffnungsrede. Doch dann kommt das Donnerwetter. Wulff nutzt seine Lindauer Rede für eine Generalabrechnung mit dem Irrungen und Wirrungen in der Finanz-, Schulden- und Euro-Krise.“ (Plickert 2011) 3.3 Der Skandal Um 22 Uhr am 12. Dezember 2011 veröffentlichte die Bildzeitung einen Artikel unter der Überschrift „Hat Wulff das Parlament getäuscht?“ (Heidemanns & Harbusch 2011). Wulff habe demnach 2008 ein privates Darlehen von 500.000 Euro von der Gattin des Unternehmers Egon Geerkens erhalten, mit dem er das Einfamilienhaus seiner Familie bezahlt hätte. Eine kleine Anfrage der Opposition, ob er geschäftliche Beziehungen zu Herrn Geerkens pflege, beantwortete Wulff Anfang 2010 abschlägig. Am 15. Dezember bekennt Wulff in einer Stellungnahme, dass dies zwar formal korrekt, aber inhaltlich zumindest diskussionswürdig gewesen sei (Wulff 2011a). Als Antwort auf erste Rücktrittforderungen und Vorwürfe der niedersächsischen Opposition, dass er angeblich Urlaubsreisen auf Kosten befreundeter Unternehmer gemacht hätte, lässt Wulff am 18. Dezember als Zeichen der Transparenz eine Urlaubsliste veröffentlichen (Stern 2011). Am 22. Dezember folgt eine Pressekonferenz, auf welcher er die Trennung von seinem Pressesprecher Glaeseker bekannt gibt und um Verständnis für die Geschehnisse der letzten Tage bittet (Wulff 2011b). Tags darauf kommen erste Gerüchte auf, dass die Entlassung Glaesekers mit Unregelmäßigkeiten bei der Finanzierung politischer Veranstaltungen, wie dem Nord-Süd-Dialog zu tun haben könnten (Tillack 2011). Am letzten Tag des Jahres folgen erneute Vorwürfe: Wulff soll einen zinsgünstigen Kredit bei der BW-Bank als Dank für seinen Einsatz im Zusammenhang mit dem VW- Porsche-Fusion erhalten haben (n-tv 2011), gefolgt vom zentralen Schlüsselereignis des Skandals: Die Bekanntgabe der Nachricht, welche Wulff am 11.Dezember auf dem Anrufbeantworter von Kai Diekmann, Chefredakteur der Bild-Zeitung hinterlassen hatte und in der er, mal bittend, mal drohend, versucht, die Veröffentlichung des Artikels, der die Initialzündung des Skandals darstellte, zu verhindern (n-tv 2012).
  10. 10. 10 Zwei Tage später: Wulffs vielfach rezipiertes Interview mit Vertretern von ARD und ZDF, in welchem er versucht, Reumütigkeit zu demonstrieren (Schausten, Deppendorf & Wulff 2012). 10 Tage köchelt die Berichterstattung nun ohne große Neuigkeiten vor sich hin, bis weitere Vorwürfe laut werden: Am 14.Januar wird berichtet, Wulff habe sich in seiner Zeit als niedersächsischer Ministerpräsident von Film-Gesellschafter David Groenewold zum Oktoberfest einladen lassen (Witte 2012). Im weiteren Verlauf des Januars verdichten sich die Indizien gegen den ehemaligen Pressesprecher Glaeseker. (Zeit 2012) Die Anschuldigungen gegenüber Wulff werden jedoch bis in den Februar hinein immer zahlreicher und kleinteiliger: Prominentenrabatte für Automobile, angebliche Übernahmen von Hotelrechnungen durch „Freunde“, fragwürdige Bürgschaften für Briefkastenfirmen, ein unrechtmäßig angenommenes Rutschauto, etc. Schlussendlich beantragt die Staatsanwaltschaft am 16.2. die Aufhebung der Immunität des Bundespräsidenten, worauf Christian Wulff die kürzeste Amtszeit eines deutschen Bundespräsidenten am 17.Februar mit seinem Rücktritt beendet. Es schließen sich weitere Debatten über die Berechtigung Wulffs, den Ehrensold des Präsidenten zu beziehen und einen großen Zapfenstreich zu erhalten, an, bevor die allgemeine Aufmerksamkeit langsam aber sicher abnimmt. (NDR 2012).
  11. 11. 11 4 Forschungsstand 4.1 Sentiment Analysis Der Begriff der Sentiment Analysis (gelegentlich auch Opinion Mining) bezeichnet nach Günther einen Forschungszweig der computergestützten Linguistik, welcher die automatisierte Erkennung und Klassifikation von Stimmungen und/oder Meinungen aus Text zum Ziel hat. (Günther 2013:3) Dies geschieht in den meisten Fällen durch Methoden und Algorithmen, welche dem Maschinenlernen, einem Teilgebiet der Informatik, zugerechnet werden können. Die praktische Anwendung dieser Verfahren zu Zwecken der Mustererkennung oder Klassifikation erfreut sich seit einigen Jahren unter dem Stichwort „Data Mining“ wachsender Beliebtheit. Liu definiert drei verschiedene Ebenen, auf welchen eine Sentiment-Analysis stattfinden kann: In den meisten Fällen wird das Sentiment eines kompletten Textes evaluiert. Denkbar sind jedoch auch Analysen auf Satzebene oder die Klassifikation verschiedener Sentiments zu unterschiedlichen Entitäten, welche innerhalb des gleichen Textes genannt werden - die Königsdisziplin der Sentiment-Analysis. (Liu 2012:20) Die Analyse von Microblogging-Daten (z.B. Twitter) ist auf Grund der Begrenzung auf 140 Zeichen an der Grenze zwischen Satz- und Textebene anzusiedeln. In der Literatur findet sich eine Vielzahl von Studien, die versuchen, Sentiment- Analyses mit Twitter-Daten durchzuführen und dabei die Effektivität verschiedener Verfahren evaluieren. Die Ergebnisse sind dabei uneindeutig, wie exemplarisch anhand von mehreren Beispielen dargelegt werden soll. Die ersten drei Ansätze greifen dabei auf verschiedene Variationen des sog. Überwachten Lernens (supervised learning) zurück: Einem Algorithmus wird hierbei ein bereits vorher klassifiziertes Sample, das sogenannte Training-Set, zur Verfügung gestellt, dessen Muster er gemäß seiner Programmierung analysiert. Die dabei gewonnenen Erkenntnisse werden dann zur Klassifikation weiterer Datenpunkte genutzt. (Go, Bhayani & Huang 2009) greifen so in ihrer klassischen Arbeit auf mehr als 1,6 Millionen Tweets zurück, welche sie anhand von Emoticons (sog. "Noisy Labels") automatisch als im Sentiment positiv oder negativ klassifizieren und anhand derer sie verschiedene Algorithmen trainierten. Unter Rückgriff auf Support Vector Machines (SVM) erreichen sie eine Klassifikationsgenauigkeit von 82.9%. (Alexander
  12. 12. 12 Pak & Patrick Paroubek 2010) nutzen ähnliche Methoden wie Go et al, erweitern das Problem aber mit Hilfe von Nachrichtenmeldungen zu einer Positiv-Neutral-Negativ- Klassifikation. Trotz 300000 verwendeten Tweets liegt ihre mit Hilfe eines Naive Bayes-Algorithmus erreichte Genauigkeit nur bei 63% (Jiang u.a. 2011) arbeiten mit einem Dreischrittverfahren, bei welchem sie Tweets zuerst als Subjektiv oder Objektiv klassifizieren und danach die erstgenannte Kategorie weiter in positive und negative Sentiments aufspalten. Im dritten Schritt wenden sie schließlich ein graphenbasiertes Optimierungsverfahren an. Auf dieser Grundlage klassifizieren sie 68% ihrer Tweets korrekt. Die letzten beiden Beispiele greifen den lexikalischen Ansatz auf. Dieser geht davon aus, dass Worten bzw. gewissen Wortkombinationen grundsätzlich ein gewissen Sentiment zugemessen werden kann. Ein Lexikon ist in diesem Sinne eine Sammlung der Zuordnungen von Sentiment zu Wort bzw. Wortkombination. Ein Tweet, welcher das Wort „schlecht“ enthält, würde dementsprechend als negativ klassifiziert werden, ein anderer, in welchem der Autor das Wort „hervorragend“ nutzt als positiv. Mit Rückgriff auf das Lexikon von (Wilson u.a. 2005) gelingt es (O'Connor u.a. 2010) Tweets zu verschiedenen politischen Fragestellungen ihrem Sentiment nach zu klassifizieren. Obwohl sie hierbei schlichtweg die Anzahl der positiven und negativen Worte in einem Tweet zählen, finden sie starke Zusammenhänge zu vergleichbaren Gallup-Polls im Zeitverlauf. (Marchetti-Bowick & Chambers 2012) können diesen Erfolg jedoch nicht replizieren: Im direkten Vergleich mit überwachten Lernalgorithmen, welche mit Hilfe von Noisy Labels trainiert wurden, schnitt der lexikalische Ansatz deutlich schlechter ab: Ersterer korrelierte stark mit vergleichbaren Gallup-Polls, Letzterer hingegen kaum. In Anbetracht dieser Befunde wird auch im Rahmen dieser Arbeit auf Ansätze des Überwachten Lernens zurückgegriffen. 4.2 Web Mining Generell rückt insbesondere die Anwendung der angesprochenen Methoden auf Daten aus dem World Wide Web und deren Gewinnung immer weiter in den Mittelpunkt der Forschung. Dieser Prozess des (meist) automatisierten Extrahierens von Informationen aus digitalen Quellen des Internets über offene Quellen wird gemeinhin als Web-Mining bezeichnet. Erwartungsgemäß finden sich mittlerweile mehrere Lehrbücher, die sich
  13. 13. 13 mit verschiedenen Verfahren des Web-Minings auseinandersetzen wie zum Beispiel (Russell 2011a) und (Russell 2011b). Auf Grund im weiteren Verlauf beschriebener Probleme erwiesen sich die dort vorgeschlagenen Ansätze, welche meist den Zugriff auf Schnittstelle (API) des jeweiligen Dienstes voraussetzen, jedoch als nicht gangbar. Ein alternatives Vorgehen, welches dem Web-Scraping, also dem automatisierten Auslesen von Seitenquellcode, zuzurechnen ist, wird deshalb unter Punkt 5.1.1 vorgestellt. 4.3 Twitter Twitter ist ein soziales Netzwerk, dessen Idee im sogenannten Microblogging besteht: Hierbei ist der Nutzer in der Lage, kurze (im konkreten Fall bis zu 140 Zeichen lange) Posts abzugeben. Diese können Meinungen, Neuigkeiten, Links etc. enthalten. Andere Nutzer, die sich für die verbreiteten Inhalte einer Person interessieren, können ihrem Account folgen (followen) und erhalten dann in ihrer „Timeline“ die Posts (Tweets) des Gefolgten angezeigt. Prominente verfügen teils über Followerzahlen im niedrigen achtstelligen Bereich. 4.3.1 Repräsentativität Interessiert man sich für die Verallgemeinerbarkeit von über Twitter gewonnenen sozialwissenschaftlichen Erkenntnissen, sind eine Evaluation der Repräsentativität und ein Blick auf die soziodemographische Heterogenität der Twitter-Nutzer notwendig. Global nutzten 2014 190 Millionen Menschen auf der Welt Twitter mindestens einmal pro Monat, was einem ungefähren Drittel der 646 Millionen angemeldeten Accounts entspricht. Pro Tag werden insgesamt mehr als 58 Millionen Tweets abgesetzt. (Statistic Brain 2014) Gleichzeitig ergeben die Ergebnisse für Deutschland kein klares Bild: Das Marktforschungsunternehmen Tomorrow Focus kommt im Rahmen einer Panelerhebung zu dem Ergebnis, dass 21.9% der Social Media-Nutzer auch Accounts bei Twitter haben, was rund 8 Millionen Nutzern entspricht, von denen mehr als zwei Drittel das Netzwerk mindestens einmal pro Woche nutzen. (Knab, Rehm & Dancu 2013) Für die Konsumforschungsstudie "Best for planning 2013" befragten (Schilling u.a. 2013:217) mehr als 30.000 Menschen über 14 Jahre. Diese kommen zu dem Ergebnis, dass mehr als 7,6 Millionen Menschen zu den monatlichen Twitter-Nutzern zählen. Durch eine direkte Analyse von Tweets kamen die Social-Media-Analysten von
  14. 14. 14 Peer Reach zu einem ernüchternden Ergebnis: Die Anzahl der Bundesbürger, welche Twitter täglich nutzen, liegt ihren Ergebnissen nach bei weniger als 540000 Personen. (Schoonderwoerd 2013) Die Daten widersprechen sich nicht direkt, zeigen jedoch deutliche Unterschiede im Nutzungsverhalten, was auch die ARD/ZDF-Onlinestudien bestätigen: 7 Prozent der deutschen Internet-Nutzer nutzen Twitter “gelegentlich”, 2 Prozent mindestens einmal pro Woche. Das entspricht 3,8 Millionen mäßig aktiven bzw. 1 Million recht aktiven Twitter-Nutzer. (van Eimeren & Frees 2015) Soziodemographisch zeigen die Demoskopen von PEW für die USA, dass vor allem junge Menschen aus einem eher urbanen Milieu Twitter nutzen. (Duggan & Brenner 2013) Dies bestätigt sich auch für Deutschland: Hierbei überwiegen klar die Altersgruppen der 14-19 und der 20-29-Jährigen. Gleichzeitig steigt die Nutzungswahrscheinlichkeit (im Unterschied zu den USA) mit höherer Schulbildung: Der Anteil der Befragten mit Studienabschluss, welcher Twitter nutzte, war mit 11 Prozent annähernd dreimal so groß wie der der der Volks- und Hauptschüler (4 Prozent). (van Eimeren & Frees 2015) 4.3.2 Sozialwissenschaftliche Studien auf Basis von Twitter-Daten Von der beschriebenen Datenlage kann eine Repräsentativität weder für Deutschland noch für die USA angenommen werden. Gleichwohl berichten diverse Studien von starken Zusammenhängen zwischen repräsentativ erhobenen Daten oder Wahlergebnissen und mit Hilfe von Sentiment-Analysises klassifizierten Tweets. Hierzu zählen die bereits erwähnten Ausführungen von (O'Connor u.a. 2010) und (Marchetti-Bowick & Chambers 2012). (Kagan, Stevens & Subrahmanian 2015) gelang es mit Hilfe eines kombinierten Ansatzes von Network- und Sentiment-Analysis, die Ergebnisse der indischen und pakistanischen Parlamentswahlen korrekt vorherzusagen. (Ceron, Curini & Iacus 2015) prognostizierten auf Grundlage des bereits genannten Modells von (Hall u.a. 2009) die Ausgänge der US-Amerikanischen Präsidentschaftswahl 2012 und der Parlamentswahl in Italien mit zur klassischen Demoskopie vergleichbarer Genauigkeit. Mit Hilfe spatiotemporaler Auswertung von Worthäufigkeiten war (Matthew S. Gerber 2014) in der Lage, die Vorhersagekapazität seines kriminologischen Modells für verschiedene Verbrechensarten signifikant zu verbessern.
  15. 15. 15 Auf der Grundlage dieser stimmenden Befunde stellt sich mangelnde Repräsentativität zwar generell als Problem dar, gleichzeitig wirkt sie jedoch nicht unbedingt verzerrend aus. Inwiefern dies auch auf die vorliegende Analyse zutrifft, wird sich im Folgenden zeigen.
  16. 16. 16 5 Quantitative Untersuchung Im Folgenden soll die Gewinnung, Analyse und Auswertung von annähernd 120000 Tweets, welche das Stichwort „Wulff“ enthalten, beschrieben werden. Der hierbei gewählte Zeitraum reicht vom 1.5.2010 bis zum 1.7.2012. Diese Zeitspanne umfasst sowohl den letzten Monat von Wulffs Ministerpräsidentschaft als auch seine Wahl zum Bundespräsidenten Ende Juni 2010 und die darauffolgende Legislatur bis zum Rücktritt im Februar 2012. Da der öffentliche Diskurs mit diesem Rücktritt nicht beendet war (es schloss sich so zum Beispiel die Diskussion über die Rechtmäßigkeit eines großen Zapfenstreichs und des Ehrensoldes an), werden auch die vier Monate nach dem Verlust des Amtes untersucht. 5.1 Methodologisches Vorgehen Da die Methodologie der vorliegenden Arbeit in den Sozialwissenschaften eher ungewöhnlich ist, soll der konkrete Ablauf der Datensammlung und –Analyse hinreichend detailliert beschrieben werden. 5.1.1 Datengewinnung Twitter bietet für Entwickler eine Programmierschnittstelle (API), über welche mit geringem Aufwand auf Tweets im JSON-Format (ECMA International 2013) zurückgegriffen werden kann. In jüngerer Vergangenheit änderte Twitter jedoch seine Nutzungsbedingungen dahingehend, dass ein Zugriff über die API nur noch für Tweets möglich ist, welche maximal sieben Tage in der Vergangenheit liegen. Für das vorliegende Forschungsvorhaben, welches auf Daten aus den Jahren 2010-2012 zurückgreift, erschwert diese Regelung die weitere Arbeit nachvollziehbarerweise ungemein. Da kein Bedarf bestand, auf kommerzielle Angebote zurückzugreifen, welche weiter in der Vergangenheit liegende Daten zugänglich machen, wurde ein eigenes Verfahren entwickelt, welches auf Ansätze des Web-Scrapings zurückgreift. Die Methode basiert darauf, dass Twitter zwar über die API keine älteren Tweets zugänglich macht, die Suchfunktion der Seite jedoch beliebig weit in die Vergangenheit reicht. Im HTML-Code Die Anzeige der Suchergebnisse erfolgt jedoch dynamisch, sodass bei Seitenaufruf nur ein Anteil der tatsächlichen Ergebnisse angezeigt wird, weitere folgen erst, sobald der Nutzer weiter scrollt. Die Herausforderung bestand also darin, automatisiert die Suche aufzurufen, zu scrollen und zu speichern. Der komplette interessierte Zeitraum wäre jedoch für eine einzelne Suchanfrage zu umfassend
  17. 17. 17 gewesen, dies hätte zu exponentieller Verlangsamung des Programms und frequenten Abstürzen geführt. Deshalb war eine separate Anfrage an die Suche für jeden einzelnen Tag im Zeitraum nötig. Dieser Ansatz wurde mit Hilfe des Tools IMacros (iOpus 2013) und einem Visual Basic Script (Vick 2004) umgesetzt.2 Insgesamt wurden am Ende 793 Textdateien auf Tagesbasis erzeugt, welche eine Gesamtgröße von 53,6 Megabyte haben. 5.1.2 Datenaufbereitung Diese Dateien auf Tagesbasis enthalten neben den gewünschten Daten eine große Menge an nicht benötigtem Code. Die nächste Herausforderung bestand in der Extraktion der gewünschten Tweets und Nutzernamen in ein der statistischen Analyse zugängliches Format. Mit Hilfe eines in Python (Rossum 1995) verfassten Skriptes wurden sämtliche Dateien der einzelnen Tage eingelesen und Tweets und Namen der Twitter-Nutzer mit Hilfe von Regulären Ausdrücken 3 identifiziert. Diese wurden schließlich in eine gemeinsame Datei im CSV-Format (The Internet Society 2005) der Logik Datum [Tabstopp] Name [Tabstopp] Tweet abgespeichert.4 Insgesamt liegen so 119368 Tweets über einen Zeitraum von 793 Tagen vor. 5.1.3 Klassifikation Mit Hilfe der Statistiksoftware Stata (StataCorp 2013) wurde aus dieser Menge an Datenpunkten eine Stichprobe von 1000 Tweets gezogen. Von Hand wurden sämtliche Tweets der Zufallsstichprobe daraufhin überprüft und mit einer Zuordnung versehen, ob sie von einem tatsächlichen Nutzer stammen oder nur automatisch nach Twitter 2 Der Nachteil dieser Methode liegt jedoch einerseits in ihrem Zeitaufwand und andererseits in ihrer Fehleranfälligkeit: Für das Scraping wären ungefähr 20 Stunden von Nöten gewesen. Wiederholt auftretende Fehler seitens des Servers von Twitter sorgten jedoch dafür, dass für gewisse Tage überhaupt keine oder zu wenige Tweets gefunden wurden, weshalb es nötig war, die Routine mehrfach durchzuführen, sodass summa sumarum mehr als vier Tage (rund 100 Stunden) für den Prozess benötigt wurden. Für die Zukunft sind demnach mögliche Optimierungen denkbar: So könnte jede der HTML- Datei darauf überprüft werden, ob sie keinen Tweet enthält und falls das der Fall ist, noch einmal gescraped werden. Weiterhin erwies sich das 200 Mal durchgeführte Scrolling zwar in allen Fällen als hinreichend, meist jedoch als unnötig. Tage, welche über deutlich weniger Tweets verfügen, könnten mit Hilfe einer Abfrage, ob bereits das Ende der Suche erreicht ist, weniger Scrolling-Aufrufe benötigen. Reguläre Ausdrücke bezeichnen in der theoretischen Informatik Zeichenketten, die der Beschreibung von Mengen von Zeichenketten mit Hilfe bestimmter syntaktischer Regeln dient. Als Einführung in die Thematik vgl. Friedl & Karrer 2008 oder Stubblebine 2004. 3 Reguläre Ausdrücke bezeichnen in der theoretischen Informatik Zeichenketten, die der Beschreibung von Mengen von Zeichenketten mit Hilfe bestimmter syntaktischer Regeln dienen. Als Einführung in die Thematik vgl. Friedl & Karrer 2008 oder Stubblebine 2004. 4 Hierbei fand ein Rückgriff auf Datenstrukturen der Python-Module SciPy Jones, Oliphant & Peterson 2001, NumPy Ascher u.a. 1999 und Pandas McKinney 2011 statt.
  18. 18. 18 gepostet wurden (z.B. im Fall großer Nachrichtenportale). Auf der Grundlage dieses Training-Sets (vgl. Abschnitt 4.1) konnten mit Hilfe des Python-Moduls SciKit (Pedregosa u.a. 2011) verschiedene in der Sentiment-Analysis verbreitete Algorithmen (Support Vector Machines Cortes & Vapnik 1995, Stochastic Gradient Descent Bottou 2010, Multinomial Bayes Manning, Raghavan & Schütze 2008:234–265 und Logistische Regression Fan u.a. 2008)5 trainiert werden, nachdem die Tweets mit Hilfe der Cross-Validation, wie sie z.B. (Kohavi & others 1995) empfiehlt, in ihre Klassifikationspräzision evaluiert wurden.6 Die Ergebnisse sind im Anhang (Abb. 1) dokumentiert und legten die Nutzung der Logistischen Regression unter Analyse von Uni – und Bi-Grammen7 auf Grund eines sehr guten Klassifikationsergebnisses nahe (79,9% korrekt zugeordnet). Der trainierte Algorithmus war so in der Lage, die Anzahl der Tweets auf 59529 zu reduzieren. Aus den verbleibenden Datensatz wurde eine weitere 1000 Datenpunkte umfassende Stichprobe gezogen. Diese mussten im Hinblick auf ihr Sentiment gegenüber Wulff als positiv, negativ oder neutral codiert werden.8 Hier zeigte sich jedoch, dass ein Großteil der Kurznachrichten sich um möglichst kreative Positionierungen zu (Un-)Gunsten von Wulff bemühte, deren Interpretation schon für einen Menschen nicht immer eindeutig war. Gleichzeitig herrschte ein deutliches Ungleichgewicht innerhalb des Samples, da negative und neutrale Posts die positiven um den Faktor 1:4 übertrafen. Beide Faktoren erschwerten die Klassifikation deutlich: So lag die höchste erreichte Präzision bei inakzeptablen 55% (Stochastic Gradient Descent). Um dem entgegenzuwirken, wurde versucht, durch eine Zusammenfassung der Kategorien neutral und positiv das Sample auszubalancieren. Hierdurch verbesserten sich die Ergebnisse, blieben jedoch nach wie vor deutlich unter den Werten des ersten Klassifikationsschrittes (Vgl. Abb. 2). Nichts 5 Die detaillierte oder auch nur kursorische Beschreibung der Funktionsweise dieser Algorithmen muss mit Rücksicht auf den Umfang der vorliegenden Arbeit an die jeweils zitierte Literatur verwiesen werden. 6 Aus technischen Gründen war weiterhin die Erzeugung einer Worthäufigkeitsmatrix der einzelnen Tweets notwendig, welche durch die Algorithmen verarbeitet werden konnte. Zur Rauschreduktion wurde auf eine „Stop-List“ zurückgegriffen, welche häufig in der deutschen Sprache vorkommende Worte ohne tieferen Sinn aussortierte. Diese ist im Anhang dokumentiert. 7 Also der Analyse der Häufigkeiten von einzelnen Worten und Wortpaaren durch die Algorithmen. 8 Auf Grund der Subjektivität und Fehleranfälligkeit dieses Prozesses wurde das Vorgehen durch drei verschiedene Personen validiert und bei Uneinigkeit der Bewertungen die Mehrheitsmeinung angenommen.
  19. 19. 19 desto trotz wurde der beste Algorithmus, Multinomial Naive Bayes mit 63,1 % korrekten Zuordnungen, zur Klassifikation des gereinigten Datensatzes herangezogen.9 5.2 Analyse Auf Grund der suboptimalen Klassifikationsergebnisse der vier untersuchten Algorithmen soll im weiteren Verlauf die deskriptive Analyse der Daten im Mittelpunkt stehen. Sämtliche Angaben beziehen sich auf den von automatischen Tweets gereinigten Datensatz. Eine erste Analyse der Häufigkeiten zeigt, dass pro Tag im Schnitt 150 Tweets mit dem Schlagwort „Wulff“ abgegeben wurden. Die Streuung ist hierbei jedoch enorm: Alleine die Standardabweichung beträgt 287. An einzelnen Tagen wurde kein einziger Tweet abgesetzt, das Maximum wiederum liegt bei 1267 (13.1.2012). Eine grafische Analyse bestätigt dies (Abb. 4). So war Christian Wulff im letzten Monat seiner Zeit als Ministerpräsident ein absolut irrelevantes Thema, welches selten mehr als 20 Menschen zu Postings inspirierte. Dies änderte sich auch während der Mehrzahl der Tage der Präsidentschaft nicht. Auffällig sind jedoch die immer wieder auftretenden Peaks, welche mit diversen Medienereignissen der Präsidentschaft einhergehen. Die Häufigkeitsverteilung verändert sich jedoch absolut schlagartig mit Beginn der „Affäre Wulff“ am 13.12.2011 und verbleibt dann über mehrere Monate auf einem fluktuierenden Aufmerksamkeitsplateau, welches sich bis April 2012 wieder abgebaut hat, bevor die Datenreihe mit einem erneuten Peak am 24. Juni schließt. 5.2.1 Die Präsidentschaft Das Wechselspiel von kurzzeitigem Scheinwerferlicht der Öffentlichkeit und langanhaltendem Desinteresse erscheint im Großen und Ganzen als korrekte Beschreibung der Präsidentschaft Christian Wulffs: Abb. 5 zeigt die Häufigkeitsverteilung über den Zeitraum vom 1. Juni 2010 bis zum 12.Dezember 2012. 9 Weiterhin zeigte ein Versuch der Klassifizierung auf der Grundlage des k-means-Clustering-Algorithmus (nach einer Idee von Lloyd 1982, implementiert in der recheneffizienten „Minibatch“-Umsetzung nach Sculley 2010), welcher nicht trainiert werden muss, sondern direkt nach Strukturen innerhalb der Daten sucht (was auch als „unsupervised learning“ bezeichnet wird), vielversprechende Ergebnisse. Die mit Hilfe einer Hauptkomponentenanalyse (implementiert nach Halko, Martinsson & Tropp 2009) auf zwei Dimensionen reduzierte Abb. 3. deutet so klare abgegrenzte Strukturen an. Die Cluster implizieren vier Gruppen, welcher ihrer Größe nach als neutral, negativ, positiv und eine mögliche Restkategorie bezeichnet werden könnten. Da sämtliche Validierungsverfahren des Algorithmus im Angesicht der Größe des Datensatzes keinerlei Ergebnisse zeitigten, entbehrt eine Einbindung dieser Ergebnisse in die weitere Analyse leider jeglicher seriösen Grundlage.
  20. 20. 20 Es lassen sich sechs zentrale Spitzen ausmachen, von denen fünf mehr als 500 Tweets nach sich zogen. Peak 1 ist auf den 3. Juni zu datieren - der Tag an dem Christian Wulff offiziell als Kandidat der regierenden schwarz-gelben Koalition vorgestellt wurde. 437 Posts werden an diesem Tag gepostet, auch am 4. Juni war die Ankündigung mit 371 Kurznachrichten noch ein Thema. Danach fällt die Frequenz, bleibt aber den kompletten Monat oberhalb des Niveaus von April und Mai. Direkt darauf folgt am 30. Juni, dem Tag der Bundesversammlung der größte Peak (1236 Nachrichten) der Prä-Skandal-Zeit. Eine detailliertere Grafik des Junis findet sich als Abb. 5 im Anhang. Nach der Wahl vergehen 160 Tage im Amt mit durchschnittlich 54,6 Tweets pro Tag, deutlich weniger als die 91,1 Tweets zwischen Bekanntgabe und Wahl, bis eine weitere Spitze auftritt: Der 8.Dezember, an welchem Wulff mehrere Gesetze ausfertigt, darunter das Elfte Gesetz zur Änderung des Atomgesetzes, im Volksmund auch als „Ausstieg aus dem Ausstieg“ bekannt. Mehrere Organisationen mobilisierten massiv, um den Bundespräsidenten an einer Unterschrift hindern, eine Entwicklung, die sich im Besonderen in sozialen Netzwerken wie Twitter widerspiegelt. Interessanterweise ist der retrospektiv als zentral wahrgenommene Moment seiner Präsidentschaft hiermit bereits überschritten: Wulffs Rede zum Tag der Deutschen Einheit 2010, welche bis heute für ihren Ausspruch „Der Islam gehört zu Deutschland“ bekannt ist, liegt zu diesem Zeitpunkt bereits zwei Monate in der Vergangenheit und provozierte gerade einmal 255 Tweets. Eine sichtliche Debatte mit Bezug zu Wulff schloss sich hier, zumindest auf Twitter, nicht an: Die durchschnittliche Anzahl an Tweets in den 65 Tagen zwischen der Rede zum Tag der Deutschen Einheit und dem genannten dritten Peak ist mit 62 Tweets nur minimal größer als die des kompletten Zeitraums zwischen zweiter und dritter Spitze. Die 125 Tage bis zum nächsten Peak gestalten sich ausnehmend ruhig: Durchschnittlich werden hier gerade einmal 34 Tweets pro Tag abgesetzt und auch die 599 Tweets des 4. Peaks sind letztlich nur der „Attacke“ eines jungen Mannes geschuldet, welcher den Bundespräsidenten während er sich am Girls Day mit einer Gruppe junger Mädchen vor dem hessischen Landesparlament fotografieren ließ, mit einem Ei bewarf. Das fünfte Mal fokussiert sich die Aufmerksamkeit auf Wulff, als er nach einer wiederum ruhigen
  21. 21. 21 Phase mit gerade 39 Tweets pro Tag die 4. Tagung der Wirtschaftsnobelpreisträger am 24.August 2011 eröffnet. Hier geht eine Häufung von Tweets (686) tatsächlich einmal mit einer inhaltlichen Profilierung des Bundespräsidenten einher. 48 Tweets werden im Durchschnitt in den 52 Tagen bis zum letzten Peak abgesetzt: Wulffs überraschender Besuch in Afghanistan am 16. Und 17. Oktober - Der erste Staatsbesuch eines deutschen Staatsoberhaupts dort seit 44 Jahren. Somit ergeben sich von sechs Ereignissen innerhalb von Wulffs Präsidentschaft, welche unter den Twitternutzern ein sichtbares Echo erzeugten gerade einmal zwei, welche tatsächlich durch das Handeln des Präsidenten selbst herbeigeführt wurden. 5.1.2 Der Skandal Wie erwähnt verändert sich die Struktur der Häufigkeitsverteilung sichtlich, sobald der Zeitraum der „Affäre Wulff“ betrachtet wird, wie auch Abb. 6 zeigt. Nimmt man einen Abgleich mit den theoretischen Ansätzen von Burkhardt vor, fällt vor allem der extrem plötzliche Beginn der Latenzphase am 13.Dezember ins Auge: Von einem Tag auf den anderen ist Christian Wulff im Gespräch, hunderte von Menschen schreiben über ihn, neue Meldungen heizen die Aufmerksamkeitsmaschinerie an, die Aufschwungphase ist auszumachen. Doch über die Feiertage bleiben Meldungen über neue Vergehen aus, die Anzahl an Tweets bricht ein (Abb. 7), sinkt von 1165 am 22. Dezember in kurzer Zeit auf nur 450 sechs Tage später. Aus der Zeit heraus stellt sich die Frage, ob der Skandal eine Etablierungsphase erreicht oder über den Jahreswechsel verebbt. Auch ein erneutes Hoch in Zusammenhang mit den vergünstigten BW-Kreditkonditionen von 996 Kurznachrichten am 30.Dezember wird von erneut rasch sinkenden Tweet-Häufigkeiten am 31. und 1. abgelöst. Doch dann das Bekanntwerden der verhängnisvollen Mailbox-Nachricht am 2.Januar: Von hier an erreicht der Skandal eine andere Qualität, der ganz klar auf eine Etablierung hindeutet: Den kompletten Januar hindurch sinken die Tweets pro Tag nur ein einziges Mal unter 800, bleiben gar die meiste Zeit über 1000, ein Zustand, der sich bis zum
  22. 22. 22 dritten Februar hält. Eine deutliche Häufung der Worte „Rücktritt“, „tritt zurück“ und „zurücktreten“ lässt sich für diese Zeit gleichsam nicht feststellen, wie Abb. 8 zeigt.10 Vom 3. Februar an ist erneut ein plötzlicher Einbruch der Nachrichtenhäufigkeit zu bemerken: Sie fällt von 1048 auf gerade einmal 308 am 7. des Monats. Möglicherweise wäre hier mit dem Beginn der Abschwungphase zu rechnen gewesen, doch stattdessen wird neues Öl ins Feuer gegossen: Am 8.Februar veröffentlicht die Bild-Zeitung den Bericht, der letztendlich zum Ermittlungsverfahren der Staatsanwaltschaft und zum Rücktritt des Bundespräsidenten führt. In ihm wird erklärt, dass der bereits erwähnte Filmproduzent Groenewold Unterlagen über einen von ihm bezahlten Aufenthalt Wulffs auf Sylt aus dem entsprechenden Hotel entwenden ließ, was nachweislich nicht den Tatsachen entsprach (Heinser 2012). Diese Meldung ist es, die das eigentlich bereits abkühlende Gemüt der Öffentlichkeit erneut erhitzt: Selbst Tage nachdem Wulffs zurückgetreten ist, liegen die täglichen Tweet-Zahlen immer noch bei ca. 1000, die Debatte klingt erst am 28. Februar mit gerade einmal noch 117 Tweets aus, sodass möglicherweise von einer Abschwungphase gesprochen werden kann. Gleichzeitig fügt sich an diese kurze Beruhigung noch eine Zugabe, denn der Diskurs kocht Anfang März erneut hoch: Mit dem Abschied aus dem Amt steht die Frage des Ehrensolds und der Angemessenheit eines Zapfenstreichs im Raum, was erneut Tweets im hohen dreistelligen und niedrigem vierstelligen Bereich provoziert. Erst dann kann wirklich von einem Abschwung und vom Eintreten in die Rehabilitationsphase gesprochen werden. 10 Analysiert man generell die Worthäufigkeiten vom Beginn des Skandals bis zum Rücktritt und bereinigt sie um nicht aussagekräftige Worte (Artikel, Pronomina, Hilfsverben etc.), wofür auf das Python-Modul NLTK Bird, Klein & Loper 2009 zurückgegriffen wurde, stellt man überrascht fest, dass der häufigste Begriff der kompletten Zeit ausgerechnet Begriff „Jauch“ ist (vgl. Abb. 9). Analysiert man dies über die Zeit (Abb. 10), erkennt man, dass es klare Peaks an jenen Tagen gibt, an denen die beliebte Talkshow „Günther Jauch“ sich thematisch mit Wulff auseinandersetzte. Dies kann als Indiz für eine starke Rückbindung der sozialen Netze an die etablierten Medien betrachtet werden, was der Idee der genuin neuen Qualität des Skandales im digitalisierten Zeitalter zumindest in diesem Fall widerspräche. Der Konjunktiv ist jedoch angebracht, hierfür wäre eine weitergehende Analyse unter Betrachtung des kompletten Medienspektrums während der Affäre nötig.
  23. 23. 23 6. Fazit In der vorliegenden Arbeit wurde die Präsidentschaft Christian Wulffs inklusive ihrer wenigen Höhen und rückblickend manches Mal geradezu tragischen Tiefen auf explorativer Basis in Relation zu Meldungen im sozialen Netzwerks Twitter gesetzt, welche den damaligen Präsidenten thematisierten. Ein chronologischer Überblick über den Sachverhalt wurde gegeben und durch Rückgriff auf eine theoretische Basis konnten die empirischen Befunde kontextualisiert und im Sinne des politischen Skandals eingeordnet werden. Gleichzeitig wurde mit der Sentiment-Analysis ein Instrument auf seine Anwendbarkeit für die Klassifikation von Kurznachrichten in komplexen politischen Kontexten untersucht und eine neuartige Scraping-Methode zur Gewinnung von Twitterdaten vorgestellt Aus inhaltlicher Sicht ist festzuhalten, dass die Präsidentschaft Christian Wulffs vor dem 13.Dezember 2011 nicht in der Lage war, wesentliche Akzente innerhalb Twitter- Nutzerschaft zu setzen. Insbesondere die in den Medien viel rezipierte Rede zum Tag der Deutschen Einheit 2010 stieß auf vergleichsweise geringes Interesse (zumindest deutlich weniger als ein „Eier-Anschlag“ auf den Kopf des Präsidenten), die meiste Zeit war Wulff kein Thema auf Twitter. Positiv hervorzuheben sind hingegen seine kritischen Ausführungen zum Prozess der Eurorettung im August 2011 und seine kurz darauf stattgefundene Auslandsreise nach Afghanistan, welche das größte Maß an Resonanz in der Prä-Skandal-Phase der Ära Wulff nach sich zogen. Dass diese Ereignisse kurz aufeinander und eher am Ende des nach normalen Regeln verlaufenen Teils seiner Präsidentschaft stattfanden, ist zumindest ein Indiz, dass sich Christian Wulff möglicherweise in Zukunft weiter in seine Rolle als Präsident eingefunden hätte. Doch stattdessen folgte die öffentliche Hinrichtung im Feuer der „Affäre Wulff“: Plötzlich schrieben tagtäglich hunderte Menschen über die Vergehen des Präsidenten und der archetypische Verlauf des politischen Skandals ließ sich in aller Deutlichkeit nachvollziehen, wobei klar wird, dass die Aufmerksamkeitsdynamik lange Zeit nur auf der Grundlage stetig neuer Vorwürfe am Leben erhalten werden konnte, bevor sich der Skandal durch die neuen Informationen zur Nachricht auf Kai Diekmanns Anrufbeantworter im Januar schließlich fest etabliert konnte. Als im Februar das Interesse der Öffentlichkeit erlahmte, war es erneut die Bild-Zeitung, die den Skandal mit Hilfe von Meldungen, welche sich im Nachhinein als falsch erwiesen, weiter
  24. 24. 24 befeuerte und damit letztlich den medialen Druck auf die Staatsanwaltschaft so sehr erhöhte, dass Untersuchungen begannen und Christian Wulff zum Rücktritt gezwungen war. In Hinblick auf die Evaluation des Instruments der Sentiment-Analysis muss gegenüber den gewonnenen Erkenntnissen auf inhaltlicher Ebene ein gewisses Maß an Enttäuschung vermerkt werden: Eigneten sich die Techniken des Maschinenlernens noch sehr gut dafür, um inhaltlich relevante Tweets von automatisch generiertem Content zu trennen, sank die Klassifikationsgenauigkeit bei der tatsächlichen Feststellung von Sentiments trotz Rückgriff auf verschiedenste Techniken auf ein nicht seriös interpretierbares Maß. Da dies den in der Literatur beschriebenen Erfolgen (auch im Micro-Blogging-Bereich) widerspricht, muss davon ausgegangen werden, dass der politische Diskurs im Umgang mit Christian Wulff ein inhärent komplexes Problem darstellt. Inwiefern sich dies auf andere Personen des öffentlichen Lebens übertragen lässt, muss in weiteren Studien evaluiert werden.
  25. 25. 25 7. Literaturverzeichnis Alexander Pak & Patrick Paroubek 2010. Twitter as a Corpus for Sentiment Analysis and Opinion Mining, in Nicoletta Calzolari (Conference Chair), u.a. (Hg.): Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC’10). Valletta, Malta: European Language Resources Association (ELRA). Alsleben, Brigitte 2007. Duden, Das Herkunftswörterbuch: Etymologie der deutschen Sprache ; auf der Grundlage der neuen amtlichen Rechtschreibregeln ; [die Geschichte der deutschen Wörter bis zur Gegenwart ; 20000 Wörter und Redewendungen in ca. 8000 Artikeln]. 4. Aufl. Mannheim, Leipzig, Wien, Zürich: Dudenverl. (Der Duden, 7). Ascher, David, u.a. 1999. Numerical Python. 128569. Aufl. Livermore, CA. Bird, Steven, Klein, Ewan & Loper, Edward 2009. Natural language processing with Python: O’Reilly Media, Inc. Bottou, Leon 2010. Stochastic Gradient Descent. URL: http://leon.bottou.org/projects/sgd [Stand 2015-03-18]. Burkhardt, Steffen 2006. Medienskandale: Zur moralischen Sprengkraft öffentlicher Diskurse. Köln: Halem. Ceron, A., Curini, L. & Iacus, S. M. 2015. Using Sentiment Analysis to Monitor Electoral Campaigns: Method Matters--Evidence From the United States and Italy. Social Science Computer Review 33(1), 3–20. Cortes, Corinna & Vapnik, Vladimir 1995. Support-vector networks. Machine learning 20(3), 273–297. Dargent, Ralf 2011. Jauch und ein 3:2 beim Pro und Contra gegen Wulff. Welt.de 19. Dezember. Online im Internet: URL: http://www.welt.de/fernsehen/article13774392/Jauch-und-ein-3-2-beim-Pro-und- Contra-gegen-Wulff.html [Stand 2015-03-22]. Duggan, Maeve & Brenner, Joanna 2013. The Demographics of Social Media Users — 2012. Washington, D.C. URL: http://www.lateledipenelope.it/public/513cbff2daf54.pdf&hl=de&sa=X&scisig=AA GBfm0Pp0IO0kkvDg-6O6XJBjaQ2xOneg&nossl=1&oi=scholarr&ei=- e0OVdm7FIG3PeqKgZAF&ved=0CCMQgAMoADAA [Stand 2015-03-22]. 2013. The JSON data interchange format. Online im Internet: URL: http://www.ecma- international.org/publications/files/ECMA-ST/ECMA-404.pdf [Stand 2015-03-22]. Ellwein, Thomas & Hesse, Joachim J. 2012. Der entfesselte Skandal: Das Ende der Kontrolle im digitalen Zeitalter. [S.l.]: Halem. Fan, Rong-En, u.a. 2008. LIBLINEAR: A library for large linear classification. The Journal of Machine Learning Research 9, 1871–1874. Fischer, Sebastian 2010. Bundespräsidenten-Kandidat Wulff: Biedermann für Bellevue. Spiegel Online 3. Juni. Online im Internet: URL: http://www.spiegel.de/politik/deutschland/bundespraesidenten-kandidat-wulff- biedermann-fuer-bellevue-a-698585.html. Friedl, Jeffrey E. & Karrer, Andreas 2008. Reguläre Ausdrücke. 3. Aufl., dt. Ausg. der 3. Aufl. Beijing, Cambridge, Farnham, Köln, Paris, Sebastopol, Taipei, Tokyo: O'Reilly. Fuhrer, Armin 2010. Christian Wulff: Die Biografie. 2. Aufl. München: Olzog. Fuhrer, Armin 2012. Christian Wulff hat es nie verstanden. Focus Online 18. Februar.
  26. 26. 26 Go, Alec, Bhayani, Richa & Huang, Lei 2009. Twitter sentiment classification using distant supervision. CS224N Project Report, Stanford, 1–12. Götschenberg, Michael 2013. Der böse Wulff?: Die Geschichte hinter der Geschichte und die Rolle der Medien. Kulmbach: Plassen. Günther, Tobias 2013. Sentiment Analysis of Microblogs. Master-Arbeit. University of Gothenburg. Halko, N., Martinsson, P.-G & Tropp, J. A. 2009. Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions. ArXiv e-prints. Hall, Mark, u.a. 2009. The WEKA data mining software: an update. ACM SIGKDD explorations newsletter 11(1), 10–18. Heidemanns, Martin & Harbusch, Nikolaus. Affäre Wulff: Bundespräsident für 598 Tage : die Geschichte eines Scheiterns. Heidemanns, Martin & Harbusch, Nikolaus 2011. Hat Wulff das Parlament getäuscht? Bild 12. Dezember. Online im Internet: URL: http://www.bild.de/politik/inland/christian-wulff/wirbel-um-privat-kredit-ueber- halbe-million-euro-21531308.bild.html [Stand 2015-03-23]. Heinser, Lukas 2012. Die Wulff-Enthüllung, die keine war. URL: http://www.bildblog.de/38668/die-wulff-enthuellung-die-keine-war/. Hesse, Joachim J. & Ellwein, Thomas 2010. Das Regierungssystem der Bundesrepublik Deutschland. 10. Aufl. Baden-Baden: Nomos. Holtz-Bacha, Christina 2004. Unterhalten statt überzeugen? Politik als Entertainment., in Nieland, Jörg-Uwe & Kamps, Klaus (Hg.): Politikdarstellung und Unterhaltungskultur: Zum Wandel der politischen Kommunikation. Köln: Herbert von Halem. (Fiktion und Fiktionalisierung). Hondrich, Karl O. 2002. Enthüllung und Entrüstung: Eine Phänomenologie des politischen Skandals. 1. Aufl. Frankfurt am Main: Suhrkamp. (Edition Suhrkamp, 2270). iOpus 2013. IMacros: iOpus. Jiang, Long, u.a. 2011. Target-dependent Twitter Sentiment Classification: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1. Stroudsburg, PA, USA: Association for Computational Linguistics. (HLT ’11), 151–160. Jones, Eric, Oliphant, Travis & Peterson, Pearu 2001. SciPy: Open source scientific tools for Python. Kagan, V., Stevens, A. & Subrahmanian, V.S 2015. Using Twitter Sentiment to Forecast the 2013 Pakistani Election and the 2014 Indian Election. Intelligent Systems, IEEE 30(1), 2–5. Knab, Sonja, Rehm, Mareike & Dancu, Smaranda 2013. Social Trends - Social Media. URL: http://www.tomorrow-focus- media.de/fileadmin/customer_files/public_files/downloads/studien/TFM_SocialTren ds_SocialMedia.pdf [Stand 2015-03-20]. Kohavi, Ron & others 1995. A study of cross-validation and bootstrap for accuracy estimation and model selection: Ijcai, 1137–1145. Liu, Bing 2012. Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies 5(1), 1–167. Lloyd, Stuart 1982. Least squares quantization in PCM. Information Theory, IEEE Transactions on 28(2), 129–137.
  27. 27. 27 Manning, Christopher D., Raghavan, Prabhakar & Schütze, Hinrich 2008. Introduction to information retrieval: Cambridge university press Cambridge. (1). Marchetti-Bowick, Micol & Chambers, Nathanael 2012. Learning for microblogs with distant supervision: Political forecasting with twitter: Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, 603–612. Matthew S. Gerber 2014. Predicting crime using Twitter and kernel density estimation. Decision Support Systems 61(0), 115–125. Online im Internet: URL: http://www.sciencedirect.com/science/article/pii/S0167923614000268. McKinney, Wes 2011. pandas: a Foundational Python Library for Data Analysis and Statistics. Online im Internet: URL: http://de.scribd.com/doc/71048089/pandas-a- Foundational-Python-Library-for-Data-Analysis-and-Statistics [Stand 2015-03-18]. NDR 2012. Die Causa Christian Wulff - eine Chronologie. URL: https://www.ndr.de/nachrichten/niedersachsen/hannover_weser-leinegebiet/Die- Causa-Christian-Wulff-eine-Chronologie,wulff709.html [Stand 2015-03-22]. n-tv 2011. Neue unbequeme Fragen an Wulff. URL: http://www.n-tv.de/politik/Neue- unbequeme-Fragen-an-Wulff-article5107596.html. n-tv 2012. Wulff drohte Springer mit "Bruch". URL: http://www.n-tv.de/politik/Wulff- drohte-Springer-mit-Bruch-article5113076.html. O'Connor, Brendan, u.a. 2010. From tweets to polls: Linking text sentiment to public opinion time series. ICWSM 11, 122–129. Pedregosa, F., u.a. 2011. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research 12, 2825–2830. Plickert, Philip 2011. Donnerhall am Bodensee. Frankfurter Allgemeine Zeitung 27. August. Online im Internet: URL: http://www.faz.net/aktuell/wirtschaft/eurokrise/bundespraesident-wulff-in-lindau- donnerhall-am-bodensee-11126151.html [Stand 2015-03-23]. Reimann, Anna 2011. Moralapostel Christian Wulff: Die schönsten Zeigefinger. Spiegel Online 20. Dezember. Online im Internet: URL: http://www.spiegel.de/politik/deutschland/moralapostel-christian-wulff-die- schoensten-zeigefinger-a-804812.html [Stand 2015-03-22]. Rossum, Guido 1995. Python Reference Manual. Amsterdam, The Netherlands, The Netherlands: CWI (Centre for Mathematics and Computer Science). Russell, Matthew A. 2011a. 21 recipes for mining Twitter. Sebastopol, Calif: O'Reilly Media. Russell, Matthew A. 2011b. Mining the social web. Second edition. Sarrazin, Thilo 2011. Deutschland schafft sich ab- Wie wir unser Land aufs Spiel setzen: DVA. Schadt, Thomas 2013. Der Rücktritt. Schausten, Bettina, Deppendorf, Ulrich & Wulff, Christian 2012. Bundespräsident Wulff im Interview mit Bettina Schausten (ZDF) und Ulrich Deppendorf (ARD). URL: http://www.tagesschau.de/inland/wulffinterview114.html [Stand 2015-03-23]. Schilling, Andreas, u.a. 2013. b4p - Best for planning 2013. München. Schmitz, Henrik & Burkhardt, Steffen 2010. Skandale, Macht und Medien: Betrachtungen zum Fall Käßmann. URL: http://www.evangelisch.de/inhalte/98649/25-02-2010/skandale-macht-und-medien- betrachtungen-zum-fall-kaessmann [Stand 2015-03-24].
  28. 28. 28 Schoonderwoerd, Nico 2013. 4 ways how Twitter can keep growing. URL: http://blog.peerreach.com/2013/11/4-ways-how-twitter-can-keep-growing/ [Stand 2015-03-20]. Sculley, D. 2010. Web-scale k-means clustering: Proceedings of the 19th international conference on World wide web, 1177–1178. StataCorp 2013. Stata Statistical Software: Release 13: College Station TX: StataCorp LP. Statistic Brain 2014. Twitter Statistics. URL: http://www.statisticbrain.com/twitter- statistics/. Stern 2011. Wulff veröffentlicht private Urlaubsliste. Stern 18. Dezember. Online im Internet: URL: http://www.stern.de/politik/deutschland/kreditaffaere-des- bundespraesidenten-wulff-veroeffentlicht-private-urlaubsliste-1764206.html. Stubblebine, Tony 2004. Reguläre Ausdrücke - kurz & gut. 1. Aufl. Beijing, Cambridge, Farnham, Köln, Paris, Sebastopol, Taipei, Tokyo: O'Reilly. (O'Reillys Taschenbibliothek). 2005. Common Format and MIME Type for Comma-Separated Values (CSV) Files. Online im Internet: URL: http://tools.ietf.org/html/rfc4180 [Stand 2015-03-23]. Tillack, Hans-Martin 2011. Warum Olaf Glaeseker gehen musste. Stern.de 23. Dezember. Online im Internet: URL: http://www.stern.de/politik/deutschland/affaere-um-christian-wulff-warum-olaf- glaeseker-gehen-musste-1765903.html [Stand 2015-03-23]. van Eimeren, Birgit & Frees, Beate 2015. Soziodemografie der Onlinenutzer: ARD/ZDF-Online-Studien 2000-2013. URL: http://www.ard.de/home/intern/fakten/ard- mediendaten/Soziodemografie_der_Onlinenutzer/409236/index.html [Stand 2015- 03-20]. Vick, Paul 2004. The Visual Basic Net programming language. Boston: Addison- Wesley. (Microsoft NET development series). Wilson, Theresa, u.a. 2005. OpinionFinder: A system for subjectivity analysis: Proceedings of hlt/emnlp on interactive demonstrations, 34–35. Witte, Jens 2012. Bundespräsident: Wulff ließ sich auf Oktoberfest einladen. Spiegel Online 14. Januar. Online im Internet: URL: http://www.spiegel.de/politik/deutschland/bundespraesident-wulff-liess-sich-auf- oktoberfest-einladen-a-809132.html [Stand 2015-03-23]. Wulff, Bettina 2012. Jenseits des Protokolls. München: Riva. Wulff, Christian 2010. Rede zum 20. Jahrestag der Deutschen Einheit. Bremen. URL: http://www.bundespraesident.de/SharedDocs/Reden/DE/Christian- Wulff/Reden/2010/10/20101003_Rede.html [Stand 2015-03-23]. Wulff, Christian 2011a. Bundespräsident Christian Wulff erklärt. Berlin. URL: http://www.bundespraesident.de/SharedDocs/Pressemitteilungen/DE/2011/12/11121 5-Erklaerung.html [Stand 2015-03-23]. Wulff, Christian 2011b. Erklärung des Bundespräsidenten. Berlin. URL: http://www.bundespraesident.de/SharedDocs/Berichte/DE/Reisen-und- Termine/1112/111222-Erklaerung.html [Stand 2015-03-22]. Wulff, Christian 2014. Ganz oben ganz unten. München: Beck. Zeit 2012. Hausdurchsuchung bei Wulffs früherem Sprecher Glaeseker. Zeit.de 19. Januar. Online im Internet: URL: http://www.zeit.de/politik/deutschland/2012- 01/wulff-glaeseker-hausdurchsuchung [Stand 2015-03-23].
  29. 29. 29 8. Abbildungsverzeichnis Abb. 1 Anteil korrekter Zuordnungen verschiedener Algorithmen (Klassifikationsschritt I) Abb. 2 Anteil korrekter Zuordnungen verschiedener Algorithmen (Klassifikationsschritt II) 79,8% 76,2% 79,9% 77,1% 70,0% 72,0% 74,0% 76,0% 78,0% 80,0% 82,0% Support Vector Machines Stochastic Gradient Descent Logistische Regression Multinomial Naive Bayes KorrekteKlassifikationen Algorithmen 62,8% 63,1% 62,9% 63,1% 55,0% 56,0% 57,0% 58,0% 59,0% 60,0% 61,0% 62,0% 63,0% 64,0% Support Vector Machines Stochastic Gradient Descent Logistische Regression Multinomial Naive Bayes KorrekteKlassifikationen Algorithmen
  30. 30. 30 Abb. 3 Minibatch K-Means-Clustering (reduziert auf 2 Dimensionen) Abb. 4 Häufigkeitsanalyse (1.5.2010 – 1.7.2012)
  31. 31. 31 Abb. 5 Häufigkeitsanalyse (1.6.2010 – 12.12.2011) Abb. 6 Häufigkeitsanalyse (1.12.2011 – 1.5.2012)
  32. 32. 32 Abb. 7 Häufigkeitsanalyse (11.12.2011 – 9.1.2012) Abb. 8 Häufigkeiten verschiedener Begriffe aus der Wortfamilie „Rücktritt“ (1.12.2011 – 18.2.2012)
  33. 33. 33 Abb. 9 Häufigste Worte im Zeitraum der Affäre Abb. 10 Häufigkeiten des Begriffs „Jauch“ 920 754 733 710 537 458 392 330 324 302 289 288 250 235 222 0 100 200 300 400 500 600 700 800 900 1000 Häufigkeiten Worte

×