Die Herausforderungen Opinion Mining und Stimmungsanalyse
Das Opinion Mining (OM) kann als Teildisziplin der Computerlinguistik definiert werden, die sich mit der Extraktion von Meinungsäusserungen aus unterschiedlichsten Quellen befasst. Bei einem gegebenen Text analysiert dann das OM-System:
- Welcher Teil des Textes als Meinungsäusserung gilt
- Wer diese Äusserung schrieb und
- Was kommentiert wird.
Die Stimmungsanalyse, auf der anderen Seite, beurteilt die Subjektivität, die Polarität (positiv oder negativ) und Polaritätsstärke (schwach positiv, leicht positiv, stark positiv etc.) eines Textes:
- Welche Stimmungen wurden bei dem Textverfasser evoziert.
Die zurzeit angewandten Ansätze können in vier Hauptkategorien gruppiert werden: Keyword Spotting, lexikalische Affinität, statistische Methoden und konzept-basierte Techniken.
Unser Lösungsansatz – die Opinion Mining Skill CartridgeTM
Unsere Lösung kombiniert die beschriebenen Ansätze auf der inhaltlichen und syntaktischen Ebene.
Die Opinion Mining Skill CartridgeTM (OMSCTM) identifiziert und qualifiziert evaluative Ausdrücke im Text (Quelle) durch Aufdeckung von subjektive Informationen vermittelnden sprachlichen Zeichen und verknüpft diese mit ihrem Ziel, wann immer es möglich ist. Die Extraktionen werden nach einer Themenhierarchie klassifiziert, die den Inhalt-Snapshots der Dokumente entspricht.
In der OMSCTM wird die Appraisal Theory (Einschätzungstheorie) angewendet. In der Psychologie geht die Appraisal-Theorie von der Annahme aus, dass Emotionen die Extraktion aus unserer Bewertungen (Einschätzungen, Begutachtungen) von Ereignissen sind, die spezifische Reaktionen bei Menschen verursachen. Wir entscheiden also, wie wir uns in einer Situation fühlen, nachdem wir sie interpretiert und die sie begleitenden Phänomene für uns erklärt haben.
Das Ergebnis der Data Mining auf solche appraisal Expression sind dann sinnvolle und nicht-offensichtliche Einsichten.
Die Anwendungen
Als Hauptanwendung von OMSCTM
gilt die Analyse der durch Anwender generierten Inhalte, um Gesamteinsichten zu erhalten und auch die schwachen Signale aus dem stätigen Informationsfluss wahrzunehmen. Auf diese Art werden die als unstrukturierte Daten geltenden Blogs, CRM-Notizen,Posts in den Foren oder Konsumenten-umfragen analysiert, um Trends zu ermitteln, Probleme zu identifizieren oder Vorhersagen über künftige Verhaltungsweisen abzuleiten.
2. scopeKM
Knowledge Management
-2-
Opinion Mining – finden die Meinung
jenseits von Stimmungen
Die Herausforderungen Opinion Mining
und Stimmungsanalyse
Die Abgrenzung
Die Ausbreitung von Social Media hat den
Stakeholdern € den Kunden, Mitarbeitern,
Aktion•ren und Zulieferern € einerseits
eine nie da gewesene M‚glichkeit
geschaffen, ihre Meinung bezƒglich der
Leistungen und dem Auftritt von Firmen
zu •ussern, anderseits aber auch ernste
M•ngel offenbart, wenn man die
Sinnhaftigkeit dieser „usserungen
betrachtet. Zur gleichen Zeit ist die
Dringlichkeit, in Echtzeit das Verst•ndnis
der Meinungen zu gewinnen stark
gewachsen: der virale Charakter von Social
Media bewirkt ungleiche Verteilung der
Aufmerksamkeit und schnelle Verbreitung
von Meinungen und Stimmungen.
Zur gleichen Zeit ist die schiere Menge an
Rohdaten auch die Gelegenheit, die
ge•usserten Meinungen besser zu nutzen.
Sprichw‚rtlich ist die Aussage, dass der
Schlƒsselfaktor des Erfolgs von Google
nicht die besseren Algorithmen sind,
sondern die Macht der verfƒgbaren
Datenmenge. Die Informationsƒberflutung
muss daher nicht zu einem Problem
sondern kann auch zu einer Chance
werden, wenn man den tausenden von
Stimmen einen Sinn gibt und die
Probleme identifiziert, sobald sie
entstehen.
Das Opinion Mining (OM) kann als
Teildisziplin der Computerlinguistik
definiert werden, die sich mit der
Extraktion von Meinungs•usserungen aus
unterschiedlichsten Quellen befasst. Bei
einem gegebenen Text analysiert dann das
OM-System:
… Welcher Teil des Textes als
Meinungs•usserung gilt
… Wer diese „usserung schrieb
und
… Was kommentiert wird.
Die Stimmungsanalyse, auf der anderen
Seite, beurteilt die Subjektivit•t, die
Polarit•t (positiv oder negativ) und
Polarit•tsst•rke (schwach positiv, leicht
positiv, stark positiv etc.) eines Textes:
… Welche Stimmungen wurden
bei dem Textverfasser evoziert.
Die Evolution von
Opinion Mining – von
den Keywords zu den
Concepts
Die zurzeit angewandten Ans•tze k‚nnen
in vier Hauptkategorien gruppiert werden:
Keyword Spotting, lexikalische Affinit•t,
statistische Methoden und konzept-
basierte Techniken.
3. scopeKM
Knowledge Management
-3-
Opinion Mining – finden die Meinung
jenseits von Stimmungen
Keyword Spotting
Obwohl als der naivste Ansatz, machen die
Einfachheit und der kleine mit ihm
verbundene Einsatz das Keyword Spotting
beliebt. Durch das Auffinden von
eindeutigen Stimmungs- oder
Affektwörtern wie glücklich, traurig,
ängstlich und gelangweilt klassifiziert der
Ansatz den Text in bestimmte Affekt-
Kategorien. Als Quellen für solche Wörter
werden sog. Affektivlexika benutzt, die die
Begriffe nach affektiven Kategorien
gruppieren.
Keyword Spotting hat Schwächen
insbesondere in zwei Bereichen: die
negativen Affekte können als solche nicht
eindeutig erkannt werden, und die
Methode beruht oft auf oberflächlichen
Merkmalen. Zwar kann ein Satz wie
„Heute war ein gelungener Tag“ korrekt
als positiv bewertet werden, die gleiche
positive Bewertung bekommt aber auch
der Satz „Der heutige Tag war nicht
gänzlich gelungen“. Zudem basiert
Keyword Spotting auf dem Auffinden von
allzu offensichtlichen Wörtern, die nur die
Oberflächenmerkmale des eigentlich
Gemeinten widerspiegeln. Vielfach aber
werden die Affekte eines Satzes eher durch
seine Bedeutung als durch Adjektive
eingefangen. Zum Beispiel der Text "Mein
Mann hat gerade die Scheidung
eingereicht und hat auch das Sorgerecht
für meine Kinder beantragt" evoziert sehr
starke Emotionen ohne dazu Affekt-
Keywords zu verwenden – die Methode
wird hier also unwirksam.
Lexikalischen Affinität
Lexikalische Affinität ist etwas
anspruchsvoller als Keyword Spotting. Der
Ansatz erkennt nicht nur die offensicht-
lichen Affekt-Wörter, sondern es werden
auch anderen Wörtern ihre wahrschein-
liche "Affinität" zu bestimmten
Emotionen zugewiesen. Zum Beispiel
weist der Ansatz dem Wort "Unfall" eine
75%-tige Wahrscheinlichkeit zu, einen
negativen Ereignis zu indizieren, z.B.
"Autounfall" oder „durch einen Unfall
verletzt“. Es ergeben sich aber für diesen
Ansatz zwei Hauptprobleme. Als erstes,
mit Negativsätzen („Ich vermied einen
Unfall“) oder Sätzen mit zweideutigen
Bedeutungen („Ich traf meine Freundin
zufällig“) wird die Methode ausgetrickst,
weil deren Anwendung ausschliesslich auf
Wortebene erfolgt. Zweitens, bedingdurch
den Jargon der Quelle t sind die
Ergebnisse der Methode häufig fach- oder
sachtypisch. Dies macht es schwierig, ein
wiederverwendbares, domain-
unabhängiges Modell zu entwickeln.
Statistische Methoden
Dieser Ansatz, der die Bayes-Inferenz und
Support-Vektor-Maschinen umfasst, wird
sehr häufig zur Klassifikation von
Stimmungen beinhaltenden Texten
eingesetzt. Durch das Einspeisen eines
automatisch lernenden Systems mit einer
durch Stimmungen annotierten und zum
Trainigszweck eingesetzten Text-
sammlung lernt das System nicht nur die
affektive Wertigkeit der Keywords (wie bei
dem Ansatz Keyword Spotting), sondern es
werden berücksichtigt sowohl die
Wertigkeit anderer Wörter (ähnlich zu der
Methode der lexikalischen Affinität), als
auch die Satzzeichen und die Frequenz der
gemeinsam auftretenden Wörter.
Im Allgemeinen gelten aber die
statistischen Methoden als semantisch
schwach, was zur Folge hat, dass – mit
4. scopeKM
Knowledge Management
-4-
Opinion Mining – finden die Meinung
jenseits von Stimmungen
Ausnahme ihrer Verwendung im
Zusammenhang mit Stimmungen – die
anderen Elemente nur wenig zu Vorher-
sagen beitragen können. Als geeignet
gelten die statistisch klassifizierten Texte
nur für ausreichend grosse
Textsammlungen.
Konzept-basierte Ansätze.
Zur Textanalyse werden hierbei die Web
Ontologien oder semantischen Netze
verwendet. Damit wird gewährleistet, dass
die mit der natürlichen Sprache
verbundenen konzeptionellen und
affektiven Informationen erfasst werden.
Die Nutzung breiter Wissensbasen
ermöglicht den entscheidenden Schritt
weg von der blinden Verwendung von
Keywords oder dem Zählen der
gemeinsam auftretenden Wörter (co-
occurrence) hin zu dem Konzept der
impliziten Bedeutung bzw. den impliziten
Eigenschaften, die mit der natürlichen
Sprache assoziiert werden. Der konzept-
basierte Ansatz ist den rein syntaktischen
Techniken weit überlegen, da er geeignet
ist, auch subtil ausgedrückte Stimmungen
zu erkennen.
Konzept-basierte Ansätze sind geeignet,
auch Ausdrücke, die aus mehreren
Wörtern bestehen und die nicht explizit
Stimmungen sondern Faktenvermitteln,
zu analysieren. Der konzeptbasierte Ansatz
stützt sich stark auf die Tiefe und Breite
der verwendeten Wissensbasis. Ohne diese
das menschliche Wissen umfassende
Ressource könnte das Opinion Mining
System nicht die Semantik der natürlichen
Sprache erfassen. Auf der anderen Seite
aber schränkt der Charakter der
Wissensbasis, d.h. die Tatsache, dass sie
vielfach nur die typischen
Konzeptinformationen beinhaltet, etwas
ihre Fähigkeit die semantischen Nuancen
zu behandeln.
Unser Lösungsansatz –
die Opinion Mining Skill
CartridgeTM
Die Grundlagen
Unsere Lösung kombiniert die
beschriebenen Ansätze auf der
inhaltlichen und syntaktischen Ebene.
Die Opinion Mining Skill CartridgeTM
(OMSCTM)
identifiziert und qualifiziert
evaluative Ausdrücke im Text (Quelle)
durch Aufdeckung von subjektive
Informationen vermittelnden sprachlichen
Zeichen und verknüpft diese mit ihrem
Ziel, wann immer es möglich ist. Die
Extraktionen werden nach einer
Themenhierarchie klassifiziert, die den
Inhalt-Snapshots der Dokumente
entspricht.
In der OMSCTM wird die Appraisal Theory
(Einschätzungstheorie) angewendet. In
der Psychologie geht die Appraisal-Theorie
von der Annahme aus, dass Emotionen die
Extraktion aus unserer Bewertungen
(Einschätzungen, Begutachtungen) von
Ereignissen sind, die spezifische
Reaktionen bei Menschen verursachen.
Wir entscheiden also, wie wir uns in einer
Situation fühlen, nachdem wir sie
interpretiert und die sie begleitenden
Phänomene für uns erklärt haben.
Modellierung der Meinungen
Ein bewertender Ausdruck (appraisal
expresion) ist dann eine Texteinheit, die
eine wertende Haltung gegenüber einigen
Zielen zum Ausdruck bringt. Entscheidend
5. scopeKM
Knowledge Management
-5-
Opinion Mining – finden die Meinung
jenseits von Stimmungen
dabei ist, die Attribute solcher evaluativen
Elemente zu finden und zu charakteri-
sieren. Die OMSCTM ordnet jedem solchen
Ausdruck unterschiedliche Attribute zu.
Die Attribute des evaluativen Ausdrucks
beschreiben die folgenden drei Haupt-
eigenschaften: den Evaluationstyp, die
Polarität und die Intensität (vgl. Abb. 1).
Das Ergebnis der Data Mining auf solche
appraisal Expression sind dann sinnvolle
und nicht-offensichtliche
Einsichten1.
1 Für die Beschreibung der Gesamtlösung
vgl. die Präsentation „Chancen und
Risiken erkennen“
Abb. 1: Kundespezifisch definierte Schlüsselelemente bei Opinion Mining
6. scopeKM
Knowledge Management
-6-
Opinion Mining – finden die Meinung
jenseits von Stimmungen
Das Attribut „Evaluationstyp“
Das Evaluationstyp-
Attribut
Beschreibung Beispiel
Affekt Emotionaler Zustand des
Autors
Ich war nie enttäusch von
diesem Produkt
Mir gefällt die Bildqualität
nicht
Urteil Bewertung der Objekt-
Eigenschaften
Die Bildqualität ist wirklich
ausserordentlich
Das Produkt ist
kostengünstig
Das Attribut „Polarität“ (oder „Tonalität“ bzw. „Orientierung“)
Das Attribut Polarität /
Tonalität
Beschreibung Beispiel
Positiv Der Ausdruck hat positive
Bedeutung
Es tönt gut!
Negativ Der Ausdruck hat negative
Bedeutung
Es ist wirklich zu teuer!
Neutral Der Ausdruck hat keine
innere Tonalität, beschreibt
aber Wichtigkeit (… es ist
entscheidend, …) oder
Überraschung (… es ist
überraschend, …)
Sie werden überrascht sein.
Unklar, zweideutig Die positive oder negative
Tonalität ist vom Kontext
(nur das nicht …) und/oder
von der übernommenen
Ansicht (… es ist strategisch
wichtig …) abhängig
Es ist strategisch von
grosser Bedeutung, diese
Massnahmen zu treffen.
7. scopeKM
Knowledge Management
-7-
Opinion Mining – finden die Meinung
jenseits von Stimmungen
Das Attribut „Intensität“ (bzw. „Stärke“)
Das Evaluationstyp-
Attribut
Beispiel
Stark Ich bin sehr enttäusch
Durchschnittlich Ich bin enttäuscht!
Schwach Ich bin etwas enttäuscht!
Die Anwendungen
Als Hauptanwendung von OMSCTM
gilt die Analyse der durch Anwender
generierten Inhalte, um Gesamteinsichten
zu erhalten und auch die schwachen
Signale aus dem st•tigen Informations-
fluss wahrzunehmen. Auf diese Art werden
die als unstrukturierte Daten geltenden
Blogs, CRM-Notizen, Posts in den Foren
oder Konsumentenumfragen analysiert,
um Trends zu ermitteln, Probleme zu
identifizieren oder Vorhersagen ƒber
kƒnftige Verhaltungsweisen abzuleiten.
Die Opinion Mining Skill CartridgeTM kann
eingesetzt werden beispielsweise fƒr:
… die Feinsteuerung der Angebote durch
das Antizipieren des Kundenbedarfs
und der Kundenerwartungen
… das Aktualisieren der Kenntnisse der
Entwicklungstrends
… das Analysieren von direkten
Feedbacks bezƒglich der Produkte und
Dienstleistungen und das Einfangen
von Kundenmeinungen
… die Analyse der Medienreaktionen auf
das Lancieren neuer Produkte
… das †berwachen von Corporate Image
und das Messen der Markenwerte
zwecks bessere Effizienz der
proaktiven Massnahmen
… das Messen der Wirkung von viralen
Marketing-Kampagnen, Online-
Werbung oder E-Commerce.