Mit der Technologie „Allumfassende Extraktion“ wird ein System aufgebaut, das Texte aus praktisch jeder Quelle - aus Social Media (Twitter, Foren, Blogs etc.), Callcenter-Aufzeichnungen, E-Mails oder Kundenumfragen - in verwertbare Informationen umwandelt und auf diese Art tiefgreifende Einblicke in aggregierte Kundendaten ermöglicht. Allumfassende Extraktion untersucht die Wörter und ihre Umgebung und interpretiert Sätze und Phrasen in fast der gleichen Weise, wie es der menschliche Geist tut. Es extrahiert die Fakten, Beziehungen und Stimmungen aus diesen Dateien in einer sehr präzisen Art und Weise und analysiert die Inhalte.
Der Fliesstext wird in Near-Real-Time extrahiert, um die thematischen Rollen aller Akteure, die Aktionen und deren Konstituenten zu bestimmen. Die Technologie ermöglicht dem Anwender, Fakten bezüglich der Fragen „Wer, Was, Wo, Wann und „Warum“ zu eruieren und zu analysieren. Im Anschluss können Menschen, Orte, Ereignisse und ihre Beziehung zueinander ermittelt werden. Als Ergebnis werden Daten in einem strukturierten, relationalen Format erzeugt, die mit bereits existenten, strukturierten Daten (DWH u.ä.) zur weiteren Analyse verknüpft werden. Schemata zur sofortigen Datensuche oder für Business-Intelligence-Anwendungen werden mitgeliefert.
Juraj Schick/scopeKM: Social Media intelligent beobachten, sinnvoll auswerten...
scopeKM: Allumfassende Extraktion von Informationen aus den Social Media
1. scopeKM
Knowledge Management
Allumfassende Extraktion
von Informationen aus den
Social Media
Präsentation von
Juraj Schick, Dipl. Ing. ETH
scopeKM Knowledge Management GmbH,
8033 Zürich, Schweiz
2. scopeKM
Knowledge Management
Der Ansatz
€ Die Methode der “Allumfassenden Extraktion” extrahiert in Near-Real-Time und in einer
sehr präzisen Art und Weise Informationen aus unstrukturiertem Text in unterschied-
lichsten Kanälen Fakten, Beziehungen und Stimmungen und wandelt diese in eine
strukturierten Form um.
€ Der in XML und in strukturiertem relationalem Datenformat erstellte Output wird mit
den bestehenden strukturierten internen relationalen Daten (DWH) gekoppelt.
€ Die auf diese Art kombinierten Informationen können mit den im Unternehmen
bereits bestehenden BI-Anwendungen untersucht werden.
3. scopeKM
Knowledge Management
NLP Natural Language Processing
(Computerlinguistik)
„Voice of the Customer“ – Stimmungen in den Konversationen der Social Media
verstehen erfordert Verständnis und Analyse des natürlich gesprochenen Textes.
Mit dem NLP werden verschiedene sprachliche Repräsentationsebenen sequentiell bearbeitet:
€ Tokenisierung. Die Buchstabenkette wird in Wörter, Sätze etc. segmentiert.
€ Morphologische Analyse. Die innere Struktur der Wörter wird betr. Bedeutung und
Funktion analysiert, um die grammatikalischen Information zu extrahieren und um die
Wörter im Text auf Grundformen zurückzuführen.
€ Syntaktische Analyse. Die Wörter jedes Satzes werden auf ihre strukturelle Funktion
im Satz hin analysiert (z.B. Subjekt, Objekt, Modifikator, Artikel, etc.)
€ Semantische Analyse. Den Sätzen bzw. ihren Teilen wird in einer Vielzahl von
verschiedenen Einzelschritten Bedeutung zugeordnet.
4. scopeKM
Knowledge Management
Information Extraction (IE)
€ Information Extraktion = Extraktionslogik / Muster
€ Mit der IE werden aus einem Text die dem Muster entsprechende signifikante Elemente
extrahiert: die Beantwortung der Frage nach „Wer“, „Was“, „Wo“, „Wann“, „Wie“ und
„Warum“.
Muster für :
• Wer war der Käufer
• Was war das Geschenk
• Wer war der Empfänger
• Wann hat es stattgefunden
• Was war der Wert
5. scopeKM
Knowledge Management
Vor- und Nachteile der IE
Die Vorteile der IE:
• Faktisches Verständnis (Beispiel:
alle Facetten des „Gifting Event“
• Mehrdimensionale Analytik /
spezifische Abfragen
• Fein granuliere Abbildung des
Inhalts
Die Nachteile der IE:
• Grosser Aufwand für die Vor-
definition der Logik / der Muster
• Nur das spezifische Wissen wird
extrahiert
• Keine Wissensakquisition
möglich
€Man wird nie sehen oder verstehen Dinge, von denen man nicht erwartet,
dass sie sich aus dem (Kon-)Text ergeben könnten.
6. scopeKM
Knowledge Management
Philosophie der Methode der
„Allumfassenden Extraktion“
€“I don’t know what I’m looking for, but I’ll know it when I see it.”
David Bean, Prof., Dept. of Linguistics, University of Utah
Ein solcher Analyseprozess ist wichtig, weil die sich bietenden Potentiale können zwar für alle
Arten von Domains und Anwendungen vermutet, aber (noch) nicht definieren werden.
Dazu müssen:
1. Die unstrukturierten Kundenkonversationen in allen Kanälen in die Analyseprozesse
miteinbezogen werden und
2. Automatische Prozesse aufgebaut werden, die befähigt sind solche Konversationen zu
verstehen, zu analysieren um anschliessend aus denen solche Informationen zu ermitteln,
die nach der Zusammenführung mit den Ergebnissen der Analyse der strukturierten
Daten dazu geeignet sind, richtige Schlüsselentscheidungen zu treffen.
7. scopeKM
Knowledge Management
Allumfassende Extraktion -
die Aufgabestellung
Allumfassende Extraktion -
es wird ein System aufgebaut,
das nicht nur das Erwartete,
sonder einfach alles extrahiert!
Das System sequenziert den
Text in Aussagen.
Die Aufgabe:
• Gibt es “die wichtigste Aussa-
ge” und falls ja, welche ist sie?
• Gibt es einen “Ausreisser”,
einen “driver” gemäss dem
Ansatz “I don’t know what I’m
looking for, but I’ll know it
when I see it.” ?
8. scopeKM
Knowledge Management
Die Syntaxanalyse
Der 1. (Teil-)Satz:
„Jack bought a sweater last Monday“
9. scopeKM
Knowledge Management
Linguistische Analyse
€ Die linguistische Analyse befasst sich mit der Analyse der Sprache auf der Wort-
und Satzebene, der Rollen und Beziehungen betreffend – z.B. wer hat wem was getan.
€ Die semantische Analyse befasst sich mit der Analyse auf der Bedeutungsebene.
Syntaxanalyse / Parsing
€ Mit Parsing wird ein Diagramm des Textes erstellt, zwecks Identifikation
• seiner grammatikalischen Bestandteilen (Hauptwort /Nomen, Eigenschaftswort /
Adjektiv, Fürwort /Pronomen, Verb usw.) und
• der Rollen einzelner Worte innerhalb des Satzes.
€ Jeder Satz des Dokuments wird nach dem Abschluss des Parsens strukturiert als eine
Serie von Nominalphrasen (Noun Phrases, NPs), Verbalphrasen (Verb Phrases, VPs),
Präpositionalphrasen (Prepositional Phrases, PPs), Satzteilen (Clauses) usw.
€ Der Output zeigt die Wortarten (part of speech) für jedes Wort des Satzes (Subjekt,
Objekt usw.), die Struktur des die Worte beinhaltenden Ausdrucks, Kategorie
des Verbs (Aktiv, Passiv) usw.
10. scopeKM
Knowledge Management
Das Satz-Diagramm
Es wird ein Extraktionsmuster angewendet, um den Anlass (Hier: der „Kauf“) zu
identifizieren und seine Konstituenten festzulegen.
Das Satzdiagramm mit den
Konstituenten des (Teil-)Satzes:
• Das Subjekt: der Käufer (Jack)
> 1.Nominalphrase
• Das Objekt: der Artikel (a sweater)
> 2. Nominalphrase
• Die aktive Verbalphrase mit:
o Adverbialphrase: die Zeit
(last_ Monday)
o das Verb bought als der
„Driver“ des Anlasses
11. scopeKM
Knowledge Management
Event map
Die Ereigniskarte:
• Jack > der Akteur
• a sweater > der Gegenstand
• last_ Monday > die Zeit
€bought: Vorstellung der Kaufaktion
als den Antreiber des
Anlasses
€Der “traditionelle” Weg der Informations-Extraktion
12. scopeKM
Knowledge Management
Analyse eines unerwarteten
Ereignisses
Der 2. (Teil-)Satz:
„Jack ate a pickle sandwich“
Das Satzdiagramm des zweiten des 2.
(Teil-)Satzes:
• passt zu keinem vordefiniertem
Ereignismuster, d.h.
• kein Hinweis auf irgend welche
Rollen, wie z.B. Käufer, Artikel
usw.
€ Erst die Analyse gibt Auskunft
darüber, ob die Aussage relevant
ist oder nicht.
13. scopeKM
Knowledge Management
Der Begriff „Thematische Rolle“
€ Der Begriff „Thematische Rolle“ stellt wichtige Komponente der Lösung
Allumfassende Extraction dar.
€ Bestimmung der thematischen Rolle ist die Methode zur Identifizierung eines
bestimmten Rollenträgers in einer Aktion, ohne die Syntax des Satzteiles zu
berücksichtigen, in welcher die Aktion stattfindet.
€ Mit der Bestimmung der thematischen Rollen wird definiert:
o der/die Spieler / Akteur(-e), der/die die Aktion zum Laufen bringt(-en)
o die Objekte der Aktion
o die Rezipienten / die Empfänger
o die Erfahrenden / Akteure, die eine Rolle spielen aber nicht die Empfänger sind
o die Hilfsmittel, die man zur Durchführung der Aktion benützt
o das Datum, wann eine Aktion stattfindet und
o der Ort, wo eine Aktion stattfindet.
14. scopeKM
Knowledge Management
Anwendung der thematischen
Rollen Der 3. (Teil-)Satz:
„A pickle sandwich was eaten by Jack“
Handlungsrichtung vs. thematische Rolle:
• was eaten > passive Verbalphrase
• Jack > Teil der Propositionalprase
• a pickle sandwich > das Subjekt
€ Jack ist hier zwar kein Subjekt sondern ein
Konstituent der Aktion, verbleibt aber –
richtigerweise – in seiner thematischen
Rolle als der Akteur, die Person, die die
Aktion ausführt.
€ Das Lösungsprinzip: Die thematischen
Rollen – der Akteur, das Objekt, die
Aktion, das Hilfsmittel, das Datum, die
Uhrzeit usw. – werden durch die Lösung
für jeden untersuchten Satz ermittelt und
angewendet!
15. scopeKM
Knowledge Management
Information Extraction als
Ereignisstabelle
Strukturierung des Fliesstextes
• Der Fliesstext wird nach thematischen
Rollen tabellarisch strukturiert
• Ersichtlich sind die Ergebnisse aus
bekannten Ereignissen (hier:
• „Giftingt Event“):
o „bought“: der Trigger des Anlasses
o Struktur: Thematische Rolle,
Repräsentation, Extraktion
• Auswertungen mit BI-Tools möglich
• Nicht ersichtlich: explizit nicht gesuchte
Ereignisse (hier: „Eating Event“)
16. scopeKM
Knowledge Management
Allumfassende Extraktion als die
Tabelle der Triples
Tabelle aller Ereignisse (Triples):
• Alle Informationen zu Fakten und
ihren Beziehungen verknüpft
• Ersichtlich: alle, auch nicht gesuchte
Ereignisse
17. scopeKM
Knowledge Management
Semantische Analyse (1)
€ Die semantische Analyse befasst sich mit der Analyse auf der
Bedeutungsebene.
Extraktionsprozess
Named Entities
Exhaustive Events
Extraction
Engine Facts, Relationships (FRN)
Triples
Person: Jack
Benennungen (Named Entities):
Person: girlfriend
Generell: Gruppe von Hauptwörtern
Item: sweater
Die Engine extrahiert die Benennungen
Date: Monday von Menschen, Orten, Produkt-
/Firmennamen, Datums usw.
18. scopeKM
Knowledge Management
Semantische Analyse (2)
Extraktionsprozess
Named Entities
Exhaustive Events
Extraction
Engine Facts, Relationships (FRN)
Triples
Ereignisse (Events):
Generell: Extraktion von Angaben über
Ereignisse gemäss den definierten bzw.
vordefinierten Mustern; Inhalte meistens
sehr reichhaltig.
Hier: Fünf Slots mit Attributen
19. scopeKM
Knowledge Management
Semantische Analyse (3)
Extraktionsprozess
Named Entities
Exhaustive Events
Extraction
Engine Facts, Relationships (FRN)
Triples
Fact
Element Mode
sweater buy
Fact-Relationship-Network (FRN)
Agent • Mit FRN werden Doubles – Fakten-
„Jack bought a sweater” Fact Paare – extrahiert.
Element
Mode
• Jeder Teil der beiden Boxen stellt einzig-
Jack
artige Tatsache dar, nach dem Prinzip:
„wer hat (wem) was (an-)getan“.
• Die beiden Faktenpaare sind über die
Agentenbeziehung miteinander ver-
knüpft.
20. scopeKM
Knowledge Management
Semantische Analyse (4)
Extraktionsprozess
Named Entities
Exhaustive Events
Extraction
Engine Facts, Relationships (FRN)
Triples
Triple ID 1
T1 T2 T3 Triples:
Jack buy a swetar
• Alle Informationen zu Fakten und
ihren Beziehungen verknüpft
Triple ID 3
• Triple: Struktur aus einem „Subjekt“,
T1 T2 T3
einem „Prädikat“ (oder „Eigenschaft“)
Jack eat a pickle sendwich
und einem „Objekt“ (oder Eigen-
schaftswert“)
• Die Lösungs-Repository: alle möglichen
Subjekt-Objekt-Beziehungen
21. scopeKM
Knowledge Management
Allumfassende Extraktion als die
Tabelle der Triples
Strukturierung nach den Triples
• Allumfassende Extraktion: Tabellarische
Anordnung aller im Fliesstext gefunde-
nen Triples, ohne Prioritätssetzung
• Mit BI-Tools bearbeitbare Tabelle
€ Gewährleistung des Prinzips: “I don’t
know what I’m looking for, but I’ll know
it when I see it.”
22. scopeKM
Knowledge Management
Allumfassende Extraktion –
Darstellung der Ergebnisse
Die Extraktion-Engine liefert:
• Wertvollen Erkenntnisse aus als bekannt
qualifizierten Tatsachen
Extraktion • Ergebnisse aus als bekannt qualifizier-
Engine ten Tatsachen, ohne einen momentan
erkennbaren Nutzwert
• Möglicherweise wertvolle Erkenntnisse
aus bislang unbekannten Tatsachen
Filtering € Funktion des
Frühwarnsystems
€ Das wirkliche Nutzen des EE-
Systems: Sehen etwas was man
nie erwarten würde.
Wertvolles aus Nicht Wertvolles
Unbekannte
bekannten aus bekannten
Tatsachen
Tatsachen Tatsachen
23. scopeKM
Knowledge Management
Tonalität der Verbalphrase
€ Schon eine geringe Nuancierung der Verbalphrase – der Stimmungen – kann zu einer
wesentlichen Veränderung der Semantik des Satzes führen.
€ Die Attensity Engine ruft das Analyse-Tool auf, sobald sie unterschiedliche Stimmungen
erkennt. Sie werden dort systematisch dargestellt und können berücksichtigt werden.
Beispiel:
Der Kunde mag das Produkt
Der Kunde mag das Produkt nicht Negation [nicht]
Kein Kunde mag das Produkt Negation [nicht]
Der Kunde mag das Produkt einigermassen Verkleinerung [weniger]
Der Kunde mag das Produkt wirklich Vergrösserung [mehr]
24. scopeKM
Knowledge Management
Die Stimmungs-Typen
Stimmungs-Typ Beispiel
Erweiternd Das Ding war schrecklich schön.
Zur Erweiterung der Bedeutung zum Superlativ Fakt: Das Ding: schön [mehr]
(wirklich unglücklich, ernst beleidigt, echt
aufgeblasen)
Vermindernd Das Gerät funktioniert kaum.
Zur Verkleinerung oder Eingrenzung der Fakt: Das Gerät: funktioniert [minder]
Bedeutung, mindere Erwartung
Dringend Bitte den Kunden sofort anrufen
Zeigt dringende Art des Feedbacks / der Anfrage Fakt: Den Kunden : anrufen [ASAP]
auf (jetzt beheben, reparieren ASAP)
Wiederholend Mein Webbrowser funktioniert oft nicht.
Die Aktion fand bereits (mehrmals) statt Fakt: Webbrowser : funktioniert nicht [wieder]
(versuchte zu reparieren, drei mal, noch immer)
Unter Vorbehalt Wenn er das Call Center anruft, dann können wir das
Wenn/dann Problem lösen
Fakt 1: Call_Center : Anruf [wenn/dann]
Fakt2: Problem : lösen [wenn/dann]
Unbestimmt Der Kunde könnte abwandern.
Zeigt Unsicherheiten auf Fakt: Der Kunde : abwandern [vielleicht]
(könnte funktionieren)
Vorsätzlich Ich möchte das Produkt XYZ bestellen.
Zeigt Absichten oder Sehnsüchte auf Fakt: Das Produkt XYZ : bestellen [Absicht]
(möchte bestellen, will kündigen)
Fragend Hat Ihre Abteilung meine Anfrage erhalten?
Frageform, Anfrage betr. Ware, Dienste, Fakt: Die Anfrage : erhalten [?]
Information, Instruktion
Negativ Er hat das Gerät nie repariert.
Negiert die Bedeutung des Modus‘ Fakt: Das Gerät: repariert [nie]
25. scopeKM
Knowledge Management
Stimmungen und Beziehungen
Wichtig: Unterschiede in Stimmungen verstehen, die den Unterschied ausmachen.
Aufgabe: Stimmungen und Beziehungen in den Social Media begreifen.
„Wenn Sie meine E-Mail nicht beantworten, kündige ich sofort den Vertrag“
Triple ID 1
T1 T2 T3
Sie beantworten [wenn/dann][nicht] E-Mail
Triple ID 2
T1 T2 T3
Ich kündigen [dringend][wenn/dann] der Vertrag
beantworten [wenn/dann][nicht] : E-Mail kündigen [dringend] [wenn/dann] : der Vertrag
26. scopeKM
Knowledge Management
Slanguage
€ Slanguage ist eine neue, andere Sprache zur Definition der Merkmale in den Social Media.
€ Slanguage kann dramatisch beeinflussen die Genauigkeit eines textanalytischen Werkzeugs:
€ Autorschaft € jedermann wird zum Autor
€Ist charakterisiert durch
• Verspieltheit: Abk•rzungen (r u ok?), Umschreibungen (chin.: X = sch), neue
Begriffe in Tweets und Facebook (Bitcoin u.‚.)
• Personalisierung: Emoticons (Smily), Facebook mit Like/Donƒt Like, Ersetzen
von Schriftarten („ = Phi)
• eigene Gesinnung: Sarkasmus (…Danke f•r die schnelle Zusendung nach nur
f•nf Tagen†) > f•r Computerlinguistik sehr anspruchsvoll, Obsz‡nit‚ten (extrem
mehrdeutig f•r ein und dasselbe Wort)
• Konversationsorientiert: Schnelles Themenwechsel, Einfluss des Milieus
27. scopeKM
Knowledge Management
Slanguage-Wörterbücher
€ Slanguage enthält eine Reihe von eher positiver Herausforderungen unterschiedlichster
Schwierigkeitsgrade.
€ Die Slanguage-Wörterbücher können zwar nie abgeschlossen sein, werden aber ständig
aktualisiert, womit viele neue Themenbereiche erfolgreich erschlossen werden können.
€ Solche Wörterbücher stehen unseren Kunden zum Erwerb zur Verfügung.
28. scopeKM
Knowledge Management
Semantic Annotation Server
Analysis & Reporting
Imports Exports
Files Collection Conversion Oracle
E-Mails Conversion Database DB2
Semantic Loading
WWW MySQL
Format Annotation
Handling Alerting
Twitter Server Teradata
FB Other Other JDBC
Process Process
CRM Hooks Hooks XML
SFA CSV
Facts, Triples, Entities, Concepts etc.
Surveys
Knowledge Engineering Workbench (KEWB)
29. scopeKM
Knowledge Management
Umgang mit externen
Informationen Plug-ins für Suchanfragen an externe
Web-basierte Suchmaschinen zum
Herausziehen von für die anschlies-
sende Analyse interessanten Inhalten,
Analysis & Reportingaus dem sog. Deep Web, z.B.
auch
Imports Produkt-Reviews. Exports
Web
Scrapers
Files Collection Conversion Oracle
Plug-in direkt ins Twitter-“Firehose“
E-Mails
Twitter Conversion (Data Stream), um mit geeigneten
Database DB2
Feeds Semantic
Begriffen dieLoading Firma sinnvolle
für die
WWW MySQL
Format Annotation zu extrahieren.
Tweets
Web Handling Alerting
Twitter Server Teradata
Crawlers
FB Other Automatisches und regelmässiges
Other JDBC
FB Process Durchsuchen des Internets, Retrieval,
Process
CRM
Search Hooks Hooks XML
internes Speichern und das Indizieren
von Inhalten der Social Media, CSV
um
SFA
spätere Auswertung zu ermöglichen.
Facts, Triples, Entities, Concepts etc.
Surveys
Nach der Eingabe eines Unterneh-
mensprofils werden im Kontext ste-
Knowledge Engineering Workbench (KEWB)
hende Posts, Kommentare, Umfrage-
ergebnisse und andere öffentlich
zugängliche Beiträge bereitgestellt.
30. scopeKM
Knowledge Management
Voice of the Customer (VoC) –
mit EDW
Attensity
€Leistungsstarke Analyse durch die
Analysis &
Kombination der Textextraktion mit den Reporting
bestehenden DWH-Informationen
3rd Party
Business
Intelligence
Was hat man gesagt
E-Mail
CRM Semantic Enterprise
Text
Annotation Data
Surveys Server Warehouse
Twitter
Wer sind sie
Strukturierte Was kauften sie
Felder Wann kauften sie es
Wieviel haben sie bezahlt
Wo haben sie es gekauft
Wie ist das Customer Value
31. scopeKM
Knowledge Management
Danke für Ihre Aufmerksamkeit !
Juraj Schick, scopeKM GmbH, Zürich
juraj.schick@scopekm.ch
T: +41 (0) 44 361 62 62
M: +41 (0) 76 412 58 01