SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Downloaden Sie, um offline zu lesen
Prof. Dr. Jens Albrecht
Text Analytics
Kommunikation systematisch analysieren
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 2
Agenda
Motivation
Natural Language Processing
Text Mining
Anwendungsfälle
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 3
Kunde im Fokus
Text Analytics / Text Mining
Extraktion qualitativ hochwertiger Information aus Text mit Hilfe
statistischer und maschineller Lernverfahren
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 4
Probleme bei der Arbeit mit Text
Technische
Probleme
viele verschiedene Formate (pdf, txt, jpg)
Big Data
Audio (Speech-to-Text)
Inhaltliche Probleme
keine Struktur
Mehrdeutigkeit der Sprache
Semantik und Pragmatik
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 5
Natural Language Processing
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 6
Natural Language Processing
Joe Kaeser, Vorstandsvorsitzender der Firma Siemens,
möchte ein neues Werk in Erlangen bauen.
Tokenisierung
Part-of-Speech
Tagging
Named Entity
Recognition
Syntaktische
Analyse
Semantische
Analyse
Pragmatische
Analyse
Lexikalische
Analyse
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 7
Natural Language Processing
Tokenisierung
Part-of-Speech
Tagging
Named Entity
Recognition
Syntaktische
Analyse
Semantische
Analyse
Pragmatische
Analyse
Joe Kaeser, Vorstandsvorsitzender der Firma Siemens,
möchte ein neues Werk in Erlangen bauen.
Lexikalische
Analyse
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 8
Natural Language Processing
Tokenisierung
Part-of-Speech
Tagging
Named Entity
Recognition
Syntaktische
Analyse
Semantische
Analyse
Pragmatische
Analyse
Lexikalische
Analyse
Joe Kaeser, Vorstandsvorsitzender der Firma Siemens,
möchte ein neues Werk in Erlangen bauen.
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 9
Natural Language Processing
Tokenisierung
Part-of-Speech
Tagging
Named Entity
Recognition
Syntaktische
Analyse
Semantische
Analyse
Pragmatische
Analyse
Lexikalische
Analyse
Joe Kaeser, Vorstandsvorsitzender der Firma Siemens,
möchte ein neues Werk in Erlangen bauen.
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 10
Natural Language Understanding
Tokenisierung
Part-of-Speech
Tagging
Named Entity
Recognition
Syntaktische
Analyse
Semantische
Analyse
Pragmatische
Analyse
Lexikalische
Analyse
Problem: Mehrdeutigkeit
Semantische Analyse
› Was bedeutet der Text?
Pragmatische Analyse
› Was meint/will der Autor?
"Die Diebe stahlen die Bilder. Sie wurden auf
dem Schwarzmarkt verkauft." (Wer?)
"Die Diebe stahlen die Bilder und
verschwanden. Man fand sie später." (Wen?)
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 11
Schwierigkeit von NLP-Anwendungen
Question Answering
Translation /
Dialogue
Summarization /
Topic Mining
Classification /
Retrieval
Stark
Schwach
"Shallow NLP"
• Simple Sprachmodelle mit
vielen Vereinfachungen
möglich (Bag-of-Words, N-
Gramme)
• Schlüsselworte, Phrasen
• Verfahren robust
"Deep NLP"
• Komplexe Sprachmodelle für
tiefes Verständnis der
Bedeutung erforderlich
• Satzübergreifende Aussagen
• Verfahren empfindlich
nach (Zhai, Massung, 2016, S. 44)
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 12
Text Mining Verfahren
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 13
Text Mining Verfahren
Text Mining
Supervised
Categorization
Sentiment
Analysis
Unsupervised
Clustering
Latent
Semantic
Indexing
Summa-
rization
Textaufbereitung mit NLP
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 14
Basis: TF-IDF-Matrix
TF: Term Frequency
› Häufigkeit eines Terms im Dokument
IDF: Inverse Document Frequency
› DF = Anzahl der Dokumente, die den Term enthalten
› IDF gewichtet seltene (spezifischere) Worte stärker
Dokument Haus Auto schön Spaß Ärger
D1 2 5 0 0 3
D2 0 0 1 1 1
D3 1 1 3 2 1
D4 1 2 2 1 0
D5 3 0 1 0 1
haben
8
5
6
4
7
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 15
Kategorisierung (Klassifikation)
Benötigt gekennzeichnete Trainingsdaten
Dokument Haus Auto schön Spaß Ärger
D1 2 5 0 0 3
D2 0 0 1 1 1
D3 1 1 3 2 1
D4 1 2 2 1 0
D5 3 0 1 0 4
Sentiment
negativ
neutral
positiv
positiv
negativ
Label
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 16
Topic Analyse
Topic 1
Topic 2
Topic 3
TopicsDokumente
...
Topic k
Doc 1 Doc 2 Doc n...
T1
T2
T3
Tk
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 17
Topic Analysis / Latent Semantic Indexing
Dokument Verbrauch sparsam zuverlässig Störung
D1 2 5 0 0
D2 3 0 1 0
D3 1 3 0 2
D4 1 0 2 3
D5 0 1 4 2
Identifikation "latenter" Konzepte / Themenbereiche
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 18
Topic Analysis / Latent Semantic Indexing
Beispiel: "Wirtschaftlichkeit" + "Zuverlässigkeit"
Identifikation "latenter" Konzepte / Themenbereiche
› Gewichtete Zuordnung von Dokumenten zu Topics
› Gewichtete Zuordnung von Termen zu Topics
Dokument Verbrauch sparsam zuverlässig Störung
D1 2 5 0 1
D2 3 1 1 0
D3 1 3 0 2
D4 1 0 2 3
D5 0 1 4 2
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 19
Topic Analysis mit Singulärwertzerlegung
http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 20
Anwendungsfälle
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 21
Umsetzung
Problem und Ziel
Analysemethodik
(Fragenabhängig)
Projektvorgehen
Identifikation des Problems
Festlegung des Analyseziels durch konkrete Fragen
Auswahl des Analyseverfahrens
Aufbereitung der Daten
Modell-Erstellung
Interpretation der Ergebnisse
Ableitung von Maßnahmen
Erfolgsmessung
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 22
Anwendungsfall 1: Garantiefälle in der Auto-Industrie
Problem:
› Fahrzeugprobleme in Garantie-Zeit verursachen hohe Kosten
› Vermeidung von Problemfällen hilft Kunden und Hersteller
Ansatz: Mining von der Service-Kommentare der Techniker
Mögliche Fragen sind:
› Was sind häufige Problembereiche?
› Was sind die häufigsten betroffenen Komponenten?
› Gibt es saisonale Sprünge in der Nennung bestimmter Begriffe
wie "Ölwanne undicht", "Tür klappert", "... fällt aus"?
› Gibt es eine Beziehung zwischen der Häufigkeit der Nennungen
einer Komponente und den verursachten Kosten?
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 23
Anwendungsfall 1: Garantiefälle in der Auto-Industrie
Problem:
› Fahrzeugprobleme in Garantie-
Zeit verursachen hohe Kosten
› Vermeidung von Problemfällen
hilft Kunden und Hersteller
Händler- und
Mechaniker-
Kommentare
CRM-System
Kunden-Meldungen
User-Foren
Text Mining
Quelldaten
Auto-Zeitschriften
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 24
Anwendungsfall 1: Garantiefälle in der Auto-Industrie
Händler- und
Mechaniker-
Kommentare
CRM-System
Kunden-Meldungen
User-Foren
Text Mining
Häufigste
Begriffe
Themen-
bereiche
Frühwarn-
Indikatoren
Korrelationen
Produktions-
prozess
anpassen
QS bei
Zulieferern
Unterstützung
für Händler und
Werkstätten
Spezialaktionen
für Kunden
Ersatzteil-
Planung
Aktionen
Analysen
Quelldaten
Auto-Zeitschriften
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 25
Anwendungsfall 2: Social Network Analyse
Problem:
› Kosmetik-Hersteller möchte mehr über Kundinnen und
deren Kommentare über eigene Produkte erfahren
Ansatz: Mining des eigenen Kundenforums, Produkt-
Bewertungen, sozialen Netzen
Mögliche Fragen sind:
› Über welche Produkte wird am meisten diskutiert?
› Gibt es Probleme und Produktmängel?
› Wie verändern sich die "heißen" Themen mit der Zeit?
› Wer sind die Meinungsführer und was für Meinungen
vertreten sie in der Regel (pro/kontra)?
› Gibt es Netzwerke unter den Diskutierenden?
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 26
Anwendungsfall 2: Social Network Analyse
Problem:
› Kosmetik-Hersteller möchte mehr
über Kundinnen und deren
Meinungen zu eigenen und
fremden Produkten erfahren
Eigenes
Kundenforum
Amazon
Produktbewertungen
Facebook
Text Mining
Quelldaten
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 27
Anwendungsfall 2: Social Media Mining
Eigenes
Kundenforum
Amazon
Produktbewertungen
Facebook
Text Mining
Häufigste
Produkte
Sentiment
Zentrale
Personen
Themen-
bereiche
Produkt-
verbesserungen
Produkt-
Ideen
Neue
Geschäfts-
modelle
Marketing über
Meinungsführer
Zielgruppen
identifizieren
Aktionen
Analysen
Quelldaten
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 28
Anwendungsfälle
Anwendungs-
fälle
Zielgruppen
verstehen
Customer
Engagement
Customer
Service
Routing
Trend
Analysis
Lead
Generation
Recruitment
Enhancing
Predicitve
Modeling
NIK Data Analytics 2018
Prof. Dr. Jens Albrecht, TH Nürnberg 29
Fragen? Projektideen? Beratungsbedarf?
Kontakt: Jens.Albrecht@th-nuernberg.de
Xing: https://www.xing.com/profile/Jens_Albrecht3
LinkedIn: https://www.linkedin.com/in/jens-albrecht-98a61721/
Big Data Meetup Nürnberg:
https://www.meetup.com/de-DE/Nuernberg-Big-Data/

Weitere ähnliche Inhalte

Ähnlich wie Text Analytics - Kommunikation systematisch analysieren

Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)Praxistage
 
GraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data ManagementGraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data ManagementNeo4j
 
„DATA SCIENTIST – DIE KARRIERE DER ZUKUNFT“ - WIE DIE ANALYSE VON DATEN DIE W...
„DATA SCIENTIST – DIE KARRIERE DER ZUKUNFT“ - WIE DIE ANALYSE VON DATEN DIE W...„DATA SCIENTIST – DIE KARRIERE DER ZUKUNFT“ - WIE DIE ANALYSE VON DATEN DIE W...
„DATA SCIENTIST – DIE KARRIERE DER ZUKUNFT“ - WIE DIE ANALYSE VON DATEN DIE W...Euroforum Deutschland GmbH
 
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcherScrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcherJuergen Hohnhold
 
Data Science & Big Data, made in Switzerland
Data Science & Big Data, made in SwitzerlandData Science & Big Data, made in Switzerland
Data Science & Big Data, made in SwitzerlandThilo Stadelmann
 
GraphTalk - Semantisches PDM bei Schleich
GraphTalk - Semantisches PDM bei Schleich GraphTalk - Semantisches PDM bei Schleich
GraphTalk - Semantisches PDM bei Schleich Neo4j
 
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessmenttech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-AssessmentLeipziger Semantic Web Tag
 
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem VormarschVon Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem VormarschAndreas Koop
 
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem VormarschVon Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarschenpit GmbH & Co. KG
 
Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen Harald Erb
 
GraphTalks - Semantisches Produktdatenmanagement, Dr. Andreas Weber
GraphTalks - Semantisches Produktdatenmanagement, Dr. Andreas WeberGraphTalks - Semantisches Produktdatenmanagement, Dr. Andreas Weber
GraphTalks - Semantisches Produktdatenmanagement, Dr. Andreas WeberNeo4j
 
Intelligente Informationen
Intelligente InformationenIntelligente Informationen
Intelligente InformationenTANNER AG
 
Unic AG - Enterprise-Search Breakout Session X.Days 2009
Unic AG - Enterprise-Search Breakout Session X.Days 2009Unic AG - Enterprise-Search Breakout Session X.Days 2009
Unic AG - Enterprise-Search Breakout Session X.Days 2009André Schmid
 
TOC Netzwerktagung - "HiSpeed Data Analytics"
TOC Netzwerktagung - "HiSpeed Data Analytics"TOC Netzwerktagung - "HiSpeed Data Analytics"
TOC Netzwerktagung - "HiSpeed Data Analytics"Marco Geuer
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?BARC GmbH
 
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007Andreas Schulte
 
Technologie einsetzen – Einsparungen sichtbar machen
Technologie einsetzen – Einsparungen sichtbar machenTechnologie einsetzen – Einsparungen sichtbar machen
Technologie einsetzen – Einsparungen sichtbar machenSDL Language Technologies
 
Onno Reiners: E-Learning einfach selbst erstellen
Onno Reiners: E-Learning einfach selbst erstellenOnno Reiners: E-Learning einfach selbst erstellen
Onno Reiners: E-Learning einfach selbst erstellenlernet
 

Ähnlich wie Text Analytics - Kommunikation systematisch analysieren (20)

Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
 
GraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data ManagementGraphTalks Hamburg - Semantic Data Management
GraphTalks Hamburg - Semantic Data Management
 
[DE] DMS: Ist-Analyse und Auswertung von Analysen | Dr. Ulrich Kampffmeyer | ...
[DE] DMS: Ist-Analyse und Auswertung von Analysen | Dr. Ulrich Kampffmeyer | ...[DE] DMS: Ist-Analyse und Auswertung von Analysen | Dr. Ulrich Kampffmeyer | ...
[DE] DMS: Ist-Analyse und Auswertung von Analysen | Dr. Ulrich Kampffmeyer | ...
 
Ist ja alles so schön digital hier
Ist ja alles so schön digital hierIst ja alles so schön digital hier
Ist ja alles so schön digital hier
 
„DATA SCIENTIST – DIE KARRIERE DER ZUKUNFT“ - WIE DIE ANALYSE VON DATEN DIE W...
„DATA SCIENTIST – DIE KARRIERE DER ZUKUNFT“ - WIE DIE ANALYSE VON DATEN DIE W...„DATA SCIENTIST – DIE KARRIERE DER ZUKUNFT“ - WIE DIE ANALYSE VON DATEN DIE W...
„DATA SCIENTIST – DIE KARRIERE DER ZUKUNFT“ - WIE DIE ANALYSE VON DATEN DIE W...
 
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcherScrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
 
Data Science & Big Data, made in Switzerland
Data Science & Big Data, made in SwitzerlandData Science & Big Data, made in Switzerland
Data Science & Big Data, made in Switzerland
 
GraphTalk - Semantisches PDM bei Schleich
GraphTalk - Semantisches PDM bei Schleich GraphTalk - Semantisches PDM bei Schleich
GraphTalk - Semantisches PDM bei Schleich
 
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessmenttech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
 
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem VormarschVon Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
 
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem VormarschVon Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
 
Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen Do you know what k-Means? Cluster-Analysen
Do you know what k-Means? Cluster-Analysen
 
GraphTalks - Semantisches Produktdatenmanagement, Dr. Andreas Weber
GraphTalks - Semantisches Produktdatenmanagement, Dr. Andreas WeberGraphTalks - Semantisches Produktdatenmanagement, Dr. Andreas Weber
GraphTalks - Semantisches Produktdatenmanagement, Dr. Andreas Weber
 
Intelligente Informationen
Intelligente InformationenIntelligente Informationen
Intelligente Informationen
 
Unic AG - Enterprise-Search Breakout Session X.Days 2009
Unic AG - Enterprise-Search Breakout Session X.Days 2009Unic AG - Enterprise-Search Breakout Session X.Days 2009
Unic AG - Enterprise-Search Breakout Session X.Days 2009
 
TOC Netzwerktagung - "HiSpeed Data Analytics"
TOC Netzwerktagung - "HiSpeed Data Analytics"TOC Netzwerktagung - "HiSpeed Data Analytics"
TOC Netzwerktagung - "HiSpeed Data Analytics"
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?
 
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
A2 DPC Knowledege Wissen Griffbereit 2007 Lotusday 2007
 
Technologie einsetzen – Einsparungen sichtbar machen
Technologie einsetzen – Einsparungen sichtbar machenTechnologie einsetzen – Einsparungen sichtbar machen
Technologie einsetzen – Einsparungen sichtbar machen
 
Onno Reiners: E-Learning einfach selbst erstellen
Onno Reiners: E-Learning einfach selbst erstellenOnno Reiners: E-Learning einfach selbst erstellen
Onno Reiners: E-Learning einfach selbst erstellen
 

Text Analytics - Kommunikation systematisch analysieren

  • 1. Prof. Dr. Jens Albrecht Text Analytics Kommunikation systematisch analysieren
  • 2. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 2 Agenda Motivation Natural Language Processing Text Mining Anwendungsfälle
  • 3. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 3 Kunde im Fokus Text Analytics / Text Mining Extraktion qualitativ hochwertiger Information aus Text mit Hilfe statistischer und maschineller Lernverfahren
  • 4. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 4 Probleme bei der Arbeit mit Text Technische Probleme viele verschiedene Formate (pdf, txt, jpg) Big Data Audio (Speech-to-Text) Inhaltliche Probleme keine Struktur Mehrdeutigkeit der Sprache Semantik und Pragmatik
  • 5. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 5 Natural Language Processing
  • 6. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 6 Natural Language Processing Joe Kaeser, Vorstandsvorsitzender der Firma Siemens, möchte ein neues Werk in Erlangen bauen. Tokenisierung Part-of-Speech Tagging Named Entity Recognition Syntaktische Analyse Semantische Analyse Pragmatische Analyse Lexikalische Analyse
  • 7. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 7 Natural Language Processing Tokenisierung Part-of-Speech Tagging Named Entity Recognition Syntaktische Analyse Semantische Analyse Pragmatische Analyse Joe Kaeser, Vorstandsvorsitzender der Firma Siemens, möchte ein neues Werk in Erlangen bauen. Lexikalische Analyse
  • 8. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 8 Natural Language Processing Tokenisierung Part-of-Speech Tagging Named Entity Recognition Syntaktische Analyse Semantische Analyse Pragmatische Analyse Lexikalische Analyse Joe Kaeser, Vorstandsvorsitzender der Firma Siemens, möchte ein neues Werk in Erlangen bauen.
  • 9. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 9 Natural Language Processing Tokenisierung Part-of-Speech Tagging Named Entity Recognition Syntaktische Analyse Semantische Analyse Pragmatische Analyse Lexikalische Analyse Joe Kaeser, Vorstandsvorsitzender der Firma Siemens, möchte ein neues Werk in Erlangen bauen.
  • 10. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 10 Natural Language Understanding Tokenisierung Part-of-Speech Tagging Named Entity Recognition Syntaktische Analyse Semantische Analyse Pragmatische Analyse Lexikalische Analyse Problem: Mehrdeutigkeit Semantische Analyse › Was bedeutet der Text? Pragmatische Analyse › Was meint/will der Autor? "Die Diebe stahlen die Bilder. Sie wurden auf dem Schwarzmarkt verkauft." (Wer?) "Die Diebe stahlen die Bilder und verschwanden. Man fand sie später." (Wen?)
  • 11. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 11 Schwierigkeit von NLP-Anwendungen Question Answering Translation / Dialogue Summarization / Topic Mining Classification / Retrieval Stark Schwach "Shallow NLP" • Simple Sprachmodelle mit vielen Vereinfachungen möglich (Bag-of-Words, N- Gramme) • Schlüsselworte, Phrasen • Verfahren robust "Deep NLP" • Komplexe Sprachmodelle für tiefes Verständnis der Bedeutung erforderlich • Satzübergreifende Aussagen • Verfahren empfindlich nach (Zhai, Massung, 2016, S. 44)
  • 12. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 12 Text Mining Verfahren
  • 13. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 13 Text Mining Verfahren Text Mining Supervised Categorization Sentiment Analysis Unsupervised Clustering Latent Semantic Indexing Summa- rization Textaufbereitung mit NLP
  • 14. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 14 Basis: TF-IDF-Matrix TF: Term Frequency › Häufigkeit eines Terms im Dokument IDF: Inverse Document Frequency › DF = Anzahl der Dokumente, die den Term enthalten › IDF gewichtet seltene (spezifischere) Worte stärker Dokument Haus Auto schön Spaß Ärger D1 2 5 0 0 3 D2 0 0 1 1 1 D3 1 1 3 2 1 D4 1 2 2 1 0 D5 3 0 1 0 1 haben 8 5 6 4 7
  • 15. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 15 Kategorisierung (Klassifikation) Benötigt gekennzeichnete Trainingsdaten Dokument Haus Auto schön Spaß Ärger D1 2 5 0 0 3 D2 0 0 1 1 1 D3 1 1 3 2 1 D4 1 2 2 1 0 D5 3 0 1 0 4 Sentiment negativ neutral positiv positiv negativ Label
  • 16. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 16 Topic Analyse Topic 1 Topic 2 Topic 3 TopicsDokumente ... Topic k Doc 1 Doc 2 Doc n... T1 T2 T3 Tk
  • 17. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 17 Topic Analysis / Latent Semantic Indexing Dokument Verbrauch sparsam zuverlässig Störung D1 2 5 0 0 D2 3 0 1 0 D3 1 3 0 2 D4 1 0 2 3 D5 0 1 4 2 Identifikation "latenter" Konzepte / Themenbereiche
  • 18. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 18 Topic Analysis / Latent Semantic Indexing Beispiel: "Wirtschaftlichkeit" + "Zuverlässigkeit" Identifikation "latenter" Konzepte / Themenbereiche › Gewichtete Zuordnung von Dokumenten zu Topics › Gewichtete Zuordnung von Termen zu Topics Dokument Verbrauch sparsam zuverlässig Störung D1 2 5 0 1 D2 3 1 1 0 D3 1 3 0 2 D4 1 0 2 3 D5 0 1 4 2
  • 19. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 19 Topic Analysis mit Singulärwertzerlegung http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
  • 20. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 20 Anwendungsfälle
  • 21. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 21 Umsetzung Problem und Ziel Analysemethodik (Fragenabhängig) Projektvorgehen Identifikation des Problems Festlegung des Analyseziels durch konkrete Fragen Auswahl des Analyseverfahrens Aufbereitung der Daten Modell-Erstellung Interpretation der Ergebnisse Ableitung von Maßnahmen Erfolgsmessung
  • 22. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 22 Anwendungsfall 1: Garantiefälle in der Auto-Industrie Problem: › Fahrzeugprobleme in Garantie-Zeit verursachen hohe Kosten › Vermeidung von Problemfällen hilft Kunden und Hersteller Ansatz: Mining von der Service-Kommentare der Techniker Mögliche Fragen sind: › Was sind häufige Problembereiche? › Was sind die häufigsten betroffenen Komponenten? › Gibt es saisonale Sprünge in der Nennung bestimmter Begriffe wie "Ölwanne undicht", "Tür klappert", "... fällt aus"? › Gibt es eine Beziehung zwischen der Häufigkeit der Nennungen einer Komponente und den verursachten Kosten?
  • 23. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 23 Anwendungsfall 1: Garantiefälle in der Auto-Industrie Problem: › Fahrzeugprobleme in Garantie- Zeit verursachen hohe Kosten › Vermeidung von Problemfällen hilft Kunden und Hersteller Händler- und Mechaniker- Kommentare CRM-System Kunden-Meldungen User-Foren Text Mining Quelldaten Auto-Zeitschriften
  • 24. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 24 Anwendungsfall 1: Garantiefälle in der Auto-Industrie Händler- und Mechaniker- Kommentare CRM-System Kunden-Meldungen User-Foren Text Mining Häufigste Begriffe Themen- bereiche Frühwarn- Indikatoren Korrelationen Produktions- prozess anpassen QS bei Zulieferern Unterstützung für Händler und Werkstätten Spezialaktionen für Kunden Ersatzteil- Planung Aktionen Analysen Quelldaten Auto-Zeitschriften
  • 25. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 25 Anwendungsfall 2: Social Network Analyse Problem: › Kosmetik-Hersteller möchte mehr über Kundinnen und deren Kommentare über eigene Produkte erfahren Ansatz: Mining des eigenen Kundenforums, Produkt- Bewertungen, sozialen Netzen Mögliche Fragen sind: › Über welche Produkte wird am meisten diskutiert? › Gibt es Probleme und Produktmängel? › Wie verändern sich die "heißen" Themen mit der Zeit? › Wer sind die Meinungsführer und was für Meinungen vertreten sie in der Regel (pro/kontra)? › Gibt es Netzwerke unter den Diskutierenden?
  • 26. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 26 Anwendungsfall 2: Social Network Analyse Problem: › Kosmetik-Hersteller möchte mehr über Kundinnen und deren Meinungen zu eigenen und fremden Produkten erfahren Eigenes Kundenforum Amazon Produktbewertungen Facebook Text Mining Quelldaten
  • 27. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 27 Anwendungsfall 2: Social Media Mining Eigenes Kundenforum Amazon Produktbewertungen Facebook Text Mining Häufigste Produkte Sentiment Zentrale Personen Themen- bereiche Produkt- verbesserungen Produkt- Ideen Neue Geschäfts- modelle Marketing über Meinungsführer Zielgruppen identifizieren Aktionen Analysen Quelldaten
  • 28. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 28 Anwendungsfälle Anwendungs- fälle Zielgruppen verstehen Customer Engagement Customer Service Routing Trend Analysis Lead Generation Recruitment Enhancing Predicitve Modeling
  • 29. NIK Data Analytics 2018 Prof. Dr. Jens Albrecht, TH Nürnberg 29 Fragen? Projektideen? Beratungsbedarf? Kontakt: Jens.Albrecht@th-nuernberg.de Xing: https://www.xing.com/profile/Jens_Albrecht3 LinkedIn: https://www.linkedin.com/in/jens-albrecht-98a61721/ Big Data Meetup Nürnberg: https://www.meetup.com/de-DE/Nuernberg-Big-Data/