SlideShare ist ein Scribd-Unternehmen logo
1 von 48
Downloaden Sie, um offline zu lesen
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
1
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python
und Power BI
https://github.com/jsalbr/tdwi-2021-text-mining
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
2
Alle Daten zum mitmachen unter:
https://github.com/jsalbr/tdwi-2021-text-mining
Zugang zu Google Colab:
https://colab.research.google.com
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
3
Prof. Dr. Jens Albrecht
TH Nürnberg, Informatik
Data Warehousing, BI,
Data Science, NLP
Prof. Dr. Roland Zimmermann
TH Nürnberg, BWL
BI, Information Design,
NLP, Process Mining
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
4
Überblick
https://github.com/jsalbr/tdwi-2021-text-mining
https://www.tdwi-konferenz.de/tdwi-2021/programm/konferenzprogramm.html#item-2976
Zeit: max. 2:10; verplanen: 1:45
Thema Dauer von-bis
Einleitung + Szenario 00:10 16:10
Explorative Datenanalyse 00:20 16:20
Datenvorbereitung 00:10 16:40
Klassifikation 00:15
Evaluation und Detailanalyse (Power BI) 00:20 17:05
Deep Learning (Embeddings und BERT) 00:15 17:25
Vertiefende Intelligence 00:10 17:40
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
5
300
Kundenservice-
Anfragen pro Tag
70.000 Verträge
1.000 Online-
Reviews zum
Produkt
30 Leserkommen-
tare pro Minute
100.000
dokumentierte
Change Requests
… jede einzelne
muss manuell
kategorisiert
werden.
… ohne
automatisiertes
Ablagesystem.
… in der eigenen
Online Community
und der Community
Manager entdeckt
die dringendsten
eher per Zufall.
… und keinen
Überblick, wo die
Kostentreiber
stecken.
… müssen für die
Einkaufs-
verhandlung alle
der Reihe nach
gelesen werden.
Herausforderungen mit Text
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
6
Innovation durch Automatisierung
• manuell durchgeführte
• zeitaufwändige
• fehlerbehaftete Prozesse
• effizienter arbeiten
• Kosten einsparen
• Wettbewerbsvorsprung durch neues
Wissen erarbeiten
• Nerven der eigenen Mitarbeiter
schonen
Manuelle
(Massen-)Textverarbeitung
Automatisierte
Massentextverarbeitung
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
7
Text Analytics Methoden
Statistik
1
Unüberwachtes
Machine Learning
2
Überwachtes
Machine Learning
3
Semantische
Analysen
4
KORRELATION TOPIC MODELING
CLUSTERING
Identifikation von
Themen in Texten
Versteckte Muster in
Content-Archiv
analysieren
Bereiche
Methoden
und
Ziele
(Auszug)
Überblick über Texte,
Datenqualität und
mögl. Bias erkennen
REGRESSION
Trends in Texten
identifizieren
KLASSIFIKATION
Neue Texte in bekannte
Kategorien einsortieren
EMBEDDINGS
Semantik, Bedeutung &
Zusammenhänge
extrahieren
QUESTION
ANSWERING
Antworten
zu Fakten-Fragen finden
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
8
Crisp DM Prozess
https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
9
Szenario
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
10
pixabay.com
Störungs-
meldungen
Qualitäts-
probleme
Kunden-
wünsche
Produkt-
Sentiment
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
11
Händler- und
Mechaniker-
Kommentare
CRM-System
Kunden-
Meldungen
User-Foren
Text Mining
Häufigste
Begriffe
Themen-
bereiche
Frühwarn-
Indikatoren
Korrelationen
Produktions-
prozess
anpassen
QS bei
Zulieferern
Unterstützung
für Händler &
Werkstätten
Spezialaktionen
für Kunden
Ersatzteil-
Planung
Aktionen
Analysen
Quelldaten
Auto-Zeitschriften
Beispiel: Störungsmeldungen in der Auto-Industrie
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
12
Explorative Datenanalyse
mit PowerBI
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
13
Power BI als Explorationswerkzeug für Textdaten
• Datenexploration mit BI-Tool leicht durch Fachanwender
• Business und Data Understanding durch Fachabteilung vorbereitbar
• Arbeitsteilung mit Data-Scientists
• Texte als Rohdaten anders bzw. ergänzend zu behandeln:
Ziel: erste fachliche Einschätzungen zu Inhalten erzielen
• Darstellung von Texten in Tabellenform oft schlecht lesbar:
Thumbnails mit Preview und interaktiver Vergrößerung verbinden
Überblick und Detail für Rohtext-Visualisierungen
• Rohtexte enthalten erkennbar viele unnütze Wörter:
Sind auch für erste Auszählungen (z.B. Wortwolken) zu ignorieren = Stopwortkonzept relevant
• Interaktive Filteroptionen vermitteln rasch ersten Überblick über Inhalte der Texte
• Für spätere Phasen des Text-Mining-Prozesses: BI-Tool zur Kommunikation und Bereitstellung
der – oftmals komplexen – Text-Mining-Ergebnisse weiternutzen!
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
14
Custom Visuals in Power BI für Exploration textueller Daten
Spezielle Filter für Texte Textuelle Card-Darstellungen
Wortwolken
Interdependente, interaktive
Anwendung entsteht, die
individuelle Sichten auf
Rohtexte
erlaubt
Custom Visual
von Prof. Albrecht
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
15
Visuals und einfaches ETL für Textdaten
Schnelle deskriptive quantitative Analysen
• Balkendiagramme für Mengen
• Liniendiagramme für zeitliche Entwicklungen
• Boxplots oder Violin-Plots für Verteilungen
Word Clouds und einfache Stopwörter
Textfilter
Thumbnails für Text-Details
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
16
Live-Demo: Übungs- und Lösungsdatei auf Github
https://github.com/jsalbr/tdwi-2021-text-mining
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
17
Datenaufbereitung mit
Python
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
18
Live-Demo
https://github.com/jsalbr/tdwi-2021-text-mining
Bitte Notebook "Preprocessing" starten!
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
19
Pipeline zur Textaufbereitung
https://spacy.io
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
20
Klassifikation mit Python
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
21
Live-Demo
https://github.com/jsalbr/tdwi-2021-text-mining
Bitte Notebook "Classification" starten!
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
22
Klassifikationsaufgaben
Tickets / Service-Requests kategorisieren & automatisiert routen
Kategorie
Priorisierung (Urgency / Impact)
Produktstammdaten klassifizieren / zuordnen
Sentiment-Analyse
Auto-Tagging
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
23
Supervised Learning: Trainings-Matrix X und Label-Vektor y
Trainingsmatrix X: -Matrix
n Trainingsobjekte
(Samples, Examples)
mit jeweils m Features
z.B. Kunden, Texte, Bilder, ...
Label-Vektor y:
Spaltenvektor mit vorherzusagendem
Wert
Feature-Modellierung:
Überführung der Ausgangsdaten in
Vektor-Repräsentation
x11 x1n
...
...
...
xm1 ... xmn
Featues
Trainingsobjekte
y1
ym
Labels
x'1 ... x'n
Neues, unbekannntes Objekt
Train
Predict y'
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
24
Text-Klassifikation
Dokument Klassifikations-
Modell
Klassen-
Zuordnung
Vektorisierungs-
modell
Bag-of-Words
Embeddings
Neural
Network
SVM
Logistische
Regression
Random
Forest
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
25
Bag-of-Words Vektorisierung
Dokumente
D1: „Pete likes London. Pete likes Paris."
D2: „Pete does not like London."
D3: „Pete likes London, but not Paris."
D1 2 2 1 1
D2 1 1 1 1 1
D3 1 1 1 1 1 1
Nur Worthäufigkeiten beachtet
Term Frequency (TF, TF-IDF)
Einfach, aber robust
Basis für viele Algorithmen
(Retrieval, Klassifikation, Topic Modeling)
Nachteile
Stark vereinfachendes Sprachmodell
Syntaktische und relationale
Informationen
gehen verloren
Verbesserung durch n-Gramme
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
26
Klassifikation mit SVM
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
27
Evaluation mit Power BI
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
28
Text-Mining-Ergebnisse darstellen und inhaltlich prüfen
Aufbau einer interaktiven „Confusion Matrix“
• Matrix-Visual – erlaubt Filterung aus der Confusion-Matrix auf Texte und Wortwolken
• Anteil an Spalten (Prediction-Spalten)
 Wieviel ist je Kategorie richtig vorhergesagt worden?
• Filter (Slicer) für Train vs. Test
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
29
Datenmodell mit StopWort-Tabelle
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
30
Live-Demo: Übungs- und Lösungsdatei auf Github
https://github.com/jsalbr/tdwi-2021-text-mining
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
31
Stop-Wörter über ETL-Funktionen anbinden
Aufgabe für „Datentransformation“, d.h. Query Editor in Power BI
Stopwort-Tabelle suchen/erzeugen, z.B. von https://gist.github.com/sebleier/554280 und in Power-BI als
neue Query laden (schon vorhanden in Demo-PBIX)
1. Transpose-Transformation auf die lange Tabelle
2. Spalten zu einer Spalte verschmelzen über „Merged Columns“ mit Seperator „Space“  damit als
ein Feld über Relation an NLP-Ergebnisse joinbar  für WordCloud-Visual
3. Neue Spalte ergänzen mit fixem Wert, z.B. „1“  für Verlinkung der Tabellen (Primärschlüssel) 
gleiche Pseudospalte auch an NLP-Ergebnisse hängen mit Wert „1“ = Fremdschlüssel
4. Daten laden und Relation zwischen Tabellen über die Spalte herstellen im Model-View
5. In Word-Cloud-Visual unter „Excludes“ einfügen,
Hinweis: Bei Ergänzung neuer Wörter in der Stopwort-Quelle müssen die dadurch erzeugten neuen
Spalten in der Rohtabelle auch über die Spaltenverschmelzung berücksichtigt werden
 ETL-Schritt ggf. löschen und neu einfügen oder über Editor ergänzen
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
32
Explainable AI
Entscheidungen des Modells erklärbar machen
Spezielle Verfahren
Lime
Anchor
SHAP
Buchhinweis: Blueprints for Text Analytics Using Python
https://github.com/blueprints-for-text-analytics-python/blueprints-text
Freier Download von Kapitel 7: "How to Explain a Text Classifier"
https://get.oreilly.com/ind_blueprints-for-text-analysis-using-python.html
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
33
Semantische Analysen
mit Deep Learning
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
34
Live-Demo
https://github.com/jsalbr/tdwi-2021-text-mining
Bitte Notebook "Advanced" starten!
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
35
Idee von Word Embeddings
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
36
Word2Vec (Continuous Bag-of-Words)
”The man who passes the sentence should swing the sword.” – Ned Stark
(Un-)Supervised Training:
Vorhersage von Target-Wort (rot)
zu gegebenem Kontext (grün)
Kontextgröße (hier 4)
ist Hyperparameter
Reihenfolge im Kontext
wird ignoriert (bag of words)
Zeilen der Weight-Matrix W
liefern N-dim. Wort-Vektoren
sentence
one-hot-encoded
should
one-hot-encoded
the
one-hot-encoded
sword
one-hot-encoded
N-dim
hidden
layer
swing
one-hot-encoded
W
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
37
Word2Vec (Skip-Gram)
”The man who passes the sentence should swing the sword.” – Ned Stark
Vorhersage von Kontext (rot)
zu gegebenem Fokus-Wort (grün)
Trainiert langsamer als CBOW,
aber i.d.R. bessere Ergebnisse
sentence
one-hot-encoded
should
one-hot-encoded
the
one-hot-encoded
sword
one-hot-encoded
N-dim
hidden
layer
swing
one-hot-encoded
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
38
Word Embeddings zur Erschließung von Fachvokabular
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
39
Transfer Learning mit BERT & Co.
Data Set 1 Model 1 Task 1
Data Set 2 Model 2 Task 2
Klassisches ML
Ein Modell wird für genau eine Aufgabe
bei Null beginnend trainiert.
Es werden immer viele Trainingsdaten benötigt.
Base
Model
Base
Task
Improved
Model Task
Transfer Learning
Ein Basis-Modell, dass auf einem großen Datensatz
trainiert wurde, wird für eine spezifische Aufgabe
angepasst.
Base
Data Set
Data
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
40
Question Answering
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
41
https://demos.deepset.ai
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
42
Vertiefende
„Intelligence“
mit Power BI
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
43
Komplexere Visualisierungoptionen für z.B. NER-Ergebnisse
Live-Demo-Zugang über PowerBI-Web:
https://app.powerbi.com/view?r=eyJrIjoiMDYwZjMwODMtZTAyOS00YWZmLWEzNTgtYTJiNjZ
jYjg5MDllIiwidCI6IjA0NmEyNDRiLWZhZGQtNDA1My04OWVjLTU5Y2IxMTJiMzJhOCIsImMiOjZ
9
Erläuterung des Konzeptes zum Nachlesen hier:
https://powerbi.microsoft.com/de-de/blog/new-power-bi-custom-visuals-for-
browsing-and-analyzing-collections-of-text/
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
44
Visualisierung von Topics und NER-Ergebnissen als Netzwerke
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
45
Veränderungen mit Time-Intelligence-Funktionen berechnen
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
46
Fazit
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
47
Prof. Dr. Jens Albrecht
TH Nürnberg, Informatik
Data Warehousing, BI,
Data Science, NLP
jens.albrecht@th-nuernberg.de
Für Beratungsprojekte:
jens.albrecht@data-knowhow.de
Prof. Dr. Roland Zimmermann
TH Nürnberg, BWL
BI, Information Design,
NLP, Process Mining
roland.zimmermann@th-nuernberg.de
Für Beratungsprojekte:
zimmermann@architecting-analytics.com
Sprechen Sie uns an, für Ihre
akuten Text-Mining-Fragen!
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
48
Blueprints for Text Analytics Using Python
(O'Reilly, Dez. 2020)
Jens Albrecht, Sidharth Ramachandran, Christian Winkler
https://github.com/blueprints-for-text-analytics-python/blueprints-text
Freier Download von Kapitel 7: "How to Explain a Text Classifier"
https://get.oreilly.com/ind_blueprints-for-text-analysis-using-python.html

Weitere ähnliche Inhalte

Was ist angesagt?

Conditional Random Fields
Conditional Random FieldsConditional Random Fields
Conditional Random Fields
lswing
 
Language Model (N-Gram).pptx
Language Model (N-Gram).pptxLanguage Model (N-Gram).pptx
Language Model (N-Gram).pptx
HeneWijaya
 
Fuzzy Set Theory
Fuzzy Set TheoryFuzzy Set Theory
Fuzzy Set Theory
AMIT KUMAR
 
Propositional And First-Order Logic
Propositional And First-Order LogicPropositional And First-Order Logic
Propositional And First-Order Logic
ankush_kumar
 
Knowledge Representation & Reasoning
Knowledge Representation & ReasoningKnowledge Representation & Reasoning
Knowledge Representation & Reasoning
Sajid Marwat
 
The Method Of Maximum Likelihood
The Method Of Maximum LikelihoodThe Method Of Maximum Likelihood
The Method Of Maximum Likelihood
Max Chipulu
 
Propositional logic
Propositional logicPropositional logic
Propositional logic
Rushdi Shams
 

Was ist angesagt? (20)

Propositional Logic and Pridicate logic
Propositional Logic and Pridicate logicPropositional Logic and Pridicate logic
Propositional Logic and Pridicate logic
 
Fuzzy logic and application in AI
Fuzzy logic and application in AIFuzzy logic and application in AI
Fuzzy logic and application in AI
 
Conditional Random Fields
Conditional Random FieldsConditional Random Fields
Conditional Random Fields
 
Language Model (N-Gram).pptx
Language Model (N-Gram).pptxLanguage Model (N-Gram).pptx
Language Model (N-Gram).pptx
 
First order predicate logic (fopl)
First order predicate logic (fopl)First order predicate logic (fopl)
First order predicate logic (fopl)
 
Fuzzy Set Theory
Fuzzy Set TheoryFuzzy Set Theory
Fuzzy Set Theory
 
Propositional And First-Order Logic
Propositional And First-Order LogicPropositional And First-Order Logic
Propositional And First-Order Logic
 
Discrete math Truth Table
Discrete math Truth TableDiscrete math Truth Table
Discrete math Truth Table
 
Knowledge Representation & Reasoning
Knowledge Representation & ReasoningKnowledge Representation & Reasoning
Knowledge Representation & Reasoning
 
The Method Of Maximum Likelihood
The Method Of Maximum LikelihoodThe Method Of Maximum Likelihood
The Method Of Maximum Likelihood
 
Genetic representation
Genetic representationGenetic representation
Genetic representation
 
AI: Learning in AI
AI: Learning in AI AI: Learning in AI
AI: Learning in AI
 
Fuzzy Logic ppt
Fuzzy Logic pptFuzzy Logic ppt
Fuzzy Logic ppt
 
Fuzzy Membership Function
Fuzzy Membership Function Fuzzy Membership Function
Fuzzy Membership Function
 
Machine learning ppt
Machine learning pptMachine learning ppt
Machine learning ppt
 
NLP_KASHK:Evaluating Language Model
NLP_KASHK:Evaluating Language ModelNLP_KASHK:Evaluating Language Model
NLP_KASHK:Evaluating Language Model
 
NLP_KASHK:Finite-State Morphological Parsing
NLP_KASHK:Finite-State Morphological ParsingNLP_KASHK:Finite-State Morphological Parsing
NLP_KASHK:Finite-State Morphological Parsing
 
Propositional logic
Propositional logicPropositional logic
Propositional logic
 
Introduction to Maximum Likelihood Estimator
Introduction to Maximum Likelihood EstimatorIntroduction to Maximum Likelihood Estimator
Introduction to Maximum Likelihood Estimator
 
relational algebra
relational algebrarelational algebra
relational algebra
 

Ähnlich wie Text Mining mit Python und PowerBI

Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
Marcel Franke
 

Ähnlich wie Text Mining mit Python und PowerBI (20)

Text Analytics - Kommunikation systematisch analysieren
Text Analytics - Kommunikation systematisch analysierenText Analytics - Kommunikation systematisch analysieren
Text Analytics - Kommunikation systematisch analysieren
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
Data Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieData Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur Technologie
 
Eine Stunde was mit Api First!
Eine Stunde was mit Api First!Eine Stunde was mit Api First!
Eine Stunde was mit Api First!
 
Python, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und RaumfahrtforschungPython, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und Raumfahrtforschung
 
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
 
Python in der Luft- und Raumfahrt
Python in der Luft- und RaumfahrtPython in der Luft- und Raumfahrt
Python in der Luft- und Raumfahrt
 
Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)
Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)
Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)
 
Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“
Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“
Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“
 
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcherScrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
 
Die richtige Antwort finden mit Question Answering
Die richtige Antwort finden mit Question AnsweringDie richtige Antwort finden mit Question Answering
Die richtige Antwort finden mit Question Answering
 
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
 
Kurzvorstellung Fort Fantastic 2.54
Kurzvorstellung Fort Fantastic  2.54Kurzvorstellung Fort Fantastic  2.54
Kurzvorstellung Fort Fantastic 2.54
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
 
KI und Predictive Maintenance am Beispiel von DB Cargo
KI und Predictive Maintenance am Beispiel von DB CargoKI und Predictive Maintenance am Beispiel von DB Cargo
KI und Predictive Maintenance am Beispiel von DB Cargo
 
Java und Python - Das Beste aus beiden Welten nutzen
Java und Python - Das Beste aus beiden Welten nutzenJava und Python - Das Beste aus beiden Welten nutzen
Java und Python - Das Beste aus beiden Welten nutzen
 
11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen)
11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen) 11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen)
11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen)
 
OSDC 2011 | Icinga - Enterprise Open Source Monitoring by Bernd Erk
OSDC 2011 |  Icinga - Enterprise Open Source Monitoring by Bernd ErkOSDC 2011 |  Icinga - Enterprise Open Source Monitoring by Bernd Erk
OSDC 2011 | Icinga - Enterprise Open Source Monitoring by Bernd Erk
 
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd ErkOSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
 
Architectures for .Net Core Applications
Architectures for .Net Core ApplicationsArchitectures for .Net Core Applications
Architectures for .Net Core Applications
 

Text Mining mit Python und PowerBI

  • 1. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 1 Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI https://github.com/jsalbr/tdwi-2021-text-mining
  • 2. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 2 Alle Daten zum mitmachen unter: https://github.com/jsalbr/tdwi-2021-text-mining Zugang zu Google Colab: https://colab.research.google.com
  • 3. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 3 Prof. Dr. Jens Albrecht TH Nürnberg, Informatik Data Warehousing, BI, Data Science, NLP Prof. Dr. Roland Zimmermann TH Nürnberg, BWL BI, Information Design, NLP, Process Mining
  • 4. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 4 Überblick https://github.com/jsalbr/tdwi-2021-text-mining https://www.tdwi-konferenz.de/tdwi-2021/programm/konferenzprogramm.html#item-2976 Zeit: max. 2:10; verplanen: 1:45 Thema Dauer von-bis Einleitung + Szenario 00:10 16:10 Explorative Datenanalyse 00:20 16:20 Datenvorbereitung 00:10 16:40 Klassifikation 00:15 Evaluation und Detailanalyse (Power BI) 00:20 17:05 Deep Learning (Embeddings und BERT) 00:15 17:25 Vertiefende Intelligence 00:10 17:40
  • 5. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 5 300 Kundenservice- Anfragen pro Tag 70.000 Verträge 1.000 Online- Reviews zum Produkt 30 Leserkommen- tare pro Minute 100.000 dokumentierte Change Requests … jede einzelne muss manuell kategorisiert werden. … ohne automatisiertes Ablagesystem. … in der eigenen Online Community und der Community Manager entdeckt die dringendsten eher per Zufall. … und keinen Überblick, wo die Kostentreiber stecken. … müssen für die Einkaufs- verhandlung alle der Reihe nach gelesen werden. Herausforderungen mit Text
  • 6. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 6 Innovation durch Automatisierung • manuell durchgeführte • zeitaufwändige • fehlerbehaftete Prozesse • effizienter arbeiten • Kosten einsparen • Wettbewerbsvorsprung durch neues Wissen erarbeiten • Nerven der eigenen Mitarbeiter schonen Manuelle (Massen-)Textverarbeitung Automatisierte Massentextverarbeitung
  • 7. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 7 Text Analytics Methoden Statistik 1 Unüberwachtes Machine Learning 2 Überwachtes Machine Learning 3 Semantische Analysen 4 KORRELATION TOPIC MODELING CLUSTERING Identifikation von Themen in Texten Versteckte Muster in Content-Archiv analysieren Bereiche Methoden und Ziele (Auszug) Überblick über Texte, Datenqualität und mögl. Bias erkennen REGRESSION Trends in Texten identifizieren KLASSIFIKATION Neue Texte in bekannte Kategorien einsortieren EMBEDDINGS Semantik, Bedeutung & Zusammenhänge extrahieren QUESTION ANSWERING Antworten zu Fakten-Fragen finden
  • 8. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 8 Crisp DM Prozess https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining
  • 9. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 9 Szenario
  • 10. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 10 pixabay.com Störungs- meldungen Qualitäts- probleme Kunden- wünsche Produkt- Sentiment
  • 11. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 11 Händler- und Mechaniker- Kommentare CRM-System Kunden- Meldungen User-Foren Text Mining Häufigste Begriffe Themen- bereiche Frühwarn- Indikatoren Korrelationen Produktions- prozess anpassen QS bei Zulieferern Unterstützung für Händler & Werkstätten Spezialaktionen für Kunden Ersatzteil- Planung Aktionen Analysen Quelldaten Auto-Zeitschriften Beispiel: Störungsmeldungen in der Auto-Industrie
  • 12. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 12 Explorative Datenanalyse mit PowerBI
  • 13. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 13 Power BI als Explorationswerkzeug für Textdaten • Datenexploration mit BI-Tool leicht durch Fachanwender • Business und Data Understanding durch Fachabteilung vorbereitbar • Arbeitsteilung mit Data-Scientists • Texte als Rohdaten anders bzw. ergänzend zu behandeln: Ziel: erste fachliche Einschätzungen zu Inhalten erzielen • Darstellung von Texten in Tabellenform oft schlecht lesbar: Thumbnails mit Preview und interaktiver Vergrößerung verbinden Überblick und Detail für Rohtext-Visualisierungen • Rohtexte enthalten erkennbar viele unnütze Wörter: Sind auch für erste Auszählungen (z.B. Wortwolken) zu ignorieren = Stopwortkonzept relevant • Interaktive Filteroptionen vermitteln rasch ersten Überblick über Inhalte der Texte • Für spätere Phasen des Text-Mining-Prozesses: BI-Tool zur Kommunikation und Bereitstellung der – oftmals komplexen – Text-Mining-Ergebnisse weiternutzen!
  • 14. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 14 Custom Visuals in Power BI für Exploration textueller Daten Spezielle Filter für Texte Textuelle Card-Darstellungen Wortwolken Interdependente, interaktive Anwendung entsteht, die individuelle Sichten auf Rohtexte erlaubt Custom Visual von Prof. Albrecht
  • 15. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 15 Visuals und einfaches ETL für Textdaten Schnelle deskriptive quantitative Analysen • Balkendiagramme für Mengen • Liniendiagramme für zeitliche Entwicklungen • Boxplots oder Violin-Plots für Verteilungen Word Clouds und einfache Stopwörter Textfilter Thumbnails für Text-Details
  • 16. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 16 Live-Demo: Übungs- und Lösungsdatei auf Github https://github.com/jsalbr/tdwi-2021-text-mining
  • 17. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 17 Datenaufbereitung mit Python
  • 18. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 18 Live-Demo https://github.com/jsalbr/tdwi-2021-text-mining Bitte Notebook "Preprocessing" starten!
  • 19. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 19 Pipeline zur Textaufbereitung https://spacy.io
  • 20. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 20 Klassifikation mit Python
  • 21. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 21 Live-Demo https://github.com/jsalbr/tdwi-2021-text-mining Bitte Notebook "Classification" starten!
  • 22. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 22 Klassifikationsaufgaben Tickets / Service-Requests kategorisieren & automatisiert routen Kategorie Priorisierung (Urgency / Impact) Produktstammdaten klassifizieren / zuordnen Sentiment-Analyse Auto-Tagging
  • 23. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 23 Supervised Learning: Trainings-Matrix X und Label-Vektor y Trainingsmatrix X: -Matrix n Trainingsobjekte (Samples, Examples) mit jeweils m Features z.B. Kunden, Texte, Bilder, ... Label-Vektor y: Spaltenvektor mit vorherzusagendem Wert Feature-Modellierung: Überführung der Ausgangsdaten in Vektor-Repräsentation x11 x1n ... ... ... xm1 ... xmn Featues Trainingsobjekte y1 ym Labels x'1 ... x'n Neues, unbekannntes Objekt Train Predict y'
  • 24. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 24 Text-Klassifikation Dokument Klassifikations- Modell Klassen- Zuordnung Vektorisierungs- modell Bag-of-Words Embeddings Neural Network SVM Logistische Regression Random Forest
  • 25. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 25 Bag-of-Words Vektorisierung Dokumente D1: „Pete likes London. Pete likes Paris." D2: „Pete does not like London." D3: „Pete likes London, but not Paris." D1 2 2 1 1 D2 1 1 1 1 1 D3 1 1 1 1 1 1 Nur Worthäufigkeiten beachtet Term Frequency (TF, TF-IDF) Einfach, aber robust Basis für viele Algorithmen (Retrieval, Klassifikation, Topic Modeling) Nachteile Stark vereinfachendes Sprachmodell Syntaktische und relationale Informationen gehen verloren Verbesserung durch n-Gramme
  • 26. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 26 Klassifikation mit SVM
  • 27. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 27 Evaluation mit Power BI
  • 28. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 28 Text-Mining-Ergebnisse darstellen und inhaltlich prüfen Aufbau einer interaktiven „Confusion Matrix“ • Matrix-Visual – erlaubt Filterung aus der Confusion-Matrix auf Texte und Wortwolken • Anteil an Spalten (Prediction-Spalten)  Wieviel ist je Kategorie richtig vorhergesagt worden? • Filter (Slicer) für Train vs. Test
  • 29. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 29 Datenmodell mit StopWort-Tabelle
  • 30. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 30 Live-Demo: Übungs- und Lösungsdatei auf Github https://github.com/jsalbr/tdwi-2021-text-mining
  • 31. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 31 Stop-Wörter über ETL-Funktionen anbinden Aufgabe für „Datentransformation“, d.h. Query Editor in Power BI Stopwort-Tabelle suchen/erzeugen, z.B. von https://gist.github.com/sebleier/554280 und in Power-BI als neue Query laden (schon vorhanden in Demo-PBIX) 1. Transpose-Transformation auf die lange Tabelle 2. Spalten zu einer Spalte verschmelzen über „Merged Columns“ mit Seperator „Space“  damit als ein Feld über Relation an NLP-Ergebnisse joinbar  für WordCloud-Visual 3. Neue Spalte ergänzen mit fixem Wert, z.B. „1“  für Verlinkung der Tabellen (Primärschlüssel)  gleiche Pseudospalte auch an NLP-Ergebnisse hängen mit Wert „1“ = Fremdschlüssel 4. Daten laden und Relation zwischen Tabellen über die Spalte herstellen im Model-View 5. In Word-Cloud-Visual unter „Excludes“ einfügen, Hinweis: Bei Ergänzung neuer Wörter in der Stopwort-Quelle müssen die dadurch erzeugten neuen Spalten in der Rohtabelle auch über die Spaltenverschmelzung berücksichtigt werden  ETL-Schritt ggf. löschen und neu einfügen oder über Editor ergänzen
  • 32. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 32 Explainable AI Entscheidungen des Modells erklärbar machen Spezielle Verfahren Lime Anchor SHAP Buchhinweis: Blueprints for Text Analytics Using Python https://github.com/blueprints-for-text-analytics-python/blueprints-text Freier Download von Kapitel 7: "How to Explain a Text Classifier" https://get.oreilly.com/ind_blueprints-for-text-analysis-using-python.html
  • 33. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 33 Semantische Analysen mit Deep Learning
  • 34. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 34 Live-Demo https://github.com/jsalbr/tdwi-2021-text-mining Bitte Notebook "Advanced" starten!
  • 35. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 35 Idee von Word Embeddings
  • 36. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 36 Word2Vec (Continuous Bag-of-Words) ”The man who passes the sentence should swing the sword.” – Ned Stark (Un-)Supervised Training: Vorhersage von Target-Wort (rot) zu gegebenem Kontext (grün) Kontextgröße (hier 4) ist Hyperparameter Reihenfolge im Kontext wird ignoriert (bag of words) Zeilen der Weight-Matrix W liefern N-dim. Wort-Vektoren sentence one-hot-encoded should one-hot-encoded the one-hot-encoded sword one-hot-encoded N-dim hidden layer swing one-hot-encoded W
  • 37. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 37 Word2Vec (Skip-Gram) ”The man who passes the sentence should swing the sword.” – Ned Stark Vorhersage von Kontext (rot) zu gegebenem Fokus-Wort (grün) Trainiert langsamer als CBOW, aber i.d.R. bessere Ergebnisse sentence one-hot-encoded should one-hot-encoded the one-hot-encoded sword one-hot-encoded N-dim hidden layer swing one-hot-encoded
  • 38. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 38 Word Embeddings zur Erschließung von Fachvokabular
  • 39. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 39 Transfer Learning mit BERT & Co. Data Set 1 Model 1 Task 1 Data Set 2 Model 2 Task 2 Klassisches ML Ein Modell wird für genau eine Aufgabe bei Null beginnend trainiert. Es werden immer viele Trainingsdaten benötigt. Base Model Base Task Improved Model Task Transfer Learning Ein Basis-Modell, dass auf einem großen Datensatz trainiert wurde, wird für eine spezifische Aufgabe angepasst. Base Data Set Data
  • 40. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 40 Question Answering
  • 41. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 41 https://demos.deepset.ai
  • 42. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 42 Vertiefende „Intelligence“ mit Power BI
  • 43. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 43 Komplexere Visualisierungoptionen für z.B. NER-Ergebnisse Live-Demo-Zugang über PowerBI-Web: https://app.powerbi.com/view?r=eyJrIjoiMDYwZjMwODMtZTAyOS00YWZmLWEzNTgtYTJiNjZ jYjg5MDllIiwidCI6IjA0NmEyNDRiLWZhZGQtNDA1My04OWVjLTU5Y2IxMTJiMzJhOCIsImMiOjZ 9 Erläuterung des Konzeptes zum Nachlesen hier: https://powerbi.microsoft.com/de-de/blog/new-power-bi-custom-visuals-for- browsing-and-analyzing-collections-of-text/
  • 44. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 44 Visualisierung von Topics und NER-Ergebnissen als Netzwerke
  • 45. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 45 Veränderungen mit Time-Intelligence-Funktionen berechnen
  • 46. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 46 Fazit
  • 47. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 47 Prof. Dr. Jens Albrecht TH Nürnberg, Informatik Data Warehousing, BI, Data Science, NLP jens.albrecht@th-nuernberg.de Für Beratungsprojekte: jens.albrecht@data-knowhow.de Prof. Dr. Roland Zimmermann TH Nürnberg, BWL BI, Information Design, NLP, Process Mining roland.zimmermann@th-nuernberg.de Für Beratungsprojekte: zimmermann@architecting-analytics.com Sprechen Sie uns an, für Ihre akuten Text-Mining-Fragen!
  • 48. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 48 Blueprints for Text Analytics Using Python (O'Reilly, Dez. 2020) Jens Albrecht, Sidharth Ramachandran, Christian Winkler https://github.com/blueprints-for-text-analytics-python/blueprints-text Freier Download von Kapitel 7: "How to Explain a Text Classifier" https://get.oreilly.com/ind_blueprints-for-text-analysis-using-python.html