SlideShare ist ein Scribd-Unternehmen logo

Text Mining mit Python und PowerBI

Jens Albrecht
Jens Albrecht
Jens AlbrechtProfessor, Trainer, Consultant for Data Management um Technische Hochschule Georg Simon Ohm Nürnberg

Foliensatz zum Workshop auf der TDWI-Konferenz 2021. Abstract: Die systematische Nutzung von Freitexten bietet ein großes Potenzial für die Gewinnung neuer Erkenntnisse oder die Automatisierung von Prozessen, das Unternehmen verstärkt nutzen wollen. Der Workshop soll Datenanalysten den Einstieg in das Text Mining erleichtern. Anhang konkreter Anwendungsbeispiele werden die nötigen Schritte und aktuelle Analyse- und maschinelle Lernverfahren erläutert. Für Datenvorbereitung und das Mining wird dabei Python genutzt, die Auswertung und Visualisierung der Ergebnisse erfolgt mit PowerBI.

Text Mining mit Python und PowerBI

1 von 48
Downloaden Sie, um offline zu lesen
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
1
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python
und Power BI
https://github.com/jsalbr/tdwi-2021-text-mining
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
2
Alle Daten zum mitmachen unter:
https://github.com/jsalbr/tdwi-2021-text-mining
Zugang zu Google Colab:
https://colab.research.google.com
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
3
Prof. Dr. Jens Albrecht
TH Nürnberg, Informatik
Data Warehousing, BI,
Data Science, NLP
Prof. Dr. Roland Zimmermann
TH Nürnberg, BWL
BI, Information Design,
NLP, Process Mining
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
4
Überblick
https://github.com/jsalbr/tdwi-2021-text-mining
https://www.tdwi-konferenz.de/tdwi-2021/programm/konferenzprogramm.html#item-2976
Zeit: max. 2:10; verplanen: 1:45
Thema Dauer von-bis
Einleitung + Szenario 00:10 16:10
Explorative Datenanalyse 00:20 16:20
Datenvorbereitung 00:10 16:40
Klassifikation 00:15
Evaluation und Detailanalyse (Power BI) 00:20 17:05
Deep Learning (Embeddings und BERT) 00:15 17:25
Vertiefende Intelligence 00:10 17:40
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
5
300
Kundenservice-
Anfragen pro Tag
70.000 Verträge
1.000 Online-
Reviews zum
Produkt
30 Leserkommen-
tare pro Minute
100.000
dokumentierte
Change Requests
… jede einzelne
muss manuell
kategorisiert
werden.
… ohne
automatisiertes
Ablagesystem.
… in der eigenen
Online Community
und der Community
Manager entdeckt
die dringendsten
eher per Zufall.
… und keinen
Überblick, wo die
Kostentreiber
stecken.
… müssen für die
Einkaufs-
verhandlung alle
der Reihe nach
gelesen werden.
Herausforderungen mit Text
Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann
Text Mining mit Python und Power BI
6
Innovation durch Automatisierung
• manuell durchgeführte
• zeitaufwändige
• fehlerbehaftete Prozesse
• effizienter arbeiten
• Kosten einsparen
• Wettbewerbsvorsprung durch neues
Wissen erarbeiten
• Nerven der eigenen Mitarbeiter
schonen
Manuelle
(Massen-)Textverarbeitung
Automatisierte
Massentextverarbeitung
Anzeige

Recomendados

NLP State of the Art | BERT
NLP State of the Art | BERTNLP State of the Art | BERT
NLP State of the Art | BERTshaurya uppal
 
1909 BERT: why-and-how (CODE SEMINAR)
1909 BERT: why-and-how (CODE SEMINAR)1909 BERT: why-and-how (CODE SEMINAR)
1909 BERT: why-and-how (CODE SEMINAR)WarNik Chow
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingMinh Pham
 
Machine Learning: Applications, Process and Techniques
Machine Learning: Applications, Process and TechniquesMachine Learning: Applications, Process and Techniques
Machine Learning: Applications, Process and TechniquesRui Pedro Paiva
 
BERT: Bidirectional Encoder Representations from Transformers
BERT: Bidirectional Encoder Representations from TransformersBERT: Bidirectional Encoder Representations from Transformers
BERT: Bidirectional Encoder Representations from TransformersLiangqun Lu
 
Thai Text processing by Transfer Learning using Transformer (Bert)
Thai Text processing by Transfer Learning using Transformer (Bert)Thai Text processing by Transfer Learning using Transformer (Bert)
Thai Text processing by Transfer Learning using Transformer (Bert)Kobkrit Viriyayudhakorn
 

Más contenido relacionado

Was ist angesagt?

Machine Learning
Machine LearningMachine Learning
Machine LearningKumar P
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understandinggohyunwoong
 
4.4 text mining
4.4 text mining4.4 text mining
4.4 text miningKrish_ver2
 
Recurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRURecurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRUananth
 
MACHINE LEARNING - GENETIC ALGORITHM
MACHINE LEARNING - GENETIC ALGORITHMMACHINE LEARNING - GENETIC ALGORITHM
MACHINE LEARNING - GENETIC ALGORITHMPuneet Kulyana
 
Data Quality for Machine Learning Tasks
Data Quality for Machine Learning TasksData Quality for Machine Learning Tasks
Data Quality for Machine Learning TasksHima Patel
 
Sentiment analysis of tweets
Sentiment analysis of tweetsSentiment analysis of tweets
Sentiment analysis of tweetsVasu Jain
 
Machine learning with scikitlearn
Machine learning with scikitlearnMachine learning with scikitlearn
Machine learning with scikitlearnPratap Dangeti
 
Fine tune and deploy Hugging Face NLP models
Fine tune and deploy Hugging Face NLP modelsFine tune and deploy Hugging Face NLP models
Fine tune and deploy Hugging Face NLP modelsOVHcloud
 
Artificial Intelligence: What Is Reinforcement Learning?
Artificial Intelligence: What Is Reinforcement Learning?Artificial Intelligence: What Is Reinforcement Learning?
Artificial Intelligence: What Is Reinforcement Learning?Bernard Marr
 
Deep neural networks
Deep neural networksDeep neural networks
Deep neural networksSi Haem
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingYoung Seok Kim
 
Machine learning
Machine learningMachine learning
Machine learningAmit Rathi
 
Machine Learning - Ensemble Methods
Machine Learning - Ensemble MethodsMachine Learning - Ensemble Methods
Machine Learning - Ensemble MethodsAndrew Ferlitsch
 
Deep Learning - A Literature survey
Deep Learning - A Literature surveyDeep Learning - A Literature survey
Deep Learning - A Literature surveyAkshay Hegde
 
Data Mining: Concepts and Techniques_ Chapter 6: Mining Frequent Patterns, ...
Data Mining:  Concepts and Techniques_ Chapter 6: Mining Frequent Patterns, ...Data Mining:  Concepts and Techniques_ Chapter 6: Mining Frequent Patterns, ...
Data Mining: Concepts and Techniques_ Chapter 6: Mining Frequent Patterns, ...Salah Amean
 

Was ist angesagt? (20)

Machine Learning
Machine LearningMachine Learning
Machine Learning
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
 
4.4 text mining
4.4 text mining4.4 text mining
4.4 text mining
 
Recurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRURecurrent Neural Networks, LSTM and GRU
Recurrent Neural Networks, LSTM and GRU
 
MACHINE LEARNING - GENETIC ALGORITHM
MACHINE LEARNING - GENETIC ALGORITHMMACHINE LEARNING - GENETIC ALGORITHM
MACHINE LEARNING - GENETIC ALGORITHM
 
BERT introduction
BERT introductionBERT introduction
BERT introduction
 
Data Quality for Machine Learning Tasks
Data Quality for Machine Learning TasksData Quality for Machine Learning Tasks
Data Quality for Machine Learning Tasks
 
Sentiment analysis of tweets
Sentiment analysis of tweetsSentiment analysis of tweets
Sentiment analysis of tweets
 
Machine learning with scikitlearn
Machine learning with scikitlearnMachine learning with scikitlearn
Machine learning with scikitlearn
 
Fine tune and deploy Hugging Face NLP models
Fine tune and deploy Hugging Face NLP modelsFine tune and deploy Hugging Face NLP models
Fine tune and deploy Hugging Face NLP models
 
Artificial Intelligence: What Is Reinforcement Learning?
Artificial Intelligence: What Is Reinforcement Learning?Artificial Intelligence: What Is Reinforcement Learning?
Artificial Intelligence: What Is Reinforcement Learning?
 
Deep neural networks
Deep neural networksDeep neural networks
Deep neural networks
 
Text Classification
Text ClassificationText Classification
Text Classification
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
 
Machine learning
Machine learningMachine learning
Machine learning
 
Deep Learning
Deep LearningDeep Learning
Deep Learning
 
Machine Learning - Ensemble Methods
Machine Learning - Ensemble MethodsMachine Learning - Ensemble Methods
Machine Learning - Ensemble Methods
 
Deep Learning - A Literature survey
Deep Learning - A Literature surveyDeep Learning - A Literature survey
Deep Learning - A Literature survey
 
Gpt models
Gpt modelsGpt models
Gpt models
 
Data Mining: Concepts and Techniques_ Chapter 6: Mining Frequent Patterns, ...
Data Mining:  Concepts and Techniques_ Chapter 6: Mining Frequent Patterns, ...Data Mining:  Concepts and Techniques_ Chapter 6: Mining Frequent Patterns, ...
Data Mining: Concepts and Techniques_ Chapter 6: Mining Frequent Patterns, ...
 

Ähnlich wie Text Mining mit Python und PowerBI

Text Analytics - Kommunikation systematisch analysieren
Text Analytics - Kommunikation systematisch analysierenText Analytics - Kommunikation systematisch analysieren
Text Analytics - Kommunikation systematisch analysierenJens Albrecht
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rMarcel Franke
 
Data Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieData Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieJens Albrecht
 
Eine Stunde was mit Api First!
Eine Stunde was mit Api First!Eine Stunde was mit Api First!
Eine Stunde was mit Api First!JanWeinschenker
 
Python, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und RaumfahrtforschungPython, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und RaumfahrtforschungAndreas Schreiber
 
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...Amazon Web Services
 
Python in der Luft- und Raumfahrt
Python in der Luft- und RaumfahrtPython in der Luft- und Raumfahrt
Python in der Luft- und RaumfahrtAndreas Schreiber
 
Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)
Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)
Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)data://disrupted®
 
Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“
Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“
Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“hpaustria
 
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcherScrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcherJuergen Hohnhold
 
Die richtige Antwort finden mit Question Answering
Die richtige Antwort finden mit Question AnsweringDie richtige Antwort finden mit Question Answering
Die richtige Antwort finden mit Question AnsweringJens Albrecht
 
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)Praxistage
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenMartin Voigt
 
KI und Predictive Maintenance am Beispiel von DB Cargo
KI und Predictive Maintenance am Beispiel von DB CargoKI und Predictive Maintenance am Beispiel von DB Cargo
KI und Predictive Maintenance am Beispiel von DB CargoInspirient
 
Java und Python - Das Beste aus beiden Welten nutzen
Java und Python - Das Beste aus beiden Welten nutzenJava und Python - Das Beste aus beiden Welten nutzen
Java und Python - Das Beste aus beiden Welten nutzenAndreas Schreiber
 
11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen)
11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen) 11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen)
11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen) TANNER AG
 
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd ErkOSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd ErkNETWAYS
 
OSDC 2011 | Icinga - Enterprise Open Source Monitoring by Bernd Erk
OSDC 2011 |  Icinga - Enterprise Open Source Monitoring by Bernd ErkOSDC 2011 |  Icinga - Enterprise Open Source Monitoring by Bernd Erk
OSDC 2011 | Icinga - Enterprise Open Source Monitoring by Bernd ErkNETWAYS
 
Architectures for .Net Core Applications
Architectures for .Net Core ApplicationsArchitectures for .Net Core Applications
Architectures for .Net Core ApplicationsRobin Sedlaczek
 

Ähnlich wie Text Mining mit Python und PowerBI (20)

Text Analytics - Kommunikation systematisch analysieren
Text Analytics - Kommunikation systematisch analysierenText Analytics - Kommunikation systematisch analysieren
Text Analytics - Kommunikation systematisch analysieren
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
Data Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieData Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur Technologie
 
Eine Stunde was mit Api First!
Eine Stunde was mit Api First!Eine Stunde was mit Api First!
Eine Stunde was mit Api First!
 
Python, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und RaumfahrtforschungPython, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und Raumfahrtforschung
 
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
 
Python in der Luft- und Raumfahrt
Python in der Luft- und RaumfahrtPython in der Luft- und Raumfahrt
Python in der Luft- und Raumfahrt
 
Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)
Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)
Intelligent Edge - breaking the storage hype (Michael Beeck, mibeeck GmbH)
 
Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“
Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“
Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“
 
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcherScrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
Scrum days 2016_scrum_bei_festo_frank-m.hoyer_nadine.kärcher
 
Die richtige Antwort finden mit Question Answering
Die richtige Antwort finden mit Question AnsweringDie richtige Antwort finden mit Question Answering
Die richtige Antwort finden mit Question Answering
 
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
Gerhard Jungwirth (mobilkom austria), Andreas Icha (Aschauer EDV)
 
Kurzvorstellung Fort Fantastic 2.54
Kurzvorstellung Fort Fantastic  2.54Kurzvorstellung Fort Fantastic  2.54
Kurzvorstellung Fort Fantastic 2.54
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
 
KI und Predictive Maintenance am Beispiel von DB Cargo
KI und Predictive Maintenance am Beispiel von DB CargoKI und Predictive Maintenance am Beispiel von DB Cargo
KI und Predictive Maintenance am Beispiel von DB Cargo
 
Java und Python - Das Beste aus beiden Welten nutzen
Java und Python - Das Beste aus beiden Welten nutzenJava und Python - Das Beste aus beiden Welten nutzen
Java und Python - Das Beste aus beiden Welten nutzen
 
11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen)
11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen) 11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen)
11. TANNER-Hochschulwettbewerb | Beitrag Team Roth (HS Aalen)
 
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd ErkOSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
OSDC 2011 | Automatisierung im Rechenzentrum: eine Einführung by Bernd Erk
 
OSDC 2011 | Icinga - Enterprise Open Source Monitoring by Bernd Erk
OSDC 2011 |  Icinga - Enterprise Open Source Monitoring by Bernd ErkOSDC 2011 |  Icinga - Enterprise Open Source Monitoring by Bernd Erk
OSDC 2011 | Icinga - Enterprise Open Source Monitoring by Bernd Erk
 
Architectures for .Net Core Applications
Architectures for .Net Core ApplicationsArchitectures for .Net Core Applications
Architectures for .Net Core Applications
 

Text Mining mit Python und PowerBI

  • 1. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 1 Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI https://github.com/jsalbr/tdwi-2021-text-mining
  • 2. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 2 Alle Daten zum mitmachen unter: https://github.com/jsalbr/tdwi-2021-text-mining Zugang zu Google Colab: https://colab.research.google.com
  • 3. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 3 Prof. Dr. Jens Albrecht TH Nürnberg, Informatik Data Warehousing, BI, Data Science, NLP Prof. Dr. Roland Zimmermann TH Nürnberg, BWL BI, Information Design, NLP, Process Mining
  • 4. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 4 Überblick https://github.com/jsalbr/tdwi-2021-text-mining https://www.tdwi-konferenz.de/tdwi-2021/programm/konferenzprogramm.html#item-2976 Zeit: max. 2:10; verplanen: 1:45 Thema Dauer von-bis Einleitung + Szenario 00:10 16:10 Explorative Datenanalyse 00:20 16:20 Datenvorbereitung 00:10 16:40 Klassifikation 00:15 Evaluation und Detailanalyse (Power BI) 00:20 17:05 Deep Learning (Embeddings und BERT) 00:15 17:25 Vertiefende Intelligence 00:10 17:40
  • 5. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 5 300 Kundenservice- Anfragen pro Tag 70.000 Verträge 1.000 Online- Reviews zum Produkt 30 Leserkommen- tare pro Minute 100.000 dokumentierte Change Requests … jede einzelne muss manuell kategorisiert werden. … ohne automatisiertes Ablagesystem. … in der eigenen Online Community und der Community Manager entdeckt die dringendsten eher per Zufall. … und keinen Überblick, wo die Kostentreiber stecken. … müssen für die Einkaufs- verhandlung alle der Reihe nach gelesen werden. Herausforderungen mit Text
  • 6. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 6 Innovation durch Automatisierung • manuell durchgeführte • zeitaufwändige • fehlerbehaftete Prozesse • effizienter arbeiten • Kosten einsparen • Wettbewerbsvorsprung durch neues Wissen erarbeiten • Nerven der eigenen Mitarbeiter schonen Manuelle (Massen-)Textverarbeitung Automatisierte Massentextverarbeitung
  • 7. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 7 Text Analytics Methoden Statistik 1 Unüberwachtes Machine Learning 2 Überwachtes Machine Learning 3 Semantische Analysen 4 KORRELATION TOPIC MODELING CLUSTERING Identifikation von Themen in Texten Versteckte Muster in Content-Archiv analysieren Bereiche Methoden und Ziele (Auszug) Überblick über Texte, Datenqualität und mögl. Bias erkennen REGRESSION Trends in Texten identifizieren KLASSIFIKATION Neue Texte in bekannte Kategorien einsortieren EMBEDDINGS Semantik, Bedeutung & Zusammenhänge extrahieren QUESTION ANSWERING Antworten zu Fakten-Fragen finden
  • 8. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 8 Crisp DM Prozess https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining
  • 9. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 9 Szenario
  • 10. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 10 pixabay.com Störungs- meldungen Qualitäts- probleme Kunden- wünsche Produkt- Sentiment
  • 11. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 11 Händler- und Mechaniker- Kommentare CRM-System Kunden- Meldungen User-Foren Text Mining Häufigste Begriffe Themen- bereiche Frühwarn- Indikatoren Korrelationen Produktions- prozess anpassen QS bei Zulieferern Unterstützung für Händler & Werkstätten Spezialaktionen für Kunden Ersatzteil- Planung Aktionen Analysen Quelldaten Auto-Zeitschriften Beispiel: Störungsmeldungen in der Auto-Industrie
  • 12. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 12 Explorative Datenanalyse mit PowerBI
  • 13. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 13 Power BI als Explorationswerkzeug für Textdaten • Datenexploration mit BI-Tool leicht durch Fachanwender • Business und Data Understanding durch Fachabteilung vorbereitbar • Arbeitsteilung mit Data-Scientists • Texte als Rohdaten anders bzw. ergänzend zu behandeln: Ziel: erste fachliche Einschätzungen zu Inhalten erzielen • Darstellung von Texten in Tabellenform oft schlecht lesbar: Thumbnails mit Preview und interaktiver Vergrößerung verbinden Überblick und Detail für Rohtext-Visualisierungen • Rohtexte enthalten erkennbar viele unnütze Wörter: Sind auch für erste Auszählungen (z.B. Wortwolken) zu ignorieren = Stopwortkonzept relevant • Interaktive Filteroptionen vermitteln rasch ersten Überblick über Inhalte der Texte • Für spätere Phasen des Text-Mining-Prozesses: BI-Tool zur Kommunikation und Bereitstellung der – oftmals komplexen – Text-Mining-Ergebnisse weiternutzen!
  • 14. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 14 Custom Visuals in Power BI für Exploration textueller Daten Spezielle Filter für Texte Textuelle Card-Darstellungen Wortwolken Interdependente, interaktive Anwendung entsteht, die individuelle Sichten auf Rohtexte erlaubt Custom Visual von Prof. Albrecht
  • 15. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 15 Visuals und einfaches ETL für Textdaten Schnelle deskriptive quantitative Analysen • Balkendiagramme für Mengen • Liniendiagramme für zeitliche Entwicklungen • Boxplots oder Violin-Plots für Verteilungen Word Clouds und einfache Stopwörter Textfilter Thumbnails für Text-Details
  • 16. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 16 Live-Demo: Übungs- und Lösungsdatei auf Github https://github.com/jsalbr/tdwi-2021-text-mining
  • 17. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 17 Datenaufbereitung mit Python
  • 18. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 18 Live-Demo https://github.com/jsalbr/tdwi-2021-text-mining Bitte Notebook "Preprocessing" starten!
  • 19. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 19 Pipeline zur Textaufbereitung https://spacy.io
  • 20. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 20 Klassifikation mit Python
  • 21. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 21 Live-Demo https://github.com/jsalbr/tdwi-2021-text-mining Bitte Notebook "Classification" starten!
  • 22. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 22 Klassifikationsaufgaben Tickets / Service-Requests kategorisieren & automatisiert routen Kategorie Priorisierung (Urgency / Impact) Produktstammdaten klassifizieren / zuordnen Sentiment-Analyse Auto-Tagging
  • 23. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 23 Supervised Learning: Trainings-Matrix X und Label-Vektor y Trainingsmatrix X: -Matrix n Trainingsobjekte (Samples, Examples) mit jeweils m Features z.B. Kunden, Texte, Bilder, ... Label-Vektor y: Spaltenvektor mit vorherzusagendem Wert Feature-Modellierung: Überführung der Ausgangsdaten in Vektor-Repräsentation x11 x1n ... ... ... xm1 ... xmn Featues Trainingsobjekte y1 ym Labels x'1 ... x'n Neues, unbekannntes Objekt Train Predict y'
  • 24. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 24 Text-Klassifikation Dokument Klassifikations- Modell Klassen- Zuordnung Vektorisierungs- modell Bag-of-Words Embeddings Neural Network SVM Logistische Regression Random Forest
  • 25. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 25 Bag-of-Words Vektorisierung Dokumente D1: „Pete likes London. Pete likes Paris." D2: „Pete does not like London." D3: „Pete likes London, but not Paris." D1 2 2 1 1 D2 1 1 1 1 1 D3 1 1 1 1 1 1 Nur Worthäufigkeiten beachtet Term Frequency (TF, TF-IDF) Einfach, aber robust Basis für viele Algorithmen (Retrieval, Klassifikation, Topic Modeling) Nachteile Stark vereinfachendes Sprachmodell Syntaktische und relationale Informationen gehen verloren Verbesserung durch n-Gramme
  • 26. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 26 Klassifikation mit SVM
  • 27. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 27 Evaluation mit Power BI
  • 28. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 28 Text-Mining-Ergebnisse darstellen und inhaltlich prüfen Aufbau einer interaktiven „Confusion Matrix“ • Matrix-Visual – erlaubt Filterung aus der Confusion-Matrix auf Texte und Wortwolken • Anteil an Spalten (Prediction-Spalten)  Wieviel ist je Kategorie richtig vorhergesagt worden? • Filter (Slicer) für Train vs. Test
  • 29. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 29 Datenmodell mit StopWort-Tabelle
  • 30. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 30 Live-Demo: Übungs- und Lösungsdatei auf Github https://github.com/jsalbr/tdwi-2021-text-mining
  • 31. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 31 Stop-Wörter über ETL-Funktionen anbinden Aufgabe für „Datentransformation“, d.h. Query Editor in Power BI Stopwort-Tabelle suchen/erzeugen, z.B. von https://gist.github.com/sebleier/554280 und in Power-BI als neue Query laden (schon vorhanden in Demo-PBIX) 1. Transpose-Transformation auf die lange Tabelle 2. Spalten zu einer Spalte verschmelzen über „Merged Columns“ mit Seperator „Space“  damit als ein Feld über Relation an NLP-Ergebnisse joinbar  für WordCloud-Visual 3. Neue Spalte ergänzen mit fixem Wert, z.B. „1“  für Verlinkung der Tabellen (Primärschlüssel)  gleiche Pseudospalte auch an NLP-Ergebnisse hängen mit Wert „1“ = Fremdschlüssel 4. Daten laden und Relation zwischen Tabellen über die Spalte herstellen im Model-View 5. In Word-Cloud-Visual unter „Excludes“ einfügen, Hinweis: Bei Ergänzung neuer Wörter in der Stopwort-Quelle müssen die dadurch erzeugten neuen Spalten in der Rohtabelle auch über die Spaltenverschmelzung berücksichtigt werden  ETL-Schritt ggf. löschen und neu einfügen oder über Editor ergänzen
  • 32. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 32 Explainable AI Entscheidungen des Modells erklärbar machen Spezielle Verfahren Lime Anchor SHAP Buchhinweis: Blueprints for Text Analytics Using Python https://github.com/blueprints-for-text-analytics-python/blueprints-text Freier Download von Kapitel 7: "How to Explain a Text Classifier" https://get.oreilly.com/ind_blueprints-for-text-analysis-using-python.html
  • 33. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 33 Semantische Analysen mit Deep Learning
  • 34. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 34 Live-Demo https://github.com/jsalbr/tdwi-2021-text-mining Bitte Notebook "Advanced" starten!
  • 35. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 35 Idee von Word Embeddings
  • 36. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 36 Word2Vec (Continuous Bag-of-Words) ”The man who passes the sentence should swing the sword.” – Ned Stark (Un-)Supervised Training: Vorhersage von Target-Wort (rot) zu gegebenem Kontext (grün) Kontextgröße (hier 4) ist Hyperparameter Reihenfolge im Kontext wird ignoriert (bag of words) Zeilen der Weight-Matrix W liefern N-dim. Wort-Vektoren sentence one-hot-encoded should one-hot-encoded the one-hot-encoded sword one-hot-encoded N-dim hidden layer swing one-hot-encoded W
  • 37. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 37 Word2Vec (Skip-Gram) ”The man who passes the sentence should swing the sword.” – Ned Stark Vorhersage von Kontext (rot) zu gegebenem Fokus-Wort (grün) Trainiert langsamer als CBOW, aber i.d.R. bessere Ergebnisse sentence one-hot-encoded should one-hot-encoded the one-hot-encoded sword one-hot-encoded N-dim hidden layer swing one-hot-encoded
  • 38. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 38 Word Embeddings zur Erschließung von Fachvokabular
  • 39. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 39 Transfer Learning mit BERT & Co. Data Set 1 Model 1 Task 1 Data Set 2 Model 2 Task 2 Klassisches ML Ein Modell wird für genau eine Aufgabe bei Null beginnend trainiert. Es werden immer viele Trainingsdaten benötigt. Base Model Base Task Improved Model Task Transfer Learning Ein Basis-Modell, dass auf einem großen Datensatz trainiert wurde, wird für eine spezifische Aufgabe angepasst. Base Data Set Data
  • 40. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 40 Question Answering
  • 41. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 41 https://demos.deepset.ai
  • 42. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 42 Vertiefende „Intelligence“ mit Power BI
  • 43. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 43 Komplexere Visualisierungoptionen für z.B. NER-Ergebnisse Live-Demo-Zugang über PowerBI-Web: https://app.powerbi.com/view?r=eyJrIjoiMDYwZjMwODMtZTAyOS00YWZmLWEzNTgtYTJiNjZ jYjg5MDllIiwidCI6IjA0NmEyNDRiLWZhZGQtNDA1My04OWVjLTU5Y2IxMTJiMzJhOCIsImMiOjZ 9 Erläuterung des Konzeptes zum Nachlesen hier: https://powerbi.microsoft.com/de-de/blog/new-power-bi-custom-visuals-for- browsing-and-analyzing-collections-of-text/
  • 44. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 44 Visualisierung von Topics und NER-Ergebnissen als Netzwerke
  • 45. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 45 Veränderungen mit Time-Intelligence-Funktionen berechnen
  • 46. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 46 Fazit
  • 47. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 47 Prof. Dr. Jens Albrecht TH Nürnberg, Informatik Data Warehousing, BI, Data Science, NLP jens.albrecht@th-nuernberg.de Für Beratungsprojekte: jens.albrecht@data-knowhow.de Prof. Dr. Roland Zimmermann TH Nürnberg, BWL BI, Information Design, NLP, Process Mining roland.zimmermann@th-nuernberg.de Für Beratungsprojekte: zimmermann@architecting-analytics.com Sprechen Sie uns an, für Ihre akuten Text-Mining-Fragen!
  • 48. Prof. Dr. Jens Albrecht, Prof. Dr. Roland Zimmermann Text Mining mit Python und Power BI 48 Blueprints for Text Analytics Using Python (O'Reilly, Dez. 2020) Jens Albrecht, Sidharth Ramachandran, Christian Winkler https://github.com/blueprints-for-text-analytics-python/blueprints-text Freier Download von Kapitel 7: "How to Explain a Text Classifier" https://get.oreilly.com/ind_blueprints-for-text-analysis-using-python.html