Wir präsentieren eine Machine Learning-Anwendung, die mithilfe von Textklassifikationsverfahren Tickets in einem Servicedesk-System automatisch in Hinblick auf Vorgangsart, Dringlichkeit und Auswirkung klassifiziert. Die automatische Einordnung neu erstellter Tickets verkürzt einerseits deren Bearbeitungszeit und ermöglicht andererseits die zeitnahe Benachrichtigung relevanter Personengruppen im Fall schwerwiegender Vorfälle. Wir evaluieren verschiedene Textklassifikationsverfahren und Feature-Kombinationen und beschreiben die Schritte, die nötig waren, um die besten Textklassifikationsmodelle letztendlich vom Proof-of-concept zur Integration in das Produktivsystem zu entwickeln.
Event: Business Analytics Day an der Hochschule Karlsruhe
Datum: 03.03.2016
Speaker: Dr. Kathrin Björkelund, inovex GmbH
weitere Vorträge unter: https://www.inovex.de/de/content-pool/vortraege/
2. Problemstellung
2
Betreff: Anmeldung am PC schlägt fehl
Beschreibung: Max Mustermann kann sich nicht am PC
anmelden. Fehlermeldung: Stammsatz fehlt.
Auswirkung: Arbeitsplatz
Dringlichkeit: Arbeiten eingeschränkt mögl.
Vorgangsart: Störung
Level 1
Level 2
User
4. Exkurs: Baseline
• Wie gut ist ein extrem simples Modell?
• Mehrheits-Baseline sagt immer häufigste Klasse vorher
• Falls Trainingsdaten repräsentativ:
• Auswirkung=Arbeitsplatz: 98 % Genauigkeit
• Dringlichkeit=Arbeiten möglich: 90.39 %
• Vorgangsart=Service-Request: 45.42 %
4
5. Modellierung: Features
• Wörter („bag of words“) aus Betreff und Beschreibung
• Wortkombinationen (Bigramme)
• Filtern von Stoppwörtern, Daten, Emailadressen, ...
• Stemming
5
6. Beispiel: Featurevektor
6
Betreff: Anmeldung am PC schlägt fehl
Beschreibung: Max Mustermann kann sich nicht am
PC anmelden. Fehlermeldung: Stammsatz fehlt.
betreff:anmeldung betreff:pc betreff:schlägt betreff:fehl
betreff:anmeldung&betreff:pc betreff:pc&betreff:schlag
betreff:schlag&betreff:fehl
beschreibung:max beschreibung:mustermann beschreibung:kann
beschreibung:pc beschreibung:anmelden beschreibung:fehlermeldung
beschreibung:stammsatz beschreibung:fehlt
beschreibung:max&beschreibung:mustermann
beschreibung:mustermann&beschreibung:kann ...
Betrefffeatures
Beschreibungsfeatures
Feature-Bigramme
Feature-Unigramme
Feature-Bigramme
Feature-Unigramme
10. Evaluation: Ergebnisse
• DE besser als EN
• Trainingsdatenmenge
• SVM besser als Naive Bayes
• Abhängigkeit der Features
• Stemming/Normalisierung hilft für DE nicht
• Annahme: kodiert relevante Information
10
12. Integration in Produktivsystem
• Einbindung in Ticketsystem
• als Webservice
• momentan Übernahme per Click
• Caching des Modells
• Liblinear-Bibliothek dateibasiert
• ursprünglich ohne Modell-Caching
12
13. SMS
Problemstellung
13
Betreff: Anmeldung am PC schlägt fehl
Beschreibung: Max Mustermann kann sich nicht am PC
anmelden. Fehlermeldung: Stammsatz fehlt.
Level 1
Level 2
User
Auswirkung: Arbeitsplatz
Dringlichkeit: Arbeiten eingeschränkt mögl.
Vorgangsart: Störung
14. Vielen Dank!
Dr. Kathrin Björkelund
Data Management & Analytics
inovex GmbH
Karlsruher Straße 71
75179 Pforzheim
+49 (0)173 3181-085
kathrin.bjoerkelund@inovex.de