3. Die Beschaffungsplattform für Geschäftskunden 3
▪ >85 Mio. Artikel in ca. 6000 Katalogen
▪ Davon ca. 65 Mio. Dubletten
▪ Dubletten Erkennen für
▪ Verbesserte Suche
▪ Preisvergleich
▪ Warenkorboptimierung
Artikeldubletten
Einleitung
4. Die Beschaffungsplattform für Geschäftskunden 4
▪ Ca. 1,5 Mio. Kunden
▪ Davon geschätzt >0,5 Mio. Volldubletten (gleiches
Unternehmen, gleicher Standort)
▪ Dubletten Erkennen für
▪ Koordinierte Kundenbetreuung und vertriebliche
Ansprache
▪ Korrektes internes Reporting
▪ Anbieten von Genehmigungs-Workflows
Kundendubletten
Einleitung
5. Die Beschaffungsplattform für Geschäftskunden 5
▪ Regelbasierte Altsysteme
▪ Komplex
▪ Schwer wartbar
▪ Nicht skalierbar
▪ Ziel: Ablösung durch Machine Learning
Record Linkage Status Quo
Einleitung
6. Die Beschaffungsplattform für Geschäftskunden 6
▪ Machine-Learning Ansätze
▪ Supervised Learning
▪ Unsupervised Learning
▪ Semi-supervised Learning
▪ Record Linkage
▪ Sehr viele sehr kleine Kategorien
▪ Jeden Tag neue Kategorien
▪ Anzahl Kategorien nicht bekannt
▪ Unmöglich, für jede Kategorie
Trainingsdaten zu erstellen
Record Linkage mit Machine Learning
Lösungsansatz
9. Die Beschaffungsplattform für Geschäftskunden 9
▪ Trainingsdaten aus Altsystemen nur bedingt geeignet
▪ Schwächen nicht reproduzieren
▪ Veränderungen von fachlicher Seite (Definition
Dublette)
▪ Erzeugung von echten Ground Truth-Daten durch
menschliche Annotation ist teuer
Herausforderung Trainingsdaten
Problemstellung
10. Die Beschaffungsplattform für Geschäftskunden 10
▪ Active Learning
▪ Statt vieler zufällig ausgewählter Trainingsdaten:
▪ Kleine Menge relevanter Trainingsdaten
▪ Automatisch ausgewählt
▪ Reduziert Kosten für Erhebung von Trainingsdaten
Active Learning
Lösungsansatz
13. Die Beschaffungsplattform für Geschäftskunden 13
▪ Simulationsstudie
▪ Automatisch generierter Datensatz
▪ Adressen mit fehlerhaften Dubletten
▪ Zufällig ausgewählte Trainingspaare
vs. Active Learning
▪ Erste Ergebnisse:
▪ Deutlich bessere Erfolge als zufällig
gewählte Trainingspaare
Active Learning
Simulationsstudie
14. Die Beschaffungsplattform für Geschäftskunden 14
▪ Annotationen durch Data Worker
▪ Effizient
▪ Fehlerfrei
▪ Angenehm
▪ Identifikation problematischer Fälle durch Data Worker
▪ Active Learning: unklare Fälle auf Basis vorhandener
Trainingsdaten
▪ Data Worker: Sonderfälle, die in Trainingsdaten nicht
abgebildet sind
Annotation von Trainingsdaten
Problemstellung
15. Die Beschaffungsplattform für Geschäftskunden 15
▪ Einfache Interfaces
▪ Interaktion durch System gesteuert
▪ Repetitiv
▪ Kein Kontext
▪ Ermüdung und Fehler
▪ Keine Identifikation problematischer
Fälle durch Nutzer
Annotation von Trainingsdaten
Lösungsansatz
16. Die Beschaffungsplattform für Geschäftskunden 16
▪ Glyphboard (TU Dresden)
▪ Interaktion durch Nutzer gesteuert
▪ weniger repetitiv
▪ Kontext, aber auch Komplexität
▪ erlaubt Identifikation von neuen
Trainingsdaten durch Nutzer
Annotation von Trainingsdaten
Lösungsansatz
17. Die Beschaffungsplattform für Geschäftskunden 17
▪ Glyphboard (TU Dresden)
▪ Interaktion durch Nutzer gesteuert
▪ Weniger repetitiv
▪ Kontext
▪ Ggf. Fehler durch zu hohe Komplexität
▪ Erlaubt Identifikation von neuen Trainingsdaten durch
Nutzer
Annotation von Trainingsdaten
Problemstellung
18. Die Beschaffungsplattform für Geschäftskunden 18
▪ Ziel: Hybridisierung
▪ Offene Fragen:
▪ Wieviel Kontext braucht Data Worker?
▪ Wieviel Komplexität verträgt er/sie?
▪ Findet Data Worker andere relevante Trainingsdaten
als Algorithmus?
▪ Verbessert dies Qualität der Ergebnisse?
Annotation von Trainingsdaten
Lösungsansatz