Praxisbericht: Automatisierte Klassifikation von Stellenanzeigen für Experteer

692 Aufrufe

Veröffentlicht am

Der Vortrag zeigt anhand einer Case Study bei Experteer, einem großen Karriereportal für Führungskräfte, wie sich unter Einbeziehung von Expertenwissen ein konsistentes und transparentes Informationsextraktions- und Textklassifikations-System entwickeln lässt. Experteer nutzte bisher einen sehr zeit- und kostenintensiven manuellen Prozess. Kern der neuen Lösung ist ein hoch effizientes Qualitätsmanagementmodul, das Regelfehler selbstständig erkennt und verbessert. Dabei konnten die Ergebnisse des manuellen Prozesses durchgehend erreicht und darüber hinaus übertroffen werden. Die Lösung erzielt Präzisionsraten von bis zu 98%. Wissen, das zuvor nur implizit in den Köpfen Einzelner vorhanden und nicht an echten Daten getestet war, wurde durch das Projekt sichtbar, messbar und allgemein nutzbar gemacht.

Veröffentlicht in: Daten & Analysen
0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
692
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
37
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Praxisbericht: Automatisierte Klassifikation von Stellenanzeigen für Experteer

  1. 1. 1 © 2015 Glanos GmbH© 2015 Glanos GmbH Praxisbericht: Automatisierte Klassifikation von Stellenanzeigen für Experteer Gerhard Rolletschek, Glanos
  2. 2. 2 © 2015 Glanos GmbH Warum das Ganze? Oder: das Ziel der Reise • Viele Stellenanzeigen aus dem Web • In unterschiedlichem Format • Ohne Metadaten Assembly Pipeline • Richtig einsortierte Stellenanzeigen • Nach Industrie, Funktion, Karrierelevel und Ort • Grundlage für erfolgreiche Suchen und Matching zu Kandidaten
  3. 3. 3 © 2015 Glanos GmbH Methodische Herausforderungen im Datenmeer Stellenanzeigen Heterogenität der Stellenanzeigen • Von großen Firmen • Von mittleren und kleinen Firmen • Von Headhuntern • In mehreren Sprachen • Kulturelle Unterschiede im Arbeitsleben Unterschiedliche Indikatoren für die richtige Klassifikation • Sprachliche Varianten, z.B. von Personalverantwortung • Unterschiedliche Bedeutung eines Features in verschiedenen Branchen
  4. 4. 4 © 2015 Glanos GmbH Ein kleiner Teil des Wissens ist explizit und liegt in einem Regelwerk vor (=Businesslogik) Der größere Teil liegt jedoch erstmal nicht dokumentiert vor Trainingsdaten zeigen Einflüsse, wer und wann klassifiziert hat Eingespielte Praktiken laufen teilweise gegen Businesslogiken Der Eisberg in den Trainingsdaten Eingespielte Praxis, ad-hoc-Entscheidungen, Intuition, Tagesform Explizites dokumentiertes Wissen
  5. 5. 5 © 2015 Glanos GmbH In die Tiefe tauchen – und die Auswirkungen auf das Projekt Zusammenspiel in der Organisation und Kommunikation • Erfolge sind schwierig messbar, wenn die Trainingsdaten selbst zweifelhaft sind • Nachevaluation von Differenzen in der Autoklassifikation und der Trainingsmenge • Einbindung unterschiedlicher Abteilungen notwendig, um das implizite Wissen in Regeln zu transformieren Hybrid-Ansatz notwendig • Kombination aus harten Regeln, die sprachliche Varianten berücksichtigen und Machine Learning • Wichtige Business-Regeln müssen forciert werden können
  6. 6. 6 © 2015 Glanos GmbH Die Autoklassifikation in der Assembly Pipeline Text Analytics-Schicht  Extraktion relevanter Phrasen und Zuordnung zu Businesslogik  Sehr hohe Präzision (>98%) durch kontrollierte Extraktion Regel-System-Schicht  Mehrstufiges Businesslogik-System auf den Ergebnissen der Text Analytics Klassifikationsschicht  Linguistisch und semantisch motivierte Feature-Extraktion  Stochastic Gradient Descent Learner für perfomantes Lernen in hoch- dimensionalen Problemen Qualitätsmanagement  Merge von Text-Analytics, Regeln und Klassifikation  Transparente/nachverfolgbare Entscheidungskriterien  Continuous integration aller Komponenten, auch der Regeln und Text Analytics
  7. 7. 7 © 2015 Glanos GmbH Land in Sicht: Das Resultat  Mehr als 55% Dunkelverarbeitungsquote  Über 90% Präzision in jedem Attribut
  8. 8. 8 © 2015 Glanos GmbH Eine Stellenanzeige in der Nahansicht …
  9. 9. 9 © 2015 Glanos GmbH … und was daraus gemacht wird 1 1 3 4 8 7 5 5 6 2 2 6 • Bezugnahme auf Manager Soft Skills: “Leadership”, “Communication skills” • Gesucht wird ein Manager mit lang- jähriger Management-Erfahrung, der viele Mitarbeiter führt und für deren berufliche Förderung zuständig ist (career development) • Große Budgetverantwortung • Stellenbezeichnung • Industrie “Life Science” • Manager auf zweiter Organisations- ebene, der Manager führt • “Director” lässt sich nur schwer einordnen, kann viel bedeuten, muss durch Zusammenhang spezifiziert werden. • Zuständigkeit für den Bereich Verkauf 7 1 2 3 4 5 6 8
  10. 10. 10 © 2015 Glanos GmbH Der Maschinenraum Frontend DataLab Glanos QM, HTML/JS/CSS, Angular Business-Logik Scala, Java, Akka, Glanos Business- Logik-Tools Linguistik Scala, Java, OpenNLP, Glanos Linguistik- Tools Storage ElasticSearch, OrientDB KonnektorenCrawler
  11. 11. 11 © 2015 Glanos GmbH Mehr unter www.glanos.de www.experteer.de

×