Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

833 Aufrufe

Veröffentlicht am

information extraction, modelling and storage of semantic data to recognize trending topics for journalism and newspaper offices

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Themen- und Trenderkennung in Agenturmeldungen, LSWT2013

  1. 1. http://topic-s.de/ Martin Voigt, Michael Aleythe, Peter Wehner Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677
  2. 2. Struktur Motivation, Probleme und Ziele Topic/S Workflow Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 1
  3. 3. Motivation Newsroom Quelle: ringier.com Montag, 23.09.2013 Topic/S @ LSWT Slide 2
  4. 4. Problem In-house Produktion Archive Nachrichtenagenturen Web, Social Media Online DPA Twitter Reuters Facebook KNA Blogs … … Überwältigende Datenmenge für den Redakteur z.B. WAZ  5000 Artikel/Tag (Agenturen & in-house) Montag, 23.09.2013 Topic/S @ LSWT Slide 3
  5. 5. Vision Automatische Themenerkennung unter Verwendung von Named Entities und anderen Stichworten (SemItem) Media Named Assets Entities Topics E1 Identifikation von Thementrends E2 T1 E3 MA1 E4 T2 E5 MA2 Information-Push statt Pull E6 T3 E7 Pre-Processing Montag, 23.09.2013 Topic/S @ LSWT Slide 4 Post-Processing
  6. 6. Struktur Motivation, Probleme und Ziele Topic/S Workflow Überblick Informationsextraktion Speicherung Themenerkennung Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 5
  7. 7. Workflow 1 Pre-Processing 2 Data Storage 4 Search 3 Post-Processing Mehr in [Voigt2013] Montag, 23.09.2013 Topic/S @ LSWT Slide 6
  8. 8. Informationsextraktion Spracherkennung (DE, EN) Regelbasiert 1 Pre-Processing Language Detection Disambiguation Categorizer Kategorisierung Quellenabhängig Source: onelanguageoneposter.com 80,3 % 94,4 % EPD 80,3 % 90,8 % OTS 93,5 % AFP Montag, 23.09.2013 KNA Reuters Statistical NER Genauigkeit DPA Wordlist-based NER Agentur 86 % Topic/S @ LSWT Slide 7
  9. 9. Informationsextraktion Spracherkennung (DE, EN) Regelbasiert 1 Pre-Processing Language Detection Disambiguation Categorizer Wordlist-based NER Statistical NER Montag, 23.09.2013 Kategorisierung Quellenabhängig Source: onelanguageoneposter.com Named Entity Recognition Wortlisten- & Statistik-basiert Disambiguierung interne & externe Datenbasis Topic/S @ LSWT Slide 8
  10. 10. Semantische Fakten Keine Wortlisten für NER! SemItem Anzahl (alternative Namen) Person 1.504.341 (2.499.962) Organization 63.332 (98.127) Place 89.702 (95.178) Keyword 1351 preferred und alternative Namen vorgehalten ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller Namen: Rene Muller, Rene Müller, René Muller, René Müller Triples ohne SemItems: 31,3 Mio. Montag, 23.09.2013 Topic/S @ LSWT Slide 10
  11. 11. Speicherung Oracle 11gR2 Benchmark von Triple Stores [Voigt2012] Pros Bereits im Unternehmen für große Datenmengen im Einsatz Integrierte Anfrage an relationale und semantische Daten Cons Inferenz Unvollständiger SPARQL 1.1 Support Einsatz von eigenen Regeln kaum möglich Quelle: musingmonika.com Montag, 23.09.2013 Topic/S @ LSWT Slide 11
  12. 12. Themenerkennung Clustering hierarchisches, agglomeratives Verfahren Grundlage: Artikel und deren Entitäten Eigenimplementierung aufgrund spezieller Herausforderungen Ausführung und Zusammenfassung im Intervall Alternative für Deutschland Entschädigung Urteil Euro Deutschland Umfrage Bundestagswahl Bundesgerichtshof Milliarde Montag, 23.09.2013 Topic/S @ LSWT Lufthansa Auftrag Slide 12
  13. 13. Themenerkennung Top-Cluster (vom 19.09.2013) Artikel 5 wichtigsten SemItems HotTopic 68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein 52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja 44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl / SPD Ja 32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar / USA Ja 28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja 26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja 22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja 18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja 15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja Montag, 23.09.2013 Topic/S @ LSWT Slide 13
  14. 14. Struktur Motivation, Probleme und Ziele Topic/S Workflow Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 14
  15. 15. Live Demo Montag, 23.09.2013 Topic/S @ LSWT Slide 15
  16. 16. Struktur Motivation, Probleme und Ziele Topic/S Workflow Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 16
  17. 17. Sum it up! Ergebnis Themenerkennung und Präsentation gegenüber dem Redakteur Lessons learned NER: Schlecht für Non-English, Kombination notwendig Quelle: ooltapulta.com Stete Modeloptimierung hinsichtlich der Anfragen http://www.w3.org/community/swisig/ Spezielle UI notwendig Mögliche, nächste Schritte „Vorhersage“ von Themen aufgrund von kausalen und temporalen Beziehungen Montag, 23.09.2013 Topic/S @ LSWT Slide 17
  18. 18. http://topic-s.de/ Danke! Fragen? http://topic-s.de/ Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677
  19. 19. Quellen [Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple Store Benchmark? Practical Experiences with Real-World Data Proc. of. the 2nd International Workshop on Semantic Digital Archives (SDA), 2012 [Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards Topics-based, Semantics-assisted News Search. Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS'13), ACM,2013 Montag, 23.09.2013 Topic/S @ LSWT Slide 19
  20. 20. Workflow: Preprocessor Named Entity Recognition word list Tool: LingPipe + Extension Quelle: churchthought.com Sources: LOD (DBPedia, Geonames, YAGO2, GND) Advantages: controlled vocabulary, guarantied recognition of entities statistics Tool: Stanford NLP Source: pre-trained model Advantage: Recognition of unknown entities Montag, 23.09.2013 Topic/S @ LSWT Slide 20
  21. 21. Workflow: Preprocessor Keywords Lemmatization Quelle: hugdaily.org Developing a word list Extraction using the word list Bonus: frequent terms of an article Montag, 23.09.2013 Topic/S @ LSWT Slide 21
  22. 22. Disambiguation Quelle: de.wikipedia.org Quelle: fansshare.com Quelle: lounge.espdisk.com Montag, 23.09.2013 Topic/S @ LSWT Slide 22
  23. 23. Disambiguation Identification of Entity Cluster Michael Jackson Internal Facts Beer Michael Jackson Beer Whiskey Michael Jackson External Facts (DBpedia, etc.) Music King of Pop Problem: not all SemItems available in the LOD Montag, 23.09.2013 Topic/S @ LSWT Slide 23

×