Sächsische AufbauBank
Forschung und Entwicklung - Projektförderung
Projektnummer - 99457/2677
http://topic-s.de/
Martin Vo...
Wer sind wir?
fink & PARTNER Media Services GmbH
Medien Management für Verlage
Einige Kunde
Lehrstuhl für Multimedia Techn...
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 2
Motivation
Newsroom
Montag, 23.09.2013 Topic/S @ LSWT Slide 3
Quelle: ringier.com
Problem
Überwältigende Datenmenge für den Redakteur
z.B. WAZ  5000 Artikel/Tag (Agenturen & in-house)
Montag, 23.09.2013 ...
Vision
Automatische Themenerkennung unter Verwendung
von Named Entities und anderen Stichworten
(SemItem)
Identifikation v...
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Überblick
Informationsextraktion
Speicherung
Themenerkennung
Demo...
Workflow
Montag, 23.09.2013 Topic/S @ LSWT Slide 7
Mehr in [Voigt2013]
Informationsextraktion
Montag, 23.09.2013 Topic/S @ LSWT
Spracherkennung (DE, EN)
Regelbasiert
Kategorisierung
Quellenabhä...
Informationsextraktion
Montag, 23.09.2013 Topic/S @ LSWT
Spracherkennung (DE, EN)
Regelbasiert
Kategorisierung
Quellenabhä...
Semantisches Model
Montag, 23.09.2013 Topic/S @ LSWT Slide 10
Media SemItemMatch SemItem
Quellen: freemake.com, samepage.i...
Semantische Fakten
Keine Wortlisten für NER!
preferred und alternative Namen vorgehalten
ID: http://www.topic-s.de/topics-...
Speicherung
Oracle 11gR2
Benchmark von Triple Stores [Voigt2012]
Pros
Bereits im Unternehmen für große Datenmengen im Eins...
Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Clustering
hierarchisches, agglomeratives Verfahren
Grundlage: Artikel u...
Top-Cluster (vom 19.09.2013)
Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Artikel 5 wichtigsten SemItems HotTopic
68 ...
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 15
Live Demo
Montag, 23.09.2013 Topic/S @ LSWT Slide 16
Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 17
Sum it up!
Ergebnis
Themenerkennung und Präsentation
gegenüber dem Redakteur
Lessons learned
NER: Schlecht für Non-English...
Sächsische AufbauBank
Forschung und Entwicklung - Projektförderung
Projektnummer - 99457/2677
http://topic-s.de/
Danke! Fr...
Quellen
[Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple
Store Benchmark? Practical Experiences with ...
Nächste SlideShare
Wird geladen in …5
×

Themen- und Trenderkennung in Agenturmeldungen

940 Aufrufe

Veröffentlicht am

Vortrag beim #LSWT2013 zum Thema Themen- und Trenderkennung in Meldungen von NAchrichtenagenturen - Der Vortrag umreißt den aktuellen Stand des Forschungsprojekts Topic/S

http://aksw.org/Events/2013/LeipzigerSemanticWebTag/Kerntag.html
http://topic-s.de/

0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
940
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
7
Aktionen
Geteilt
0
Downloads
2
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Themen- und Trenderkennung in Agenturmeldungen

  1. 1. Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677 http://topic-s.de/ Martin Voigt, Michael Aleythe, Peter Wehner
  2. 2. Wer sind wir? fink & PARTNER Media Services GmbH Medien Management für Verlage Einige Kunde Lehrstuhl für Multimedia Technologie, TU Dresden Forschungsfelder Adaptive, komposite Rich Internet Applications Semantisches Document Life Cycle Management Friday, 14.06.2013 Topic/S Slide 1
  3. 3. Struktur Motivation, Probleme und Ziele Topic/S Workflow Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 2
  4. 4. Motivation Newsroom Montag, 23.09.2013 Topic/S @ LSWT Slide 3 Quelle: ringier.com
  5. 5. Problem Überwältigende Datenmenge für den Redakteur z.B. WAZ  5000 Artikel/Tag (Agenturen & in-house) Montag, 23.09.2013 Topic/S @ LSWT DPA Reuters KNA Twitter Facebook Blogs … Nachrichtenagenturen Web, Social Media … In-house Produktion Archive Online Slide 4
  6. 6. Vision Automatische Themenerkennung unter Verwendung von Named Entities und anderen Stichworten (SemItem) Identifikation von Thementrends Information-Push statt Pull Montag, 23.09.2013 Topic/S @ LSWT Slide 5
  7. 7. Struktur Motivation, Probleme und Ziele Topic/S Workflow Überblick Informationsextraktion Speicherung Themenerkennung Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 6
  8. 8. Workflow Montag, 23.09.2013 Topic/S @ LSWT Slide 7 Mehr in [Voigt2013]
  9. 9. Informationsextraktion Montag, 23.09.2013 Topic/S @ LSWT Spracherkennung (DE, EN) Regelbasiert Kategorisierung Quellenabhängig Slide 8 Source: onelanguageoneposter.com Agentur Genauigkeit KNA 80,3 % DPA 94,4 % EPD 80,3 % Reuters 90,8 % OTS 93,5 % AFP 86 %
  10. 10. Informationsextraktion Montag, 23.09.2013 Topic/S @ LSWT Spracherkennung (DE, EN) Regelbasiert Kategorisierung Quellenabhängig Named Entity Recognition Wortlisten- & Statistik-basiert Disambiguierung interne & externe Datenbasis Slide 9 Source: onelanguageoneposter.com
  11. 11. Semantisches Model Montag, 23.09.2013 Topic/S @ LSWT Slide 10 Media SemItemMatch SemItem Quellen: freemake.com, samepage.io, free-vectors.com, trendwatching.com, viamusical.de
  12. 12. Semantische Fakten Keine Wortlisten für NER! preferred und alternative Namen vorgehalten ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller Namen: Rene Muller, Rene Müller, René Muller, René Müller Triples ohne SemItems: 31,3 Mio. Montag, 23.09.2013 Topic/S @ LSWT Slide 11 SemItem Anzahl (alternative Namen) Person 1.504.341 (2.499.962) Organization 63.332 (98.127) Place 89.702 (95.178) Keyword 1351
  13. 13. Speicherung Oracle 11gR2 Benchmark von Triple Stores [Voigt2012] Pros Bereits im Unternehmen für große Datenmengen im Einsatz Integrierte Anfrage an relationale und semantische Daten Cons Inferenz Unvollständiger SPARQL 1.1 Support Einsatz von eigenen Regeln kaum möglich Montag, 23.09.2013 Topic/S @ LSWT Slide 12 Quelle: musingmonika.com
  14. 14. Themenerkennung Montag, 23.09.2013 Topic/S @ LSWT Clustering hierarchisches, agglomeratives Verfahren Grundlage: Artikel und deren Entitäten Eigenimplementierung aufgrund spezieller Herausforderungen Ausführung und Zusammenfassung im Intervall  Trend Slide 13
  15. 15. Top-Cluster (vom 19.09.2013) Themenerkennung Montag, 23.09.2013 Topic/S @ LSWT Artikel 5 wichtigsten SemItems HotTopic 68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein 52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja 44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl / SPD Ja 32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar / USA Ja 28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja 26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja 22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja 18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja 15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja Slide 14
  16. 16. Struktur Motivation, Probleme und Ziele Topic/S Workflow Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 15
  17. 17. Live Demo Montag, 23.09.2013 Topic/S @ LSWT Slide 16
  18. 18. Struktur Motivation, Probleme und Ziele Topic/S Workflow Demo Zusammenfassung Montag, 23.09.2013 Topic/S @ LSWT Slide 17
  19. 19. Sum it up! Ergebnis Themenerkennung und Präsentation gegenüber dem Redakteur Lessons learned NER: Schlecht für Non-English, Kombination notwendig Stete Modeloptimierung hinsichtlich der Anfragen Spezielle UI notwendig Mögliche, nächste Schritte „Vorhersage“ von Themen aufgrund von kausalen und temporalen Beziehungen Montag, 23.09.2013 Topic/S @ LSWT Slide 18 Quelle: ooltapulta.com http://www.w3.org/community/swisig/
  20. 20. Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677 http://topic-s.de/ Danke! Fragen? http://topic-s.de/
  21. 21. Quellen [Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple Store Benchmark? Practical Experiences with Real-World Data Proc. of. the 2nd International Workshop on Semantic Digital Archives (SDA), 2012 [Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards Topics-based, Semantics-assisted News Search. Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS'13), ACM,2013 Montag, 23.09.2013 Topic/S @ LSWT Slide 20

×