Bessere Suchergebnisse durch Named Entity Recognition
1. Bessere Suchergebnisse durch
Named Entity Recognition
Historische Zeitungen im digitalen Zeitalter /
I giornali storici nell’era digitale
27.10.2014
EURAC Bozen / Bolzano
Clemens Neudecker, State Library Berlin
@cneudecker
2. Was ist eigentlich „Named Entity Recognition“?
• Named Entity Recognition (NER) ist ein Untergebiet der
Informationsextraktion (Information Extraction) und wird
allgemein als Aufgabe der Computerlinguistik verstanden.
• Es geht dabei um die automatische Extraktion von
Wissen bzw. die Klassifikation von Information aus
semantisch unstrukturierten Inhalten.
• Bei der NER handelt es sich durchaus noch um ein
akademisches Forschungsfeld (vgl. Google/MSR
Competition) – praktische Anwendungsbeispiele aus
dem Kultur- sowie Digitalisierungsumfeld sind bisher
noch die Ausnahme.
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp 2
3. Oder: Was ist eigentlich ein „Named Entity“?
• PERSON:
• Personennamen, Familiennamen, aber auch Namen von fiktiven
Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“)
• ORGANISATION:
• Bezeichnungen von Firmen, Regierungs- oder Nicht-
Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
• ORT:
• Städte, Provinzen, Länder, Gebiete, usw.
(„Paris“, „Südtirol“, „Alpen“)
3
4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
NER (I)
4
1. Erkennen von Personennamen, Ortsbezeichnungen,
Organisationen im Volltext
5. NER (II)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
5
2. Disambiguieren von Begriffen (Beispiel “Jordan”)
durch Kontextinformationen
6. NER (III)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
6
3. Verlinkung mit Normdaten und Online Datenquellen
(Linked Data)
7. Sprachunterstützung
3 Sprachen:
• Deutsch
• Niederländisch
• Französisch
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
7
8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Ansatz
• Machine learning vs. Regelbasierter (rule-based) Ansatz
• Vorteile Machine-learning:
• Keine (quasi) linguistische Expertise notwendig
• Verarbeitung von großen Mengen möglich
• Vorteile Regelbasiert:
• Sehr hohe Genauigkeiten möglich
• Berücksichtigung spezieller Grammatiken
8
9. Software
• Open Source ML Software entwickelt durch die Stanford
Universität, für das Europeana Newspapers Projekt
erweitert durch die KBNL
• Software steht auf Github zum Herunterladen und
Ausprobieren bereit:
https://github.com/KBNLresearch/europeananp-ner
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
9
10. Training
• Trainieren des NER Systems mit Hilfe von manuell
annotierten Korpora
• Veröffentlichung des annotierten Korpus als Open Data
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
10
11. Probleme und Herausforderungen
• OCR Fehler reduzieren die Genauigkeit der Erkennung
und verlangsamen die Verarbeitung
• Historische Schreibvarianten für Orts- und Personennamen
• In vielen Fällen sind die historischen Bezeichnungen oder
Schreibvarianten nicht in entsprechenden Normdatenbanken
nachgewiesen
Anpassungen der Software für OCR Problematik
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
11
12. Erste Resultate: Niederländisch
Personen Orte Organisationen
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
12
Precision 0.940 0.950 0.942
Recall 0.588 0.760 0.559
F-measure 0.689 0.838 0.671
13. Warum überhaupt Named Entity Recognition?
• Beispiel Analyse von Logfiles der National Library of Wales:
9 von 10 Suchanfragen entfallen auf Personen oder Orte
(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log
Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
13
14. Beispiel für die Präsentation aus Nutzersicht: Digi20
• Digi20 Projekt der BSB
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
14
http://digi20.digitale-sammlungen.de/
15. Danke für Ihre Aufmerksamkeit!
Grazie per la vostra attenzione!
@eurnews
http://www.europeana-newspapers.eu
http://www.theeuropeanlibrary.org/tel4/newspapers
http://www.europeana.eu/