Enp lft infoday_neudecker

Bessere Suchergebnisse durch Named Entity Recognition
Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale
27.10.2014 EURAC Bozen / Bolzano
Clemens Neudecker, State Library Berlin
@cneudecker

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
2
Was ist eigentlich „Named Entity Recognition“?
•Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden.
•Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten.
•Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.

Oder: Was ist eigentlich ein „Named Entity“?
• PERSON:
•Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“)
• ORGANISATION:
•Bezeichnungen von Firmen, Regierungs- oder Nicht- Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“)
• ORT:
•Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“)
3

NER (I)
4
1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext

NER (II)
5
2. Disambiguieren von Begriffen (Beispiel “Jordan”)
durch Kontextinformationen

NER (III)
6
3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)

Sprachunterstützung
3 Sprachen:
• Deutsch
• Niederländisch
• Französisch
7

Ansatz
•Machine learning vs. Regelbasierter (rule-based) Ansatz
•Vorteile Machine-learning:
•Keine (quasi) linguistische Expertise notwendig
•Verarbeitung von großen Mengen möglich
•Vorteile Regelbasiert:
•Sehr hohe Genauigkeiten möglich
•Berücksichtigung spezieller Grammatiken
8

Software
• Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL
• Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner
9

Training
•Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora
• Veröffentlichung des annotierten Korpus als Open Data
10

Probleme und Herausforderungen
•OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung
•Historische Schreibvarianten für Orts- und Personennamen
•In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen
 Anpassungen der Software für OCR Problematik
11

Erste Resultate: Niederländisch
12
Personen
Orte
Organisationen
Precision
0.940
0.950
0.942
Recall
0.588
0.760
0.559
F-measure
0.689
0.838
0.671

Warum überhaupt Named Entity Recognition?
•Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte
(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne)
13

Beispiel für die Präsentation aus Nutzersicht: Digi20
•Digi20 Projekt der BSB
14
http://digi20.digitale-sammlungen.de/

Danke für Ihre Aufmerksamkeit!
Grazie per la vostra attenzione!
@eurnews
http://www.europeana-newspapers.eu
http://www.theeuropeanlibrary.org/tel4/newspapers
http://www.europeana.eu/

Enp lft infoday_neudecker

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (6)

Ähnlich wie Enp lft infoday_neudecker

Ähnlich wie Enp lft infoday_neudecker (20)

Mehr von Europeana Newspapers

Mehr von Europeana Newspapers (20)

Enp lft infoday_neudecker