Bessere Suchergebnisse durch Named Entity Recognition 
Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale 
27.10.2014 EURAC Bozen / Bolzano 
Clemens Neudecker, State Library Berlin 
@cneudecker
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
2 
Was ist eigentlich „Named Entity Recognition“? 
•Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden. 
•Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten. 
•Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Oder: Was ist eigentlich ein „Named Entity“? 
• PERSON: 
•Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“) 
• ORGANISATION: 
•Bezeichnungen von Firmen, Regierungs- oder Nicht- Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“) 
• ORT: 
•Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“) 
3
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
NER (I) 
4 
1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
NER (II) 
5 
2. Disambiguieren von Begriffen (Beispiel “Jordan”) 
durch Kontextinformationen
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
NER (III) 
6 
3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Sprachunterstützung 
3 Sprachen: 
• Deutsch 
• Niederländisch 
• Französisch 
7
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Ansatz 
•Machine learning vs. Regelbasierter (rule-based) Ansatz 
•Vorteile Machine-learning: 
•Keine (quasi) linguistische Expertise notwendig 
•Verarbeitung von großen Mengen möglich 
•Vorteile Regelbasiert: 
•Sehr hohe Genauigkeiten möglich 
•Berücksichtigung spezieller Grammatiken 
8
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Software 
• Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL 
• Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner 
9
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Training 
•Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora 
• Veröffentlichung des annotierten Korpus als Open Data 
10
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Probleme und Herausforderungen 
•OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung 
•Historische Schreibvarianten für Orts- und Personennamen 
•In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen 
 Anpassungen der Software für OCR Problematik 
11
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Erste Resultate: Niederländisch 
12 
Personen 
Orte 
Organisationen 
Precision 
0.940 
0.950 
0.942 
Recall 
0.588 
0.760 
0.559 
F-measure 
0.689 
0.838 
0.671
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Warum überhaupt Named Entity Recognition? 
•Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte 
(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne) 
13
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Beispiel für die Präsentation aus Nutzersicht: Digi20 
•Digi20 Projekt der BSB 
14 
http://digi20.digitale-sammlungen.de/
Danke für Ihre Aufmerksamkeit! 
Grazie per la vostra attenzione! 
@eurnews 
http://www.europeana-newspapers.eu 
http://www.theeuropeanlibrary.org/tel4/newspapers 
http://www.europeana.eu/

Europeana Newpapers LFT Infoday Neudecker

  • 1.
    Bessere Suchergebnisse durchNamed Entity Recognition Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale 27.10.2014 EURAC Bozen / Bolzano Clemens Neudecker, State Library Berlin @cneudecker
  • 2.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2 Was ist eigentlich „Named Entity Recognition“? •Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden. •Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten. •Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.
  • 3.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Oder: Was ist eigentlich ein „Named Entity“? • PERSON: •Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“) • ORGANISATION: •Bezeichnungen von Firmen, Regierungs- oder Nicht- Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“) • ORT: •Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“) 3
  • 4.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (I) 4 1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext
  • 5.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (II) 5 2. Disambiguieren von Begriffen (Beispiel “Jordan”) durch Kontextinformationen
  • 6.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (III) 6 3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)
  • 7.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Sprachunterstützung 3 Sprachen: • Deutsch • Niederländisch • Französisch 7
  • 8.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Ansatz •Machine learning vs. Regelbasierter (rule-based) Ansatz •Vorteile Machine-learning: •Keine (quasi) linguistische Expertise notwendig •Verarbeitung von großen Mengen möglich •Vorteile Regelbasiert: •Sehr hohe Genauigkeiten möglich •Berücksichtigung spezieller Grammatiken 8
  • 9.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Software • Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL • Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner 9
  • 10.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Training •Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora • Veröffentlichung des annotierten Korpus als Open Data 10
  • 11.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Probleme und Herausforderungen •OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung •Historische Schreibvarianten für Orts- und Personennamen •In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen  Anpassungen der Software für OCR Problematik 11
  • 12.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Erste Resultate: Niederländisch 12 Personen Orte Organisationen Precision 0.940 0.950 0.942 Recall 0.588 0.760 0.559 F-measure 0.689 0.838 0.671
  • 13.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Warum überhaupt Named Entity Recognition? •Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte (Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne) 13
  • 14.
    This project ispartially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Beispiel für die Präsentation aus Nutzersicht: Digi20 •Digi20 Projekt der BSB 14 http://digi20.digitale-sammlungen.de/
  • 15.
    Danke für IhreAufmerksamkeit! Grazie per la vostra attenzione! @eurnews http://www.europeana-newspapers.eu http://www.theeuropeanlibrary.org/tel4/newspapers http://www.europeana.eu/