SlideShare ist ein Scribd-Unternehmen logo
1 von 15
Downloaden Sie, um offline zu lesen
Bessere Suchergebnisse durch Named Entity Recognition 
Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale 
27.10.2014 EURAC Bozen / Bolzano 
Clemens Neudecker, State Library Berlin 
@cneudecker
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
2 
Was ist eigentlich „Named Entity Recognition“? 
•Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden. 
•Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten. 
•Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Oder: Was ist eigentlich ein „Named Entity“? 
• PERSON: 
•Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“) 
• ORGANISATION: 
•Bezeichnungen von Firmen, Regierungs- oder Nicht- Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“) 
• ORT: 
•Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“) 
3
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
NER (I) 
4 
1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
NER (II) 
5 
2. Disambiguieren von Begriffen (Beispiel “Jordan”) 
durch Kontextinformationen
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
NER (III) 
6 
3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Sprachunterstützung 
3 Sprachen: 
• Deutsch 
• Niederländisch 
• Französisch 
7
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Ansatz 
•Machine learning vs. Regelbasierter (rule-based) Ansatz 
•Vorteile Machine-learning: 
•Keine (quasi) linguistische Expertise notwendig 
•Verarbeitung von großen Mengen möglich 
•Vorteile Regelbasiert: 
•Sehr hohe Genauigkeiten möglich 
•Berücksichtigung spezieller Grammatiken 
8
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Software 
• Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL 
• Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner 
9
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Training 
•Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora 
• Veröffentlichung des annotierten Korpus als Open Data 
10
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Probleme und Herausforderungen 
•OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung 
•Historische Schreibvarianten für Orts- und Personennamen 
•In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen 
 Anpassungen der Software für OCR Problematik 
11
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Erste Resultate: Niederländisch 
12 
Personen 
Orte 
Organisationen 
Precision 
0.940 
0.950 
0.942 
Recall 
0.588 
0.760 
0.559 
F-measure 
0.689 
0.838 
0.671
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Warum überhaupt Named Entity Recognition? 
•Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte 
(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne) 
13
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Beispiel für die Präsentation aus Nutzersicht: Digi20 
•Digi20 Projekt der BSB 
14 
http://digi20.digitale-sammlungen.de/
Danke für Ihre Aufmerksamkeit! 
Grazie per la vostra attenzione! 
@eurnews 
http://www.europeana-newspapers.eu 
http://www.theeuropeanlibrary.org/tel4/newspapers 
http://www.europeana.eu/

Weitere ähnliche Inhalte

Andere mochten auch

ENP Belgrade Workshop Project Overview
ENP Belgrade Workshop Project OverviewENP Belgrade Workshop Project Overview
ENP Belgrade Workshop Project OverviewEuropeana Newspapers
 
Europeana Newspapers - evropská brána k digitálním novinovým sbírkám
Europeana Newspapers - evropská brána k digitálním novinovým sbírkámEuropeana Newspapers - evropská brána k digitálním novinovým sbírkám
Europeana Newspapers - evropská brána k digitálním novinovým sbírkámEuropeana Newspapers
 
The Europeana Newspapers Project at IMPACT Final Event
The Europeana Newspapers Project at IMPACT Final EventThe Europeana Newspapers Project at IMPACT Final Event
The Europeana Newspapers Project at IMPACT Final EventEuropeana Newspapers
 
Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...
Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...
Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...Europeana Newspapers
 
The Europeana Newspapers Presentation - Cyberspace 2012
The Europeana Newspapers Presentation - Cyberspace 2012The Europeana Newspapers Presentation - Cyberspace 2012
The Europeana Newspapers Presentation - Cyberspace 2012Europeana Newspapers
 

Andere mochten auch (6)

ENP Belgrade Workshop Project Overview
ENP Belgrade Workshop Project OverviewENP Belgrade Workshop Project Overview
ENP Belgrade Workshop Project Overview
 
Europeana Newspapers - evropská brána k digitálním novinovým sbírkám
Europeana Newspapers - evropská brána k digitálním novinovým sbírkámEuropeana Newspapers - evropská brána k digitálním novinovým sbírkám
Europeana Newspapers - evropská brána k digitálním novinovým sbírkám
 
EurnewsLDN_Satu_Kangas
EurnewsLDN_Satu_KangasEurnewsLDN_Satu_Kangas
EurnewsLDN_Satu_Kangas
 
The Europeana Newspapers Project at IMPACT Final Event
The Europeana Newspapers Project at IMPACT Final EventThe Europeana Newspapers Project at IMPACT Final Event
The Europeana Newspapers Project at IMPACT Final Event
 
Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...
Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...
Europeana Newspapers German infoday - Digitale Zeitungsarchive als Quellen (d...
 
The Europeana Newspapers Presentation - Cyberspace 2012
The Europeana Newspapers Presentation - Cyberspace 2012The Europeana Newspapers Presentation - Cyberspace 2012
The Europeana Newspapers Presentation - Cyberspace 2012
 

Ähnlich wie Enp lft infoday_neudecker

Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATMartin Kaltenböck
 
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers
 
Nachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche BeschaffungenNachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche BeschaffungenMatthias Stürmer
 
Linked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta LaunchLinked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta LaunchMartin Kaltenböck
 
Dipl.-Ing. Christoph Raber (BMWA)
Dipl.-Ing. Christoph Raber (BMWA)Dipl.-Ing. Christoph Raber (BMWA)
Dipl.-Ing. Christoph Raber (BMWA)Praxistage
 
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)Praxistage
 
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid® scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid® scopeKM GmbH Knowledge Management
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)joergreichert
 
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaDer Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaHans-Dieter Zimmermann
 
Fortbildung zum EU-Projektmanager-Drittmittel-Referenten
Fortbildung zum EU-Projektmanager-Drittmittel-ReferentenFortbildung zum EU-Projektmanager-Drittmittel-Referenten
Fortbildung zum EU-Projektmanager-Drittmittel-ReferentenMichael Seidler
 
Grosse Projekte in der Wissenschaft am Beispiel von NextGEOSS
Grosse Projekte in der Wissenschaft am Beispiel von NextGEOSSGrosse Projekte in der Wissenschaft am Beispiel von NextGEOSS
Grosse Projekte in der Wissenschaft am Beispiel von NextGEOSSWolfgang Ksoll
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Martin Kaltenböck
 
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Martin Kaltenböck
 

Ähnlich wie Enp lft infoday_neudecker (20)

Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality Assessment
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
 
Nachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche BeschaffungenNachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche Beschaffungen
 
Linked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta LaunchLinked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta Launch
 
Dipl.-Ing. Christoph Raber (BMWA)
Dipl.-Ing. Christoph Raber (BMWA)Dipl.-Ing. Christoph Raber (BMWA)
Dipl.-Ing. Christoph Raber (BMWA)
 
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
 
BMVIT & Data Market Austria
BMVIT & Data Market AustriaBMVIT & Data Market Austria
BMVIT & Data Market Austria
 
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid® scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
 
E Government Weiterbildung
E Government WeiterbildungE Government Weiterbildung
E Government Weiterbildung
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)
 
DMA Ignite Night - BMVIT
DMA Ignite Night - BMVITDMA Ignite Night - BMVIT
DMA Ignite Night - BMVIT
 
INDUSTRIE 4.0 - INSTANDHALTUNG 4.0
INDUSTRIE 4.0 - INSTANDHALTUNG 4.0INDUSTRIE 4.0 - INSTANDHALTUNG 4.0
INDUSTRIE 4.0 - INSTANDHALTUNG 4.0
 
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaDer Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
 
Fortbildung zum EU-Projektmanager-Drittmittel-Referenten
Fortbildung zum EU-Projektmanager-Drittmittel-ReferentenFortbildung zum EU-Projektmanager-Drittmittel-Referenten
Fortbildung zum EU-Projektmanager-Drittmittel-Referenten
 
Grosse Projekte in der Wissenschaft am Beispiel von NextGEOSS
Grosse Projekte in der Wissenschaft am Beispiel von NextGEOSSGrosse Projekte in der Wissenschaft am Beispiel von NextGEOSS
Grosse Projekte in der Wissenschaft am Beispiel von NextGEOSS
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
 
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
 

Mehr von Europeana Newspapers

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisEuropeana Newspapers
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayEuropeana Newspapers
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayEuropeana Newspapers
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayEuropeana Newspapers
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayEuropeana Newspapers
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayEuropeana Newspapers
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayEuropeana Newspapers
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers
 

Mehr von Europeana Newspapers (20)

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information Day
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information Day
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information Day
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information Day
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information Day
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information Day
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza Atanassova
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne Kouts
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel Veimann
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista Kiisa
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista Aru
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred Puss
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday Neudecker
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday Thompson
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday Rossi
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday Muehlberger
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday Messina
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday Marchetti
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday Kempf
 

Enp lft infoday_neudecker

  • 1. Bessere Suchergebnisse durch Named Entity Recognition Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale 27.10.2014 EURAC Bozen / Bolzano Clemens Neudecker, State Library Berlin @cneudecker
  • 2. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2 Was ist eigentlich „Named Entity Recognition“? •Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden. •Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten. •Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.
  • 3. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Oder: Was ist eigentlich ein „Named Entity“? • PERSON: •Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“) • ORGANISATION: •Bezeichnungen von Firmen, Regierungs- oder Nicht- Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“) • ORT: •Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“) 3
  • 4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (I) 4 1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext
  • 5. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (II) 5 2. Disambiguieren von Begriffen (Beispiel “Jordan”) durch Kontextinformationen
  • 6. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (III) 6 3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)
  • 7. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Sprachunterstützung 3 Sprachen: • Deutsch • Niederländisch • Französisch 7
  • 8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Ansatz •Machine learning vs. Regelbasierter (rule-based) Ansatz •Vorteile Machine-learning: •Keine (quasi) linguistische Expertise notwendig •Verarbeitung von großen Mengen möglich •Vorteile Regelbasiert: •Sehr hohe Genauigkeiten möglich •Berücksichtigung spezieller Grammatiken 8
  • 9. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Software • Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL • Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner 9
  • 10. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Training •Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora • Veröffentlichung des annotierten Korpus als Open Data 10
  • 11. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Probleme und Herausforderungen •OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung •Historische Schreibvarianten für Orts- und Personennamen •In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen  Anpassungen der Software für OCR Problematik 11
  • 12. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Erste Resultate: Niederländisch 12 Personen Orte Organisationen Precision 0.940 0.950 0.942 Recall 0.588 0.760 0.559 F-measure 0.689 0.838 0.671
  • 13. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Warum überhaupt Named Entity Recognition? •Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte (Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne) 13
  • 14. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Beispiel für die Präsentation aus Nutzersicht: Digi20 •Digi20 Projekt der BSB 14 http://digi20.digitale-sammlungen.de/
  • 15. Danke für Ihre Aufmerksamkeit! Grazie per la vostra attenzione! @eurnews http://www.europeana-newspapers.eu http://www.theeuropeanlibrary.org/tel4/newspapers http://www.europeana.eu/