SlideShare ist ein Scribd-Unternehmen logo
1 von 15
Downloaden Sie, um offline zu lesen
Bessere Suchergebnisse durch Named Entity Recognition 
Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale 
27.10.2014 EURAC Bozen / Bolzano 
Clemens Neudecker, State Library Berlin 
@cneudecker
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
2 
Was ist eigentlich „Named Entity Recognition“? 
•Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden. 
•Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten. 
•Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Oder: Was ist eigentlich ein „Named Entity“? 
• PERSON: 
•Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“) 
• ORGANISATION: 
•Bezeichnungen von Firmen, Regierungs- oder Nicht- Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“) 
• ORT: 
•Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“) 
3
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
NER (I) 
4 
1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
NER (II) 
5 
2. Disambiguieren von Begriffen (Beispiel “Jordan”) 
durch Kontextinformationen
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
NER (III) 
6 
3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Sprachunterstützung 
3 Sprachen: 
• Deutsch 
• Niederländisch 
• Französisch 
7
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Ansatz 
•Machine learning vs. Regelbasierter (rule-based) Ansatz 
•Vorteile Machine-learning: 
•Keine (quasi) linguistische Expertise notwendig 
•Verarbeitung von großen Mengen möglich 
•Vorteile Regelbasiert: 
•Sehr hohe Genauigkeiten möglich 
•Berücksichtigung spezieller Grammatiken 
8
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Software 
• Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL 
• Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner 
9
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Training 
•Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora 
• Veröffentlichung des annotierten Korpus als Open Data 
10
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Probleme und Herausforderungen 
•OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung 
•Historische Schreibvarianten für Orts- und Personennamen 
•In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen 
 Anpassungen der Software für OCR Problematik 
11
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Erste Resultate: Niederländisch 
12 
Personen 
Orte 
Organisationen 
Precision 
0.940 
0.950 
0.942 
Recall 
0.588 
0.760 
0.559 
F-measure 
0.689 
0.838 
0.671
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Warum überhaupt Named Entity Recognition? 
•Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte 
(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne) 
13
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 
Beispiel für die Präsentation aus Nutzersicht: Digi20 
•Digi20 Projekt der BSB 
14 
http://digi20.digitale-sammlungen.de/
Danke für Ihre Aufmerksamkeit! 
Grazie per la vostra attenzione! 
@eurnews 
http://www.europeana-newspapers.eu 
http://www.theeuropeanlibrary.org/tel4/newspapers 
http://www.europeana.eu/

Weitere ähnliche Inhalte

Was ist angesagt?

Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers
 

Was ist angesagt? (14)

Dr. Emmanuel Glenck (FFG)
Dr. Emmanuel Glenck (FFG)Dr. Emmanuel Glenck (FFG)
Dr. Emmanuel Glenck (FFG)
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)
 
ENP_ONB_infoday_Neudecker
ENP_ONB_infoday_NeudeckerENP_ONB_infoday_Neudecker
ENP_ONB_infoday_Neudecker
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
Parlamentarische Gruppe Digitale Nachhaltigkeit Intro
Parlamentarische Gruppe Digitale Nachhaltigkeit IntroParlamentarische Gruppe Digitale Nachhaltigkeit Intro
Parlamentarische Gruppe Digitale Nachhaltigkeit Intro
 
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und ChancenDigitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
 
Linked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta LaunchLinked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta Launch
 
MinRat. Dr. Robert Kristöfl (BMUKK), Mag. Daniel Kobelt (Schiessel)
MinRat. Dr. Robert Kristöfl (BMUKK), Mag. Daniel Kobelt (Schiessel)MinRat. Dr. Robert Kristöfl (BMUKK), Mag. Daniel Kobelt (Schiessel)
MinRat. Dr. Robert Kristöfl (BMUKK), Mag. Daniel Kobelt (Schiessel)
 
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
 
DMA Ignite Night - BMVIT
DMA Ignite Night - BMVITDMA Ignite Night - BMVIT
DMA Ignite Night - BMVIT
 
Transfer informationswissenschaftlicher Fachkompetenz in die Praxis: Erfahrun...
Transfer informationswissenschaftlicher Fachkompetenz in die Praxis: Erfahrun...Transfer informationswissenschaftlicher Fachkompetenz in die Praxis: Erfahrun...
Transfer informationswissenschaftlicher Fachkompetenz in die Praxis: Erfahrun...
 
Open Access in Museen. Vorteile der Offenheit und wie Museen mehr Offenheit w...
Open Access in Museen. Vorteile der Offenheit und wie Museen mehr Offenheit w...Open Access in Museen. Vorteile der Offenheit und wie Museen mehr Offenheit w...
Open Access in Museen. Vorteile der Offenheit und wie Museen mehr Offenheit w...
 

Andere mochten auch

Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers
 
Europeana Newspapers project contribution to the freedom of information: find...
Europeana Newspapers project contribution to the freedom of information: find...Europeana Newspapers project contribution to the freedom of information: find...
Europeana Newspapers project contribution to the freedom of information: find...
Europeana Newspapers
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information Day
Europeana Newspapers
 
Europeana Newspaper metadata LIBER2013
Europeana Newspaper metadata LIBER2013Europeana Newspaper metadata LIBER2013
Europeana Newspaper metadata LIBER2013
Europeana Newspapers
 
Ifla 2013 newspapers_kiisa_day2_15082013
Ifla 2013 newspapers_kiisa_day2_15082013Ifla 2013 newspapers_kiisa_day2_15082013
Ifla 2013 newspapers_kiisa_day2_15082013
Europeana Newspapers
 

Andere mochten auch (17)

Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information Day
 
EunewsLDN_Christa_Müller
EunewsLDN_Christa_MüllerEunewsLDN_Christa_Müller
EunewsLDN_Christa_Müller
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday Muehlberger
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality Assessment
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza Atanassova
 
DocWorks Demo
DocWorks DemoDocWorks Demo
DocWorks Demo
 
Europeana Newspapers project contribution to the freedom of information: find...
Europeana Newspapers project contribution to the freedom of information: find...Europeana Newspapers project contribution to the freedom of information: find...
Europeana Newspapers project contribution to the freedom of information: find...
 
EurnewsLDN_Krzysztof_Nichczynski
EurnewsLDN_Krzysztof_NichczynskiEurnewsLDN_Krzysztof_Nichczynski
EurnewsLDN_Krzysztof_Nichczynski
 
Projekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinámProjekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinám
 
Timarit: Iceland's historic newspapers online.
Timarit: Iceland's historic newspapers online.Timarit: Iceland's historic newspapers online.
Timarit: Iceland's historic newspapers online.
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information Day
 
Europeana Newspaper metadata LIBER2013
Europeana Newspaper metadata LIBER2013Europeana Newspaper metadata LIBER2013
Europeana Newspaper metadata LIBER2013
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred Puss
 
ENP Belgrade WS OLR @ CCS
ENP Belgrade WS OLR @ CCSENP Belgrade WS OLR @ CCS
ENP Belgrade WS OLR @ CCS
 
Europeana Newspapers Project
Europeana Newspapers ProjectEuropeana Newspapers Project
Europeana Newspapers Project
 
Utilising Webometric Data from Online Digitised Newspaper Collections
Utilising Webometric Data from Online Digitised Newspaper CollectionsUtilising Webometric Data from Online Digitised Newspaper Collections
Utilising Webometric Data from Online Digitised Newspaper Collections
 
Ifla 2013 newspapers_kiisa_day2_15082013
Ifla 2013 newspapers_kiisa_day2_15082013Ifla 2013 newspapers_kiisa_day2_15082013
Ifla 2013 newspapers_kiisa_day2_15082013
 

Ähnlich wie Europeana Newpapers LFT Infoday Neudecker

scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid® scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM GmbH Knowledge Management
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
Max Kaiser
 
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceBSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
IMPACT Centre of Competence
 
Joachim Schonowski MSG Group DIN SPEC PAS 91607_- Standards_v01.pdf
Joachim Schonowski MSG Group DIN SPEC PAS 91607_- Standards_v01.pdfJoachim Schonowski MSG Group DIN SPEC PAS 91607_- Standards_v01.pdf
Joachim Schonowski MSG Group DIN SPEC PAS 91607_- Standards_v01.pdf
FIWARE
 
Pivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AGPivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AG
VMware Tanzu
 

Ähnlich wie Europeana Newpapers LFT Infoday Neudecker (20)

Nachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche BeschaffungenNachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche Beschaffungen
 
Dipl.-Ing. Christoph Raber (BMWA)
Dipl.-Ing. Christoph Raber (BMWA)Dipl.-Ing. Christoph Raber (BMWA)
Dipl.-Ing. Christoph Raber (BMWA)
 
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
 
BMVIT & Data Market Austria
BMVIT & Data Market AustriaBMVIT & Data Market Austria
BMVIT & Data Market Austria
 
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid® scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
 
E Government Weiterbildung
E Government WeiterbildungE Government Weiterbildung
E Government Weiterbildung
 
INDUSTRIE 4.0 - INSTANDHALTUNG 4.0
INDUSTRIE 4.0 - INSTANDHALTUNG 4.0INDUSTRIE 4.0 - INSTANDHALTUNG 4.0
INDUSTRIE 4.0 - INSTANDHALTUNG 4.0
 
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaDer Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
 
Fortbildung zum EU-Projektmanager-Drittmittel-Referenten
Fortbildung zum EU-Projektmanager-Drittmittel-ReferentenFortbildung zum EU-Projektmanager-Drittmittel-Referenten
Fortbildung zum EU-Projektmanager-Drittmittel-Referenten
 
Grosse Projekte in der Wissenschaft am Beispiel von NextGEOSS
Grosse Projekte in der Wissenschaft am Beispiel von NextGEOSSGrosse Projekte in der Wissenschaft am Beispiel von NextGEOSS
Grosse Projekte in der Wissenschaft am Beispiel von NextGEOSS
 
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
KMU-innovativ: Vorfahrt für Spitzenforschung im Mittelstand
KMU-innovativ: Vorfahrt für Spitzenforschung im MittelstandKMU-innovativ: Vorfahrt für Spitzenforschung im Mittelstand
KMU-innovativ: Vorfahrt für Spitzenforschung im Mittelstand
 
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceBSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
 
Joachim Schonowski MSG Group DIN SPEC PAS 91607_- Standards_v01.pdf
Joachim Schonowski MSG Group DIN SPEC PAS 91607_- Standards_v01.pdfJoachim Schonowski MSG Group DIN SPEC PAS 91607_- Standards_v01.pdf
Joachim Schonowski MSG Group DIN SPEC PAS 91607_- Standards_v01.pdf
 
Das Programm KMU-innovativ vom BMBF
Das Programm KMU-innovativ vom BMBFDas Programm KMU-innovativ vom BMBF
Das Programm KMU-innovativ vom BMBF
 
Pivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AGPivotal Digital Transformation Forum: Fraport AG
Pivotal Digital Transformation Forum: Fraport AG
 
Industriepraktikum_ Unterstützung bei Projekten in der Automatisierung.pdf
Industriepraktikum_ Unterstützung bei Projekten in der Automatisierung.pdfIndustriepraktikum_ Unterstützung bei Projekten in der Automatisierung.pdf
Industriepraktikum_ Unterstützung bei Projekten in der Automatisierung.pdf
 
Dr. Lutz P. Michel: Vernetzung und Aktivierung als Strategie – Lessons Learnt...
Dr. Lutz P. Michel: Vernetzung und Aktivierung als Strategie – Lessons Learnt...Dr. Lutz P. Michel: Vernetzung und Aktivierung als Strategie – Lessons Learnt...
Dr. Lutz P. Michel: Vernetzung und Aktivierung als Strategie – Lessons Learnt...
 
USECON RoX 2015: Experience Trends
USECON RoX 2015: Experience TrendsUSECON RoX 2015: Experience Trends
USECON RoX 2015: Experience Trends
 

Mehr von Europeana Newspapers

Mehr von Europeana Newspapers (20)

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information Day
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information Day
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information Day
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information Day
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne Kouts
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel Veimann
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista Kiisa
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista Aru
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday Thompson
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday Rossi
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday Messina
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday Marchetti
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday Kempf
 
Europeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday Genereux
 
Europeana Newspapers LFT Infoday Bolioli
Europeana Newspapers LFT Infoday BolioliEuropeana Newspapers LFT Infoday Bolioli
Europeana Newspapers LFT Infoday Bolioli
 
ENP_Dutch_Infoday_MWillems
ENP_Dutch_Infoday_MWillemsENP_Dutch_Infoday_MWillems
ENP_Dutch_Infoday_MWillems
 
ENP_Dutch_Infoday_LWilms
ENP_Dutch_Infoday_LWilmsENP_Dutch_Infoday_LWilms
ENP_Dutch_Infoday_LWilms
 
ENP_Dutch_Infoday_PHuijnen
ENP_Dutch_Infoday_PHuijnen ENP_Dutch_Infoday_PHuijnen
ENP_Dutch_Infoday_PHuijnen
 
ENP_Dutch_Infoday_SKruizinga
ENP_Dutch_Infoday_SKruizingaENP_Dutch_Infoday_SKruizinga
ENP_Dutch_Infoday_SKruizinga
 

Europeana Newpapers LFT Infoday Neudecker

  • 1. Bessere Suchergebnisse durch Named Entity Recognition Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale 27.10.2014 EURAC Bozen / Bolzano Clemens Neudecker, State Library Berlin @cneudecker
  • 2. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2 Was ist eigentlich „Named Entity Recognition“? •Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden. •Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten. •Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme.
  • 3. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Oder: Was ist eigentlich ein „Named Entity“? • PERSON: •Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“) • ORGANISATION: •Bezeichnungen von Firmen, Regierungs- oder Nicht- Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“) • ORT: •Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“) 3
  • 4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (I) 4 1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext
  • 5. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (II) 5 2. Disambiguieren von Begriffen (Beispiel “Jordan”) durch Kontextinformationen
  • 6. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (III) 6 3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)
  • 7. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Sprachunterstützung 3 Sprachen: • Deutsch • Niederländisch • Französisch 7
  • 8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Ansatz •Machine learning vs. Regelbasierter (rule-based) Ansatz •Vorteile Machine-learning: •Keine (quasi) linguistische Expertise notwendig •Verarbeitung von großen Mengen möglich •Vorteile Regelbasiert: •Sehr hohe Genauigkeiten möglich •Berücksichtigung spezieller Grammatiken 8
  • 9. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Software • Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL • Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner 9
  • 10. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Training •Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora • Veröffentlichung des annotierten Korpus als Open Data 10
  • 11. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Probleme und Herausforderungen •OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung •Historische Schreibvarianten für Orts- und Personennamen •In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen  Anpassungen der Software für OCR Problematik 11
  • 12. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Erste Resultate: Niederländisch 12 Personen Orte Organisationen Precision 0.940 0.950 0.942 Recall 0.588 0.760 0.559 F-measure 0.689 0.838 0.671
  • 13. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Warum überhaupt Named Entity Recognition? •Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte (Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne) 13
  • 14. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Beispiel für die Präsentation aus Nutzersicht: Digi20 •Digi20 Projekt der BSB 14 http://digi20.digitale-sammlungen.de/
  • 15. Danke für Ihre Aufmerksamkeit! Grazie per la vostra attenzione! @eurnews http://www.europeana-newspapers.eu http://www.theeuropeanlibrary.org/tel4/newspapers http://www.europeana.eu/