SlideShare ist ein Scribd-Unternehmen logo
1 von 15
Bessere Suchergebnisse durch 
Named Entity Recognition 
Historische Zeitungen im digitalen Zeitalter / 
I giornali storici nell’era digitale 
27.10.2014 
EURAC Bozen / Bolzano 
Clemens Neudecker, State Library Berlin 
@cneudecker
Was ist eigentlich „Named Entity Recognition“? 
• Named Entity Recognition (NER) ist ein Untergebiet der 
Informationsextraktion (Information Extraction) und wird 
allgemein als Aufgabe der Computerlinguistik verstanden. 
• Es geht dabei um die automatische Extraktion von 
Wissen bzw. die Klassifikation von Information aus 
semantisch unstrukturierten Inhalten. 
• Bei der NER handelt es sich durchaus noch um ein 
akademisches Forschungsfeld (vgl. Google/MSR 
Competition) – praktische Anwendungsbeispiele aus 
dem Kultur- sowie Digitalisierungsumfeld sind bisher 
noch die Ausnahme. 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 2
Oder: Was ist eigentlich ein „Named Entity“? 
• PERSON: 
• Personennamen, Familiennamen, aber auch Namen von fiktiven 
Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“) 
• ORGANISATION: 
• Bezeichnungen von Firmen, Regierungs- oder Nicht- 
Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
• ORT: 
• Städte, Provinzen, Länder, Gebiete, usw. 
(„Paris“, „Südtirol“, „Alpen“) 
3
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
NER (I) 
4 
1. Erkennen von Personennamen, Ortsbezeichnungen, 
Organisationen im Volltext
NER (II) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
5 
2. Disambiguieren von Begriffen (Beispiel “Jordan”) 
durch Kontextinformationen
NER (III) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
6 
3. Verlinkung mit Normdaten und Online Datenquellen 
(Linked Data)
Sprachunterstützung 
3 Sprachen: 
• Deutsch 
• Niederländisch 
• Französisch 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
7
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
Ansatz 
• Machine learning vs. Regelbasierter (rule-based) Ansatz 
• Vorteile Machine-learning: 
• Keine (quasi) linguistische Expertise notwendig 
• Verarbeitung von großen Mengen möglich 
• Vorteile Regelbasiert: 
• Sehr hohe Genauigkeiten möglich 
• Berücksichtigung spezieller Grammatiken 
8
Software 
• Open Source ML Software entwickelt durch die Stanford 
Universität, für das Europeana Newspapers Projekt 
erweitert durch die KBNL 
• Software steht auf Github zum Herunterladen und 
Ausprobieren bereit: 
https://github.com/KBNLresearch/europeananp-ner 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
9
Training 
• Trainieren des NER Systems mit Hilfe von manuell 
annotierten Korpora 
• Veröffentlichung des annotierten Korpus als Open Data 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
10
Probleme und Herausforderungen 
• OCR Fehler reduzieren die Genauigkeit der Erkennung 
und verlangsamen die Verarbeitung 
• Historische Schreibvarianten für Orts- und Personennamen 
• In vielen Fällen sind die historischen Bezeichnungen oder 
Schreibvarianten nicht in entsprechenden Normdatenbanken 
nachgewiesen 
 Anpassungen der Software für OCR Problematik 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
11
Erste Resultate: Niederländisch 
Personen Orte Organisationen 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
12 
Precision 0.940 0.950 0.942 
Recall 0.588 0.760 0.559 
F-measure 0.689 0.838 0.671
Warum überhaupt Named Entity Recognition? 
• Beispiel Analyse von Logfiles der National Library of Wales: 
9 von 10 Suchanfragen entfallen auf Personen oder Orte 
(Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log 
Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
13
Beispiel für die Präsentation aus Nutzersicht: Digi20 
• Digi20 Projekt der BSB 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
14 
http://digi20.digitale-sammlungen.de/
Danke für Ihre Aufmerksamkeit! 
Grazie per la vostra attenzione! 
@eurnews 
http://www.europeana-newspapers.eu 
http://www.theeuropeanlibrary.org/tel4/newspapers 
http://www.europeana.eu/

Weitere ähnliche Inhalte

Ähnlich wie Bessere Suchergebnisse durch Named Entity Recognition

Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newspapers
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)joergreichert
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers
 
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaDer Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaHans-Dieter Zimmermann
 
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATMartin Kaltenböck
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 
Nachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche BeschaffungenNachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche BeschaffungenMatthias Stürmer
 
User-Driven Open Source Communities, auch für den Finanzsektor
User-Driven Open Source Communities, auch für den FinanzsektorUser-Driven Open Source Communities, auch für den Finanzsektor
User-Driven Open Source Communities, auch für den FinanzsektorMatthias Stürmer
 
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Martin Kaltenböck
 
Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de...
Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de...Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de...
Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de...Matthias Stürmer
 
Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012)
Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012)Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012)
Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012)OpendataCH
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Martin Kaltenböck
 
BODDy 2014 - Workshop 1: Jens Klessmann
BODDy 2014 - Workshop 1: Jens KlessmannBODDy 2014 - Workshop 1: Jens Klessmann
BODDy 2014 - Workshop 1: Jens KlessmannBerlinOpenDataDay
 
Ubiquitous Microblogging für flexible Informationssysteme
Ubiquitous Microblogging für flexible InformationssystemeUbiquitous Microblogging für flexible Informationssysteme
Ubiquitous Microblogging für flexible InformationssystemeMartin Böhringer
 
Pierre Golz Der Transformationsprozess im Konzern Stadt.pptx
Pierre Golz Der Transformationsprozess im Konzern Stadt.pptxPierre Golz Der Transformationsprozess im Konzern Stadt.pptx
Pierre Golz Der Transformationsprozess im Konzern Stadt.pptxFIWARE
 
Cogneon Praesentation LKS-Forum 2010 Wissensstaedte
Cogneon Praesentation LKS-Forum 2010 WissensstaedteCogneon Praesentation LKS-Forum 2010 Wissensstaedte
Cogneon Praesentation LKS-Forum 2010 WissensstaedteSimon Dueckert
 
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...Becker Hans-Georg
 

Ähnlich wie Bessere Suchergebnisse durch Named Entity Recognition (20)

Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday Neudecker
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality Assessment
 
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaDer Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
 
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische ZeitungenEuropeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
Europeana Newspapers German infoday - Struturelle Metadata historische Zeitungen
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
Nachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche BeschaffungenNachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche Beschaffungen
 
Selbermachen!
Selbermachen! Selbermachen!
Selbermachen!
 
User-Driven Open Source Communities, auch für den Finanzsektor
User-Driven Open Source Communities, auch für den FinanzsektorUser-Driven Open Source Communities, auch für den Finanzsektor
User-Driven Open Source Communities, auch für den Finanzsektor
 
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
 
Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de...
Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de...Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de...
Digitale Nachhaltigkeit in der Informatik: Open Source bei Behörden und in de...
 
Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012)
Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012)Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012)
Wo stehen wir mit Open Government Data in der Schweiz? (Juni 2012)
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
 
BODDy 2014 - Workshop 1: Jens Klessmann
BODDy 2014 - Workshop 1: Jens KlessmannBODDy 2014 - Workshop 1: Jens Klessmann
BODDy 2014 - Workshop 1: Jens Klessmann
 
Ubiquitous Microblogging für flexible Informationssysteme
Ubiquitous Microblogging für flexible InformationssystemeUbiquitous Microblogging für flexible Informationssysteme
Ubiquitous Microblogging für flexible Informationssysteme
 
Pierre Golz Der Transformationsprozess im Konzern Stadt.pptx
Pierre Golz Der Transformationsprozess im Konzern Stadt.pptxPierre Golz Der Transformationsprozess im Konzern Stadt.pptx
Pierre Golz Der Transformationsprozess im Konzern Stadt.pptx
 
Cogneon Praesentation LKS-Forum 2010 Wissensstaedte
Cogneon Praesentation LKS-Forum 2010 WissensstaedteCogneon Praesentation LKS-Forum 2010 Wissensstaedte
Cogneon Praesentation LKS-Forum 2010 Wissensstaedte
 
OKLab Leipzig 2021
OKLab Leipzig 2021OKLab Leipzig 2021
OKLab Leipzig 2021
 
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenzcneudecker
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltextecneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minutencneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshellcneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspaperscneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 

Bessere Suchergebnisse durch Named Entity Recognition

  • 1. Bessere Suchergebnisse durch Named Entity Recognition Historische Zeitungen im digitalen Zeitalter / I giornali storici nell’era digitale 27.10.2014 EURAC Bozen / Bolzano Clemens Neudecker, State Library Berlin @cneudecker
  • 2. Was ist eigentlich „Named Entity Recognition“? • Named Entity Recognition (NER) ist ein Untergebiet der Informationsextraktion (Information Extraction) und wird allgemein als Aufgabe der Computerlinguistik verstanden. • Es geht dabei um die automatische Extraktion von Wissen bzw. die Klassifikation von Information aus semantisch unstrukturierten Inhalten. • Bei der NER handelt es sich durchaus noch um ein akademisches Forschungsfeld (vgl. Google/MSR Competition) – praktische Anwendungsbeispiele aus dem Kultur- sowie Digitalisierungsumfeld sind bisher noch die Ausnahme. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2
  • 3. Oder: Was ist eigentlich ein „Named Entity“? • PERSON: • Personennamen, Familiennamen, aber auch Namen von fiktiven Personen („Albert Einstein“, „Präsident der USA“, „Micky Maus“) • ORGANISATION: • Bezeichnungen von Firmen, Regierungs- oder Nicht- Regierungsorganisationen („IBM“, „The Beatles“, „Labour Party“) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp • ORT: • Städte, Provinzen, Länder, Gebiete, usw. („Paris“, „Südtirol“, „Alpen“) 3
  • 4. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp NER (I) 4 1. Erkennen von Personennamen, Ortsbezeichnungen, Organisationen im Volltext
  • 5. NER (II) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 5 2. Disambiguieren von Begriffen (Beispiel “Jordan”) durch Kontextinformationen
  • 6. NER (III) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 6 3. Verlinkung mit Normdaten und Online Datenquellen (Linked Data)
  • 7. Sprachunterstützung 3 Sprachen: • Deutsch • Niederländisch • Französisch This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 7
  • 8. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp Ansatz • Machine learning vs. Regelbasierter (rule-based) Ansatz • Vorteile Machine-learning: • Keine (quasi) linguistische Expertise notwendig • Verarbeitung von großen Mengen möglich • Vorteile Regelbasiert: • Sehr hohe Genauigkeiten möglich • Berücksichtigung spezieller Grammatiken 8
  • 9. Software • Open Source ML Software entwickelt durch die Stanford Universität, für das Europeana Newspapers Projekt erweitert durch die KBNL • Software steht auf Github zum Herunterladen und Ausprobieren bereit: https://github.com/KBNLresearch/europeananp-ner This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 9
  • 10. Training • Trainieren des NER Systems mit Hilfe von manuell annotierten Korpora • Veröffentlichung des annotierten Korpus als Open Data This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 10
  • 11. Probleme und Herausforderungen • OCR Fehler reduzieren die Genauigkeit der Erkennung und verlangsamen die Verarbeitung • Historische Schreibvarianten für Orts- und Personennamen • In vielen Fällen sind die historischen Bezeichnungen oder Schreibvarianten nicht in entsprechenden Normdatenbanken nachgewiesen  Anpassungen der Software für OCR Problematik This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 11
  • 12. Erste Resultate: Niederländisch Personen Orte Organisationen This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 12 Precision 0.940 0.950 0.942 Recall 0.588 0.760 0.559 F-measure 0.689 0.838 0.671
  • 13. Warum überhaupt Named Entity Recognition? • Beispiel Analyse von Logfiles der National Library of Wales: 9 von 10 Suchanfragen entfallen auf Personen oder Orte (Quelle: Paul Gooding, Exploring Usage of Digital Newspaper Archives through Web Log Analysis: A Case Study of Welsh Newspapers Online, presented at DH2014, Lausanne) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13
  • 14. Beispiel für die Präsentation aus Nutzersicht: Digi20 • Digi20 Projekt der BSB This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14 http://digi20.digitale-sammlungen.de/
  • 15. Danke für Ihre Aufmerksamkeit! Grazie per la vostra attenzione! @eurnews http://www.europeana-newspapers.eu http://www.theeuropeanlibrary.org/tel4/newspapers http://www.europeana.eu/