SlideShare ist ein Scribd-Unternehmen logo
1 von 13
OCR-D:
Was wurde bisher erreicht und
wie geht es jetzt weiter?
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
DHd AG Zeitungen & Zeitschriften
OCR - Herausforderungen und Lösungen für Zeitungen & Zeitschriften
Frankfurt am Main, 11. November 2019
Einleitung
• Massendigitalisierung in Bibliotheken hat inzwischen Millionen von
Dokumenten digital als Scans verfügbar gemacht, aber wenig Volltexte
• Trotz vieler Projekte in der Vergangenheit (z.B. IMPACT, eMOP, etc.)
noch immer unzureichende OCR Qualität historischer Drucke für die
Nachnutzung bspw. in den Digital Humanities
• Erhebliche Fortschritte im Bereich Document Analysis und Recognition
durch Verwendung von Deep Learning Verfahren (RNN, CNN, LSTM)
• Deep Learning Verfahren bzw. Modelle erfordern spezifische
Anpassungen auf die Bedarfe von Bibliotheken und die Besonderheiten
historischer Dokumente
 DFG Ausschreibung am 28. Mai 2014
OCR-D Koordinierungsprojekt
• Seit 2015: DFG-Förderung für OCR-D Koordinierungsprojekt
• Koordinierungsprojekt mit 4 Partnern:
• Herzog August Bibliothek Wolfenbüttel
• Berlin-Brandenburgische Akademie der Wissenschaften
• Staatsbibliothek zu Berlin (ab 12/2016)
• Karlsruher Institut für Technologie (ab 08/2017)
• Kernaufgaben des Koordinierungsprojekts:
• Handlungsbedarfe identifizieren und systematisieren (Phase I)
• Technische Anforderungen und Rahmenbedingungen für OCR-Entwicklung
spezifizieren (Phase I)
• Betreuung von OCR-D Softwareentwicklungs-Modulprojekten und
Teststellung der OCR-D Software in Pilotbibliotheken (Phase II)
OCR-D Spezifikationen (1/2)
• Konsequent offene und Community-basierte Entwicklung via GitHub
• OCR-D auf GitHub: https://github.com/OCR-D | https://ocr-d.github.io/
• Chat: https://gitter.im/OCR-D/Lobby
• METS Container (basierend auf den Anforderungen
der DFG-Praxisrichtlinien und des DFG-Viewer)
• METS in OCR-D: https://ocr-d.github.io/mets
• PAGE-XML für OCR Ergebnisse (perspektivisch mit Transformationsszenarien
nach ALTO, TEI)
• PAGE-XML in OCR-D: https://ocr-d.github.io/page
• Taverna Workflow Engine für Prozessketten und Provenance
• Taverna in OCR-D: https://github.com/OCR-D/taverna_workflow
OCR-D Spezifikationen (2/2)
• Kommandozeile als minimale Anforderung für OCR-D Software:
• CLI: https://ocr-d.github.io/cli
• JSON Schema für OCR-D Softwarebeschreibung:
• ocrd-tool.json: https://ocr-d.github.io/ocrd_tool
• ZIP+BagIt für (Ground Truth) Daten:
• OCRD-ZIP: https://ocr-d.github.io/ocrd_zip
• Docker als Container für OCR-D Software:
• Docker: https://ocr-d.github.io/docker
OCR-D Referenzimplementierung
• Konsequente Verwendung von Python3 für alle OCR-D Software
(wenn immer möglich)
• core Referenzimplementierung unterstützt Software-Entwickler und
Anwender mit
• ocrd_utils = logging, path normalization, coordinate calculation etc.
• ocrd_models = file format wrappers for PAGE-XML, METS, EXIF etc.
• ocrd_modelfactory = instantiate models from existing data
• ocrd_validators = validating BagIt, ocrd-tool.json, METS, PAGE, CLI
• https://github.com/OCR-D/core oder https://pypi.org/project/ocrd/
• API docs https://ocr-d.github.io/core/
OCR-D Ground Truth Repository & Daten
• Erstellung von detaillierten Transkriptionsrichtlinien für
Ground Truth Daten mit PAGE-XML
• https://ocr-d.github.io/gt
• Entwicklung eines Repository für Ground Truth Daten
• https://github.com/OCR-D/repository_metastore
• Bereitstellung von Ground Truth Daten aus OCR-D
• https://ocr-d.github.io/gt-repo
• Semantisches Labeling von Ground Truth Daten
• https://github.com/OCR-D/gt-labelling
OCR-D Modulprojekte
• Seit 2017 OCR-D Phase II mit 8 eigenständigen und durch die DFG
geförderten OCR-D Modulprojekten:
• [MP1] Bildoptimierung (DFKI Kaiserslautern)
• [MP2] Layouterkennung (DFKI Kaiserslautern)
• [MP3] Layouterkennung (Uni Würzburg)
• [MP4] Nachkorrektur (Uni Leipzig)
• [MP5] Optimierung von Tesseract OCR (UB Mannheim)
• [MP6] Nachkorrektur (Uni München)
• [MP7] Schriftarterkennung und Trainingsinfrastruktur (Uni Erlangen, Mainz, Leipzig)
• [MP8] Langzeitarchivierung (SUB Göttingen)
• https://ocr-d.github.io/projects
Weitere OCR-D Komponenten
• Zusätzlich Bereitstellung von externer Software mit OCR-D Schnittstellen-
konformität durch OCR-D Koordinierungsprojekt um Lücken in den
Modulprojekten zu schließen bzw. für Vergleiche mit SoTA:
• ocrd_calamari
• ocrd_im6convert
• ocrd_kraken
• ocrd_ocropy
• ocrd_olena
• ocrd_segment
• ocrd_kerasLM
• dinglehopper
• http://kba.cloud/ocrd-kwalitee/
• ocrd_train: Makefile zum Trainieren von Tesseract LSTM
 „Adoptiert“ von Tesseract als https://github.com/tesseract-ocr/tesstrain
OCR-D Einstieg und eigenes Experimentieren
• OCR-D Tutorial der DHd2019
• http://kba.cloud/2019-03-25-dhd/
• OCR-D Setup Guide
• https://ocr-d.github.io/docs/setup-2019-10-27
• OCR-D Chat
• https://gitter.im/OCR-D/Lobby
Sonderfall Zeitungen (& Zeitschriften)
• Qua Beauftragung liegt das Hauptaugenmerk von OCR-D auf den
VD-Digitalisierungsprojekten (VD16, VD17, VD18)
 Keine Arbeiten/Anpassungen in OCR-D spezifisch für
Zeitungen & Zeitschriften!
• Besondere Herausforderungen bei Zeitungen:
• Mehrspaltiges Layout
• Kleine bzw. stark variierende Schriftgrößen
• Komplexe Reihenfolge von Regionen (Artikelseparierung)
• Hoher Anteil an nicht-textuellen Regionen (Bilder, Tabellen, Werbung)
• Niedrige Qualität der Vorlagen bzw. Digitalisate (Papier, Mikrofilm)
Ausblick
• Aktuell größtes Desiderat: Spezielle Layouterkennung für (historische)
Zeitungen & Zeitschriften
• Sind die Textregionen erst ordentlich segmentiert, Verwendung der regulären
OCR-D Softwarekomponenten
• Aktuelle Arbeiten an der SBB im QURATOR Projekt (Code coming soon!)
• Idee: Kombination von Layouterkennung (optische Merkmale) mit NLP
Methoden – z.B. Transformer – (sprachliche Merkmale) um Reihenfolge
der Regionen zu bestimmen
• Ground Truth bzw. Trainingsdaten werden benötigt!
Danke für die Aufmerksamkeit!
Fragen?
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
DHd AG Zeitungen & Zeitschriften
OCR - Herausforderungen und Lösungen für Zeitungen & Zeitschriften
Frankfurt am Main, 11. November 2019

Weitere ähnliche Inhalte

Ähnlich wie Überblick zum DFG-Projekt OCR-D

.NET Datenzugriff einfach und performant mit Micro O/R Mappern
.NET Datenzugriff einfach und performant mit Micro O/R Mappern .NET Datenzugriff einfach und performant mit Micro O/R Mappern
.NET Datenzugriff einfach und performant mit Micro O/R Mappern André Krämer
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltextecneudecker
 
Continuous Delivery für Cloud-native Anwendungen auf Cloud-nativer Infrastruktur
Continuous Delivery für Cloud-native Anwendungen auf Cloud-nativer InfrastrukturContinuous Delivery für Cloud-native Anwendungen auf Cloud-nativer Infrastruktur
Continuous Delivery für Cloud-native Anwendungen auf Cloud-nativer InfrastrukturQAware GmbH
 
Foreman: Docker Integration (Webinar vom 05. Oktober_2016)
Foreman: Docker Integration (Webinar vom 05. Oktober_2016)Foreman: Docker Integration (Webinar vom 05. Oktober_2016)
Foreman: Docker Integration (Webinar vom 05. Oktober_2016)NETWAYS
 
Apache Kafka
Apache KafkaApache Kafka
Apache Kafkagedoplan
 
Docker Einführung @GPN15
Docker Einführung @GPN15Docker Einführung @GPN15
Docker Einführung @GPN15m1no
 
3d mit Python (PythonCamp)
3d mit Python (PythonCamp)3d mit Python (PythonCamp)
3d mit Python (PythonCamp)Martin Christen
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Georg Rehm
 
BACARDI - Ein Katalog für Raumfahrtrückstände
BACARDI - Ein Katalog für RaumfahrtrückständeBACARDI - Ein Katalog für Raumfahrtrückstände
BACARDI - Ein Katalog für RaumfahrtrückständeMichael Meinel
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...ag-digitalisierung
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Docker Hosting (Webinar vom 10. März 2016)
Docker Hosting (Webinar vom 10. März 2016)Docker Hosting (Webinar vom 10. März 2016)
Docker Hosting (Webinar vom 10. März 2016)NETWAYS
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungRalf Stockmann
 
DevOps der Triple-E Klasse - Eclipse DemoCamp
DevOps der Triple-E Klasse - Eclipse DemoCampDevOps der Triple-E Klasse - Eclipse DemoCamp
DevOps der Triple-E Klasse - Eclipse DemoCampWerner Keil
 
Einsatz von Subversion bei der Entwicklung technisch-wissenschaftlicher Software
Einsatz von Subversion bei der Entwicklung technisch-wissenschaftlicher SoftwareEinsatz von Subversion bei der Entwicklung technisch-wissenschaftlicher Software
Einsatz von Subversion bei der Entwicklung technisch-wissenschaftlicher SoftwareAndreas Schreiber
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...Andreas Wissel
 

Ähnlich wie Überblick zum DFG-Projekt OCR-D (20)

CKAN by Friedrich Lindenberg
CKAN by Friedrich LindenbergCKAN by Friedrich Lindenberg
CKAN by Friedrich Lindenberg
 
.NET Datenzugriff einfach und performant mit Micro O/R Mappern
.NET Datenzugriff einfach und performant mit Micro O/R Mappern .NET Datenzugriff einfach und performant mit Micro O/R Mappern
.NET Datenzugriff einfach und performant mit Micro O/R Mappern
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
171211 kitodo
171211 kitodo171211 kitodo
171211 kitodo
 
Continuous Delivery für Cloud-native Anwendungen auf Cloud-nativer Infrastruktur
Continuous Delivery für Cloud-native Anwendungen auf Cloud-nativer InfrastrukturContinuous Delivery für Cloud-native Anwendungen auf Cloud-nativer Infrastruktur
Continuous Delivery für Cloud-native Anwendungen auf Cloud-nativer Infrastruktur
 
Foreman: Docker Integration (Webinar vom 05. Oktober_2016)
Foreman: Docker Integration (Webinar vom 05. Oktober_2016)Foreman: Docker Integration (Webinar vom 05. Oktober_2016)
Foreman: Docker Integration (Webinar vom 05. Oktober_2016)
 
Apache Kafka
Apache KafkaApache Kafka
Apache Kafka
 
Docker Einführung @GPN15
Docker Einführung @GPN15Docker Einführung @GPN15
Docker Einführung @GPN15
 
Oracle und Docker
Oracle und DockerOracle und Docker
Oracle und Docker
 
3d mit Python (PythonCamp)
3d mit Python (PythonCamp)3d mit Python (PythonCamp)
3d mit Python (PythonCamp)
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
 
BACARDI - Ein Katalog für Raumfahrtrückstände
BACARDI - Ein Katalog für RaumfahrtrückständeBACARDI - Ein Katalog für Raumfahrtrückstände
BACARDI - Ein Katalog für Raumfahrtrückstände
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Docker Hosting (Webinar vom 10. März 2016)
Docker Hosting (Webinar vom 10. März 2016)Docker Hosting (Webinar vom 10. März 2016)
Docker Hosting (Webinar vom 10. März 2016)
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
 
DevOps der Triple-E Klasse - Eclipse DemoCamp
DevOps der Triple-E Klasse - Eclipse DemoCampDevOps der Triple-E Klasse - Eclipse DemoCamp
DevOps der Triple-E Klasse - Eclipse DemoCamp
 
Einsatz von Subversion bei der Entwicklung technisch-wissenschaftlicher Software
Einsatz von Subversion bei der Entwicklung technisch-wissenschaftlicher SoftwareEinsatz von Subversion bei der Entwicklung technisch-wissenschaftlicher Software
Einsatz von Subversion bei der Entwicklung technisch-wissenschaftlicher Software
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenzcneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minutencneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshellcneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspaperscneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBBcneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlincneudecker
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans cneudecker
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspaperscneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
 

Überblick zum DFG-Projekt OCR-D

  • 1. OCR-D: Was wurde bisher erreicht und wie geht es jetzt weiter? Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz DHd AG Zeitungen & Zeitschriften OCR - Herausforderungen und Lösungen für Zeitungen & Zeitschriften Frankfurt am Main, 11. November 2019
  • 2. Einleitung • Massendigitalisierung in Bibliotheken hat inzwischen Millionen von Dokumenten digital als Scans verfügbar gemacht, aber wenig Volltexte • Trotz vieler Projekte in der Vergangenheit (z.B. IMPACT, eMOP, etc.) noch immer unzureichende OCR Qualität historischer Drucke für die Nachnutzung bspw. in den Digital Humanities • Erhebliche Fortschritte im Bereich Document Analysis und Recognition durch Verwendung von Deep Learning Verfahren (RNN, CNN, LSTM) • Deep Learning Verfahren bzw. Modelle erfordern spezifische Anpassungen auf die Bedarfe von Bibliotheken und die Besonderheiten historischer Dokumente  DFG Ausschreibung am 28. Mai 2014
  • 3. OCR-D Koordinierungsprojekt • Seit 2015: DFG-Förderung für OCR-D Koordinierungsprojekt • Koordinierungsprojekt mit 4 Partnern: • Herzog August Bibliothek Wolfenbüttel • Berlin-Brandenburgische Akademie der Wissenschaften • Staatsbibliothek zu Berlin (ab 12/2016) • Karlsruher Institut für Technologie (ab 08/2017) • Kernaufgaben des Koordinierungsprojekts: • Handlungsbedarfe identifizieren und systematisieren (Phase I) • Technische Anforderungen und Rahmenbedingungen für OCR-Entwicklung spezifizieren (Phase I) • Betreuung von OCR-D Softwareentwicklungs-Modulprojekten und Teststellung der OCR-D Software in Pilotbibliotheken (Phase II)
  • 4. OCR-D Spezifikationen (1/2) • Konsequent offene und Community-basierte Entwicklung via GitHub • OCR-D auf GitHub: https://github.com/OCR-D | https://ocr-d.github.io/ • Chat: https://gitter.im/OCR-D/Lobby • METS Container (basierend auf den Anforderungen der DFG-Praxisrichtlinien und des DFG-Viewer) • METS in OCR-D: https://ocr-d.github.io/mets • PAGE-XML für OCR Ergebnisse (perspektivisch mit Transformationsszenarien nach ALTO, TEI) • PAGE-XML in OCR-D: https://ocr-d.github.io/page • Taverna Workflow Engine für Prozessketten und Provenance • Taverna in OCR-D: https://github.com/OCR-D/taverna_workflow
  • 5. OCR-D Spezifikationen (2/2) • Kommandozeile als minimale Anforderung für OCR-D Software: • CLI: https://ocr-d.github.io/cli • JSON Schema für OCR-D Softwarebeschreibung: • ocrd-tool.json: https://ocr-d.github.io/ocrd_tool • ZIP+BagIt für (Ground Truth) Daten: • OCRD-ZIP: https://ocr-d.github.io/ocrd_zip • Docker als Container für OCR-D Software: • Docker: https://ocr-d.github.io/docker
  • 6. OCR-D Referenzimplementierung • Konsequente Verwendung von Python3 für alle OCR-D Software (wenn immer möglich) • core Referenzimplementierung unterstützt Software-Entwickler und Anwender mit • ocrd_utils = logging, path normalization, coordinate calculation etc. • ocrd_models = file format wrappers for PAGE-XML, METS, EXIF etc. • ocrd_modelfactory = instantiate models from existing data • ocrd_validators = validating BagIt, ocrd-tool.json, METS, PAGE, CLI • https://github.com/OCR-D/core oder https://pypi.org/project/ocrd/ • API docs https://ocr-d.github.io/core/
  • 7. OCR-D Ground Truth Repository & Daten • Erstellung von detaillierten Transkriptionsrichtlinien für Ground Truth Daten mit PAGE-XML • https://ocr-d.github.io/gt • Entwicklung eines Repository für Ground Truth Daten • https://github.com/OCR-D/repository_metastore • Bereitstellung von Ground Truth Daten aus OCR-D • https://ocr-d.github.io/gt-repo • Semantisches Labeling von Ground Truth Daten • https://github.com/OCR-D/gt-labelling
  • 8. OCR-D Modulprojekte • Seit 2017 OCR-D Phase II mit 8 eigenständigen und durch die DFG geförderten OCR-D Modulprojekten: • [MP1] Bildoptimierung (DFKI Kaiserslautern) • [MP2] Layouterkennung (DFKI Kaiserslautern) • [MP3] Layouterkennung (Uni Würzburg) • [MP4] Nachkorrektur (Uni Leipzig) • [MP5] Optimierung von Tesseract OCR (UB Mannheim) • [MP6] Nachkorrektur (Uni München) • [MP7] Schriftarterkennung und Trainingsinfrastruktur (Uni Erlangen, Mainz, Leipzig) • [MP8] Langzeitarchivierung (SUB Göttingen) • https://ocr-d.github.io/projects
  • 9. Weitere OCR-D Komponenten • Zusätzlich Bereitstellung von externer Software mit OCR-D Schnittstellen- konformität durch OCR-D Koordinierungsprojekt um Lücken in den Modulprojekten zu schließen bzw. für Vergleiche mit SoTA: • ocrd_calamari • ocrd_im6convert • ocrd_kraken • ocrd_ocropy • ocrd_olena • ocrd_segment • ocrd_kerasLM • dinglehopper • http://kba.cloud/ocrd-kwalitee/ • ocrd_train: Makefile zum Trainieren von Tesseract LSTM  „Adoptiert“ von Tesseract als https://github.com/tesseract-ocr/tesstrain
  • 10. OCR-D Einstieg und eigenes Experimentieren • OCR-D Tutorial der DHd2019 • http://kba.cloud/2019-03-25-dhd/ • OCR-D Setup Guide • https://ocr-d.github.io/docs/setup-2019-10-27 • OCR-D Chat • https://gitter.im/OCR-D/Lobby
  • 11. Sonderfall Zeitungen (& Zeitschriften) • Qua Beauftragung liegt das Hauptaugenmerk von OCR-D auf den VD-Digitalisierungsprojekten (VD16, VD17, VD18)  Keine Arbeiten/Anpassungen in OCR-D spezifisch für Zeitungen & Zeitschriften! • Besondere Herausforderungen bei Zeitungen: • Mehrspaltiges Layout • Kleine bzw. stark variierende Schriftgrößen • Komplexe Reihenfolge von Regionen (Artikelseparierung) • Hoher Anteil an nicht-textuellen Regionen (Bilder, Tabellen, Werbung) • Niedrige Qualität der Vorlagen bzw. Digitalisate (Papier, Mikrofilm)
  • 12. Ausblick • Aktuell größtes Desiderat: Spezielle Layouterkennung für (historische) Zeitungen & Zeitschriften • Sind die Textregionen erst ordentlich segmentiert, Verwendung der regulären OCR-D Softwarekomponenten • Aktuelle Arbeiten an der SBB im QURATOR Projekt (Code coming soon!) • Idee: Kombination von Layouterkennung (optische Merkmale) mit NLP Methoden – z.B. Transformer – (sprachliche Merkmale) um Reihenfolge der Regionen zu bestimmen • Ground Truth bzw. Trainingsdaten werden benötigt!
  • 13. Danke für die Aufmerksamkeit! Fragen? Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz DHd AG Zeitungen & Zeitschriften OCR - Herausforderungen und Lösungen für Zeitungen & Zeitschriften Frankfurt am Main, 11. November 2019