SlideShare ist ein Scribd-Unternehmen logo
OCR und Strukturerkennung: Herausforderungen
und Ansätze für die Zeitungsdigitalisierung
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
Virtueller 3. Workshop Retrodigitalisierung: „OCR – Prozesse und Entwicklungen“
1. März 2021
Who cares about yesterdays news?
• DDB Zeitungsportal
• DHd AG Zeitungen & Zeitschriften
• EuropeanaTech Insight Issue 16
• Dagstuhl Seminar 22361
„Computational Approaches for
Digitized Historical Newspapers“
• Zahlreiche Digital Humanities Projekte, z.B.
• NewsEye (EU)
• Oceanic Exchanges (DiD)
• impresso (SNF)
DDB Zeitungsportal
• Einheitliche Präsentation an einem Ort
• Wichtigste Funktionen für die Suche
• Titelliste
• Kalender
• Volltextsuche
• „Fortgeschrittene Funktionen“ (Phase II)
• Zitierbarkeit
• Named Entities
• Korpus Erstellung
OCR Workflow
OCR-D
• Ziele: technische und organisatorische Grundlage für die
OCR Verarbeitung der VD-Digitalisierungsprogramme
schaffen
• Quelloffene und transparente Entwicklung
• Spezifikationen & GT Richtlinien
• Open source Software Tools
• Wissens- und Erfahrungsaustausch in der Community
• 3 Phasen:
• Phase I (2015-2018): Anforderungen erheben
• Phase II (2018 – 2020): Entwicklung von Prototypen
• Phase III (2021 – 2023): Implementierungen
• https://ocr-d.de
Qurator
• Ziel: Technologien und Verfahren der
Künstlichen Intelligenz für die Datenkuratierung
nutzbar machen
• Use case: Digitalisiertes Kulturelles Erbe
• Entwicklung einer kompletten Pipeline:
• Bildoptimierung
• Binarisierung
• Layout Analyse
• OCR
• OCR Nachkorrektur
• Named Entity Recognition und Linking
• Bildähnlichkeitssuche
• https://qurator.ai
Stolp, Pomm. [56000]
Jn unſerem Genoſſenſchaftsregiſter iſt
heute unter Nr. 113 die ,,Ländliche
Spar⸗ und Darlehnskaſſe Schmaatz,
eingetragene Genofſenſchaft mit be⸗
ſchränkter Haftpflicht in Schmaatz“,
eingetragen worden. Gegenſtand des
Unternehmens iſt die Gewährung von
Darlehen an die Mitglieder für ihren
Geſchäfts⸗ und Wirtſchaftsbetrieb, Er⸗
leichterung der Geldanlage und Förderung
des Sparſinns, nebenbei gemeinſchaftliche
Beſchaffung landwirtſchaftlicher Betriebs⸗
mittel. Die Haftſumme beträgt 20 M,
die Höchſtzahl der Geſchäftsanteile 100.
Vorſtandsmitglieder ſind: der Hofbeſitzer
Albert Timreck als Vorſitzender, der
Lehrer Auguſt Völz und der Hofbeſitzer
Paul Selk, ſämtlich in Schmaatz. Das
Statut iſt vom 25. Juli 1920. Das
Geſchäftsjahr läuft vom 1. April bis
31. März. Die Bekanntmachungen er⸗
folgen unter der Firma der Genoſſenſchaft
im Pommerſchen Genoſſenſchaftsblatt, beim
Eingehen dieſes Blattes bis auf weiteres
im Deutſchen Reichsanzeiger. Die
Willenserklärungen des Vorſtands erfolgen
durch zwei Vorſtandsmitglieder. Die
Zeichnung geſchieht derart, daß die Zeich-
nenden zu der Firma ihre Namensunter⸗
ſchrift beifügen. Die Einficht in die Liſte
der Genoſſen iſt während der Geſchäfts⸗
ſtunden des Gerichts jedermann geſtattet.
Stolp, den 11. Auguſt 1920. Das
Amtsgericht.
OCR
• Fehlerfreie OCR Resultate sind bspw. mit
ocrd_calamari und einem auf dem
Datensatz GT4HistOCR trainierten
Modell möglich!
• Ein Vorteil von Calamari ggü. Tesseract,
OCRopus, Kraken: Voting
• Deep Learning ermöglicht die Erkennung
von sowohl Fraktur als auch Antiqua mit
einem einzigen globalen und
sprachunabhängigen Modell
• ABER…state-of-the-art OCR Engines
benötigen für die Texterkennung bereits
vorsegmentierte Textzeilen.
Layout Analyse
• Trainieren eines Machine Learning Systems
(bspw. dhSegment) basierend auf einer U-Net /
ResNet Architektur für pixel-wise Klassifikation
anhand von Ground Truth Daten (mit
Augmentation)
• 1ste Iteration („reines ML“): gute
Textzeilensegmentierung, aber Probleme mit
Überschriften, Initialen, Reading Order
• 2te Iteration („hybrid“): zusätzliche Heuristiken
bringen substantielle Verbesserungen für sowohl
Textzeilenerkennung als auch Reading Order
• Jedoch können selbst mit mehr GT Daten
(noch) nicht alle Sonderfälle genügend
abgedeckt werden
Layout Analyse
https://github.com/qurator-spk/eynollah
Reading Order
Herausforderungen
Herausforderungen
Herausforderungen
Evaluierung
Image
Caption
Pagenr
Paragraph
Paragraph
Header
Evaluierung
Paragraph
Header
Paragraph
Image
Image
Image
Evaluierung
Partial Miss
Miss
Merge
Ground Truth Layout analysis
Paragraph
Caption
Split
Miss
Classi-
fication
Ausblick – was fehlt uns noch zum Erfolg?
• Datensets historischer Zeitungen mit Layout GT
a) von erheblichem Umfang (>1000 Seiten) und mit einer repräsentativen Abdeckung der Druckgeschichte
b) mit granularen Annotationen für sämtliche relevanten Layout Elemente
c) die offen zugänglich und frei nachnutzbar sind
• Methoden und Modelle für die Layoutanalyse die
a) Computer Vision mit Natural Language Processing und
b) Maschinelles Lernen mit Heuristiken in Balance bringen
• Community Standards und Empfehlungen für
a) Metadaten für Layoutstrukturen und -elemente
b) Metriken und Methoden für die Evaluierung von Layout Analyse
Danke für die Aufmerksamkeit!
Fragen?
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
Virtueller 3. Workshop Retrodigitalisierung: „OCR – Prozesse und Entwicklungen“
1. März 2021

Weitere ähnliche Inhalte

Ähnlich wie OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigitalisierung

OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
cneudecker
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
cneudecker
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
cneudecker
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
ETH-Bibliothek
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
panitzm
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
Georg Rehm
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
cneudecker
 
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
cneudecker
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
Europeana Newspapers
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
cneudecker
 

Ähnlich wie OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigitalisierung (11)

OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - Semantics
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
 
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
cneudecker
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
cneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
cneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
cneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
cneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
cneudecker
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
cneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
cneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
cneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
cneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
cneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
cneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
cneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
cneudecker
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
cneudecker
 
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
cneudecker
 
Europeana Newspapers Transcribathon
Europeana Newspapers TranscribathonEuropeana Newspapers Transcribathon
Europeana Newspapers Transcribathon
cneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
 
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
 
Europeana Newspapers Transcribathon
Europeana Newspapers TranscribathonEuropeana Newspapers Transcribathon
Europeana Newspapers Transcribathon
 

OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigitalisierung

  • 1. OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigitalisierung Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz Virtueller 3. Workshop Retrodigitalisierung: „OCR – Prozesse und Entwicklungen“ 1. März 2021
  • 2. Who cares about yesterdays news? • DDB Zeitungsportal • DHd AG Zeitungen & Zeitschriften • EuropeanaTech Insight Issue 16 • Dagstuhl Seminar 22361 „Computational Approaches for Digitized Historical Newspapers“ • Zahlreiche Digital Humanities Projekte, z.B. • NewsEye (EU) • Oceanic Exchanges (DiD) • impresso (SNF)
  • 3. DDB Zeitungsportal • Einheitliche Präsentation an einem Ort • Wichtigste Funktionen für die Suche • Titelliste • Kalender • Volltextsuche • „Fortgeschrittene Funktionen“ (Phase II) • Zitierbarkeit • Named Entities • Korpus Erstellung
  • 5. OCR-D • Ziele: technische und organisatorische Grundlage für die OCR Verarbeitung der VD-Digitalisierungsprogramme schaffen • Quelloffene und transparente Entwicklung • Spezifikationen & GT Richtlinien • Open source Software Tools • Wissens- und Erfahrungsaustausch in der Community • 3 Phasen: • Phase I (2015-2018): Anforderungen erheben • Phase II (2018 – 2020): Entwicklung von Prototypen • Phase III (2021 – 2023): Implementierungen • https://ocr-d.de
  • 6. Qurator • Ziel: Technologien und Verfahren der Künstlichen Intelligenz für die Datenkuratierung nutzbar machen • Use case: Digitalisiertes Kulturelles Erbe • Entwicklung einer kompletten Pipeline: • Bildoptimierung • Binarisierung • Layout Analyse • OCR • OCR Nachkorrektur • Named Entity Recognition und Linking • Bildähnlichkeitssuche • https://qurator.ai
  • 7. Stolp, Pomm. [56000] Jn unſerem Genoſſenſchaftsregiſter iſt heute unter Nr. 113 die ,,Ländliche Spar⸗ und Darlehnskaſſe Schmaatz, eingetragene Genofſenſchaft mit be⸗ ſchränkter Haftpflicht in Schmaatz“, eingetragen worden. Gegenſtand des Unternehmens iſt die Gewährung von Darlehen an die Mitglieder für ihren Geſchäfts⸗ und Wirtſchaftsbetrieb, Er⸗ leichterung der Geldanlage und Förderung des Sparſinns, nebenbei gemeinſchaftliche Beſchaffung landwirtſchaftlicher Betriebs⸗ mittel. Die Haftſumme beträgt 20 M, die Höchſtzahl der Geſchäftsanteile 100. Vorſtandsmitglieder ſind: der Hofbeſitzer Albert Timreck als Vorſitzender, der Lehrer Auguſt Völz und der Hofbeſitzer Paul Selk, ſämtlich in Schmaatz. Das Statut iſt vom 25. Juli 1920. Das Geſchäftsjahr läuft vom 1. April bis 31. März. Die Bekanntmachungen er⸗ folgen unter der Firma der Genoſſenſchaft im Pommerſchen Genoſſenſchaftsblatt, beim Eingehen dieſes Blattes bis auf weiteres im Deutſchen Reichsanzeiger. Die Willenserklärungen des Vorſtands erfolgen durch zwei Vorſtandsmitglieder. Die Zeichnung geſchieht derart, daß die Zeich- nenden zu der Firma ihre Namensunter⸗ ſchrift beifügen. Die Einficht in die Liſte der Genoſſen iſt während der Geſchäfts⸗ ſtunden des Gerichts jedermann geſtattet. Stolp, den 11. Auguſt 1920. Das Amtsgericht. OCR • Fehlerfreie OCR Resultate sind bspw. mit ocrd_calamari und einem auf dem Datensatz GT4HistOCR trainierten Modell möglich! • Ein Vorteil von Calamari ggü. Tesseract, OCRopus, Kraken: Voting • Deep Learning ermöglicht die Erkennung von sowohl Fraktur als auch Antiqua mit einem einzigen globalen und sprachunabhängigen Modell • ABER…state-of-the-art OCR Engines benötigen für die Texterkennung bereits vorsegmentierte Textzeilen.
  • 8. Layout Analyse • Trainieren eines Machine Learning Systems (bspw. dhSegment) basierend auf einer U-Net / ResNet Architektur für pixel-wise Klassifikation anhand von Ground Truth Daten (mit Augmentation) • 1ste Iteration („reines ML“): gute Textzeilensegmentierung, aber Probleme mit Überschriften, Initialen, Reading Order • 2te Iteration („hybrid“): zusätzliche Heuristiken bringen substantielle Verbesserungen für sowohl Textzeilenerkennung als auch Reading Order • Jedoch können selbst mit mehr GT Daten (noch) nicht alle Sonderfälle genügend abgedeckt werden
  • 16. Evaluierung Partial Miss Miss Merge Ground Truth Layout analysis Paragraph Caption Split Miss Classi- fication
  • 17. Ausblick – was fehlt uns noch zum Erfolg? • Datensets historischer Zeitungen mit Layout GT a) von erheblichem Umfang (>1000 Seiten) und mit einer repräsentativen Abdeckung der Druckgeschichte b) mit granularen Annotationen für sämtliche relevanten Layout Elemente c) die offen zugänglich und frei nachnutzbar sind • Methoden und Modelle für die Layoutanalyse die a) Computer Vision mit Natural Language Processing und b) Maschinelles Lernen mit Heuristiken in Balance bringen • Community Standards und Empfehlungen für a) Metadaten für Layoutstrukturen und -elemente b) Metriken und Methoden für die Evaluierung von Layout Analyse
  • 18. Danke für die Aufmerksamkeit! Fragen? Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz Virtueller 3. Workshop Retrodigitalisierung: „OCR – Prozesse und Entwicklungen“ 1. März 2021