SlideShare ist ein Scribd-Unternehmen logo
OCR und
Strukturerkennung
für Zeitungen
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
DHd AG Zeitungen & Zeitschriften
22. April 2021
DDB Zeitungsportal
• Einheitliche Präsentation
an einem Ort
• Wichtigste Funktionen für
die Suche
• Titelliste
• Kalender
• Volltextsuche
• „Fortgeschrittene
Funktionen“ (Phase II)
• Zitierbarkeit
• Named Entities
• Korpus Erstellung
OCR-D
• Ziele: technische und organisatorische
Grundlage für die OCR-Verarbeitung
der VD-Digitalisierungsprogramme
schaffen
• Quelloffene und transparente
Entwicklung
• Spezifikationen & GT Richtlinien
• Open source Software Tools
• Wissens- und Erfahrungsaustausch in der
Community
• 3 Phasen:
• Phase I (2015–2018): Anforderungen
erheben
• Phase II (2018–2020): Entwicklung
Qurator
• Ziel: Technologien und
Verfahren der Künstlichen
Intelligenz für die
Datenkuratierung nutzbar
machen
• Entwicklung einer Pipeline:
• Bildoptimierung
• Binarisierung
• Layout Analyse
• OCR
• OCR Nachkorrektur
• Named Entity Recognition
• Named Entity Linking
• Bildähnlichkeitssuche
Stolp, Pomm. [56000]
Jn unſerem Genoſſenſchaftsregiſter iſt
heute unter Nr. 113 die ,,Ländliche
Spar⸗ und Darlehnskaſſe Schmaatz,
eingetragene Genofſenſchaft mit be⸗
ſchränkter Haftpflicht in Schmaatz“,
eingetragen worden. Gegenſtand des
Unternehmens iſt die Gewährung von
Darlehen an die Mitglieder für ihren
Geſchäfts⸗ und Wirtſchaftsbetrieb, Er⸗
leichterung der Geldanlage und Förderung
des Sparſinns, nebenbei gemeinſchaftliche
Beſchaffung landwirtſchaftlicher Betriebs⸗
mittel. Die Haftſumme beträgt 20 M,
die Höchſtzahl der Geſchäftsanteile 100.
Vorſtandsmitglieder ſind: der Hofbeſitzer
Albert Timreck als Vorſitzender, der
Lehrer Auguſt Völz und der Hofbeſitzer
Paul Selk, ſämtlich in Schmaatz. Das
Statut iſt vom 25. Juli 1920. Das
Geſchäftsjahr läuft vom 1. April bis
31. März. Die Bekanntmachungen er⸗
folgen unter der Firma der Genoſſenſchaft
im Pommerſchen Genoſſenſchaftsblatt, beim
Eingehen dieſes Blattes bis auf weiteres
im Deutſchen Reichsanzeiger. Die
Willenserklärungen des Vorſtands erfolgen
durch zwei Vorſtandsmitglieder. Die
Zeichnung geſchieht derart, daß die Zeich-
nenden zu der Firma ihre Namensunter⸗
ſchrift beifügen. Die Einficht in die Liſte
der Genoſſen iſt während der Geſchäfts⸗
ſtunden des Gerichts jedermann geſtattet.
Stolp, den 11. Auguſt 1920. Das
Amtsgericht.
OCR
• Fehlerfreie OCR Resultate sind
bspw. mit ocrd_calamari und
einem auf dem Datensatz
GT4HistOCR trainierten Modell
möglich!
• Ein Vorteil von Calamari ggü.
Tesseract, OCRopus, Kraken:
Voting
• Deep Learning ermöglicht eine
Erkennung von Fraktur als
auch Antiqua mit einem
globalen und
sprachunabhängigen Modell
• ABER… state-of-the-art OCR
Software benötigt für Text-
erkennung bereits
vorsegmentierte Textzeilen.
Layout Analyse
• Trainieren eines Machine Learning Systems
basierend auf einer ResNet / U-Net
Architektur für pixel-wise Klassifikation
anhand von Ground Truth Daten (mit
Augmentation)
• Neuronales Netz (CNN) sieht Eingabe in
„Patches“, d.h. unterteilt in Segmente von max.
896x896 Pixeln
• Entwicklung einer Reading Order Detection
basierend auf Separatoren
• Column und Textline Detection basierend auf
Pixeldichte entlang der x/y-Achse
• Ergänzung einer Scaling-Komponente sowie
Bildoptimierung
• Adaptive Verfahren für gekrümmte oder
vertikal ausgerichtete Textzeilen
• Bounding Boxes oder Contour Polygons,
Ausgabe in PAGE-XML
Eynollah
• 1. Version („reines ML“):
gute
Textzeilensegmentierung,
aber Problem mit
Überschriften, Initialen,
Reading Order
• 2. Version („hybrid“):
zusätzliche Heuristiken
bringen substantielle
Verbesserungen für
Textzeilenerkennung und
Reading Order
Eynollah
• Regionentypen:
• Text region
• Text line
• Separator
• Image
• Graphic
• Header
• Drop cap
• Marginalia
• Table
https://github.com/qurator-spk/eynollah
Beispiele
Beispiele
Beispiele
Herausforderung Textzeilenerkennung
Reading Order
Herausforderungen
Reading Order
Herausforderungen
Evaluierung
Image
Caption
Pagenr
Paragraph
Paragraph
Header
Evaluierung
Paragraph
Header
Paragraph
Image
Image
Image
Evaluierung
Partial Miss
Miss
Merge
Ground Truth Layout analysis
Paragraph
Caption
Split
Miss
Classi-
fication
Nächste Schritte
• Hybrid-Systeme die sowohl
visuelle als auch textuelle
Merkmale (via OCR) für die
Layoutanalyse heranziehen, z.B.
Xu et al. 2019, Garncarek et al.
2020, Barman et al. 2020
• Durch ihren sprachlichen bzw.
semantischen Zusammenhang
(BERT, Embeddings) könnten
perspektivisch auch Artikel
automatisiert erkannt bzw. als
Einheit segmentiert werden.
Was fehlt uns noch?
• GT Datensets historischer Zeitungen mit Layoutinformationen
von erheblichem Umfang (>1000 Seiten) und mit einer
repräsentativen Abdeckung der Druckgeschichte
a) mit granularen Annotationen für sämtliche relevanten Layout
Elemente
b) die offen zugänglich und frei nachnutzbar sind
• Methoden und Modelle für die Layoutanalyse die
a) Computer Vision mit Natural Language Processing und
b) Maschinelles Lernen mit Heuristiken in Balance bringen
• Community Standards und Empfehlungen für
a) Metadaten für Layoutstrukturen und -elemente
b) Metriken und Methoden für die Evaluierung von Layoutanalyse

Weitere ähnliche Inhalte

Ähnlich wie OCR und Strukturerkennung für Zeitungen

Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15
Matthias Arnold
 
Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009
Ralf Stockmann
 
CKAN by Friedrich Lindenberg
CKAN by Friedrich LindenbergCKAN by Friedrich Lindenberg
CKAN by Friedrich Lindenberg
Semantic Web Company
 
Neo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im EinsatzNeo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j
 
OpenStreetMap: Nutzung & Integration
OpenStreetMap: Nutzung & IntegrationOpenStreetMap: Nutzung & Integration
OpenStreetMap: Nutzung & Integration
Daniel Koller
 
DB Infrastructure Challenge - Team 4M
DB Infrastructure Challenge - Team 4MDB Infrastructure Challenge - Team 4M
DB Infrastructure Challenge - Team 4M
DBHackathon
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungRalf Stockmann
 
OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...
OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...
OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...
NETWAYS
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
ETH-Bibliothek
 
Data Mining und OLAP
Data Mining und OLAPData Mining und OLAP
Data Mining und OLAP
murat9393
 
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...
Andreas Wissel
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
KurtStockinger
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
cneudecker
 
Implementierung der Knowledge Engineering Workbench in myCBR
Implementierung der Knowledge Engineering Workbench in myCBRImplementierung der Knowledge Engineering Workbench in myCBR
Implementierung der Knowledge Engineering Workbench in myCBR
Alexander Hundt
 
SUB OCR Implementierung
SUB OCR ImplementierungSUB OCR Implementierung
SUB OCR Implementierungcmahnke
 
Traumziel MV: Relaunch eines Tourismusportals mit Typo3 Extbase und Fluid
Traumziel MV:  Relaunch eines Tourismusportals mit Typo3 Extbase und FluidTraumziel MV:  Relaunch eines Tourismusportals mit Typo3 Extbase und Fluid
Traumziel MV: Relaunch eines Tourismusportals mit Typo3 Extbase und Fluid
Qbus Werbeagentur
 
Automatisierungsmöglichkeiten beim Legacy-Reengineering - Andres Koch, Object...
Automatisierungsmöglichkeiten beim Legacy-Reengineering - Andres Koch, Object...Automatisierungsmöglichkeiten beim Legacy-Reengineering - Andres Koch, Object...
Automatisierungsmöglichkeiten beim Legacy-Reengineering - Andres Koch, Object...
BATbern
 
Service Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache MesosService Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache Mesos
Ralf Ernst
 

Ähnlich wie OCR und Strukturerkennung für Zeitungen (18)

Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15
 
Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009
 
CKAN by Friedrich Lindenberg
CKAN by Friedrich LindenbergCKAN by Friedrich Lindenberg
CKAN by Friedrich Lindenberg
 
Neo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im EinsatzNeo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im Einsatz
 
OpenStreetMap: Nutzung & Integration
OpenStreetMap: Nutzung & IntegrationOpenStreetMap: Nutzung & Integration
OpenStreetMap: Nutzung & Integration
 
DB Infrastructure Challenge - Team 4M
DB Infrastructure Challenge - Team 4MDB Infrastructure Challenge - Team 4M
DB Infrastructure Challenge - Team 4M
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
 
OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...
OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...
OSMC 2011 | Monitoring "wer kennt wen" mit free and open source software by J...
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Data Mining und OLAP
Data Mining und OLAPData Mining und OLAP
Data Mining und OLAP
 
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...
Robuste Design Systems mit Storybook und Angular: vom Konzept zur lebendigen ...
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
Implementierung der Knowledge Engineering Workbench in myCBR
Implementierung der Knowledge Engineering Workbench in myCBRImplementierung der Knowledge Engineering Workbench in myCBR
Implementierung der Knowledge Engineering Workbench in myCBR
 
SUB OCR Implementierung
SUB OCR ImplementierungSUB OCR Implementierung
SUB OCR Implementierung
 
Traumziel MV: Relaunch eines Tourismusportals mit Typo3 Extbase und Fluid
Traumziel MV:  Relaunch eines Tourismusportals mit Typo3 Extbase und FluidTraumziel MV:  Relaunch eines Tourismusportals mit Typo3 Extbase und Fluid
Traumziel MV: Relaunch eines Tourismusportals mit Typo3 Extbase und Fluid
 
Automatisierungsmöglichkeiten beim Legacy-Reengineering - Andres Koch, Object...
Automatisierungsmöglichkeiten beim Legacy-Reengineering - Andres Koch, Object...Automatisierungsmöglichkeiten beim Legacy-Reengineering - Andres Koch, Object...
Automatisierungsmöglichkeiten beim Legacy-Reengineering - Andres Koch, Object...
 
Service Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache MesosService Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache Mesos
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
cneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
cneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
cneudecker
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
cneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
cneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
cneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
cneudecker
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
cneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
cneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
cneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
cneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
cneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
cneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
cneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
cneudecker
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
cneudecker
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
cneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
 

OCR und Strukturerkennung für Zeitungen

  • 1. OCR und Strukturerkennung für Zeitungen Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz DHd AG Zeitungen & Zeitschriften 22. April 2021
  • 2. DDB Zeitungsportal • Einheitliche Präsentation an einem Ort • Wichtigste Funktionen für die Suche • Titelliste • Kalender • Volltextsuche • „Fortgeschrittene Funktionen“ (Phase II) • Zitierbarkeit • Named Entities • Korpus Erstellung
  • 3. OCR-D • Ziele: technische und organisatorische Grundlage für die OCR-Verarbeitung der VD-Digitalisierungsprogramme schaffen • Quelloffene und transparente Entwicklung • Spezifikationen & GT Richtlinien • Open source Software Tools • Wissens- und Erfahrungsaustausch in der Community • 3 Phasen: • Phase I (2015–2018): Anforderungen erheben • Phase II (2018–2020): Entwicklung
  • 4. Qurator • Ziel: Technologien und Verfahren der Künstlichen Intelligenz für die Datenkuratierung nutzbar machen • Entwicklung einer Pipeline: • Bildoptimierung • Binarisierung • Layout Analyse • OCR • OCR Nachkorrektur • Named Entity Recognition • Named Entity Linking • Bildähnlichkeitssuche
  • 5. Stolp, Pomm. [56000] Jn unſerem Genoſſenſchaftsregiſter iſt heute unter Nr. 113 die ,,Ländliche Spar⸗ und Darlehnskaſſe Schmaatz, eingetragene Genofſenſchaft mit be⸗ ſchränkter Haftpflicht in Schmaatz“, eingetragen worden. Gegenſtand des Unternehmens iſt die Gewährung von Darlehen an die Mitglieder für ihren Geſchäfts⸗ und Wirtſchaftsbetrieb, Er⸗ leichterung der Geldanlage und Förderung des Sparſinns, nebenbei gemeinſchaftliche Beſchaffung landwirtſchaftlicher Betriebs⸗ mittel. Die Haftſumme beträgt 20 M, die Höchſtzahl der Geſchäftsanteile 100. Vorſtandsmitglieder ſind: der Hofbeſitzer Albert Timreck als Vorſitzender, der Lehrer Auguſt Völz und der Hofbeſitzer Paul Selk, ſämtlich in Schmaatz. Das Statut iſt vom 25. Juli 1920. Das Geſchäftsjahr läuft vom 1. April bis 31. März. Die Bekanntmachungen er⸗ folgen unter der Firma der Genoſſenſchaft im Pommerſchen Genoſſenſchaftsblatt, beim Eingehen dieſes Blattes bis auf weiteres im Deutſchen Reichsanzeiger. Die Willenserklärungen des Vorſtands erfolgen durch zwei Vorſtandsmitglieder. Die Zeichnung geſchieht derart, daß die Zeich- nenden zu der Firma ihre Namensunter⸗ ſchrift beifügen. Die Einficht in die Liſte der Genoſſen iſt während der Geſchäfts⸗ ſtunden des Gerichts jedermann geſtattet. Stolp, den 11. Auguſt 1920. Das Amtsgericht. OCR • Fehlerfreie OCR Resultate sind bspw. mit ocrd_calamari und einem auf dem Datensatz GT4HistOCR trainierten Modell möglich! • Ein Vorteil von Calamari ggü. Tesseract, OCRopus, Kraken: Voting • Deep Learning ermöglicht eine Erkennung von Fraktur als auch Antiqua mit einem globalen und sprachunabhängigen Modell • ABER… state-of-the-art OCR Software benötigt für Text- erkennung bereits vorsegmentierte Textzeilen.
  • 6. Layout Analyse • Trainieren eines Machine Learning Systems basierend auf einer ResNet / U-Net Architektur für pixel-wise Klassifikation anhand von Ground Truth Daten (mit Augmentation) • Neuronales Netz (CNN) sieht Eingabe in „Patches“, d.h. unterteilt in Segmente von max. 896x896 Pixeln • Entwicklung einer Reading Order Detection basierend auf Separatoren • Column und Textline Detection basierend auf Pixeldichte entlang der x/y-Achse • Ergänzung einer Scaling-Komponente sowie Bildoptimierung • Adaptive Verfahren für gekrümmte oder vertikal ausgerichtete Textzeilen • Bounding Boxes oder Contour Polygons, Ausgabe in PAGE-XML
  • 7. Eynollah • 1. Version („reines ML“): gute Textzeilensegmentierung, aber Problem mit Überschriften, Initialen, Reading Order • 2. Version („hybrid“): zusätzliche Heuristiken bringen substantielle Verbesserungen für Textzeilenerkennung und Reading Order
  • 8. Eynollah • Regionentypen: • Text region • Text line • Separator • Image • Graphic • Header • Drop cap • Marginalia • Table https://github.com/qurator-spk/eynollah
  • 19. Evaluierung Partial Miss Miss Merge Ground Truth Layout analysis Paragraph Caption Split Miss Classi- fication
  • 20. Nächste Schritte • Hybrid-Systeme die sowohl visuelle als auch textuelle Merkmale (via OCR) für die Layoutanalyse heranziehen, z.B. Xu et al. 2019, Garncarek et al. 2020, Barman et al. 2020 • Durch ihren sprachlichen bzw. semantischen Zusammenhang (BERT, Embeddings) könnten perspektivisch auch Artikel automatisiert erkannt bzw. als Einheit segmentiert werden.
  • 21. Was fehlt uns noch? • GT Datensets historischer Zeitungen mit Layoutinformationen von erheblichem Umfang (>1000 Seiten) und mit einer repräsentativen Abdeckung der Druckgeschichte a) mit granularen Annotationen für sämtliche relevanten Layout Elemente b) die offen zugänglich und frei nachnutzbar sind • Methoden und Modelle für die Layoutanalyse die a) Computer Vision mit Natural Language Processing und b) Maschinelles Lernen mit Heuristiken in Balance bringen • Community Standards und Empfehlungen für a) Metadaten für Layoutstrukturen und -elemente b) Metriken und Methoden für die Evaluierung von Layoutanalyse