SlideShare ist ein Scribd-Unternehmen logo
1 von 57
“Kuratieren” mit
künstlicher Intelligenz
Neuigkeiten und Fortschritte aus
dem Forschungsprojekt Qurator
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
IIA Kolloquium Metadatenmanagement
14. November 2019, SBB, Berlin
qurator@sbb.spk-berlin.de
Inhalte
● Einleitung (Clemens Neudecker)
● Qualitätsverbesserung OCR (Mike Gerber)
● Layouterkennung (Vahid Rezanezhad)
● Named Entity Recognition (Kai Labusch)
● Diskussion
Qurator
• Flexible KI-Verfahren für die adaptive Analyse und kreative Generierung
digitaler Inhalte in branchenübergreifenden Kontexten
• Förderung durch BMBF Programm
Unternehmen Region: Wachstumskerne
• 01.11.2018 - 31.10.2021 (36 Monate)
• 10 Projektpartner aus Berlin
• Webseite: https://qurator.ai/
Partner und Themen
DFKI: KI-Plattform für Kuratierungstechnologien
Wikimedia DE: Kuratierung für Wikidata
3pc: Interaktives Storytelling
Condat: TV-/Medien-Publikationen
SBB: Digitalisiertes kulturelles Erbe
Ada: Biomedizinisches Wissen
FOKUS: Corporate Smart Insights (CSI)
ART+COM: Multimediale Ausstellungs-Kuratierung
Ubermetrics: Media Intelligence und Risikomonitoring
Semtation: Intelligente Prozessmodellierung
Qurator in der SBB (1/2)
• Gemeinsame Projektsteuerung durch Forschungsreferent (GD) und
Referatsleiter IT-Anwendungen und Datenmanagement (IDM2)
• Finanzierung 3x FTE E13 FuE (36 Monate) = 108 PM + 12 PM Eigenanteil SBB
• Mike Gerber
• Kai Labusch
• Robin Schaefer
• Vahid Rezanezhad
• SPK-KI Server:
• 2x Nvidia Tesla V100 32GB
• 2x 18-core Intel XEON 2.7 Ghz
• 192GB DDR4 RAM
https://xkcd.com/1838/
Qurator in der SBB (2/2)
• Open Source Entwicklung von Technologien und Anwendungen
• https://code.dev.sbb.berlin/qurator
• https://github.com/qurator-spk
• Freie Bereitstellung von Daten und Modellen
• https://zenodo.org/communities/stabi
• https://lab.sbb.berlin
• Mehr zur SBB in Qurator
• https://qurator.ai/partner/staatsbibliothek-zu-berlin/
• SBB Blogserie „Künstliche Intelligenz“
https://blog.sbb.berlin/tag/wissenschaftsjahr-2019/
OCR-Qualitätsverbesserung
Mike Gerber
OCR-Qualitätsverbesserung:
Problem und Aufgabe
Die digitalisierten
Sammlungen der
SBB
86% ohne Volltext
nicht zugänglich für
Recherche,
Textanalyse oder
Menschen mit
Sehbeeinträchtigung
14 % mit Volltext
in weitgehend
unbestimmter
Qualität
160.000
Dokumente
OCR-Qualität: Ziele
• Qualitätsverbesserung
➡ Wir möchten die bestmöglichen Volltexte!
• Qualitätsbestimmung
➡ Ausblick (am Ende)
Was ist OCR?
• Optical Character Recognition
• Lesen lernen
• Heutzutage mit den Methoden des
Machine Learning
lius Iheſus Chriſtus unica ſalus noſtra.
Atqui tantum in Eccleſia uera Zion eſt,
uerbum Dei purum abſcq fermento hæ‐
reſew̃n. Tantum in Eccleſia ut in ſuo tem‐
plo habitat ſpiritus ſanctus, habitat Chri
Abdias Propheta Explanatus Commentariolo (1537)
Exkurs DFG-Projekt OCR-D
● DFG-gefördertes Koordinierungsprojekt + 8 verteilte
Forschungsprojekte zu OCR für historische Drucke
● Webseite: http://ocr-d.de/
● Module: https://ocr-d.github.io/projects
● Source Code: https://github.com/OCR-D
● Dokumentation: https://ocr-d.github.io/
● Ground Truth: http://ocr-d.github.io/gt-repo
● Chat: https://gitter.im/OCR-D/Lobby
Ein moderner OCR-Workflow
Binarisierung
Zeilen-
segmentierung
Zeilen-OCR Postcorrection
20
–
rath mit einer Pœna fiſcali angeſehen worden,
und ſolche durch des Hon. Graffen von
Königsfeld Vor–
ſpruch, nur aus Gnaden nachgelaſſen erhalten.
Sondern man hat auich dieſen 4. Wochen lang
alle Abend bey der Jnquißtin gantz allein
gelaſſen
Binnen welcher gantzer Zeit der Schreiber
Bredekam beſtändig bey Jhme geweſen, und
ſich in
der am 13ten Octobt. a.c. in Judicio gegen
ſeinen geweſenen Hrn. introducirter Appellation
deſſen Bey-
raths bedienet hat;
33) Dabenehenſt iſt der Schreiber binnen dieſer
gantzen Zeit auf freyem Fuß geblieben, und
hat nicht nur durch ſeinen Conlulenten, ſondern
auch, weilen del lnquilti ſelbſten in Jhtem
Gefängnüß
ſo viele Freyheit gelaſſen worden, daß ſie
frembden Beſuch von Jhren Anberwandten
ohngehindert en–
pfangen können, durch andere Perſonen ſich
mit ihr über alles, Was Er oder ſie dereinſten zu
ſagen hat–
ten· vereinigen können, immaſſen der Hofrath
[...]
20
rath mit einer Pœna fiſcali angeſehen worden,
und ſolche durch des Hrn. Graffen von
Königsfeld Vor–
ſpruch, nur aus Gnaden nachgelaſſen erhalten.
Sondern man hat auch dieſen 4. Wochen lang
alle Abend bey der Jnquisitin gantz allein
gelaſſen.
Binnen welcher gantzer Zeit der Schreiber
Bredekaw beſtändig bey Jhme geweſen, und
ſich in
der am 13 ten Octobr. a.c. in Judicio gegen
ſeinen geweſenen Hrn. introducirter Appellation
deſſen Bey-
raths bedienet hat;
33) Dabenebenſt iſt der Schreiber binnen dieſer
gantzen Zeit auf freyem Fuß geblieben, und
hat nicht nur durch ſeinen Conſulenten, ſondern
auch, weilen der Inquiſitin ſelbſten in Jhrem
Gefängnüß
ſo viele Freyheit gelaſſen worden, daß ſie
frembden Beſuch von Jhren Anverwandten
ohngehindert em–
pfangen können, durch andere Perſonen ſich
mit ihr über alles, Was Er oder ſie dereinſten zu
ſagen hat–
ten, vereinigen können, immaſſen der Hofrath
[...]
Acten-mäßiger Verlauff, Des Fameusen
Processus sich verhaltende ... (1749)
Warum Zeilen-OCR?
• Segmentieren einer Textzeile in
Zeichen problematisch
• insbesondere bei schwierigen
Dokumenten und Handschriften
• Erstellen von Ground Truth für
unsegmentierte Zeilen
wesentlich weniger aufwändig
• Ein Algorithmus kann mit dem
Kontext innerhalb der Zeile
arbeiten
Verdammt
d cl rn m nn
Zeilen-OCR mit Deep Neural Network
y = fa(x)
Text Bild
Modell
mit
unbekannten
Parametern a
lernt Features: Kurven, Kanten, Ecken etc.
Recurrent Layer
Feature Maps →
Probability Matrix
Convolutional
Layer
Pixel →
Feature Maps
Connectionist
Temporal
Classification Layer
Probability Matrix →
Labels
lernt Zeichen in Bildfenstern + Kontext
lernt wahrscheinlichsten Ausgabetext
OCR-Qualitätsverbesserung:
Modelle für die Zeilen-OCR
• Standard-Modelle in Tesseract OCR
• Nicht reproduzierbar
• Kodierungsprobleme
• ch- und ck-Ligaturen als <, >
• kein langes s (ſ) für Antiqua-Satz
• kein hochgestelltes e (aᵉ, uᵉ, etc.)
¹GT4HistOCR: Ground Truth for training OCR engines on historical documents in German Fraktur and Early Modern
Latin – Springmann et al.
• Eigenes Modell mit Calamari OCR
• Reproduzierbar
• Auf Basis des GT4HistOCR-Datasets¹
• Wiegendrucke, Fraktur, frühe Antiqua
• 300.000 Textzeilen
• 1 Woche Training auf Nvidia RTX 2080
Voting mehrerer OCR-Modelle
• Statt einem Modell werden k gleich
starke Modelle trainiert
• k-fold Cross Validation
• Die Modelle voten – stimmen über
ein Ergebnis ab
➡ Gemeinsam stärker
• Summe der Konfidenzwerte
i: 0.8 l: 0.2 j: 0.0
Beyſp i: 0.4 l: 0.5 j: 0.1 el.
i: 0.3 l: 0.4 j: 0.3
Σ: 1.5
OCR-Beispiel VD18¹
¹Acten-mäßiger Verlauff, Des Fameusen Processus sich verhaltende ... (1749)
Beispielzeile manuell in drei Teile umgebrochen
Tesseract 4.1 (frk) SBB {Zeilensegmentierung, Binarisierung, OCR-Modelle}:
rie ſönſten hier gewöhnlich articuli
impertinenres der dergleichen
Gewe zug lafien dim die von
wie ſonſten hier gewoͤ hnlich, articuli
impertinentes oder dertleichen
Intertogatotia zugelaſſen/ auch die von
Stol, Pomrn. [56000]
Jn unſerem Genoſſenſchaftsregiſter iſt
heute unter Nr. 113 die ,,Landliche
Spar⸗ und Darlehnokaſſe Schmaatz,
eingetragene Genofſenſchaft mit be⸗
ſchränkter Haftpflicht in Schmaatz',
eingetragen worden. Gegenſtand des
Unternehmens iſt die Gewährung von
Darlehen an die Mitglieder für ihren
Geſchäfts⸗ und Wirtſchaftsbetrieb, Er-
leichterung der Geldanlage und Förderung
des Sparſinns, nebenbei gemeinſchaftliche
Beſchaffuag landwirtſchaftlicher Betriebs.
mittel. Die Haftſumme beträgt 20 ,
die Höchſtzahl der Geſchäftsanteile 100.
Vorſtandsmitglieder ſind: der Hofbeſitzer
Albert Timreck als Vorſitzender, der
Lehrer Auguſt Völz und der Hofbeſitzer
Paul Selt, ſämtlich in Schmaatz. Das
Statut iſt vom 25. Juli 192. Das
Geſchäftsjahr lauft vom 1. April bis
31. März. Die Bekanntmachungen er⸗
folgen unter der Firma der Genoſſenſchaft
im Pommerſchen Genoſſenſchaftsblatt, beim
Eingehen dieſes Blattes bis auf weiteres
im Deutſchen Reichsanzeiger. Die
Willenserklärungen des Vorſtands erfolgen
durch zwei Vorſtandsmitglieder. Hie
Zeichnung geſchieht derart, daß die Zeich-
nenden zu der Firma ihre Namensunter⸗
ſchrift beifügen. Die Einficht in die Liſte
der Genoſſen iſt während der Geſchäfts.
ſtunden des Gerichts jedermann geſtattet.
Stolp, den 1. Auguſt 1920. Das
Amtsgericht.
¹ Digitalisat aus dem
Reichsanzeiger August
1920 (via UB Mannheim)
OCR-Beispiel
Zeitung¹
• Ground Truth ≟ OCR-Resultat
• Visualisierung von Unterschieden
Ihrem Gefängnüß ≟ Jhrem Gefängnüß
• Metriken:
• Zeichenfehlerrate CER
CER = (s + i + d)/l
• Wortfehlerrate WER
• Eigenentwicklung
• Unicode-Support (m̃ ≟ m, ñ = ñ, MUFI etc.)
• OCR-D-Support
• Substitutionen (fi → fi)
OCR-Evaluation:
dinglehopper
OCR-Qualitätsverbesserung:
Erste Ergebnisse
• Dataset: ~ 350 Seiten
• aus dem SBB-Bestand
• Fraktur, Antiqua etc.
• Reduzierung der CER
• von >0.10 (Median)
• Tesseract Zeilensegmentierung
+ Tesseract frk
• auf 0.06 (Median)
• SBB Zeilensegmentierung
+ Calamari voted GT4HistOCR
(hier im Plot anderes Tesseract-
Modell ebenfalls basierend auf
OCR-Qualitätsverbesserung:
Nächste Schritte
• Robusteres OCR-Modell
• Dataset aus DTA → Millionen Textzeilen
• Augmentation → Robuster gegen Noise und Skewing
• Postcorrection via Sprachmodell
• Verwendung a. der Wahrscheinlichkeiten b. aller k Modellergebnisse
➡ Informiertere Postcorrection
OCR-Qualitätsverbesserung:
Nächste Schritte
• Qualitätsbestimmung
• Für Volltexte interessante Dokumente
• Technisch durchführbar
• Gut: bspw. moderne Drucke
• Schlecht: bspw. Handschriften
• Bestehende Volltexte
• Kandidaten für Korrekturen
• Qualität abschätzen
• Anhand von
• Metadaten und Bildmerkmalen
• OCR-Konfidenz
➡ Ressourcenplanung, UX und Korrektur
Layouterkennung
Vahid Rezanezhad
Layouterkennung:
• Pixelwise-Segmentierung
• Page(Rahmen)-Erkennung
• Layout-Erkennung
• Beispiel: Textregion (benötigt für OCR), Bilder , Grafiken, Tabellen, Separatoren
etc. erkennen
• Zeilenenerkennung
• Binarisierung
Layouterkennung
• Convolutional neural network (CNN)
Pixelwise-Segmentierung: Resnet-Unet
Resnet-unet Modell
Woraus lernt das Modell? Ground Truth
Modelltraining
Layouterkennung:
Bild Erstes Ergebnis Nachkorrektur
Reihenfolge von
Textregionen
Dokument ohne vertical Separators
Bild Erstes Ergebnis Nachkorrektur
Zeilenerkennung:
1. Zeilenerkennung für
ganzes Dokument
2. Zuschneiden (Crop)
für entsprechende
Textregion
3. Suche nach Linienboxen
Ergebnis als XML-Datei
Binarisierung
• Wieder Pixelweise Segmentierung
• Ground Truth: Ergebnisse
des Binarisierungswettbewerbs
(DIBCO)
• Kombinationen von 4 Modellen
(Deshalb ist es langsam)
• Funktioniert gut für Texte
• Macht kein “Pfeffer”-Denoising
Original Bild Binarisiertes Bild
Layouterkennung: Nächste Schritte
• Bereitstellung der Ground Truth für die Binarisierung (Verbesserungen
für handschriftliche Anmerkungen, Bilder und “Pfeffer”-Denoising)
• Zeilenreihenfolge für Zeitungen mit mehr als einer Spalte erweitern,
deren Separatoren (oder Überschriften) sich überschneiden
• Verbesserung der Modelle und heuristischen Methoden
• Entwicklung einer Methode für Linien, die teilweise schief sind
• Trainieren eines Modell um freien Raum zwischen Regionen zu erkennen
Named Entity Recognition
Kai Labusch
Named Entity Recognition (NER)
● Eigennamenerkennung
● Informationsextraktion aus gegebenem Volltext
● automatische Identifikation und Klassifikation von Eigennamen
● Folge von Wörtern, die eine real existierende Entität beschreiben,
wie z. B.:
○ Personen
○ Orte
○ Organisationen
○ Produkte
NER - Beispiel:
Demonstrator
Named Entity Recognition - trivial?
Essen liegt in Nordrhein-Westfalen.
Essen ist lecker.
Essen ist schön.
Essen ist groß.
Essen duftet.
Es gibt gutes Essen in Essen.
Essen macht satt.
Essen macht mobil.
Demonstrator
Named Entity Recognition - Ziele
• tiefere automatische Erschließung der Volltexte
• Suche nach Personen, Orten und Organisationen auf dem Portal der
digitalisierten Sammlungen oder in Zeitungen (ZEFYS)
• Digital Humanities
• Extraktion sozialer Netzwerke aus historischen Texten (SoNAR-IDH)
• historische Ortsnamen Konkordanz
• Vorbedingung für Named Entity Disambiguierung und Verlinkung:
• automatische eindeutige Identifikation einer Named Entity, z.B.:
• GND - Eintrag
• Wikidata Datensatz
• Wikipedia Seite
• Geo-koordinaten (Toponyme)
NER in OCR- Volltexten
Vorwort von Alexander v. Humboldt zu den "Erinnerungen der Reise nach Indien von S. K. H. dem Prinzen
Waldemar von Preussen" : [Berlin, den 18 December 1854]
Named Entity Recognition mit BERT
Bidirectional Encoder Representations from
Transformers
Feedforward - Netze
[1] Modifiziert aus: Rumelhart et al., Learning representations by back-propagating errors, Nature 1986.
[1]
Rekurrente - Netze
[1]
BERT - Architektur
[1]
[1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018
Transformer
Encoder [1]
[1] Vaswani et al., Attention Is All You Need, NIPS 2017
BERT - Vortraining
• [CLS] Der Strom, der nachts, wenn die Produktion [MASK] der
Bettfedernfabrik ruhte, nicht gebraucht wurde, wurde für die Kühl- und
Gefrieranlagen genutzt. [SEP] Ab 1951 nutzte man eine Spezialapparatur,
mit der frische Fische sofort [MASK] dem Fang eingefroren werden
konnten. [SEP]
Aufeinanderfolgend: Ja
• [CLS] Rollins Eltern stammen [MASK] den karibischen Jungferninseln. [SEP]
Kern der Sendung sind [MASK] Lach- und Sachgeschichten. [SEP]
Aufeinanderfolgend: Nein
BERT - Vortraining
[1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018
[1]
BERT - Vortraining
Google:
● BERT-base: 110M Parameter
● 100 Sprachen
● 100 größte Wikipedias
● 16x Google
Tensor Processing Units
mit jeweils 64GB
● Rechenzeit ca. 4 Tage
Qurator-SBB:
● Starten mit Google Modell
● 2.333.647 deutschsprachige
Textseiten (OCR) aus den
digitalisierten Sammlungen
● 1x NVIDIA V100 GPU mit 32GB
● 10 Epochen
● Rechenzeit ca. 2 Wochen
BERT - NER Training
[1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018
[1]
NER Training - Ground Truth
● CoNLL 2003 corpus (ca. 200.000 Tokens)
● GermEval Konvens 2014 corpus (ca. 450.000 Tokens)
● historische Zeitungen (Europeana Newspapers):
○ Zeitungen um 1926 (Landesbibliothek Dr. Friedrich
Teßmann, ca. 70.000 Tokens, LFT)
○ Zeitungen des Zeitraums 1710 - 1873 (Österreichische
Nationalbibliothek, ca. 30.000 Tokens, ONB)
○ Zeitungen des Zeitraums 1872 - 1930 (Staatsbibliothek
zu Berlin, ca. 50.000 Tokens, SBB)
[1] Kai Labusch, Clemens Neudecker and David Zellhöfer. BERT for Named Entity Recognition in Contemporary and Historic German, KONVENS 2019
[1]
Approximative nächste Nachbarn Suche
Ausblick:
Named Entity Disambiguierung (NED)
So wurden Erik Axel Karlfeldt
1931 und UN-Generalsekretär
Hammarskjöld 1961 posthum
geehrt.
● BERT embeddings
● Fasttext embeddings
● FLAIR embeddings
neath - Kooperation mit SoNAR-IDH
Ausblick
● M18 - M36
○ OCR Postcorrection, OCR-D Integration
○ Strukturerkennung, Bildähnlichkeitssuche
○ Semantische Generalisierung (Embeddings, Topic Models, Ngrams)
○ Toponymauflösung
○ Disambiguierung und Verlinkung
● #QURATOR2020 Konferenz, 20-21 Januar 2020, Berlin
○ https://qurator.ai/conference-qurator-2020/
● Demonstrator(en)
○ https://digital-beta.staatsbibliothek-berlin.de/
○ https://lab.sbb.berlin
Danke für die
Aufmerksamkeit!
Fragen?
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
IIA Kolloquium Metadatenmanagement
14. November 2019, SBB, Berlin
qurator@sbb.spk-berlin.de

Weitere ähnliche Inhalte

Ähnlich wie Kuratieren mit künstlicher Intelligenz

Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Joachim Kemper
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...Georg Vogeler
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIGeorg Rehm
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliothekencneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildaupanitzm
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers
 
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...cneudecker
 

Ähnlich wie Kuratieren mit künstlicher Intelligenz (13)

Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
Semantic Technologies in the Scholarly Edition of Medieval and Early Modern A...
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - Semantics
 
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltextecneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minutencneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshellcneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspaperscneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBBcneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlincneudecker
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans cneudecker
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspaperscneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
 

Kuratieren mit künstlicher Intelligenz

  • 1. “Kuratieren” mit künstlicher Intelligenz Neuigkeiten und Fortschritte aus dem Forschungsprojekt Qurator Staatsbibliothek zu Berlin – Preußischer Kulturbesitz IIA Kolloquium Metadatenmanagement 14. November 2019, SBB, Berlin qurator@sbb.spk-berlin.de
  • 2. Inhalte ● Einleitung (Clemens Neudecker) ● Qualitätsverbesserung OCR (Mike Gerber) ● Layouterkennung (Vahid Rezanezhad) ● Named Entity Recognition (Kai Labusch) ● Diskussion
  • 3. Qurator • Flexible KI-Verfahren für die adaptive Analyse und kreative Generierung digitaler Inhalte in branchenübergreifenden Kontexten • Förderung durch BMBF Programm Unternehmen Region: Wachstumskerne • 01.11.2018 - 31.10.2021 (36 Monate) • 10 Projektpartner aus Berlin • Webseite: https://qurator.ai/
  • 4. Partner und Themen DFKI: KI-Plattform für Kuratierungstechnologien Wikimedia DE: Kuratierung für Wikidata 3pc: Interaktives Storytelling Condat: TV-/Medien-Publikationen SBB: Digitalisiertes kulturelles Erbe Ada: Biomedizinisches Wissen FOKUS: Corporate Smart Insights (CSI) ART+COM: Multimediale Ausstellungs-Kuratierung Ubermetrics: Media Intelligence und Risikomonitoring Semtation: Intelligente Prozessmodellierung
  • 5. Qurator in der SBB (1/2) • Gemeinsame Projektsteuerung durch Forschungsreferent (GD) und Referatsleiter IT-Anwendungen und Datenmanagement (IDM2) • Finanzierung 3x FTE E13 FuE (36 Monate) = 108 PM + 12 PM Eigenanteil SBB • Mike Gerber • Kai Labusch • Robin Schaefer • Vahid Rezanezhad • SPK-KI Server: • 2x Nvidia Tesla V100 32GB • 2x 18-core Intel XEON 2.7 Ghz • 192GB DDR4 RAM https://xkcd.com/1838/
  • 6. Qurator in der SBB (2/2) • Open Source Entwicklung von Technologien und Anwendungen • https://code.dev.sbb.berlin/qurator • https://github.com/qurator-spk • Freie Bereitstellung von Daten und Modellen • https://zenodo.org/communities/stabi • https://lab.sbb.berlin • Mehr zur SBB in Qurator • https://qurator.ai/partner/staatsbibliothek-zu-berlin/ • SBB Blogserie „Künstliche Intelligenz“ https://blog.sbb.berlin/tag/wissenschaftsjahr-2019/
  • 8. OCR-Qualitätsverbesserung: Problem und Aufgabe Die digitalisierten Sammlungen der SBB 86% ohne Volltext nicht zugänglich für Recherche, Textanalyse oder Menschen mit Sehbeeinträchtigung 14 % mit Volltext in weitgehend unbestimmter Qualität 160.000 Dokumente
  • 9. OCR-Qualität: Ziele • Qualitätsverbesserung ➡ Wir möchten die bestmöglichen Volltexte! • Qualitätsbestimmung ➡ Ausblick (am Ende)
  • 10. Was ist OCR? • Optical Character Recognition • Lesen lernen • Heutzutage mit den Methoden des Machine Learning lius Iheſus Chriſtus unica ſalus noſtra. Atqui tantum in Eccleſia uera Zion eſt, uerbum Dei purum abſcq fermento hæ‐ reſew̃n. Tantum in Eccleſia ut in ſuo tem‐ plo habitat ſpiritus ſanctus, habitat Chri Abdias Propheta Explanatus Commentariolo (1537)
  • 11. Exkurs DFG-Projekt OCR-D ● DFG-gefördertes Koordinierungsprojekt + 8 verteilte Forschungsprojekte zu OCR für historische Drucke ● Webseite: http://ocr-d.de/ ● Module: https://ocr-d.github.io/projects ● Source Code: https://github.com/OCR-D ● Dokumentation: https://ocr-d.github.io/ ● Ground Truth: http://ocr-d.github.io/gt-repo ● Chat: https://gitter.im/OCR-D/Lobby
  • 12. Ein moderner OCR-Workflow Binarisierung Zeilen- segmentierung Zeilen-OCR Postcorrection 20 – rath mit einer Pœna fiſcali angeſehen worden, und ſolche durch des Hon. Graffen von Königsfeld Vor– ſpruch, nur aus Gnaden nachgelaſſen erhalten. Sondern man hat auich dieſen 4. Wochen lang alle Abend bey der Jnquißtin gantz allein gelaſſen Binnen welcher gantzer Zeit der Schreiber Bredekam beſtändig bey Jhme geweſen, und ſich in der am 13ten Octobt. a.c. in Judicio gegen ſeinen geweſenen Hrn. introducirter Appellation deſſen Bey- raths bedienet hat; 33) Dabenehenſt iſt der Schreiber binnen dieſer gantzen Zeit auf freyem Fuß geblieben, und hat nicht nur durch ſeinen Conlulenten, ſondern auch, weilen del lnquilti ſelbſten in Jhtem Gefängnüß ſo viele Freyheit gelaſſen worden, daß ſie frembden Beſuch von Jhren Anberwandten ohngehindert en– pfangen können, durch andere Perſonen ſich mit ihr über alles, Was Er oder ſie dereinſten zu ſagen hat– ten· vereinigen können, immaſſen der Hofrath [...] 20 rath mit einer Pœna fiſcali angeſehen worden, und ſolche durch des Hrn. Graffen von Königsfeld Vor– ſpruch, nur aus Gnaden nachgelaſſen erhalten. Sondern man hat auch dieſen 4. Wochen lang alle Abend bey der Jnquisitin gantz allein gelaſſen. Binnen welcher gantzer Zeit der Schreiber Bredekaw beſtändig bey Jhme geweſen, und ſich in der am 13 ten Octobr. a.c. in Judicio gegen ſeinen geweſenen Hrn. introducirter Appellation deſſen Bey- raths bedienet hat; 33) Dabenebenſt iſt der Schreiber binnen dieſer gantzen Zeit auf freyem Fuß geblieben, und hat nicht nur durch ſeinen Conſulenten, ſondern auch, weilen der Inquiſitin ſelbſten in Jhrem Gefängnüß ſo viele Freyheit gelaſſen worden, daß ſie frembden Beſuch von Jhren Anverwandten ohngehindert em– pfangen können, durch andere Perſonen ſich mit ihr über alles, Was Er oder ſie dereinſten zu ſagen hat– ten, vereinigen können, immaſſen der Hofrath [...] Acten-mäßiger Verlauff, Des Fameusen Processus sich verhaltende ... (1749)
  • 13. Warum Zeilen-OCR? • Segmentieren einer Textzeile in Zeichen problematisch • insbesondere bei schwierigen Dokumenten und Handschriften • Erstellen von Ground Truth für unsegmentierte Zeilen wesentlich weniger aufwändig • Ein Algorithmus kann mit dem Kontext innerhalb der Zeile arbeiten Verdammt d cl rn m nn
  • 14. Zeilen-OCR mit Deep Neural Network y = fa(x) Text Bild Modell mit unbekannten Parametern a
  • 15. lernt Features: Kurven, Kanten, Ecken etc. Recurrent Layer Feature Maps → Probability Matrix Convolutional Layer Pixel → Feature Maps Connectionist Temporal Classification Layer Probability Matrix → Labels lernt Zeichen in Bildfenstern + Kontext lernt wahrscheinlichsten Ausgabetext
  • 16. OCR-Qualitätsverbesserung: Modelle für die Zeilen-OCR • Standard-Modelle in Tesseract OCR • Nicht reproduzierbar • Kodierungsprobleme • ch- und ck-Ligaturen als <, > • kein langes s (ſ) für Antiqua-Satz • kein hochgestelltes e (aᵉ, uᵉ, etc.) ¹GT4HistOCR: Ground Truth for training OCR engines on historical documents in German Fraktur and Early Modern Latin – Springmann et al. • Eigenes Modell mit Calamari OCR • Reproduzierbar • Auf Basis des GT4HistOCR-Datasets¹ • Wiegendrucke, Fraktur, frühe Antiqua • 300.000 Textzeilen • 1 Woche Training auf Nvidia RTX 2080
  • 17. Voting mehrerer OCR-Modelle • Statt einem Modell werden k gleich starke Modelle trainiert • k-fold Cross Validation • Die Modelle voten – stimmen über ein Ergebnis ab ➡ Gemeinsam stärker • Summe der Konfidenzwerte i: 0.8 l: 0.2 j: 0.0 Beyſp i: 0.4 l: 0.5 j: 0.1 el. i: 0.3 l: 0.4 j: 0.3 Σ: 1.5
  • 18. OCR-Beispiel VD18¹ ¹Acten-mäßiger Verlauff, Des Fameusen Processus sich verhaltende ... (1749) Beispielzeile manuell in drei Teile umgebrochen Tesseract 4.1 (frk) SBB {Zeilensegmentierung, Binarisierung, OCR-Modelle}: rie ſönſten hier gewöhnlich articuli impertinenres der dergleichen Gewe zug lafien dim die von wie ſonſten hier gewoͤ hnlich, articuli impertinentes oder dertleichen Intertogatotia zugelaſſen/ auch die von
  • 19. Stol, Pomrn. [56000] Jn unſerem Genoſſenſchaftsregiſter iſt heute unter Nr. 113 die ,,Landliche Spar⸗ und Darlehnokaſſe Schmaatz, eingetragene Genofſenſchaft mit be⸗ ſchränkter Haftpflicht in Schmaatz', eingetragen worden. Gegenſtand des Unternehmens iſt die Gewährung von Darlehen an die Mitglieder für ihren Geſchäfts⸗ und Wirtſchaftsbetrieb, Er- leichterung der Geldanlage und Förderung des Sparſinns, nebenbei gemeinſchaftliche Beſchaffuag landwirtſchaftlicher Betriebs. mittel. Die Haftſumme beträgt 20 , die Höchſtzahl der Geſchäftsanteile 100. Vorſtandsmitglieder ſind: der Hofbeſitzer Albert Timreck als Vorſitzender, der Lehrer Auguſt Völz und der Hofbeſitzer Paul Selt, ſämtlich in Schmaatz. Das Statut iſt vom 25. Juli 192. Das Geſchäftsjahr lauft vom 1. April bis 31. März. Die Bekanntmachungen er⸗ folgen unter der Firma der Genoſſenſchaft im Pommerſchen Genoſſenſchaftsblatt, beim Eingehen dieſes Blattes bis auf weiteres im Deutſchen Reichsanzeiger. Die Willenserklärungen des Vorſtands erfolgen durch zwei Vorſtandsmitglieder. Hie Zeichnung geſchieht derart, daß die Zeich- nenden zu der Firma ihre Namensunter⸗ ſchrift beifügen. Die Einficht in die Liſte der Genoſſen iſt während der Geſchäfts. ſtunden des Gerichts jedermann geſtattet. Stolp, den 1. Auguſt 1920. Das Amtsgericht. ¹ Digitalisat aus dem Reichsanzeiger August 1920 (via UB Mannheim) OCR-Beispiel Zeitung¹
  • 20. • Ground Truth ≟ OCR-Resultat • Visualisierung von Unterschieden Ihrem Gefängnüß ≟ Jhrem Gefängnüß • Metriken: • Zeichenfehlerrate CER CER = (s + i + d)/l • Wortfehlerrate WER • Eigenentwicklung • Unicode-Support (m̃ ≟ m, ñ = ñ, MUFI etc.) • OCR-D-Support • Substitutionen (fi → fi) OCR-Evaluation: dinglehopper
  • 21. OCR-Qualitätsverbesserung: Erste Ergebnisse • Dataset: ~ 350 Seiten • aus dem SBB-Bestand • Fraktur, Antiqua etc. • Reduzierung der CER • von >0.10 (Median) • Tesseract Zeilensegmentierung + Tesseract frk • auf 0.06 (Median) • SBB Zeilensegmentierung + Calamari voted GT4HistOCR (hier im Plot anderes Tesseract- Modell ebenfalls basierend auf
  • 22. OCR-Qualitätsverbesserung: Nächste Schritte • Robusteres OCR-Modell • Dataset aus DTA → Millionen Textzeilen • Augmentation → Robuster gegen Noise und Skewing • Postcorrection via Sprachmodell • Verwendung a. der Wahrscheinlichkeiten b. aller k Modellergebnisse ➡ Informiertere Postcorrection
  • 23. OCR-Qualitätsverbesserung: Nächste Schritte • Qualitätsbestimmung • Für Volltexte interessante Dokumente • Technisch durchführbar • Gut: bspw. moderne Drucke • Schlecht: bspw. Handschriften • Bestehende Volltexte • Kandidaten für Korrekturen • Qualität abschätzen • Anhand von • Metadaten und Bildmerkmalen • OCR-Konfidenz ➡ Ressourcenplanung, UX und Korrektur
  • 25. Layouterkennung: • Pixelwise-Segmentierung • Page(Rahmen)-Erkennung • Layout-Erkennung • Beispiel: Textregion (benötigt für OCR), Bilder , Grafiken, Tabellen, Separatoren etc. erkennen • Zeilenenerkennung • Binarisierung
  • 28. Woraus lernt das Modell? Ground Truth Modelltraining
  • 31. Dokument ohne vertical Separators Bild Erstes Ergebnis Nachkorrektur
  • 32. Zeilenerkennung: 1. Zeilenerkennung für ganzes Dokument 2. Zuschneiden (Crop) für entsprechende Textregion 3. Suche nach Linienboxen
  • 33.
  • 35. Binarisierung • Wieder Pixelweise Segmentierung • Ground Truth: Ergebnisse des Binarisierungswettbewerbs (DIBCO) • Kombinationen von 4 Modellen (Deshalb ist es langsam) • Funktioniert gut für Texte • Macht kein “Pfeffer”-Denoising
  • 37. Layouterkennung: Nächste Schritte • Bereitstellung der Ground Truth für die Binarisierung (Verbesserungen für handschriftliche Anmerkungen, Bilder und “Pfeffer”-Denoising) • Zeilenreihenfolge für Zeitungen mit mehr als einer Spalte erweitern, deren Separatoren (oder Überschriften) sich überschneiden • Verbesserung der Modelle und heuristischen Methoden • Entwicklung einer Methode für Linien, die teilweise schief sind • Trainieren eines Modell um freien Raum zwischen Regionen zu erkennen
  • 39. Named Entity Recognition (NER) ● Eigennamenerkennung ● Informationsextraktion aus gegebenem Volltext ● automatische Identifikation und Klassifikation von Eigennamen ● Folge von Wörtern, die eine real existierende Entität beschreiben, wie z. B.: ○ Personen ○ Orte ○ Organisationen ○ Produkte
  • 41. Named Entity Recognition - trivial? Essen liegt in Nordrhein-Westfalen. Essen ist lecker. Essen ist schön. Essen ist groß. Essen duftet. Es gibt gutes Essen in Essen. Essen macht satt. Essen macht mobil. Demonstrator
  • 42. Named Entity Recognition - Ziele • tiefere automatische Erschließung der Volltexte • Suche nach Personen, Orten und Organisationen auf dem Portal der digitalisierten Sammlungen oder in Zeitungen (ZEFYS) • Digital Humanities • Extraktion sozialer Netzwerke aus historischen Texten (SoNAR-IDH) • historische Ortsnamen Konkordanz • Vorbedingung für Named Entity Disambiguierung und Verlinkung: • automatische eindeutige Identifikation einer Named Entity, z.B.: • GND - Eintrag • Wikidata Datensatz • Wikipedia Seite • Geo-koordinaten (Toponyme)
  • 43. NER in OCR- Volltexten Vorwort von Alexander v. Humboldt zu den "Erinnerungen der Reise nach Indien von S. K. H. dem Prinzen Waldemar von Preussen" : [Berlin, den 18 December 1854]
  • 44. Named Entity Recognition mit BERT Bidirectional Encoder Representations from Transformers
  • 45. Feedforward - Netze [1] Modifiziert aus: Rumelhart et al., Learning representations by back-propagating errors, Nature 1986. [1] Rekurrente - Netze [1]
  • 46. BERT - Architektur [1] [1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018
  • 47. Transformer Encoder [1] [1] Vaswani et al., Attention Is All You Need, NIPS 2017
  • 48. BERT - Vortraining • [CLS] Der Strom, der nachts, wenn die Produktion [MASK] der Bettfedernfabrik ruhte, nicht gebraucht wurde, wurde für die Kühl- und Gefrieranlagen genutzt. [SEP] Ab 1951 nutzte man eine Spezialapparatur, mit der frische Fische sofort [MASK] dem Fang eingefroren werden konnten. [SEP] Aufeinanderfolgend: Ja • [CLS] Rollins Eltern stammen [MASK] den karibischen Jungferninseln. [SEP] Kern der Sendung sind [MASK] Lach- und Sachgeschichten. [SEP] Aufeinanderfolgend: Nein
  • 49. BERT - Vortraining [1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018 [1]
  • 50. BERT - Vortraining Google: ● BERT-base: 110M Parameter ● 100 Sprachen ● 100 größte Wikipedias ● 16x Google Tensor Processing Units mit jeweils 64GB ● Rechenzeit ca. 4 Tage Qurator-SBB: ● Starten mit Google Modell ● 2.333.647 deutschsprachige Textseiten (OCR) aus den digitalisierten Sammlungen ● 1x NVIDIA V100 GPU mit 32GB ● 10 Epochen ● Rechenzeit ca. 2 Wochen
  • 51. BERT - NER Training [1] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arXiv:1810.04805 2018 [1]
  • 52. NER Training - Ground Truth ● CoNLL 2003 corpus (ca. 200.000 Tokens) ● GermEval Konvens 2014 corpus (ca. 450.000 Tokens) ● historische Zeitungen (Europeana Newspapers): ○ Zeitungen um 1926 (Landesbibliothek Dr. Friedrich Teßmann, ca. 70.000 Tokens, LFT) ○ Zeitungen des Zeitraums 1710 - 1873 (Österreichische Nationalbibliothek, ca. 30.000 Tokens, ONB) ○ Zeitungen des Zeitraums 1872 - 1930 (Staatsbibliothek zu Berlin, ca. 50.000 Tokens, SBB)
  • 53. [1] Kai Labusch, Clemens Neudecker and David Zellhöfer. BERT for Named Entity Recognition in Contemporary and Historic German, KONVENS 2019 [1]
  • 54. Approximative nächste Nachbarn Suche Ausblick: Named Entity Disambiguierung (NED) So wurden Erik Axel Karlfeldt 1931 und UN-Generalsekretär Hammarskjöld 1961 posthum geehrt. ● BERT embeddings ● Fasttext embeddings ● FLAIR embeddings
  • 55. neath - Kooperation mit SoNAR-IDH
  • 56. Ausblick ● M18 - M36 ○ OCR Postcorrection, OCR-D Integration ○ Strukturerkennung, Bildähnlichkeitssuche ○ Semantische Generalisierung (Embeddings, Topic Models, Ngrams) ○ Toponymauflösung ○ Disambiguierung und Verlinkung ● #QURATOR2020 Konferenz, 20-21 Januar 2020, Berlin ○ https://qurator.ai/conference-qurator-2020/ ● Demonstrator(en) ○ https://digital-beta.staatsbibliothek-berlin.de/ ○ https://lab.sbb.berlin
  • 57. Danke für die Aufmerksamkeit! Fragen? Staatsbibliothek zu Berlin – Preußischer Kulturbesitz IIA Kolloquium Metadatenmanagement 14. November 2019, SBB, Berlin qurator@sbb.spk-berlin.de