SlideShare ist ein Scribd-Unternehmen logo
1 von 72
Downloaden Sie, um offline zu lesen
Layouterkennung und Seiten-
segmentierung als Vorstufen zur
Volltexterschliessung
Early Chinese Periodicals Online (ECPO)
Matthias Arnold | Uni Heidelberg ⸱ HCTS ⸱ HRA
Dokumentenerbe digital | OCR Workshop | 2020-10-16
Research data – Chinese periodical press
• First decades of the 20th century
• Understudied, but dominated the contemporary print market and
provide access to the "actual culture“ (R. Williams, 1961)
Challenges
• Physically dispersed, often poorly preserved
• Voluminous (full runs, daily, up to >30 years)
• Multi-generic and intellectually demanding
Approach
• Multi-disciplinary team, >10 researchers, 2 PhD
theses
• Women and the Periodical Press in China’s Global
Twentieth Century: A Space of Their Own? Ed. by Joan
Judge, Barbara Mittler and Michel Hockx, Cambridge
University Press, 2018.
Database Early Chinese Periodicals Online (ECPO)
https://uni-heidelberg.de/ecpo
308 publications: 134 with items
>300.000 scans
40.936 issues: 46.931 articles, 20.532 images, 18.639 ads
Publishing information
Nachweis der Publikationen über
CATS Bibliothek in HEIDI, ZDB und
SWB (in progress)
54.920 names, 48.096 agents, 163.408 occurrences,
21 ‘languages’
ECPO - Data structure
Opening the data silo
From static export to dynamic data service
• Output data using the Metadata Object Description Schema
(MODS) - Open Access: http://ecpo.uni-hd.de/api/mods/
From static pre-rendered files to dynamic image service
• Implementation of International Image Interoperability
Framework (IIIF) Image API http://iiif.io/technical-details/
From separate names to cross-db agents service
• Identify agent, assign names, link to authorities, structure
information, feed data back to authority files (GND)
Wege zum Volltext:
Vorarbeiten
Arnold | ECPO Database
JADH 2018
https://www.primaresearch.org/RDCL2019/
Segmentation / image pre-processing required
• Problem:
Entertainment newspapers 小報 xiao bao:
Jing bao 晶報 (The Crystal) 1919-1940
Expanding data: towards fulltext
• Manual typing not feasible
• Professional double-keying very expensive
• OCR often unusable
• Document: dense layout, normal segmentation fails
• Image: noisy, secondary copies with stains/scratches
• Characters: special characters (emphasis), handwriting
Wege zum Volltext:
Vorarbeiten - OCR
Arnold | ECPO Database
JADH 2018
ca. 63% correctly
recognized
Segmentation / image pre-processing required
• Problem:
Segmentation / image pre-processing required
• Problem:
Layouterkennung und Seiten-
segmentierung:
Binnenstrukturen
Arnold | ECPO Database
HAASDZ 2018
Segmentation / image pre-processing required
• Problem:
• Problem:
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
Segmentation / image pre-processing required
• Problem:
Layouterkennung und Seiten-
segmentierung:
Manuelle Segmentierung (Crowd)
Arnold | ECPO Database
JADH 2018
Segmentation - I
• Page segmentation (pattern recognition/computer vision)
• Analyze layout of page, use page-internal structures
• Identify semantic units
• Generate co-ordinates, relate them to items, store in DB
Segmentation - II
• Page segmentation (crowdsourcing)
• Pilot project with Pallas Ludens GmbH
• Let the (controlled) crowd help analyzing the pages
• Identify and label four item types:
− image/drawing
− article
− advertisement
− additional information
• Closely supervised
• Non-Chinese speaking community
Processing
2. Page segmentation (computer vision/ocr)
Grouping semantic units
2. Page segmentation (crowdsourcing)
• drawing – correcting – grouping
Outcome of segmentation pilot
1. Page segmentation can be outsourced to expert crowd
• Requires supervision
• Advanced user interfaces (high usability, efficiency)
• Crowd should read Chinese (semantic grouping)
2. Jingbao 晶報 1919-21 (927 folds) completely segmented
with qualified boxes, issues of April 1919 with semantic units
3. Further processing:
• Computational Knowledge Lab (知識計算實驗室), Dept.
Engineering Science and Ocean Engineering, Taiwan
National University, http://www.cklab.org/
• Advanced Linguistic Technologies, Heidelberg
• Seeking additional partners for collaboration
…and funding
Vorstufen zur Volltexterschliessung:
Machine learning
Arnold | ECPO Database
DHd AG Z&Z 2019
Impresso und dhSegment
DH2019 (Utrecht): Kontakt impresso
Folgegespräche insb. mit Sofia Ares Oliveira
-> Einsatz dhSegment: “generic deep-learning framework for Historical
Document Processing” https://github.com/dhlab-epfl/dhSegment
Benötigt: GroundTruth
Ziele
• Unterstützung bei Document segmentation
• Trainieren der Modelle auf Unterscheidung 3 Hauptbereiche
• Paratext (Kopfzeilen/running head und Marginalia)
• Werbung und Bilder
• Textbereiche
• Unterstützung der Maschine durch Entfernung der Bereiche mit
Spezialfonts und Bildern (Abarbeitung einzeln)
Arnold | ECPO Database
Vorstufen zur Volltexterschliessung:
Ground truth
Arnold | ECPO Database
DHd AG Z&Z 2019
Funding for Ground Truth
Zusätzliche Mittel über Field of Focus 3 (ExStrat Heidelberg), Juli-
Oktober und November-Dezember 2019
Gemeinsam mit Duncan Paterson und 4 WiHi (typing)
• GroundTruth 1: Bounding boxes mit Labels
• Koordinaten in json und web-annotation Format
• Jingbao April 1939 und April 1938
• Stand: 70 folds, 6335 shapes, Ø 90,5 shapes/fold
• GroundTruth2: Texte
• Blind double-keying
• Jingbao April 1939 - 10 issues, 40 folds
• Stand: ca. 245.000 Zeichen, lokales XML Format,
Ø 6100 Zeichen/fold (Bearbeitung ca. 10h/fold!)
Arnold | ECPO Database
Annotation tool
Arnold | ECPO Database
Entwicklung: eXist-Solutions
Annotationen in json
Texte auf GitHub - 1
Lokales XML Schema
• <fold>
mit @xml:id und recto/verso-Paar
• <div> (division)
mit page, article, image, advert, other, head (for running
head on top of page), margin (for margin)
• <p> (paragraph)
• <lb/> (line break) / <pb/> (page break)
Encoding “UTF-8”:
• Zeichen nach Vorlage, wo immer Unicode codepoint
verfügbar
• Unlesbar: &gaiji;
• Alle Schriftzeichen als double-space characters
Arnold | ECPO Database
Texte auf GitHub - 2
Besonderheit: Laufrichtung des Textes
<div> mit @mode und @dir
Default: mode=“vertical-rl”
https://github.com/exc-asia-and-europe/ecpo
Arnold | ECPO Database
Texte auf GitHub - 1
Lokales XML Schema
• <fold>
mit @xml:id und recto/verso-Paar
• <div> (division)
mit page, article, image, advert, other, head (for running
head on top of page), margin (for margin)
• <p> (paragraph)
• <lb/> (line break) / <pb/> (page break)
Encoding “UTF-8”:
• Zeichen nach Vorlage, wo immer Unicode codepoint
verfügbar
• Unlesebar: &gaiji; ("&#xe111;“)
• Alle Schriftzeichen als double-space chars
Texte auf GitHub - 3
Texte auf GitHub - 3
Default setting per page:
@mode=„vertical-rl“ and
@dir=„rtl“ (right-to-left)
Texte auf GitHub - 3
If needed, we encode changes in
sub-level <div>‘s
After </div> changes reset to default
Vorstufen zur Volltexterschliessung:
„Gezieltes“ machine learning
Arnold | ECPO Database
DHd AG Z&Z 2019
A – Paratext D. Paterson
Erster Schritt
• Weitgehend regelmäßig
• Nur geringe Unterschiede im Text (zb. Seitenzahlen, Datum)
• Daten können für Metadaten genutzt werden
• Editors, Publisher
• Identifikation der Seiten
• Sonderfonts und Layout behindern Seiten- und Fonterkennung
Ziele
• Netzwerk trainieren auf Erkennung Header in ganz Jingbao (in Arbeit)
• Nutzung zum OCR Training (begrenzter Satz an Zeichen)
• Wenige unregelmäßige Zeichen und Fonts
Arnold | ECPO Database
B - Illustrationen und Werbung D. Paterson
• Werbung oft im Falz, teilweise schlecht erhalten
• Viele Wiederholungen von Ads innerhalb bestimmter Zeiträume
• Derzeit noch kein tracking von Ads zwischen verschiedenen Issues
/ Publikationen
Herausforderung:
• Zeichen/Fonts extrem variabel – Sonderzeichen, Spezialfonts,
invertierte Zeichen, Text-in-Bild-in-Text, etc
Ziele:
• Modell zur Erkennung einzelner Ads
• Über Einzel-Fold hinaus
• Metadaten
Arnold | ECPO Database
C - Inhalte / Text D. Paterson
Ideal
• Gruppierung der Sammlung nach Fonts (historisch wurden nur eine sehr
begrenzte Anzahl von CJK Fonts genutzt)
• Texte in „natural language“, legt Einsatz von Wörterbüchern für die
Verarbeitung nahe
Aber
• historische Varianten (Zeichen, Wort) nicht in modernen Modellen
• Mischung von Schriften (Hant, Latn) und typische Wechsel in Laufrichtung
führen zu Problemen in OCR
• GroundTruth Erstellung sehr zeitaufwändig, Verarbeitung mit extensivem
pre-processing (comments, ornamentation, etc)
Ziele
• Verarbeitung einzelner kompletter Jahrgänge und Einbau in ECPO Search
• Ausreichende OCR Qualität für einfache Suchen, incl. Zeichenvarianten
Arnold | ECPO Database
Vorstufen zur Volltexterschliessung:
Erste Ergebnisse
Arnold | ECPO Database
Segmentation / image pre-processing required
• Problem:
Segmentation / image pre-processing required
• Problem:
Segmentation / image pre-processing required
• Problem:
Auf dem Weg zum Volltext:
Nächste Schritte
Arnold | ECPO Database
ECPO – Erweiterte Infrastruktur
Arnold | ECPO Database
ECPO-DB
SQL
Annotation tool
eXist App
IIIF Service
eXist-db
Fileserver
dhSegment
CNN
Herausforderungen
• Rechenkapazitäten unzureichend für Entwicklung (GW und GPU Server)
• Lösung: Einsatz von bwForCluster MLS&WISO (HPC)
• Gewachsene Teilmodule müssen in neuer Infrastruktur integriert werden
• Unit-ID‘s, file encodings, etc.
• Outsourced Module teilweise wenig dokumentiert
• OCR-d vorbildlich
Arnold | ECPO Database
Work in progress
• Verlinkung der Annotationen (manuell und Maschine) mit vorhandenen
Annotationen in ECPO-SQL (Metadaten Artikel, Bild, Werbung)
• Bildoptimierungen (binarisation) und Character detection (snippets) für
OCR, OCR Optimierungen (dictionaries) und Stapelverarbeitung der
Regionen im Scan nach Typ
Mittelfristig
• Modell auf Wechsel der Laufrichtung innerhalb semantischer Einheiten
trainieren
• Modell für vertikale Zeilenerkennung trainieren (RtL, TtB)
• Erstellung Wörterbuch für Republikzeitliches geschriebenes Chinesisch
Längerfristig
• Ausdehnung des Modells auf andere non-Latn script Materialien
• Verbesserung der CJK OCR für unterschiedliche hist. Perioden
Arnold | ECPO Database
Binarisierung und snippets
ECPO in a larger context
• Content expansion
• Early western publications printed in China
• Co-operation with Univ. Erlangen: Agents
• ECPO as data platform
• for storing, enhancing, accessing, sharing „grey“
material from the CATS Library
• Outreach/ Communities
• DH-d working group Newspaper/Journals, OCR-d,
Transkribus/READ
• Connect with FID Asien (CrossAsia), Non-Latn scripts
interest group, TEI East Asia SIG
• Long-term repository
• University Library, DWork – HeidICON – HeiDATA
Selected References
Women and the Periodical Press in China’s Global Twentieth Century: A Space of Their
Own? Ed. by Joan Judge, Barbara Mittler and Michel Hockx, Cambridge University
Press, 2018.
Ares Oliveira, Sofia, Benoit Seguin, and Frederic Kaplan. 2018. “DhSegment: A Generic
Deep-Learning Approach for Document Segmentation.” In 2018 16th International
Conference on Frontiers in Handwriting Recognition (ICFHR), 7–12. IEEE.
https://doi.org/10.1109/ICFHR-2018.2018.00011.
Arnold, Matthias, and Lena Hessel. 2020. “Transforming Data Silos into Knowledge:
Early Chinese Periodicals Online (ECPO).” In Heuveline, Vincent, Gebhart, Fabian und
Mohammadianbisheh, Nina (Hrsg.): E-Science-Tage 2019: Data to Knowledge, 95–109.
Heidelberg: heiBOOKS. https://doi.org/10.11588/heibooks.598.c8420.
Sung, Doris, Liying Sun, and Matthias Arnold. 2014. “The Birth of a Database of
Historical Periodicals: Chinese Women’s Magazines in the Late Qing and Early
Republican Period.” Tulsa Studies in Women’s Literature 33 (2): 227–37.
https://doi.org/10.1353/tsw.2014.0004.
Arnold, Matthias. (2021). “Multilingual Research Projects: Challenges for Making Use of
Standards, Authority Files, and Character Recognition.” Digital Studies / Le Champ
Numérique 11 (accepted).
Arnold | ECPO Database
Vielen Dank!
Arnold | ECPO Database
Contact
Matthias Arnold
Heidelberg Centre for Transcultural Studies | HCTS
Karl Jaspers Centre
Voßstr. 2 | Building 4400 | Room 005b
69115 Heidelberg, Germany
Phone: +49 - 6221 - 54 4094
eMail: matthias.arnold@uni-hd.de
Web: http://tinyurl.com/matthias-arnold

Weitere ähnliche Inhalte

Ähnlich wie Ocr workshop ubhd 2020 10-15

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungTIB Hannover
 
Das Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQLDas Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQLMongoDB
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienGeorg Rehm
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Ralf Stockmann
 
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...cneudecker
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
Startmeeting Interessengruppe NLP NLU Graz
Startmeeting Interessengruppe NLP NLU GrazStartmeeting Interessengruppe NLP NLU Graz
Startmeeting Interessengruppe NLP NLU Grazroskakori
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Thomas Koch
 
Docbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XMLDocbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XMLPeter Eisentraut
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
Produce & Publish Authoring Environment World Plone Day 2010 - Berlin
Produce & Publish Authoring Environment World Plone Day 2010 - BerlinProduce & Publish Authoring Environment World Plone Day 2010 - Berlin
Produce & Publish Authoring Environment World Plone Day 2010 - BerlinAndreas Jung
 
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Matthias Arnold
 
Der gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open SourceDer gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open Sourceyellowcow
 

Ähnlich wie Ocr workshop ubhd 2020 10-15 (20)

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die Literaturverwaltung
 
Das Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQLDas Back to Basics – Webinar 1: Einführung in NoSQL
Das Back to Basics – Webinar 1: Einführung in NoSQL
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische Technologien
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
 
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Archeoinf Prototyp
Archeoinf PrototypArcheoinf Prototyp
Archeoinf Prototyp
 
Startmeeting Interessengruppe NLP NLU Graz
Startmeeting Interessengruppe NLP NLU GrazStartmeeting Interessengruppe NLP NLU Graz
Startmeeting Interessengruppe NLP NLU Graz
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
 
Docbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XMLDocbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XML
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
Produce & Publish Authoring Environment World Plone Day 2010 - Berlin
Produce & Publish Authoring Environment World Plone Day 2010 - BerlinProduce & Publish Authoring Environment World Plone Day 2010 - Berlin
Produce & Publish Authoring Environment World Plone Day 2010 - Berlin
 
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
 
Der gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open SourceDer gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open Source
 

Mehr von Matthias Arnold

Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)Matthias Arnold
 
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...Matthias Arnold
 
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – ArchivierungMatthias Arnold
 
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...Matthias Arnold
 
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....Matthias Arnold
 
The Chinese Women’s Magazines Database
The Chinese Women’s Magazines DatabaseThe Chinese Women’s Magazines Database
The Chinese Women’s Magazines DatabaseMatthias Arnold
 
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.Matthias Arnold
 
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...Matthias Arnold
 

Mehr von Matthias Arnold (8)

Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
 
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richt...
 
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung
 
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
 
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
 
The Chinese Women’s Magazines Database
The Chinese Women’s Magazines DatabaseThe Chinese Women’s Magazines Database
The Chinese Women’s Magazines Database
 
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
 
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
 

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

1029-Danh muc Sach Giao Khoa khoi 11.pdf
1029-Danh muc Sach Giao Khoa khoi 11.pdf1029-Danh muc Sach Giao Khoa khoi 11.pdf
1029-Danh muc Sach Giao Khoa khoi 11.pdf
 
1029-Danh muc Sach Giao Khoa khoi 12.pdf
1029-Danh muc Sach Giao Khoa khoi 12.pdf1029-Danh muc Sach Giao Khoa khoi 12.pdf
1029-Danh muc Sach Giao Khoa khoi 12.pdf
 
Wirtschaftsingenieurwesen an der Universität Duisburg-Essen
Wirtschaftsingenieurwesen an der Universität Duisburg-EssenWirtschaftsingenieurwesen an der Universität Duisburg-Essen
Wirtschaftsingenieurwesen an der Universität Duisburg-Essen
 
Welche KI-Kompetenzen brauchen Lehrpersonen?!
Welche KI-Kompetenzen brauchen Lehrpersonen?!Welche KI-Kompetenzen brauchen Lehrpersonen?!
Welche KI-Kompetenzen brauchen Lehrpersonen?!
 
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_EssenAngewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
 
LAKO Kreativpreis_2024_Startnummer_02_(LFS_LA).pdf
LAKO Kreativpreis_2024_Startnummer_02_(LFS_LA).pdfLAKO Kreativpreis_2024_Startnummer_02_(LFS_LA).pdf
LAKO Kreativpreis_2024_Startnummer_02_(LFS_LA).pdf
 
Angewandte Philosophie an der Universität Duisburg-Essen.
Angewandte Philosophie an der Universität Duisburg-Essen.Angewandte Philosophie an der Universität Duisburg-Essen.
Angewandte Philosophie an der Universität Duisburg-Essen.
 

Ocr workshop ubhd 2020 10-15

  • 1. Layouterkennung und Seiten- segmentierung als Vorstufen zur Volltexterschliessung Early Chinese Periodicals Online (ECPO) Matthias Arnold | Uni Heidelberg ⸱ HCTS ⸱ HRA Dokumentenerbe digital | OCR Workshop | 2020-10-16
  • 2. Research data – Chinese periodical press • First decades of the 20th century • Understudied, but dominated the contemporary print market and provide access to the "actual culture“ (R. Williams, 1961) Challenges • Physically dispersed, often poorly preserved • Voluminous (full runs, daily, up to >30 years) • Multi-generic and intellectually demanding Approach • Multi-disciplinary team, >10 researchers, 2 PhD theses • Women and the Periodical Press in China’s Global Twentieth Century: A Space of Their Own? Ed. by Joan Judge, Barbara Mittler and Michel Hockx, Cambridge University Press, 2018. Database Early Chinese Periodicals Online (ECPO)
  • 4.
  • 7. 40.936 issues: 46.931 articles, 20.532 images, 18.639 ads
  • 8.
  • 10. Nachweis der Publikationen über CATS Bibliothek in HEIDI, ZDB und SWB (in progress)
  • 11.
  • 12. 54.920 names, 48.096 agents, 163.408 occurrences, 21 ‘languages’
  • 13. ECPO - Data structure
  • 14. Opening the data silo From static export to dynamic data service • Output data using the Metadata Object Description Schema (MODS) - Open Access: http://ecpo.uni-hd.de/api/mods/ From static pre-rendered files to dynamic image service • Implementation of International Image Interoperability Framework (IIIF) Image API http://iiif.io/technical-details/ From separate names to cross-db agents service • Identify agent, assign names, link to authorities, structure information, feed data back to authority files (GND)
  • 15. Wege zum Volltext: Vorarbeiten Arnold | ECPO Database JADH 2018
  • 17. Segmentation / image pre-processing required • Problem: Entertainment newspapers 小報 xiao bao: Jing bao 晶報 (The Crystal) 1919-1940
  • 18.
  • 19.
  • 20. Expanding data: towards fulltext • Manual typing not feasible • Professional double-keying very expensive • OCR often unusable • Document: dense layout, normal segmentation fails • Image: noisy, secondary copies with stains/scratches • Characters: special characters (emphasis), handwriting
  • 21. Wege zum Volltext: Vorarbeiten - OCR Arnold | ECPO Database JADH 2018
  • 22.
  • 23.
  • 24.
  • 25.
  • 27. Segmentation / image pre-processing required • Problem:
  • 28. Segmentation / image pre-processing required • Problem:
  • 30. Segmentation / image pre-processing required • Problem:
  • 32. Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
  • 33. Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
  • 34. Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
  • 35. Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
  • 36. Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
  • 37. Segmentation / image pre-processing required • Problem:
  • 38. Layouterkennung und Seiten- segmentierung: Manuelle Segmentierung (Crowd) Arnold | ECPO Database JADH 2018
  • 39. Segmentation - I • Page segmentation (pattern recognition/computer vision) • Analyze layout of page, use page-internal structures • Identify semantic units • Generate co-ordinates, relate them to items, store in DB
  • 40. Segmentation - II • Page segmentation (crowdsourcing) • Pilot project with Pallas Ludens GmbH • Let the (controlled) crowd help analyzing the pages • Identify and label four item types: − image/drawing − article − advertisement − additional information • Closely supervised • Non-Chinese speaking community
  • 41. Processing 2. Page segmentation (computer vision/ocr)
  • 42. Grouping semantic units 2. Page segmentation (crowdsourcing) • drawing – correcting – grouping
  • 43. Outcome of segmentation pilot 1. Page segmentation can be outsourced to expert crowd • Requires supervision • Advanced user interfaces (high usability, efficiency) • Crowd should read Chinese (semantic grouping) 2. Jingbao 晶報 1919-21 (927 folds) completely segmented with qualified boxes, issues of April 1919 with semantic units 3. Further processing: • Computational Knowledge Lab (知識計算實驗室), Dept. Engineering Science and Ocean Engineering, Taiwan National University, http://www.cklab.org/ • Advanced Linguistic Technologies, Heidelberg • Seeking additional partners for collaboration …and funding
  • 44. Vorstufen zur Volltexterschliessung: Machine learning Arnold | ECPO Database DHd AG Z&Z 2019
  • 45. Impresso und dhSegment DH2019 (Utrecht): Kontakt impresso Folgegespräche insb. mit Sofia Ares Oliveira -> Einsatz dhSegment: “generic deep-learning framework for Historical Document Processing” https://github.com/dhlab-epfl/dhSegment Benötigt: GroundTruth Ziele • Unterstützung bei Document segmentation • Trainieren der Modelle auf Unterscheidung 3 Hauptbereiche • Paratext (Kopfzeilen/running head und Marginalia) • Werbung und Bilder • Textbereiche • Unterstützung der Maschine durch Entfernung der Bereiche mit Spezialfonts und Bildern (Abarbeitung einzeln) Arnold | ECPO Database
  • 46. Vorstufen zur Volltexterschliessung: Ground truth Arnold | ECPO Database DHd AG Z&Z 2019
  • 47. Funding for Ground Truth Zusätzliche Mittel über Field of Focus 3 (ExStrat Heidelberg), Juli- Oktober und November-Dezember 2019 Gemeinsam mit Duncan Paterson und 4 WiHi (typing) • GroundTruth 1: Bounding boxes mit Labels • Koordinaten in json und web-annotation Format • Jingbao April 1939 und April 1938 • Stand: 70 folds, 6335 shapes, Ø 90,5 shapes/fold • GroundTruth2: Texte • Blind double-keying • Jingbao April 1939 - 10 issues, 40 folds • Stand: ca. 245.000 Zeichen, lokales XML Format, Ø 6100 Zeichen/fold (Bearbeitung ca. 10h/fold!) Arnold | ECPO Database
  • 48. Annotation tool Arnold | ECPO Database Entwicklung: eXist-Solutions
  • 50. Texte auf GitHub - 1 Lokales XML Schema • <fold> mit @xml:id und recto/verso-Paar • <div> (division) mit page, article, image, advert, other, head (for running head on top of page), margin (for margin) • <p> (paragraph) • <lb/> (line break) / <pb/> (page break) Encoding “UTF-8”: • Zeichen nach Vorlage, wo immer Unicode codepoint verfügbar • Unlesbar: &gaiji; • Alle Schriftzeichen als double-space characters Arnold | ECPO Database
  • 51. Texte auf GitHub - 2 Besonderheit: Laufrichtung des Textes <div> mit @mode und @dir Default: mode=“vertical-rl” https://github.com/exc-asia-and-europe/ecpo Arnold | ECPO Database
  • 52. Texte auf GitHub - 1 Lokales XML Schema • <fold> mit @xml:id und recto/verso-Paar • <div> (division) mit page, article, image, advert, other, head (for running head on top of page), margin (for margin) • <p> (paragraph) • <lb/> (line break) / <pb/> (page break) Encoding “UTF-8”: • Zeichen nach Vorlage, wo immer Unicode codepoint verfügbar • Unlesebar: &gaiji; ("&#xe111;“) • Alle Schriftzeichen als double-space chars
  • 54. Texte auf GitHub - 3 Default setting per page: @mode=„vertical-rl“ and @dir=„rtl“ (right-to-left)
  • 55. Texte auf GitHub - 3 If needed, we encode changes in sub-level <div>‘s After </div> changes reset to default
  • 56. Vorstufen zur Volltexterschliessung: „Gezieltes“ machine learning Arnold | ECPO Database DHd AG Z&Z 2019
  • 57. A – Paratext D. Paterson Erster Schritt • Weitgehend regelmäßig • Nur geringe Unterschiede im Text (zb. Seitenzahlen, Datum) • Daten können für Metadaten genutzt werden • Editors, Publisher • Identifikation der Seiten • Sonderfonts und Layout behindern Seiten- und Fonterkennung Ziele • Netzwerk trainieren auf Erkennung Header in ganz Jingbao (in Arbeit) • Nutzung zum OCR Training (begrenzter Satz an Zeichen) • Wenige unregelmäßige Zeichen und Fonts Arnold | ECPO Database
  • 58. B - Illustrationen und Werbung D. Paterson • Werbung oft im Falz, teilweise schlecht erhalten • Viele Wiederholungen von Ads innerhalb bestimmter Zeiträume • Derzeit noch kein tracking von Ads zwischen verschiedenen Issues / Publikationen Herausforderung: • Zeichen/Fonts extrem variabel – Sonderzeichen, Spezialfonts, invertierte Zeichen, Text-in-Bild-in-Text, etc Ziele: • Modell zur Erkennung einzelner Ads • Über Einzel-Fold hinaus • Metadaten Arnold | ECPO Database
  • 59. C - Inhalte / Text D. Paterson Ideal • Gruppierung der Sammlung nach Fonts (historisch wurden nur eine sehr begrenzte Anzahl von CJK Fonts genutzt) • Texte in „natural language“, legt Einsatz von Wörterbüchern für die Verarbeitung nahe Aber • historische Varianten (Zeichen, Wort) nicht in modernen Modellen • Mischung von Schriften (Hant, Latn) und typische Wechsel in Laufrichtung führen zu Problemen in OCR • GroundTruth Erstellung sehr zeitaufwändig, Verarbeitung mit extensivem pre-processing (comments, ornamentation, etc) Ziele • Verarbeitung einzelner kompletter Jahrgänge und Einbau in ECPO Search • Ausreichende OCR Qualität für einfache Suchen, incl. Zeichenvarianten Arnold | ECPO Database
  • 60. Vorstufen zur Volltexterschliessung: Erste Ergebnisse Arnold | ECPO Database
  • 61. Segmentation / image pre-processing required • Problem:
  • 62. Segmentation / image pre-processing required • Problem:
  • 63. Segmentation / image pre-processing required • Problem:
  • 64. Auf dem Weg zum Volltext: Nächste Schritte Arnold | ECPO Database
  • 65. ECPO – Erweiterte Infrastruktur Arnold | ECPO Database ECPO-DB SQL Annotation tool eXist App IIIF Service eXist-db Fileserver dhSegment CNN
  • 66. Herausforderungen • Rechenkapazitäten unzureichend für Entwicklung (GW und GPU Server) • Lösung: Einsatz von bwForCluster MLS&WISO (HPC) • Gewachsene Teilmodule müssen in neuer Infrastruktur integriert werden • Unit-ID‘s, file encodings, etc. • Outsourced Module teilweise wenig dokumentiert • OCR-d vorbildlich Arnold | ECPO Database
  • 67. Work in progress • Verlinkung der Annotationen (manuell und Maschine) mit vorhandenen Annotationen in ECPO-SQL (Metadaten Artikel, Bild, Werbung) • Bildoptimierungen (binarisation) und Character detection (snippets) für OCR, OCR Optimierungen (dictionaries) und Stapelverarbeitung der Regionen im Scan nach Typ Mittelfristig • Modell auf Wechsel der Laufrichtung innerhalb semantischer Einheiten trainieren • Modell für vertikale Zeilenerkennung trainieren (RtL, TtB) • Erstellung Wörterbuch für Republikzeitliches geschriebenes Chinesisch Längerfristig • Ausdehnung des Modells auf andere non-Latn script Materialien • Verbesserung der CJK OCR für unterschiedliche hist. Perioden Arnold | ECPO Database
  • 69. ECPO in a larger context • Content expansion • Early western publications printed in China • Co-operation with Univ. Erlangen: Agents • ECPO as data platform • for storing, enhancing, accessing, sharing „grey“ material from the CATS Library • Outreach/ Communities • DH-d working group Newspaper/Journals, OCR-d, Transkribus/READ • Connect with FID Asien (CrossAsia), Non-Latn scripts interest group, TEI East Asia SIG • Long-term repository • University Library, DWork – HeidICON – HeiDATA
  • 70. Selected References Women and the Periodical Press in China’s Global Twentieth Century: A Space of Their Own? Ed. by Joan Judge, Barbara Mittler and Michel Hockx, Cambridge University Press, 2018. Ares Oliveira, Sofia, Benoit Seguin, and Frederic Kaplan. 2018. “DhSegment: A Generic Deep-Learning Approach for Document Segmentation.” In 2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR), 7–12. IEEE. https://doi.org/10.1109/ICFHR-2018.2018.00011. Arnold, Matthias, and Lena Hessel. 2020. “Transforming Data Silos into Knowledge: Early Chinese Periodicals Online (ECPO).” In Heuveline, Vincent, Gebhart, Fabian und Mohammadianbisheh, Nina (Hrsg.): E-Science-Tage 2019: Data to Knowledge, 95–109. Heidelberg: heiBOOKS. https://doi.org/10.11588/heibooks.598.c8420. Sung, Doris, Liying Sun, and Matthias Arnold. 2014. “The Birth of a Database of Historical Periodicals: Chinese Women’s Magazines in the Late Qing and Early Republican Period.” Tulsa Studies in Women’s Literature 33 (2): 227–37. https://doi.org/10.1353/tsw.2014.0004. Arnold, Matthias. (2021). “Multilingual Research Projects: Challenges for Making Use of Standards, Authority Files, and Character Recognition.” Digital Studies / Le Champ Numérique 11 (accepted). Arnold | ECPO Database
  • 71. Vielen Dank! Arnold | ECPO Database
  • 72. Contact Matthias Arnold Heidelberg Centre for Transcultural Studies | HCTS Karl Jaspers Centre Voßstr. 2 | Building 4400 | Room 005b 69115 Heidelberg, Germany Phone: +49 - 6221 - 54 4094 eMail: matthias.arnold@uni-hd.de Web: http://tinyurl.com/matthias-arnold