Das Project "Early Chinese Periodicals Online (ECPO)" führt mehrere digitale Sammlungen zur frühen chinesischen Presse zusammen und stellt diese auf einer Open Access Plattform frei zur Verfügung. Lag zu Beginn der Fokus auf den kaum beachteten, aber inhaltlich sehr reichhaltigen Materialien Frauen- und Unterhaltungsmagazinen, sind nun auch literarische, Kunst- oder Politik- Zeitungen und Zeitschriften oder westliche, in China herausgegebene Publikationen enthalten und werden weiterhin eingepflegt. In ECPO werden diese Forschungsergebnisse und Ressourcen zusammengeführt. Nach einer initialen Förderung der Kooperation Heidelberg mit der Academia Sinica durch die taiwanesische Chiang Ching-kuo Foundation (2012-2015) wird das Projekt nun vom Institut für Sinologie und dem HCTS (Heidelberger Zentrum für Transkulturelle Studien) gefördert. Die technische Entwicklung liegt dabei weiterhin bei der Heidelberg Research Architecture.
Bisher enthält ECPO vor allem Bildscans und deskriptive Metadaten. Leider ist die bei westlichen Zeitungen angewandte Standard-Lösung einer optischen Zeichenerkennung (OCR – die DFG verlangt das für Digitalisierungsprojekte nach 1850) für diese chinesischen Materialien der ersten Hälfte des letzten Jahrhunderts nicht anwendbar, und das aus mehreren Gründen:
Die Dokumentanalyse scheitert am sehr engen Satz und komplexem Zeitungs-Layout
Die Bildvorlagen sind in der Regel keine Primär-Digitalisate und weisen daher oft Rauschen, Unschärfe oder andere Störungen auf.
Die Zeichenerkennung versagt komplett wegen der (in dieser Zeit typischen) Betonungs-Sonderzeichen neben den eigentlichen Schriftzeichen. Eine Volltexterkennung von ganzen Seiten (beispielsweise mit der Abbyy Cloud OCR SDK) ist aussichtslos.
Der Vortrag zeigt anhand manuell aufbereiteter Segmente, dass eine OCR Verarbeitung möglich ist. Dafür müssten aber die Seiten automatisiert segmentiert werden. Derzeit wird nach Partnern gesucht, um diese Entwicklung zu forcieren.
Danach wird ein crowd-sourcing Projekt vorgestellt, mit dem erfolgreich Segmente erstellt wurden. Die nicht-muttersprachliche crowd konnte Segmente erkennen, jedoch musste eine semantische Gruppierung nachtrglich vorgenommen werden. Die damit erstellten ground-truth Daten sollen zur Unterstützung der automatischen Dokumentanalyse und Segmentierung der Seiten hinzugezogen werden.
Vortrag auf dem Challenge Workshop „Herausforderungen bei der Analyse von alten Schriften im digitalen Zeitalter" (HAASDZ18), Heidelberg, 29./30. Oktober 2018.
Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richtung Volltext
1. Republikzeitliche chinesische Presse –
Crowdsourcing und andere Wege in
Richtung Volltext
Matthias Arnold, Hd Zentrum für Transkulturelle Studien | HAASDZ18 | 2018-10-30
5. What now?
Some basic statistics and visualisations
39.929 issues: 46.964 articles, 20.545 images, 18.647 ads
6.
7. Open Data
Vom statischen Export hin zu dynamischem Datenservice
• XML Datenausgabe basierend auf Metadata Object Description
Schema (MODS) - Open Access: http://ecpo.uni-hd.de/api/mods/
Von statischen vorgerenderten Bildern zum dynamischen Service
• Implementierung der International Image Interoperability
Framework (IIIF) Image API http://iiif.io/technical-details/
DB-übergreifender Agents service
• Agents identifizieren, Namen zuordnen, mit Authorities verknüpfen
(GND, VIAF, Wikidata, Baidu) – Rückspielen in GND
8. Wege in Richtung Volltext
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
29. Segmentierung - I
Seitensegmentierung (z.B. mit Hilfe von Mustererkennung)
• Dokumentanalyse, Ausnutzung der Struktur-Elemente
• Segmente erzeugen, semantische Einheiten bilden
• Koordinaten erzeugen, in DB mit Bezug zum Item ablegen
30. Segmentierung - II
Seitensegmentierung (crowdsourcing)
• “Call for Projects” der Pallas Ludens GmbH
• Idee: crowdbasierte Segmentierung
• Nicht Gamer crowd, sondern PL-bekannte Mitarbeiter
• Pilot project, Betreuung durch PL
• Beispielseiten als Vorgabe, Jingbao 1919
• Identifizieren und Labeln von vier Item Types:
• Image/drawing
• Article
• Advertisement
• Additional information
• Viereck oder Polygon möglich
• Keine Chinesisch-Muttersprachler!
38. Ergebnisse des Crowdsourcing Piloten
• Seiten-Segmentierung kann von “Crowd” bearbeitet werden
• Braucht Anleitung und Supervision
• Braucht geübte Crowdbearbeiter, keine Gamer-crowd
• Fortgeschrittene Nutzerinterfaces (high usability,
Effizienz, zeitorientiertes Arbeiten)
• Für inhaltliche Gruppierung sind Sprachkenntnisse
zwingend erforderlich
• Zeitung Jingbao 晶報
1. Jahrgänge 1919-21 (ca. 930 Seiten) vollständig
segmentiert und Boxen korrigiert
2. Alle April-Ausgaben 1919 semantisch gruppiert
39. Wie weiter? - I
• Möglicher chinesischer Partner für Weiterverarbeitung der
Segmente (Zeilen finden, Zeichen finden, Zeichen
erkennen, Texterkennung verbessern)
• Computational Knowledge Lab (知識計算實驗室),
Department of Engineering Science and Ocean
Engineering, Taiwan National University,
http://www.cklab.org/
• Abschlussarbeit zu ECPO-bezogenen Fragestellungen
gerade beendet
• Ziel: OCR-texte in TEI ablegen und im Frontend zur
Recherche anbieten, ggf. durch user-community korrigieren
lassen
40. Wie weiter? - II
Suche nach interessierten Partnern in der Bildverarbeitung,
Mustererkennung oder Computer Vision
• Problem:
Grundlagenforschung kein Interesse – Lösungen
(Algorithmen) meist schon da, müssen „NUR“
angepasst werden, kein akademischer Mehrwert
• Kontakte mit Partnern des READ-Projekts,
DEMOKRITOS Lab (Athen), CV Innsbruck und anderen
• Tests mit LAREX (Würzburg)
• Versuche mit CNN (Berlin)
Ziel: gemeinsamer Antrag für Segmentierung und
Crowdsourcing um Volltext zu erhalten und zu verbessern