Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richtung Volltext

Republikzeitliche chinesische Presse –
Crowdsourcing und andere Wege in
Richtung Volltext
Matthias Arnold, Hd Zentrum für Transkulturelle Studien | HAASDZ18 | 2018-10-30

What now?
Some basic statistics and visualisations
239 Publikationen: 134 mit Inhaltserschließung

What now?
>230.000 Scans

What now?
39.929 issues: 46.964 articles, 20.545 images, 18.647 ads

Open Data
Vom statischen Export hin zu dynamischem Datenservice
• XML Datenausgabe basierend auf Metadata Object Description
Schema (MODS) - Open Access: http://ecpo.uni-hd.de/api/mods/
Von statischen vorgerenderten Bildern zum dynamischen Service
• Implementierung der International Image Interoperability
Framework (IIIF) Image API http://iiif.io/technical-details/
DB-übergreifender Agents service
• Agents identifizieren, Namen zuordnen, mit Authorities verknüpfen
(GND, VIAF, Wikidata, Baidu) – Rückspielen in GND

Wege in Richtung Volltext
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018

Datenerweiterung in Richtung Volltext
• Manuelles Abschreiben nicht praktikabel
• Professionelles double-keying sehr teuer
• OCR scheitert - Gründe:
• Dokument: enger Satz, komplexes Layout
• Bild: sekundäre Vorlagen mit vielen Störungen
• Zeichen: Sonderzeichen (emphasis), Handschriften

ca. 63% der Schriftzeichen
korrekt erkannt

Segmentation / image pre-processing required
• Problem:

Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018

Segmentierung - I
Seitensegmentierung (z.B. mit Hilfe von Mustererkennung)
• Dokumentanalyse, Ausnutzung der Struktur-Elemente
• Segmente erzeugen, semantische Einheiten bilden
• Koordinaten erzeugen, in DB mit Bezug zum Item ablegen

Segmentierung - II
Seitensegmentierung (crowdsourcing)
• “Call for Projects” der Pallas Ludens GmbH
• Idee: crowdbasierte Segmentierung
• Nicht Gamer crowd, sondern PL-bekannte Mitarbeiter
• Pilot project, Betreuung durch PL
• Beispielseiten als Vorgabe, Jingbao 1919
• Identifizieren und Labeln von vier Item Types:
• Image/drawing
• Article
• Advertisement
• Additional information
• Viereck oder Polygon möglich
• Keine Chinesisch-Muttersprachler!

Processing
2. Page segmentation (computer vision/ocr)

Probleme mangels Chinesisch-Kenntnisse

Ergebnis: semantisch gruppierte Boxen
2. Page segmentation (crowdsourcing)
• drawing – correcting – grouping

Proof-of-concept Implementierung
• IIIF-Service zeigt das Item, statt der gesamten Doppelseite
• Example 1
• Example 2
• Example 3
• ECPO frontend:
Suche nach
„segmentation“

Ergebnisse des Crowdsourcing Piloten
• Seiten-Segmentierung kann von “Crowd” bearbeitet werden
• Braucht Anleitung und Supervision
• Braucht geübte Crowdbearbeiter, keine Gamer-crowd
• Fortgeschrittene Nutzerinterfaces (high usability,
Effizienz, zeitorientiertes Arbeiten)
• Für inhaltliche Gruppierung sind Sprachkenntnisse
zwingend erforderlich
• Zeitung Jingbao 晶報
1. Jahrgänge 1919-21 (ca. 930 Seiten) vollständig
segmentiert und Boxen korrigiert
2. Alle April-Ausgaben 1919 semantisch gruppiert

Wie weiter? - I
• Möglicher chinesischer Partner für Weiterverarbeitung der
Segmente (Zeilen finden, Zeichen finden, Zeichen
erkennen, Texterkennung verbessern)
• Computational Knowledge Lab (知識計算實驗室),
Department of Engineering Science and Ocean
Engineering, Taiwan National University,
http://www.cklab.org/
• Abschlussarbeit zu ECPO-bezogenen Fragestellungen
gerade beendet
• Ziel: OCR-texte in TEI ablegen und im Frontend zur
Recherche anbieten, ggf. durch user-community korrigieren
lassen

Wie weiter? - II
Suche nach interessierten Partnern in der Bildverarbeitung,
Mustererkennung oder Computer Vision
• Problem:
Grundlagenforschung kein Interesse – Lösungen
(Algorithmen) meist schon da, müssen „NUR“
angepasst werden, kein akademischer Mehrwert
• Kontakte mit Partnern des READ-Projekts,
DEMOKRITOS Lab (Athen), CV Innsbruck und anderen
• Tests mit LAREX (Würzburg)
• Versuche mit CNN (Berlin)
Ziel: gemeinsamer Antrag für Segmentierung und
Crowdsourcing um Volltext zu erhalten und zu verbessern

Matthias Arnold
Heidelberg Research Architecture
matthias.arnold@uni-hd.de

Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richtung Volltext

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richtung Volltext

Ähnlich wie Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richtung Volltext (20)

Mehr von Matthias Arnold

Mehr von Matthias Arnold (11)

Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richtung Volltext