SlideShare ist ein Scribd-Unternehmen logo
1 von 41
Downloaden Sie, um offline zu lesen
Republikzeitliche chinesische Presse –
Crowdsourcing und andere Wege in
Richtung Volltext
Matthias Arnold, Hd Zentrum für Transkulturelle Studien | HAASDZ18 | 2018-10-30
http://ecpo.uni-hd.de
What now?
Some basic statistics and visualisations
239 Publikationen: 134 mit Inhaltserschließung
What now?
Some basic statistics and visualisations
>230.000 Scans
What now?
Some basic statistics and visualisations
39.929 issues: 46.964 articles, 20.545 images, 18.647 ads
Open Data
Vom statischen Export hin zu dynamischem Datenservice
• XML Datenausgabe basierend auf Metadata Object Description
Schema (MODS) - Open Access: http://ecpo.uni-hd.de/api/mods/
Von statischen vorgerenderten Bildern zum dynamischen Service
• Implementierung der International Image Interoperability
Framework (IIIF) Image API http://iiif.io/technical-details/
DB-übergreifender Agents service
• Agents identifizieren, Namen zuordnen, mit Authorities verknüpfen
(GND, VIAF, Wikidata, Baidu) – Rückspielen in GND
Wege in Richtung Volltext
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
http://ecpo.uni-hd.de
Datenerweiterung in Richtung Volltext
• Manuelles Abschreiben nicht praktikabel
• Professionelles double-keying sehr teuer
• OCR scheitert - Gründe:
• Dokument: enger Satz, komplexes Layout
• Bild: sekundäre Vorlagen mit vielen Störungen
• Zeichen: Sonderzeichen (emphasis), Handschriften
ca. 63% der Schriftzeichen
korrekt erkannt
Segmentation / image pre-processing required
• Problem:
Segmentation / image pre-processing required
• Problem:
• Problem:
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
Segmentation / image pre-processing required
• Problem:
Segmentierung - I
Seitensegmentierung (z.B. mit Hilfe von Mustererkennung)
• Dokumentanalyse, Ausnutzung der Struktur-Elemente
• Segmente erzeugen, semantische Einheiten bilden
• Koordinaten erzeugen, in DB mit Bezug zum Item ablegen
Segmentierung - II
Seitensegmentierung (crowdsourcing)
• “Call for Projects” der Pallas Ludens GmbH
• Idee: crowdbasierte Segmentierung
• Nicht Gamer crowd, sondern PL-bekannte Mitarbeiter
• Pilot project, Betreuung durch PL
• Beispielseiten als Vorgabe, Jingbao 1919
• Identifizieren und Labeln von vier Item Types:
• Image/drawing
• Article
• Advertisement
• Additional information
• Viereck oder Polygon möglich
• Keine Chinesisch-Muttersprachler!
Processing
2. Page segmentation (computer vision/ocr)
Processing
2. Page segmentation (computer vision/ocr)
Probleme mangels Chinesisch-Kenntnisse
Gruppieren (Screencast)
Ergebnis: semantisch gruppierte Boxen
2. Page segmentation (crowdsourcing)
• drawing – correcting – grouping
JSON Ausgabe
Proof-of-concept Implementierung
• IIIF-Service zeigt das Item, statt der gesamten Doppelseite
• Example 1
• Example 2
• Example 3
• ECPO frontend:
Suche nach
„segmentation“
Ergebnisse des Crowdsourcing Piloten
• Seiten-Segmentierung kann von “Crowd” bearbeitet werden
• Braucht Anleitung und Supervision
• Braucht geübte Crowdbearbeiter, keine Gamer-crowd
• Fortgeschrittene Nutzerinterfaces (high usability,
Effizienz, zeitorientiertes Arbeiten)
• Für inhaltliche Gruppierung sind Sprachkenntnisse
zwingend erforderlich
• Zeitung Jingbao 晶報
1. Jahrgänge 1919-21 (ca. 930 Seiten) vollständig
segmentiert und Boxen korrigiert
2. Alle April-Ausgaben 1919 semantisch gruppiert
Wie weiter? - I
• Möglicher chinesischer Partner für Weiterverarbeitung der
Segmente (Zeilen finden, Zeichen finden, Zeichen
erkennen, Texterkennung verbessern)
• Computational Knowledge Lab (知識計算實驗室),
Department of Engineering Science and Ocean
Engineering, Taiwan National University,
http://www.cklab.org/
• Abschlussarbeit zu ECPO-bezogenen Fragestellungen
gerade beendet
• Ziel: OCR-texte in TEI ablegen und im Frontend zur
Recherche anbieten, ggf. durch user-community korrigieren
lassen
Wie weiter? - II
Suche nach interessierten Partnern in der Bildverarbeitung,
Mustererkennung oder Computer Vision
• Problem:
Grundlagenforschung kein Interesse – Lösungen
(Algorithmen) meist schon da, müssen „NUR“
angepasst werden, kein akademischer Mehrwert
• Kontakte mit Partnern des READ-Projekts,
DEMOKRITOS Lab (Athen), CV Innsbruck und anderen
• Tests mit LAREX (Würzburg)
• Versuche mit CNN (Berlin)
Ziel: gemeinsamer Antrag für Segmentierung und
Crowdsourcing um Volltext zu erhalten und zu verbessern
Matthias Arnold
Heidelberg Research Architecture
matthias.arnold@uni-hd.de

Weitere ähnliche Inhalte

Ähnlich wie Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richtung Volltext

SharePointCommunity.ch SharePoint Lösungen für die Zukunft
SharePointCommunity.ch SharePoint Lösungen für die ZukunftSharePointCommunity.ch SharePoint Lösungen für die Zukunft
SharePointCommunity.ch SharePoint Lösungen für die ZukunftDavid Schneider
 
dictaJet im Produktinformationsmanagement
dictaJet im ProduktinformationsmanagementdictaJet im Produktinformationsmanagement
dictaJet im ProduktinformationsmanagementdictaJet
 
7P Social Workplace und AWS - Partnervortrag vom AWS Summit
7P Social Workplace und AWS - Partnervortrag vom AWS Summit7P Social Workplace und AWS - Partnervortrag vom AWS Summit
7P Social Workplace und AWS - Partnervortrag vom AWS SummitAWS Germany
 
Web Content-Management-Systeme the Past - the Present - the Future
Web Content-Management-Systeme the Past - the Present - the FutureWeb Content-Management-Systeme the Past - the Present - the Future
Web Content-Management-Systeme the Past - the Present - the FutureAlexander Loechel
 
Interoperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche VerwaltungInteroperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche VerwaltungJohann Höchtl
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern
 
Neofonie Unternehmenspräsentation
Neofonie UnternehmenspräsentationNeofonie Unternehmenspräsentation
Neofonie UnternehmenspräsentationJan Maller
 
Limbo - Teilvorhaben CISS
Limbo - Teilvorhaben CISSLimbo - Teilvorhaben CISS
Limbo - Teilvorhaben CISSLIMBO Project
 
Mobile, Social, Local, Realtime
Mobile, Social, Local, RealtimeMobile, Social, Local, Realtime
Mobile, Social, Local, RealtimeTim Bruysten
 
Studiosdigital wieninternational.at
Studiosdigital wieninternational.atStudiosdigital wieninternational.at
Studiosdigital wieninternational.atStudiosDigital GmbH
 
Traumziel MV: Relaunch eines Tourismusportals mit Typo3 Extbase und Fluid
Traumziel MV:  Relaunch eines Tourismusportals mit Typo3 Extbase und FluidTraumziel MV:  Relaunch eines Tourismusportals mit Typo3 Extbase und Fluid
Traumziel MV: Relaunch eines Tourismusportals mit Typo3 Extbase und FluidQbus Werbeagentur
 
Best practise 5 anwendungsfälle der google analytics api
Best practise 5 anwendungsfälle der google analytics apiBest practise 5 anwendungsfälle der google analytics api
Best practise 5 anwendungsfälle der google analytics apie-dialog GmbH
 
Neudenken von Geschäftsmodellen
Neudenken von GeschäftsmodellenNeudenken von Geschäftsmodellen
Neudenken von GeschäftsmodellenChristian Maaß
 
Publishing in the digital age 1 december 2011 - semantic meetup zürich
Publishing in the digital age   1 december 2011 - semantic meetup zürichPublishing in the digital age   1 december 2011 - semantic meetup zürich
Publishing in the digital age 1 december 2011 - semantic meetup zürichAI4BD GmbH
 
GMP-Con 2019 - Enterprise Ausblick, CRM, Machine Learning, Cloud - Siegfried ...
GMP-Con 2019 - Enterprise Ausblick, CRM, Machine Learning, Cloud - Siegfried ...GMP-Con 2019 - Enterprise Ausblick, CRM, Machine Learning, Cloud - Siegfried ...
GMP-Con 2019 - Enterprise Ausblick, CRM, Machine Learning, Cloud - Siegfried ...e-dialog GmbH
 
Desktop Publishing war 1985. Jetzt geht mehr!
Desktop Publishing war 1985. Jetzt geht mehr!Desktop Publishing war 1985. Jetzt geht mehr!
Desktop Publishing war 1985. Jetzt geht mehr!Haeme Ulrich
 
Netd@ys 08/09 Workshop - "Von der kreativen Idee zum innovativen Projekt"
Netd@ys 08/09 Workshop - "Von der kreativen Idee zum innovativen Projekt"Netd@ys 08/09 Workshop - "Von der kreativen Idee zum innovativen Projekt"
Netd@ys 08/09 Workshop - "Von der kreativen Idee zum innovativen Projekt"Stephan Hamberger
 

Ähnlich wie Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richtung Volltext (20)

Selbermachen!
Selbermachen! Selbermachen!
Selbermachen!
 
SharePointCommunity.ch SharePoint Lösungen für die Zukunft
SharePointCommunity.ch SharePoint Lösungen für die ZukunftSharePointCommunity.ch SharePoint Lösungen für die Zukunft
SharePointCommunity.ch SharePoint Lösungen für die Zukunft
 
RecSys NL - Meetup
RecSys NL - MeetupRecSys NL - Meetup
RecSys NL - Meetup
 
dictaJet im Produktinformationsmanagement
dictaJet im ProduktinformationsmanagementdictaJet im Produktinformationsmanagement
dictaJet im Produktinformationsmanagement
 
7P Social Workplace und AWS - Partnervortrag vom AWS Summit
7P Social Workplace und AWS - Partnervortrag vom AWS Summit7P Social Workplace und AWS - Partnervortrag vom AWS Summit
7P Social Workplace und AWS - Partnervortrag vom AWS Summit
 
Web Content-Management-Systeme the Past - the Present - the Future
Web Content-Management-Systeme the Past - the Present - the FutureWeb Content-Management-Systeme the Past - the Present - the Future
Web Content-Management-Systeme the Past - the Present - the Future
 
Interoperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche VerwaltungInteroperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche Verwaltung
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und Knacknüsse
 
Neofonie Unternehmenspräsentation
Neofonie UnternehmenspräsentationNeofonie Unternehmenspräsentation
Neofonie Unternehmenspräsentation
 
Limbo - Teilvorhaben CISS
Limbo - Teilvorhaben CISSLimbo - Teilvorhaben CISS
Limbo - Teilvorhaben CISS
 
Mobile, Social, Local, Realtime
Mobile, Social, Local, RealtimeMobile, Social, Local, Realtime
Mobile, Social, Local, Realtime
 
Studiosdigital wieninternational.at
Studiosdigital wieninternational.atStudiosdigital wieninternational.at
Studiosdigital wieninternational.at
 
Traumziel MV: Relaunch eines Tourismusportals mit Typo3 Extbase und Fluid
Traumziel MV:  Relaunch eines Tourismusportals mit Typo3 Extbase und FluidTraumziel MV:  Relaunch eines Tourismusportals mit Typo3 Extbase und Fluid
Traumziel MV: Relaunch eines Tourismusportals mit Typo3 Extbase und Fluid
 
Best practise 5 anwendungsfälle der google analytics api
Best practise 5 anwendungsfälle der google analytics apiBest practise 5 anwendungsfälle der google analytics api
Best practise 5 anwendungsfälle der google analytics api
 
Neudenken von Geschäftsmodellen
Neudenken von GeschäftsmodellenNeudenken von Geschäftsmodellen
Neudenken von Geschäftsmodellen
 
Findability
FindabilityFindability
Findability
 
Publishing in the digital age 1 december 2011 - semantic meetup zürich
Publishing in the digital age   1 december 2011 - semantic meetup zürichPublishing in the digital age   1 december 2011 - semantic meetup zürich
Publishing in the digital age 1 december 2011 - semantic meetup zürich
 
GMP-Con 2019 - Enterprise Ausblick, CRM, Machine Learning, Cloud - Siegfried ...
GMP-Con 2019 - Enterprise Ausblick, CRM, Machine Learning, Cloud - Siegfried ...GMP-Con 2019 - Enterprise Ausblick, CRM, Machine Learning, Cloud - Siegfried ...
GMP-Con 2019 - Enterprise Ausblick, CRM, Machine Learning, Cloud - Siegfried ...
 
Desktop Publishing war 1985. Jetzt geht mehr!
Desktop Publishing war 1985. Jetzt geht mehr!Desktop Publishing war 1985. Jetzt geht mehr!
Desktop Publishing war 1985. Jetzt geht mehr!
 
Netd@ys 08/09 Workshop - "Von der kreativen Idee zum innovativen Projekt"
Netd@ys 08/09 Workshop - "Von der kreativen Idee zum innovativen Projekt"Netd@ys 08/09 Workshop - "Von der kreativen Idee zum innovativen Projekt"
Netd@ys 08/09 Workshop - "Von der kreativen Idee zum innovativen Projekt"
 

Mehr von Matthias Arnold

Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15Matthias Arnold
 
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)Matthias Arnold
 
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – ArchivierungMatthias Arnold
 
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...Matthias Arnold
 
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...Matthias Arnold
 
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....Matthias Arnold
 
The Chinese Women’s Magazines Database
The Chinese Women’s Magazines DatabaseThe Chinese Women’s Magazines Database
The Chinese Women’s Magazines DatabaseMatthias Arnold
 
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Matthias Arnold
 
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.Matthias Arnold
 
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...Matthias Arnold
 

Mehr von Matthias Arnold (11)

Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15
 
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
Transforming data silos into knowledge: Early Chinese Periodicals Online (ECPO)
 
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung
(Projekt)Ende gut – Alles gut? Benutzbarkeit – Verfügbarhaltung – Archivierung
 
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
A Corpus of Chinese Comic Books: Database, Metadata, and Visual Object Recogn...
 
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...
Die Erschließung eines vielsprachigen bibliographischen Korpus: Der Turkologi...
 
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
Early Chinese Periodicals Online (ECPO): From Digitization Towards Open Data....
 
The Chinese Women’s Magazines Database
The Chinese Women’s Magazines DatabaseThe Chinese Women’s Magazines Database
The Chinese Women’s Magazines Database
 
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
 
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
VRA Core 4 in Transcultural Studies - Adopting Core 4 XML in a DH Environment.
 
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
Periodicals and Newspapers in Database Projects of the Heidelberg Research Ar...
 
Ziziphus/Tamboti
Ziziphus/TambotiZiziphus/Tamboti
Ziziphus/Tamboti
 

Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richtung Volltext

  • 1. Republikzeitliche chinesische Presse – Crowdsourcing und andere Wege in Richtung Volltext Matthias Arnold, Hd Zentrum für Transkulturelle Studien | HAASDZ18 | 2018-10-30
  • 3. What now? Some basic statistics and visualisations 239 Publikationen: 134 mit Inhaltserschließung
  • 4. What now? Some basic statistics and visualisations >230.000 Scans
  • 5. What now? Some basic statistics and visualisations 39.929 issues: 46.964 articles, 20.545 images, 18.647 ads
  • 6.
  • 7. Open Data Vom statischen Export hin zu dynamischem Datenservice • XML Datenausgabe basierend auf Metadata Object Description Schema (MODS) - Open Access: http://ecpo.uni-hd.de/api/mods/ Von statischen vorgerenderten Bildern zum dynamischen Service • Implementierung der International Image Interoperability Framework (IIIF) Image API http://iiif.io/technical-details/ DB-übergreifender Agents service • Agents identifizieren, Namen zuordnen, mit Authorities verknüpfen (GND, VIAF, Wikidata, Baidu) – Rückspielen in GND
  • 8. Wege in Richtung Volltext Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
  • 10.
  • 11.
  • 12. Datenerweiterung in Richtung Volltext • Manuelles Abschreiben nicht praktikabel • Professionelles double-keying sehr teuer • OCR scheitert - Gründe: • Dokument: enger Satz, komplexes Layout • Bild: sekundäre Vorlagen mit vielen Störungen • Zeichen: Sonderzeichen (emphasis), Handschriften
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19. ca. 63% der Schriftzeichen korrekt erkannt
  • 20. Segmentation / image pre-processing required • Problem:
  • 21. Segmentation / image pre-processing required • Problem:
  • 23. Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
  • 24. Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
  • 25. Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
  • 26. Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
  • 27. Arnold, HD | Republikzeitliche Chinesische Presse - Crowdsourcing und andere Wege zum Volltext | HAASDZ 2018
  • 28. Segmentation / image pre-processing required • Problem:
  • 29. Segmentierung - I Seitensegmentierung (z.B. mit Hilfe von Mustererkennung) • Dokumentanalyse, Ausnutzung der Struktur-Elemente • Segmente erzeugen, semantische Einheiten bilden • Koordinaten erzeugen, in DB mit Bezug zum Item ablegen
  • 30. Segmentierung - II Seitensegmentierung (crowdsourcing) • “Call for Projects” der Pallas Ludens GmbH • Idee: crowdbasierte Segmentierung • Nicht Gamer crowd, sondern PL-bekannte Mitarbeiter • Pilot project, Betreuung durch PL • Beispielseiten als Vorgabe, Jingbao 1919 • Identifizieren und Labeln von vier Item Types: • Image/drawing • Article • Advertisement • Additional information • Viereck oder Polygon möglich • Keine Chinesisch-Muttersprachler!
  • 31. Processing 2. Page segmentation (computer vision/ocr)
  • 32. Processing 2. Page segmentation (computer vision/ocr)
  • 35. Ergebnis: semantisch gruppierte Boxen 2. Page segmentation (crowdsourcing) • drawing – correcting – grouping
  • 37. Proof-of-concept Implementierung • IIIF-Service zeigt das Item, statt der gesamten Doppelseite • Example 1 • Example 2 • Example 3 • ECPO frontend: Suche nach „segmentation“
  • 38. Ergebnisse des Crowdsourcing Piloten • Seiten-Segmentierung kann von “Crowd” bearbeitet werden • Braucht Anleitung und Supervision • Braucht geübte Crowdbearbeiter, keine Gamer-crowd • Fortgeschrittene Nutzerinterfaces (high usability, Effizienz, zeitorientiertes Arbeiten) • Für inhaltliche Gruppierung sind Sprachkenntnisse zwingend erforderlich • Zeitung Jingbao 晶報 1. Jahrgänge 1919-21 (ca. 930 Seiten) vollständig segmentiert und Boxen korrigiert 2. Alle April-Ausgaben 1919 semantisch gruppiert
  • 39. Wie weiter? - I • Möglicher chinesischer Partner für Weiterverarbeitung der Segmente (Zeilen finden, Zeichen finden, Zeichen erkennen, Texterkennung verbessern) • Computational Knowledge Lab (知識計算實驗室), Department of Engineering Science and Ocean Engineering, Taiwan National University, http://www.cklab.org/ • Abschlussarbeit zu ECPO-bezogenen Fragestellungen gerade beendet • Ziel: OCR-texte in TEI ablegen und im Frontend zur Recherche anbieten, ggf. durch user-community korrigieren lassen
  • 40. Wie weiter? - II Suche nach interessierten Partnern in der Bildverarbeitung, Mustererkennung oder Computer Vision • Problem: Grundlagenforschung kein Interesse – Lösungen (Algorithmen) meist schon da, müssen „NUR“ angepasst werden, kein akademischer Mehrwert • Kontakte mit Partnern des READ-Projekts, DEMOKRITOS Lab (Athen), CV Innsbruck und anderen • Tests mit LAREX (Würzburg) • Versuche mit CNN (Berlin) Ziel: gemeinsamer Antrag für Segmentierung und Crowdsourcing um Volltext zu erhalten und zu verbessern
  • 41. Matthias Arnold Heidelberg Research Architecture matthias.arnold@uni-hd.de