de.dariah.eu
Christoph Stollwerk (UzK)
stollwerk@uni-koeln.de
12. März 2014 - DFG Bonn
OCR-Kompetenzen im
deutschsprachige...
„Machbarkeitsstudie zu Einsatzmöglichkeiten von OCR-Software im
Bereich "Alter Drucke" zur Vorbereitung einer vollständige...
1. Wie weit kommt man mit bestehender Software zur Volltext-
Generierung historischer Drucke zurück?
2. Wie weit kommt man...
12/03/20144
Korpus 1
Herkunft:
Herzog-August-Bibliothek Wolfenbüttel
Zeitraum:
1600 bis 1705 (1643 - 1672)
Umfang:
694 dig...
12/03/20145
Korpus 1 – Datenselektion
12/03/20146
Korpus 2
Herkunft:
Bayerische Staatsbibliothek München
Zeitraum:
1502 bis 1588
Umfang:
10 Werke (+2900 Seiten)...
12/03/20147
Korpus 2 - Metadaten
Ident BSB Verlag Ort Autor/Hrsg. Jahr binarisiert? Marginalien Seiten Größe in MB MB/Bild...
12/03/20148
Korpus 3
Herkunft:
Deutsches Textarchiv:
-> Herzog-August-Bibliothek Wolfenbüttel &
-> Niedersächsische Staats...
Frei verfügbar:
Proprietär:
B.I.T.- Alpha von Tomasi
12/03/20149
OCR-Software
Grundlage: PLAIN TEXT (online akquiriert)
Referenztexte:
Ground-Truth-ähnliche Texte vs. Software-Resultate
Automatisierte...
12/03/201411
Resultierende Ergebnisse
12/03/201412
Resultierende Ergebnisse -quantitativ
12/03/2014
(sichtbarer Bereich sind ca. 3% (Scrollbalken)
13
Qualitative Evaluation
Hypothese:
Digitalisate in (online )JPG-Qualität liefern bessere oder ähnlich
gute Ergebnisse zurück als die gleichen Digi...
12/03/201415
Resultierende Ergebnisse – TIFF vs. JPG
Software A
Software B
Software C
Software D
Lässt sich bei der Optimierung von OCR-Verfahren
über Drucker/Druckort/Verleger oder Autor
Konfigurationen finden, die vie...
All diese Fragen sind schwierig im Rahmen von Einzeluntersuchungen zu
beantworten:
Daher:
Eine Infrastruktur zur freien Ve...
• Erfassungs- und
Erschließungsverfahren
• Transkription
• Semantische Annotation
• Metadatenstandards
(Linked Open Data)
...
12/03/201419
Christoph Stollwerk (UzK)
stollwerk@uni-koeln.de
12. März 2014 - DFG Bonn
Vielen Dank für Ihre
Aufmerksamkeit...
Nächste SlideShare
Wird geladen in …5
×

OCR-Kompetenzen im deutschsprachigen Raum

587 Aufrufe

Veröffentlicht am

Erfahrungsbericht zum Workshop "Maßnahmen zu Verbesserung von OCR-Verfahren" (DFG - Bonn 12.3.14)

Veröffentlicht in: Technologie
0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
587
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

OCR-Kompetenzen im deutschsprachigen Raum

  1. 1. de.dariah.eu Christoph Stollwerk (UzK) stollwerk@uni-koeln.de 12. März 2014 - DFG Bonn OCR-Kompetenzen im deutschsprachigen Raum
  2. 2. „Machbarkeitsstudie zu Einsatzmöglichkeiten von OCR-Software im Bereich "Alter Drucke" zur Vorbereitung einer vollständigen Digitalisierung deutscher Druckerzeugnisse zwischen 1500 und 1930“ • Gewinnung von Planungsdaten • Grenzen verfügbarer Software • Ansätze zum Aufbau von Ground-Truth 12/03/20142 Ein Erfahrungsbericht
  3. 3. 1. Wie weit kommt man mit bestehender Software zur Volltext- Generierung historischer Drucke zurück? 2. Wie weit kommt man mit bestehender Software in vertretbarem Aufwand und machbarer Parametrisierung zur Volltext-Generierung historischer Drucke zurück? 3. Wie weit kommt man mit bestehender Software zur Volltext- Generierung historischer Drucke zurück, wenn man Teile des Prozessierens auslagert oder neu implementiert? 12/03/20143 Fragestellungen
  4. 4. 12/03/20144 Korpus 1 Herkunft: Herzog-August-Bibliothek Wolfenbüttel Zeitraum: 1600 bis 1705 (1643 - 1672) Umfang: 694 digitalisierte Werke - 100 der Verteilung entsprechend ausgewählt. - jeweils 5 Seiten randomisiert selektiert und - manuell in Repräsentative und Komplexe Seiten unterschieden. Zweck: Problemfeatures entwickeln Methoden und Workflows erstellen Trainingsmodelle validieren
  5. 5. 12/03/20145 Korpus 1 – Datenselektion
  6. 6. 12/03/20146 Korpus 2 Herkunft: Bayerische Staatsbibliothek München Zeitraum: 1502 bis 1588 Umfang: 10 Werke (+2900 Seiten) Zweck: Ausdehnung ersten Korpus um Ort & Zeit Überprüfung von Workflows und Methoden bei Massen-OCR Betrachtung der Performanz in Bezug auf Software
  7. 7. 12/03/20147 Korpus 2 - Metadaten Ident BSB Verlag Ort Autor/Hrsg. Jahr binarisiert? Marginalien Seiten Größe in MB MB/Bild Resolution Bildmaße bsb10165677 Aldus Manutius Venedig 1502 binarisiert 152 568 3,73 1656*2314 bsb10139422 Petri Basel Diodorus, Siculus; Boccaccio, Giovanni; Johannes Zonaras 1531 ja 398 9000 22,61 2300*3266 30,0 × 19,1 cm bsb10168344 Quentell Coloniae Nausea, Friedrich 1531 binarisiert ja 216 872 4,03 1700*2323 19,9 × 14,8 cm bsb10203117 n.a. Viennae Corsi, Pietro ;Aldus, David 1552 44 471 10,70 1600*2210 19,0 × 14,1 cm bsb10178305 Oporinus Basileae Herold, Johannes 1557 binarisiert 275 674 2,45 1240*1960 16,8 × 10,4 cm bsb10160279 n.a. Francoforti Andreä, Jacob 1558 binarisiert 192 766 3,98 1685*2306 19,7 × 14,3 cm bsb10175361 Plantin Antverpiae Sturm, Johannes 1566 ja 144 953 6,61 1139*1888 16,3 × 10,0 cm bsb10171607 Rihelius Argentorati Cicero, Marcus Tullius 1574 712 5300 7,44 1293*1958 17,1 × 11,0 cm bsb10157993 Gruppenbachius Tubingae Andreä, Jacob 1577 ja 25 323 11,53 1700*2200 19,2 × 14,3 cm bsb10187183 Bertani Venetiis Pépin, Guillaume 1588 760 5200 6,84 1200*1860 16,3 × 10,4 cm
  8. 8. 12/03/20148 Korpus 3 Herkunft: Deutsches Textarchiv: -> Herzog-August-Bibliothek Wolfenbüttel & -> Niedersächsische Staats- und Universitätsbibliothek Göttingen Zeitraum: 1600 bis 1705 Umfang: 39 Werke (114 Seiten) Zweck: Untersuchung auf Problemfeatures (Intrinsisch/Extrinsisch)
  9. 9. Frei verfügbar: Proprietär: B.I.T.- Alpha von Tomasi 12/03/20149 OCR-Software
  10. 10. Grundlage: PLAIN TEXT (online akquiriert) Referenztexte: Ground-Truth-ähnliche Texte vs. Software-Resultate Automatisierte Evaluation: Textlängen Differenz (Rath) Anzahl der Diff-Steps (Levenshtein) Sequenzalignierung (Smith-Waterman) Manuelle Evaluation: Über Browseransichten in HTML 12/03/201410 Evaluationsmethoden
  11. 11. 12/03/201411 Resultierende Ergebnisse
  12. 12. 12/03/201412 Resultierende Ergebnisse -quantitativ
  13. 13. 12/03/2014 (sichtbarer Bereich sind ca. 3% (Scrollbalken) 13 Qualitative Evaluation
  14. 14. Hypothese: Digitalisate in (online )JPG-Qualität liefern bessere oder ähnlich gute Ergebnisse zurück als die gleichen Digitalisate in TIFF-Qualität. Methode: - Akquise von JPG und TIFF Digitalisaten - selbe Evaluationsmethoden wie in Korpus 1 & 2 12/03/201414 Resultierendes Vorhaben
  15. 15. 12/03/201415 Resultierende Ergebnisse – TIFF vs. JPG Software A Software B Software C Software D
  16. 16. Lässt sich bei der Optimierung von OCR-Verfahren über Drucker/Druckort/Verleger oder Autor Konfigurationen finden, die vielversprechende Modelle liefern? Wie lassen sich Ergebnisse aus hochkomplexen Untersuchungen sinnvoll visualisieren, um im DH-Bereich solide Erkenntnisse abzuleiten? Lassen sich 'typische' 'Charaktere' über Zeiträume oder andere Merkmale finden und allgemein formulieren? 12/03/201416 Angeschlossene Fragen
  17. 17. All diese Fragen sind schwierig im Rahmen von Einzeluntersuchungen zu beantworten: Daher: Eine Infrastruktur zur freien Verfügung von interdisziplinär angesiedelten Wissenschaftsbereichen verspricht progressive Verbesserungen. Konkreter: Mit BigData-Methoden lassen sich nicht nur massive Datenmengen verarbeiten sondern auch hochkomplexe Datenstrukturen. Z.B. über die Untersuchung aller N-Gramm‘s von Google oder von RDF-Triples der großen Bibliotheken im Kontext von OCR-Vorhaben. 13/03/201417 Weiterführendes
  18. 18. • Erfassungs- und Erschließungsverfahren • Transkription • Semantische Annotation • Metadatenstandards (Linked Open Data) • Crossmediale Verknüpfung • Tagging • Partizipative Verfahren • VRE • Crowdsourcing • Interoperabilitätsstandards 13/03/201418 Weiterführendes • Analyse- & Auswertungsverfahren • Abgleichverfahren • Tokenisierung • Lemmatisierung • Visualisierung (Text als 3D; Mapping; Wissensmodelle & -organisation) • Klassifikation (HWR) • Mustererkennung (OCR,ICR,NER,HWR) • Binarisierung in Dokumenten mit Störungen • Entzerrung von Zeichen- und Wörter-Orientierungen • Segmentierung und Seitenanalyse • verbessertes Dokumentenverständnis von Regionen • Dokumentenverständnis bez. Bilder und Fußnoten • Logische Layout-Analyse zur automatisierten Identifikation von Artefakten wie Titelblättern oder anderen Struktur-intensiven Objekten.
  19. 19. 12/03/201419 Christoph Stollwerk (UzK) stollwerk@uni-koeln.de 12. März 2014 - DFG Bonn Vielen Dank für Ihre Aufmerksamkeit !!

×