Workshop „Verfahren zur Verbesserung von
OCR-Ergebnissen“
Workflow
Volltextgenerierung
über OCR
Ralf Stockmann
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 2
Digitalisierung OCR Bereitstellung
Oberflächliche Si...
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 3
Digitalisierung OCR Bereitstellung
Fehlende Workflow...
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 4
Digitalisierung OCR Bereitstellung
Fehlende Workflow...
Vorbereitung für OCR
14.03.2014 | S. 5
Welche Sprache hat das Dokument?
Welche Schrift (Fraktur / Antiqua)?
Datum
abweiche...
Die Produktivität der Digitalisierung steigt an
unseren Einrichtungen kontinuierlich
14.03.2014 | S. 6
Jahre
ScansproTag
Um die Tagesproduktion durch OCR
bearbeiten zu können muss diese ebenfalls
skalieren
14.03.2014 | S. 7
Jahre
ScansproTag
O...
14.03.2014 | S. 8
Tagesaktuelle OCR für Strukturdatenerfassung
14.03.2014 | S. 9
Tagesaktuelle OCR für Strukturdatenerfassung
Das Problem ist nicht nur die
Tagesproduktion...
14.03.2014 | S. 10
Jahre
ScansproTag
OCR
14.03.2014 | S. 11
Jahre
ScansproTag
OCR
ArchivallerbisherigenScans
...sondern unser bestehender Berg der letzten
12 Jahre
Massen-OCR
 Beispiel: Staatsbibliothek zu Berlin
 Ca. 15 Mio. Images vorliegend
 OCR-Dauer pro Image und CPU: ca. 20 Se...
Paketierung – Sammlung von Images
14.03.2014 | S. 13
Scans
Paketierung – Verteilung auf OCR-Cluster
14.03.2014 | S. 14
Scans
CPU CPU CPURenderfarm
Paketierung – Zusammenführung der
Ergebnisse
14.03.2014 | S. 15
Scans
CPU CPU CPURenderfarm
Ergebnis
Paketierung – wie robust ist der
(wahrscheinliche) Fehlerfall?
14.03.2014 | S. 16
Scans
CPU CPU CPURenderfarm
Ergebnis
Flowshart Projekt „Digitextmath“ mit ABBYY
Recognition Server
14.03.2014 | S. 17
Nur dieser Schritt ist die eigentliche OCR, der
Rest ist Workflow-Management
14.03.2014 | S. 18
Datenformate – Quelle ist Sammlung von
Images
14.03.2014 | S. 19
Scans
Datenformate Alt: eine XML-Datei Pro Seite
14.03.2014 | S. 20
Scans
ALTO
Datenformate TEI: Eine Datei pro Dokument
mit Pagebreaks im XML
14.03.2014 | S. 21
Scans
ALTO
TEI
<pb> <pb> <pb> <pb> <pb>...
Datenmanagement – viele Importformate
14.03.2014 | S. 22
Import
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
hOCR
Datenmanagement – nur ein Zentralformat?
14.03.2014 | S. 23
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
Zentralformat?
Import Ar...
Datenmanagement – auf jeden Fall flexible
Exportformate benötigt
14.03.2014 | S. 24
Zentralformat?
PDF
TEI
Mobi
ePub
LaTeX...
Volltexte sind agil
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 25
Quelle für Agilität: Korrekturen
 Nutzerfreundliches Crowdsourcing direkt im
Browser
 Bessere OCR-Engines
 bei tendenzi...
Quelle für Agilität: Veredelung
 Normdaten
 Personen
 Orte
 Zeit
 Schlagwörter
 Annotationen
 Referenzen
 ...
 Er...
Problemfelder agiler Volltextdaten
 Gleichermaßen für Korrekturen wie Veredelung
 Langzeitarchivierung (etwa: Updates au...
Lösung: Volltexte auf GitHub?!
(unser Grundgesetz ist schon da...)
S. 29
http://gg.docpatch.org
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 30
Digitalisierung OCR Bereitstellung
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 31
D OCR B... ... ... ... ... ...
Wenig bis keine Grun...
Identifizierte Aktionsfelder
1. Pretest-Werkzeuge um Fehler/Lücken im OPAC
auszugleichen
2. Interoperabilitätsbibliothek f...
14.03.2014 | S. 33
Projekte werden
nicht aufgrund schlechter
OCR-Qualität
scheitern –
sondern aufgrund
nicht verstandener ...
Nächste SlideShare
Wird geladen in …5
×

DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

1.269 Aufrufe

Veröffentlicht am

In den letzten Jahren konnten beachtliche Fortschritte in Bezug auf die Erkennungsqualität von OCR-Verfahren – auch bei schwierigen Vorlagen – erzielt werden. Zugleich fallen die Preise kontinuierlich, sei es bei Dienstleistern oder beim Aufsetzen einer eigenen OCR-Render-Farm. Die flächendeckende Bereitstellung von OCR-Volltexten scheint demnach zum Greifen nahe – der Durchbruch lässt jedoch aus Sicht der NutzerInnen weiter auf sich warten.

Einer der Hauptgründe dafür liegt in der komplizierten Orchestrierung der OCR-Workflows. Wirft man einen Blick auf die Details, so zerfasert der vermeintlich übersichtliche Dreiklang aus Digitalisierung, OCR und Indexierung/Bereitstellung schnell in 10 oder auch 20 Einzelschritte mit komplexen Abhängigkeiten. Selbst wenn diese Herausforderungen gemeistert wurden, stehen die nächsten Aufgaben an: Prozesse für die kontinuierliche Verbesserung der Volltexte (auch durch NutzerInnen/Croudsourcing) sowie Rückkanäle für veredelte Volltexte – etwa durch Normdatenauszeichnung – in die Repositorien sind weitestgehend Neuland.

Der Impulsvortrag wird das Problembewusstsein dafür zu schärfen, dass die OCR-Erkennungsqualität an sich zwar ein hochrelevanter Aspekt ist - im Orchester der Operationalisierung durch die Institutionen und Projekte aber nur als einer von vielen zu begreifen ist. Wenn das Projekt einer nationalen Volltext-Initiative gelingen soll, muss die gesamte Prozesskette Beachtung finden.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.269
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
15
Aktionen
Geteilt
0
Downloads
5
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

  1. 1. Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“ Workflow Volltextgenerierung über OCR Ralf Stockmann
  2. 2. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 2 Digitalisierung OCR Bereitstellung Oberflächliche Sicht eines OCR-Workflows
  3. 3. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 3 Digitalisierung OCR Bereitstellung Fehlende Workflowschritte an den Schnittstellen
  4. 4. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 4 Digitalisierung OCR Bereitstellung Fehlende Workflowschritte gewichtet nach Aufwand
  5. 5. Vorbereitung für OCR 14.03.2014 | S. 5 Welche Sprache hat das Dokument? Welche Schrift (Fraktur / Antiqua)? Datum abweichende Schreibweisen / Historische Lexika Region unverlässliche Daten hierzu im OPAC...?
  6. 6. Die Produktivität der Digitalisierung steigt an unseren Einrichtungen kontinuierlich 14.03.2014 | S. 6 Jahre ScansproTag
  7. 7. Um die Tagesproduktion durch OCR bearbeiten zu können muss diese ebenfalls skalieren 14.03.2014 | S. 7 Jahre ScansproTag OCR
  8. 8. 14.03.2014 | S. 8 Tagesaktuelle OCR für Strukturdatenerfassung
  9. 9. 14.03.2014 | S. 9 Tagesaktuelle OCR für Strukturdatenerfassung
  10. 10. Das Problem ist nicht nur die Tagesproduktion... 14.03.2014 | S. 10 Jahre ScansproTag OCR
  11. 11. 14.03.2014 | S. 11 Jahre ScansproTag OCR ArchivallerbisherigenScans ...sondern unser bestehender Berg der letzten 12 Jahre
  12. 12. Massen-OCR  Beispiel: Staatsbibliothek zu Berlin  Ca. 15 Mio. Images vorliegend  OCR-Dauer pro Image und CPU: ca. 20 Sekunden (optimistischer Wert)  Ca. 3.472 Tage oder 9,5 Jahre  Ziel: 5 Tage also ca. Faktor 700 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 12
  13. 13. Paketierung – Sammlung von Images 14.03.2014 | S. 13 Scans
  14. 14. Paketierung – Verteilung auf OCR-Cluster 14.03.2014 | S. 14 Scans CPU CPU CPURenderfarm
  15. 15. Paketierung – Zusammenführung der Ergebnisse 14.03.2014 | S. 15 Scans CPU CPU CPURenderfarm Ergebnis
  16. 16. Paketierung – wie robust ist der (wahrscheinliche) Fehlerfall? 14.03.2014 | S. 16 Scans CPU CPU CPURenderfarm Ergebnis
  17. 17. Flowshart Projekt „Digitextmath“ mit ABBYY Recognition Server 14.03.2014 | S. 17
  18. 18. Nur dieser Schritt ist die eigentliche OCR, der Rest ist Workflow-Management 14.03.2014 | S. 18
  19. 19. Datenformate – Quelle ist Sammlung von Images 14.03.2014 | S. 19 Scans
  20. 20. Datenformate Alt: eine XML-Datei Pro Seite 14.03.2014 | S. 20 Scans ALTO
  21. 21. Datenformate TEI: Eine Datei pro Dokument mit Pagebreaks im XML 14.03.2014 | S. 21 Scans ALTO TEI <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb>
  22. 22. Datenmanagement – viele Importformate 14.03.2014 | S. 22 Import ALTO TEI Finereader XML LaTeX PDF ... hOCR
  23. 23. Datenmanagement – nur ein Zentralformat? 14.03.2014 | S. 23 ALTO TEI Finereader XML LaTeX PDF ... Zentralformat? Import Archiv hOCR
  24. 24. Datenmanagement – auf jeden Fall flexible Exportformate benötigt 14.03.2014 | S. 24 Zentralformat? PDF TEI Mobi ePub LaTeX hOCR Markdown ... Import ExportArchiv ALTO TEI Finereader XML LaTeX PDF ... hOCR
  25. 25. Volltexte sind agil 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 25
  26. 26. Quelle für Agilität: Korrekturen  Nutzerfreundliches Crowdsourcing direkt im Browser  Bessere OCR-Engines  bei tendenziell sinkenden Preisen 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 26
  27. 27. Quelle für Agilität: Veredelung  Normdaten  Personen  Orte  Zeit  Schlagwörter  Annotationen  Referenzen  ...  Erfolgen nicht zwangsläufig in unseren Oberflächen sondern in VREs, ... 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 27
  28. 28. Problemfelder agiler Volltextdaten  Gleichermaßen für Korrekturen wie Veredelung  Langzeitarchivierung (etwa: Updates auf langsamen Tape-Speicher)  Persistente Adressierung  Versionierung? 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 28
  29. 29. Lösung: Volltexte auf GitHub?! (unser Grundgesetz ist schon da...) S. 29 http://gg.docpatch.org
  30. 30. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 30 Digitalisierung OCR Bereitstellung
  31. 31. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 31 D OCR B... ... ... ... ... ... Wenig bis keine Grundlagen für diese Bereiche vorhanden
  32. 32. Identifizierte Aktionsfelder 1. Pretest-Werkzeuge um Fehler/Lücken im OPAC auszugleichen 2. Interoperabilitätsbibliothek für Volltextformate 3. Getrennte (?) Strategien für  den Abbau des vorhandenen Scan-Berges  die laufende Produktion in den Einrichtungen 4. Robuste und transparente Workflows zur Anbindung von  eigenen Renderfarmen  zentralen Renderfarmen  Dienstleistern  ...auch in Mischformen 5. Konzepte um die Agilität von Volltexten mit dem Bedürfnis nach seriösem Datenmanagement zu versöhnen
  33. 33. 14.03.2014 | S. 33 Projekte werden nicht aufgrund schlechter OCR-Qualität scheitern – sondern aufgrund nicht verstandener und wenig beherrschter Workflows Workflow Volltextgenerierung über OCR Ralf Stockmann

×