Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Workshop „Verfahren zur Verbesserung von
OCR-Ergebnissen“
Workflow
Volltextgenerierung
über OCR
Ralf Stockmann
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 2
Digitalisierung OCR Bereitstellung
Oberflächliche Si...
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 3
Digitalisierung OCR Bereitstellung
Fehlende Workflow...
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 4
Digitalisierung OCR Bereitstellung
Fehlende Workflow...
Vorbereitung für OCR
14.03.2014 | S. 5
Welche Sprache hat das Dokument?
Welche Schrift (Fraktur / Antiqua)?
Datum
abweiche...
Die Produktivität der Digitalisierung steigt an
unseren Einrichtungen kontinuierlich
14.03.2014 | S. 6
Jahre
ScansproTag
Um die Tagesproduktion durch OCR
bearbeiten zu können muss diese ebenfalls
skalieren
14.03.2014 | S. 7
Jahre
ScansproTag
O...
14.03.2014 | S. 8
Tagesaktuelle OCR für Strukturdatenerfassung
14.03.2014 | S. 9
Tagesaktuelle OCR für Strukturdatenerfassung
Das Problem ist nicht nur die
Tagesproduktion...
14.03.2014 | S. 10
Jahre
ScansproTag
OCR
14.03.2014 | S. 11
Jahre
ScansproTag
OCR
ArchivallerbisherigenScans
...sondern unser bestehender Berg der letzten
12 Jahre
Massen-OCR
 Beispiel: Staatsbibliothek zu Berlin
 Ca. 15 Mio. Images vorliegend
 OCR-Dauer pro Image und CPU: ca. 20 Se...
Paketierung – Sammlung von Images
14.03.2014 | S. 13
Scans
Paketierung – Verteilung auf OCR-Cluster
14.03.2014 | S. 14
Scans
CPU CPU CPURenderfarm
Paketierung – Zusammenführung der
Ergebnisse
14.03.2014 | S. 15
Scans
CPU CPU CPURenderfarm
Ergebnis
Paketierung – wie robust ist der
(wahrscheinliche) Fehlerfall?
14.03.2014 | S. 16
Scans
CPU CPU CPURenderfarm
Ergebnis
Flowshart Projekt „Digitextmath“ mit ABBYY
Recognition Server
14.03.2014 | S. 17
Nur dieser Schritt ist die eigentliche OCR, der
Rest ist Workflow-Management
14.03.2014 | S. 18
Datenformate – Quelle ist Sammlung von
Images
14.03.2014 | S. 19
Scans
Datenformate Alt: eine XML-Datei Pro Seite
14.03.2014 | S. 20
Scans
ALTO
Datenformate TEI: Eine Datei pro Dokument
mit Pagebreaks im XML
14.03.2014 | S. 21
Scans
ALTO
TEI
<pb> <pb> <pb> <pb> <pb>...
Datenmanagement – viele Importformate
14.03.2014 | S. 22
Import
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
hOCR
Datenmanagement – nur ein Zentralformat?
14.03.2014 | S. 23
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
Zentralformat?
Import Ar...
Datenmanagement – auf jeden Fall flexible
Exportformate benötigt
14.03.2014 | S. 24
Zentralformat?
PDF
TEI
Mobi
ePub
LaTeX...
Volltexte sind agil
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 25
Quelle für Agilität: Korrekturen
 Nutzerfreundliches Crowdsourcing direkt im
Browser
 Bessere OCR-Engines
 bei tendenzi...
Quelle für Agilität: Veredelung
 Normdaten
 Personen
 Orte
 Zeit
 Schlagwörter
 Annotationen
 Referenzen
 ...
 Er...
Problemfelder agiler Volltextdaten
 Gleichermaßen für Korrekturen wie Veredelung
 Langzeitarchivierung (etwa: Updates au...
Lösung: Volltexte auf GitHub?!
(unser Grundgesetz ist schon da...)
S. 29
http://gg.docpatch.org
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 30
Digitalisierung OCR Bereitstellung
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 31
D OCR B... ... ... ... ... ...
Wenig bis keine Grun...
Identifizierte Aktionsfelder
1. Pretest-Werkzeuge um Fehler/Lücken im OPAC
auszugleichen
2. Interoperabilitätsbibliothek f...
14.03.2014 | S. 33
Projekte werden
nicht aufgrund schlechter
OCR-Qualität
scheitern –
sondern aufgrund
nicht verstandener ...
Nächste SlideShare
Wird geladen in …5
×

DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

1.338 Aufrufe

Veröffentlicht am

In den letzten Jahren konnten beachtliche Fortschritte in Bezug auf die Erkennungsqualität von OCR-Verfahren – auch bei schwierigen Vorlagen – erzielt werden. Zugleich fallen die Preise kontinuierlich, sei es bei Dienstleistern oder beim Aufsetzen einer eigenen OCR-Render-Farm. Die flächendeckende Bereitstellung von OCR-Volltexten scheint demnach zum Greifen nahe – der Durchbruch lässt jedoch aus Sicht der NutzerInnen weiter auf sich warten.

Einer der Hauptgründe dafür liegt in der komplizierten Orchestrierung der OCR-Workflows. Wirft man einen Blick auf die Details, so zerfasert der vermeintlich übersichtliche Dreiklang aus Digitalisierung, OCR und Indexierung/Bereitstellung schnell in 10 oder auch 20 Einzelschritte mit komplexen Abhängigkeiten. Selbst wenn diese Herausforderungen gemeistert wurden, stehen die nächsten Aufgaben an: Prozesse für die kontinuierliche Verbesserung der Volltexte (auch durch NutzerInnen/Croudsourcing) sowie Rückkanäle für veredelte Volltexte – etwa durch Normdatenauszeichnung – in die Repositorien sind weitestgehend Neuland.

Der Impulsvortrag wird das Problembewusstsein dafür zu schärfen, dass die OCR-Erkennungsqualität an sich zwar ein hochrelevanter Aspekt ist - im Orchester der Operationalisierung durch die Institutionen und Projekte aber nur als einer von vielen zu begreifen ist. Wenn das Projekt einer nationalen Volltext-Initiative gelingen soll, muss die gesamte Prozesskette Beachtung finden.

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

  1. 1. Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“ Workflow Volltextgenerierung über OCR Ralf Stockmann
  2. 2. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 2 Digitalisierung OCR Bereitstellung Oberflächliche Sicht eines OCR-Workflows
  3. 3. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 3 Digitalisierung OCR Bereitstellung Fehlende Workflowschritte an den Schnittstellen
  4. 4. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 4 Digitalisierung OCR Bereitstellung Fehlende Workflowschritte gewichtet nach Aufwand
  5. 5. Vorbereitung für OCR 14.03.2014 | S. 5 Welche Sprache hat das Dokument? Welche Schrift (Fraktur / Antiqua)? Datum abweichende Schreibweisen / Historische Lexika Region unverlässliche Daten hierzu im OPAC...?
  6. 6. Die Produktivität der Digitalisierung steigt an unseren Einrichtungen kontinuierlich 14.03.2014 | S. 6 Jahre ScansproTag
  7. 7. Um die Tagesproduktion durch OCR bearbeiten zu können muss diese ebenfalls skalieren 14.03.2014 | S. 7 Jahre ScansproTag OCR
  8. 8. 14.03.2014 | S. 8 Tagesaktuelle OCR für Strukturdatenerfassung
  9. 9. 14.03.2014 | S. 9 Tagesaktuelle OCR für Strukturdatenerfassung
  10. 10. Das Problem ist nicht nur die Tagesproduktion... 14.03.2014 | S. 10 Jahre ScansproTag OCR
  11. 11. 14.03.2014 | S. 11 Jahre ScansproTag OCR ArchivallerbisherigenScans ...sondern unser bestehender Berg der letzten 12 Jahre
  12. 12. Massen-OCR  Beispiel: Staatsbibliothek zu Berlin  Ca. 15 Mio. Images vorliegend  OCR-Dauer pro Image und CPU: ca. 20 Sekunden (optimistischer Wert)  Ca. 3.472 Tage oder 9,5 Jahre  Ziel: 5 Tage also ca. Faktor 700 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 12
  13. 13. Paketierung – Sammlung von Images 14.03.2014 | S. 13 Scans
  14. 14. Paketierung – Verteilung auf OCR-Cluster 14.03.2014 | S. 14 Scans CPU CPU CPURenderfarm
  15. 15. Paketierung – Zusammenführung der Ergebnisse 14.03.2014 | S. 15 Scans CPU CPU CPURenderfarm Ergebnis
  16. 16. Paketierung – wie robust ist der (wahrscheinliche) Fehlerfall? 14.03.2014 | S. 16 Scans CPU CPU CPURenderfarm Ergebnis
  17. 17. Flowshart Projekt „Digitextmath“ mit ABBYY Recognition Server 14.03.2014 | S. 17
  18. 18. Nur dieser Schritt ist die eigentliche OCR, der Rest ist Workflow-Management 14.03.2014 | S. 18
  19. 19. Datenformate – Quelle ist Sammlung von Images 14.03.2014 | S. 19 Scans
  20. 20. Datenformate Alt: eine XML-Datei Pro Seite 14.03.2014 | S. 20 Scans ALTO
  21. 21. Datenformate TEI: Eine Datei pro Dokument mit Pagebreaks im XML 14.03.2014 | S. 21 Scans ALTO TEI <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb>
  22. 22. Datenmanagement – viele Importformate 14.03.2014 | S. 22 Import ALTO TEI Finereader XML LaTeX PDF ... hOCR
  23. 23. Datenmanagement – nur ein Zentralformat? 14.03.2014 | S. 23 ALTO TEI Finereader XML LaTeX PDF ... Zentralformat? Import Archiv hOCR
  24. 24. Datenmanagement – auf jeden Fall flexible Exportformate benötigt 14.03.2014 | S. 24 Zentralformat? PDF TEI Mobi ePub LaTeX hOCR Markdown ... Import ExportArchiv ALTO TEI Finereader XML LaTeX PDF ... hOCR
  25. 25. Volltexte sind agil 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 25
  26. 26. Quelle für Agilität: Korrekturen  Nutzerfreundliches Crowdsourcing direkt im Browser  Bessere OCR-Engines  bei tendenziell sinkenden Preisen 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 26
  27. 27. Quelle für Agilität: Veredelung  Normdaten  Personen  Orte  Zeit  Schlagwörter  Annotationen  Referenzen  ...  Erfolgen nicht zwangsläufig in unseren Oberflächen sondern in VREs, ... 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 27
  28. 28. Problemfelder agiler Volltextdaten  Gleichermaßen für Korrekturen wie Veredelung  Langzeitarchivierung (etwa: Updates auf langsamen Tape-Speicher)  Persistente Adressierung  Versionierung? 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 28
  29. 29. Lösung: Volltexte auf GitHub?! (unser Grundgesetz ist schon da...) S. 29 http://gg.docpatch.org
  30. 30. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 30 Digitalisierung OCR Bereitstellung
  31. 31. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 31 D OCR B... ... ... ... ... ... Wenig bis keine Grundlagen für diese Bereiche vorhanden
  32. 32. Identifizierte Aktionsfelder 1. Pretest-Werkzeuge um Fehler/Lücken im OPAC auszugleichen 2. Interoperabilitätsbibliothek für Volltextformate 3. Getrennte (?) Strategien für  den Abbau des vorhandenen Scan-Berges  die laufende Produktion in den Einrichtungen 4. Robuste und transparente Workflows zur Anbindung von  eigenen Renderfarmen  zentralen Renderfarmen  Dienstleistern  ...auch in Mischformen 5. Konzepte um die Agilität von Volltexten mit dem Bedürfnis nach seriösem Datenmanagement zu versöhnen
  33. 33. 14.03.2014 | S. 33 Projekte werden nicht aufgrund schlechter OCR-Qualität scheitern – sondern aufgrund nicht verstandener und wenig beherrschter Workflows Workflow Volltextgenerierung über OCR Ralf Stockmann

×