DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

1.196 Aufrufe

Veröffentlicht am

In den letzten Jahren konnten beachtliche Fortschritte in Bezug auf die Erkennungsqualität von OCR-Verfahren – auch bei schwierigen Vorlagen – erzielt werden. Zugleich fallen die Preise kontinuierlich, sei es bei Dienstleistern oder beim Aufsetzen einer eigenen OCR-Render-Farm. Die flächendeckende Bereitstellung von OCR-Volltexten scheint demnach zum Greifen nahe – der Durchbruch lässt jedoch aus Sicht der NutzerInnen weiter auf sich warten.

Einer der Hauptgründe dafür liegt in der komplizierten Orchestrierung der OCR-Workflows. Wirft man einen Blick auf die Details, so zerfasert der vermeintlich übersichtliche Dreiklang aus Digitalisierung, OCR und Indexierung/Bereitstellung schnell in 10 oder auch 20 Einzelschritte mit komplexen Abhängigkeiten. Selbst wenn diese Herausforderungen gemeistert wurden, stehen die nächsten Aufgaben an: Prozesse für die kontinuierliche Verbesserung der Volltexte (auch durch NutzerInnen/Croudsourcing) sowie Rückkanäle für veredelte Volltexte – etwa durch Normdatenauszeichnung – in die Repositorien sind weitestgehend Neuland.

Der Impulsvortrag wird das Problembewusstsein dafür zu schärfen, dass die OCR-Erkennungsqualität an sich zwar ein hochrelevanter Aspekt ist - im Orchester der Operationalisierung durch die Institutionen und Projekte aber nur als einer von vielen zu begreifen ist. Wenn das Projekt einer nationalen Volltext-Initiative gelingen soll, muss die gesamte Prozesskette Beachtung finden.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.196
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
19
Aktionen
Geteilt
0
Downloads
5
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

  1. 1. Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“ Workflow Volltextgenerierung über OCR Ralf Stockmann
  2. 2. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 2 Digitalisierung OCR Bereitstellung Oberflächliche Sicht eines OCR-Workflows
  3. 3. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 3 Digitalisierung OCR Bereitstellung Fehlende Workflowschritte an den Schnittstellen
  4. 4. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 4 Digitalisierung OCR Bereitstellung Fehlende Workflowschritte gewichtet nach Aufwand
  5. 5. Vorbereitung für OCR 14.03.2014 | S. 5 Welche Sprache hat das Dokument? Welche Schrift (Fraktur / Antiqua)? Datum abweichende Schreibweisen / Historische Lexika Region unverlässliche Daten hierzu im OPAC...?
  6. 6. Die Produktivität der Digitalisierung steigt an unseren Einrichtungen kontinuierlich 14.03.2014 | S. 6 Jahre ScansproTag
  7. 7. Um die Tagesproduktion durch OCR bearbeiten zu können muss diese ebenfalls skalieren 14.03.2014 | S. 7 Jahre ScansproTag OCR
  8. 8. 14.03.2014 | S. 8 Tagesaktuelle OCR für Strukturdatenerfassung
  9. 9. 14.03.2014 | S. 9 Tagesaktuelle OCR für Strukturdatenerfassung
  10. 10. Das Problem ist nicht nur die Tagesproduktion... 14.03.2014 | S. 10 Jahre ScansproTag OCR
  11. 11. 14.03.2014 | S. 11 Jahre ScansproTag OCR ArchivallerbisherigenScans ...sondern unser bestehender Berg der letzten 12 Jahre
  12. 12. Massen-OCR  Beispiel: Staatsbibliothek zu Berlin  Ca. 15 Mio. Images vorliegend  OCR-Dauer pro Image und CPU: ca. 20 Sekunden (optimistischer Wert)  Ca. 3.472 Tage oder 9,5 Jahre  Ziel: 5 Tage also ca. Faktor 700 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 12
  13. 13. Paketierung – Sammlung von Images 14.03.2014 | S. 13 Scans
  14. 14. Paketierung – Verteilung auf OCR-Cluster 14.03.2014 | S. 14 Scans CPU CPU CPURenderfarm
  15. 15. Paketierung – Zusammenführung der Ergebnisse 14.03.2014 | S. 15 Scans CPU CPU CPURenderfarm Ergebnis
  16. 16. Paketierung – wie robust ist der (wahrscheinliche) Fehlerfall? 14.03.2014 | S. 16 Scans CPU CPU CPURenderfarm Ergebnis
  17. 17. Flowshart Projekt „Digitextmath“ mit ABBYY Recognition Server 14.03.2014 | S. 17
  18. 18. Nur dieser Schritt ist die eigentliche OCR, der Rest ist Workflow-Management 14.03.2014 | S. 18
  19. 19. Datenformate – Quelle ist Sammlung von Images 14.03.2014 | S. 19 Scans
  20. 20. Datenformate Alt: eine XML-Datei Pro Seite 14.03.2014 | S. 20 Scans ALTO
  21. 21. Datenformate TEI: Eine Datei pro Dokument mit Pagebreaks im XML 14.03.2014 | S. 21 Scans ALTO TEI <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb>
  22. 22. Datenmanagement – viele Importformate 14.03.2014 | S. 22 Import ALTO TEI Finereader XML LaTeX PDF ... hOCR
  23. 23. Datenmanagement – nur ein Zentralformat? 14.03.2014 | S. 23 ALTO TEI Finereader XML LaTeX PDF ... Zentralformat? Import Archiv hOCR
  24. 24. Datenmanagement – auf jeden Fall flexible Exportformate benötigt 14.03.2014 | S. 24 Zentralformat? PDF TEI Mobi ePub LaTeX hOCR Markdown ... Import ExportArchiv ALTO TEI Finereader XML LaTeX PDF ... hOCR
  25. 25. Volltexte sind agil 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 25
  26. 26. Quelle für Agilität: Korrekturen  Nutzerfreundliches Crowdsourcing direkt im Browser  Bessere OCR-Engines  bei tendenziell sinkenden Preisen 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 26
  27. 27. Quelle für Agilität: Veredelung  Normdaten  Personen  Orte  Zeit  Schlagwörter  Annotationen  Referenzen  ...  Erfolgen nicht zwangsläufig in unseren Oberflächen sondern in VREs, ... 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 27
  28. 28. Problemfelder agiler Volltextdaten  Gleichermaßen für Korrekturen wie Veredelung  Langzeitarchivierung (etwa: Updates auf langsamen Tape-Speicher)  Persistente Adressierung  Versionierung? 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 28
  29. 29. Lösung: Volltexte auf GitHub?! (unser Grundgesetz ist schon da...) S. 29 http://gg.docpatch.org
  30. 30. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 30 Digitalisierung OCR Bereitstellung
  31. 31. 14.03.2014 |Workflow Volltextgenerierung über OCR Ralf Stockmann S. 31 D OCR B... ... ... ... ... ... Wenig bis keine Grundlagen für diese Bereiche vorhanden
  32. 32. Identifizierte Aktionsfelder 1. Pretest-Werkzeuge um Fehler/Lücken im OPAC auszugleichen 2. Interoperabilitätsbibliothek für Volltextformate 3. Getrennte (?) Strategien für  den Abbau des vorhandenen Scan-Berges  die laufende Produktion in den Einrichtungen 4. Robuste und transparente Workflows zur Anbindung von  eigenen Renderfarmen  zentralen Renderfarmen  Dienstleistern  ...auch in Mischformen 5. Konzepte um die Agilität von Volltexten mit dem Bedürfnis nach seriösem Datenmanagement zu versöhnen
  33. 33. 14.03.2014 | S. 33 Projekte werden nicht aufgrund schlechter OCR-Qualität scheitern – sondern aufgrund nicht verstandener und wenig beherrschter Workflows Workflow Volltextgenerierung über OCR Ralf Stockmann

×