DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Workshop „Verfahren zur Verbesserung von
OCR-Ergebnissen“
Workflow
Volltextgenerierung
über OCR
Ralf Stockmann

14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 2
Digitalisierung OCR Bereitstellung
Oberflächliche Sicht eines OCR-Workflows

Ralf Stockmann
S. 3
Fehlende Workflowschritte an den
Schnittstellen

Ralf Stockmann
S. 4
Fehlende Workflowschritte gewichtet nach
Aufwand

Vorbereitung für OCR
14.03.2014 | S. 5
Welche Sprache hat das Dokument?
Welche Schrift (Fraktur / Antiqua)?
Datum
abweichende Schreibweisen /
Historische Lexika
Region
unverlässliche Daten
hierzu im OPAC...?

Die Produktivität der Digitalisierung steigt an
unseren Einrichtungen kontinuierlich
14.03.2014 | S. 6
Jahre
ScansproTag

Um die Tagesproduktion durch OCR
bearbeiten zu können muss diese ebenfalls
skalieren
14.03.2014 | S. 7
Jahre
ScansproTag
OCR

14.03.2014 | S. 8
Tagesaktuelle OCR für Strukturdatenerfassung

14.03.2014 | S. 9
Tagesaktuelle OCR für Strukturdatenerfassung

Das Problem ist nicht nur die
Tagesproduktion...
14.03.2014 | S. 10
Jahre
ScansproTag
OCR

14.03.2014 | S. 11
Jahre
ScansproTag
OCR
ArchivallerbisherigenScans
...sondern unser bestehender Berg der letzten
12 Jahre

Massen-OCR
 Beispiel: Staatsbibliothek zu Berlin
 Ca. 15 Mio. Images vorliegend
 OCR-Dauer pro Image und CPU: ca. 20 Sekunden
(optimistischer Wert)
 Ca. 3.472 Tage oder 9,5 Jahre
 Ziel: 5 Tage also ca. Faktor 700
Ralf Stockmann
S. 12

Paketierung – Sammlung von Images
14.03.2014 | S. 13
Scans

Paketierung – Verteilung auf OCR-Cluster
14.03.2014 | S. 14
Scans
CPU CPU CPURenderfarm

Paketierung – Zusammenführung der
Ergebnisse
14.03.2014 | S. 15
Scans
Ergebnis

Paketierung – wie robust ist der
(wahrscheinliche) Fehlerfall?
14.03.2014 | S. 16
Scans
Ergebnis

Flowshart Projekt „Digitextmath“ mit ABBYY
Recognition Server
14.03.2014 | S. 17

Nur dieser Schritt ist die eigentliche OCR, der
Rest ist Workflow-Management
14.03.2014 | S. 18

Datenformate – Quelle ist Sammlung von
Images
14.03.2014 | S. 19
Scans

Datenformate Alt: eine XML-Datei Pro Seite
14.03.2014 | S. 20
Scans
ALTO

Datenformate TEI: Eine Datei pro Dokument
mit Pagebreaks im XML
14.03.2014 | S. 21
Scans
ALTO
TEI
<pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb>

Datenmanagement – viele Importformate
14.03.2014 | S. 22
Import
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
hOCR

Datenmanagement – nur ein Zentralformat?
14.03.2014 | S. 23
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
Zentralformat?
Import Archiv
hOCR

Datenmanagement – auf jeden Fall flexible
Exportformate benötigt
14.03.2014 | S. 24
Zentralformat?
PDF
TEI
Mobi
ePub
LaTeX
hOCR
Markdown
...
Import ExportArchiv
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
hOCR

Volltexte sind agil
Ralf Stockmann
S. 25

Quelle für Agilität: Korrekturen
 Nutzerfreundliches Crowdsourcing direkt im
Browser
 Bessere OCR-Engines
 bei tendenziell sinkenden Preisen
Ralf Stockmann
S. 26

Quelle für Agilität: Veredelung
 Normdaten
 Personen
 Orte
 Zeit
 Schlagwörter
 Annotationen
 Referenzen
 ...
 Erfolgen nicht zwangsläufig in unseren
Oberflächen sondern in VREs, ...
Ralf Stockmann
S. 27

Problemfelder agiler Volltextdaten
 Gleichermaßen für Korrekturen wie Veredelung
 Langzeitarchivierung (etwa: Updates auf
langsamen Tape-Speicher)
 Persistente Adressierung
 Versionierung?
Ralf Stockmann
S. 28

Lösung: Volltexte auf GitHub?!
(unser Grundgesetz ist schon da...)
S. 29
http://gg.docpatch.org

Ralf Stockmann
S. 30

Ralf Stockmann
S. 31
D OCR B... ... ... ... ... ...
Wenig bis keine Grundlagen für diese
Bereiche vorhanden

Identifizierte Aktionsfelder
1. Pretest-Werkzeuge um Fehler/Lücken im OPAC
auszugleichen
2. Interoperabilitätsbibliothek für Volltextformate
3. Getrennte (?) Strategien für
 den Abbau des vorhandenen Scan-Berges
 die laufende Produktion in den Einrichtungen
4. Robuste und transparente Workflows zur
Anbindung von
 eigenen Renderfarmen
 zentralen Renderfarmen
 Dienstleistern
 ...auch in Mischformen
5. Konzepte um die Agilität von Volltexten mit
dem Bedürfnis nach seriösem
Datenmanagement zu versöhnen

14.03.2014 | S. 33
Projekte werden
nicht aufgrund schlechter
OCR-Qualität
scheitern –
sondern aufgrund
nicht verstandener und
wenig beherrschter
Workflows
Workflow Volltextgenerierung über OCR
Ralf Stockmann

DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (17)

Ähnlich wie DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Ähnlich wie DFG Expertenworkshop - Workflow Volltextgenerierung über OCR (20)

Mehr von Ralf Stockmann

Mehr von Ralf Stockmann (20)

DFG Expertenworkshop - Workflow Volltextgenerierung über OCR