BSB Demo Day - Pletschacher - Evaluationswerkzeuge
1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Evaluierung im Rahmen von OCR-Workflows
Stefan Pletschacher
2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Überblick
Digitalisierungsworkflows
Evaluierungsinfrastruktur
Werkzeuge zur Ground-Truth Erstellung
Evaluierungswerkzeuge
Bespiel 1: Segmentierung und Layout
Beispiel 2: OCR-Text
Interpretation von Ergebnissen
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 2
3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Digitalisierungsworkflows
Evaluierung
① Scannen •Individuelle Prozessschritte
② Bildvorverarbeitung und -verbesserung •Komplette Workflows
Trennung von Doppelseiten
Hintergrund-/Randentfernung
Korrektur von Bildwölbungen (systematisch und zufällig)
Beseitigung von allgemeinen Bildstörungen
Binarisierung
③ Layoutanalyse
Segmentierung von Regionen, Zeilen, Wörtern und Zeichen
Klassifikation von Regionen
Logische und strukturelle Layoutanalyse
④ OCR
⑤ Nachverarbeitung
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 3
4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Eine vollständige Evaluierungsinfrastruktur
Evaluierungs-
ergebnisse
Evaluierungs
werkzeuge
Kompatibilität durch ein
gemeinsames Format
(PAGE)
Bild-
datenbank
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 4
5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Image Repository
Zentrale Speicherung und Verwaltung
von Dokumentbildern, Metadaten und
Ground-Truth
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 5
6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Werkzeuge zur Ground-Truth Erstellung
Aletheia
Seitenrand/Hintergrund
Layout Regionen (inkl.
Metadaten)
Textzeilen, Wörter und
Glyphen
Unicode-Text auf allen
Ebenen
Lesereihenfolge, Ebenen,
etc.
FineReader Engine
Exporter (Vorproduktion)
GT Validator
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 6
7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Ground-Truth für Historische Dokumente
Durchgehende Unterstützung von Unicode (inkl.
Sonderzeichen für historische Dokumente)
Komplexe Lese-
reihenfolge (Gruppen
von geordneten oder
ungeordneten
Elementen)
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 7
8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Ground-Truth für Bildvorverarbeitung
Drehungs- Wölbungs-
Randentfernung Binarisierung
korrektur korrektur
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 8
9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Das PAGE Format
Page Analysis and Ground-Truth Elements
Zweistufige Architektur:
– Integrierendes Wurzelelement
– Aufgabenspezifische Unterformate
Separate XML Schema Definitionen
Format Identifikation über Namespaces
Abbildung von
– Abhängigkeiten
– Prozessketten
Repräsentation von
– Alternativen Verarbeitungsschritten
Verarbeitungsergebnissen
Verlinkung von Komponenten über IDs oder Ground-Truth
http://schema.primaresearch.org/PAGE/
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 9
10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Evaluierungswerkzeuge
Segmentierung und
Layout
OCR-Text
Drehungskorrektur
Wölbungskorrektur
Randentfernung
Binarisierung
Doppelseitentrennung
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 10
11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Beispiel 1: Segmentierung und Layout
Ground
Ergebniss
Truth
Fehlerarten
Miss / Part. Differenzierung von Fehlern in
Überlappung
Miss Abhängigkeit der Lesereihenfolge
Split
tolerierbar
Misclass.
Merge
False
Detection nicht-tolerierbar
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 11
12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Beispiel 1: Ground-Truth
Pag Header
e
Paragrap
h
Paragrap
h
Caption
Image
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 12
13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Beispiel 1: Ergebnis Layoutanalyse
Header
Paragrap
h
Paragrap
h
Image
Image
Image
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 13
14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Beispiel 1: Fehlerauswertung
Miss Partial Miss
Misclassi-
fication
Merge
Caption
Paragrap
h
Ground-Truth
Ergebnis
Layoutanalyse
Split
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 14
15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Beispiel 2: OCR-Text
Vergleich von Ground-Truth Text mit OCR Ergebnis (ASCII, Unicode)
– Zeichengenauigkeit
Abstandsmaß (minimal notwendige Anzahl von Einfüge-, Lösch- bzw. Austauschoperationen)
Nach Zeichenklassen (Leerzeichen, Klein- und Großbuchstaben, Ziffern, Satzzeichen)
– Wortgenauigkeit
Vollständig korrekt erkannte Wörter vs. Gesamtzahl an Wörtern
Mit oder ohne Stoppwörter
– Abgelehnte und als verdächtig markierte Zeichen/Wörter
– Besondere Schwere von Ersetzungsfehlern
– Maßzahlen für Korrekturaufwand
Hans im Glück Hahn im Gluk
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 15
16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Interpretation von Ergebnissen
Metrik Miss
– Messung von Zuständen Misclass.
– Art und Anzahl von Fehlern
Merge
Szenarios
Split
– Anwendungskontext
False detect.
– Wichtung von Fehlern
M
M 2 M
S1 S2 Kennzahlen zur Gesamtbewertung
1 3 basierend auf
Merge Split – gewichteten individuellen Ergebnissen
Rate Rate
...
– Typ und Größe (betroffene Region)
– tolerierbaren und nicht-tolerierbaren
Fehlern
Error
Rate
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 16
17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Weitere Informationen
PRImA
http://www.primaresearch.org
IMPACT
http://www.impact-project.eu
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 17