SlideShare ist ein Scribd-Unternehmen logo
1 von 17
Downloaden Sie, um offline zu lesen
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Evaluierung im Rahmen von OCR-Workflows
   Stefan Pletschacher
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Überblick
        Digitalisierungsworkflows
        Evaluierungsinfrastruktur
        Werkzeuge zur Ground-Truth Erstellung
        Evaluierungswerkzeuge
        Bespiel 1: Segmentierung und Layout
        Beispiel 2: OCR-Text
        Interpretation von Ergebnissen




Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                       2
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Digitalisierungsworkflows
                                                                                                                      Evaluierung
     ①           Scannen                                                                                              •Individuelle Prozessschritte
     ②           Bildvorverarbeitung und -verbesserung                                                                •Komplette Workflows
                                   Trennung von Doppelseiten
                                   Hintergrund-/Randentfernung
                                   Korrektur von Bildwölbungen (systematisch und zufällig)
                                   Beseitigung von allgemeinen Bildstörungen
                                   Binarisierung
     ③           Layoutanalyse
                                   Segmentierung von Regionen, Zeilen, Wörtern und Zeichen
                                   Klassifikation von Regionen
                                   Logische und strukturelle Layoutanalyse
     ④           OCR
     ⑤           Nachverarbeitung

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                       3
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Eine vollständige Evaluierungsinfrastruktur
                                                                  Evaluierungs-
                                                                   ergebnisse



                                                                    Evaluierungs
                                                                     werkzeuge

                                                         Kompatibilität durch ein
                                                          gemeinsames Format
                                                                (PAGE)



                                                                            Bild-
                                                                         datenbank
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                       4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




   IMPACT Image Repository
Zentrale Speicherung und Verwaltung
von Dokumentbildern, Metadaten und
Ground-Truth




   Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                       5
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




  Werkzeuge zur Ground-Truth Erstellung
Aletheia
       Seitenrand/Hintergrund
       Layout Regionen (inkl.
       Metadaten)
       Textzeilen, Wörter und
       Glyphen
       Unicode-Text auf allen
       Ebenen
       Lesereihenfolge, Ebenen,
       etc.
FineReader Engine
Exporter (Vorproduktion)
GT Validator
  Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                       6
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




  Ground-Truth für Historische Dokumente
Durchgehende Unterstützung von Unicode (inkl.
Sonderzeichen für historische Dokumente)




                                                                                                                                            Komplexe Lese-
                                                                                                                                            reihenfolge (Gruppen
                                                                                                                                            von geordneten oder
                                                                                                                                            ungeordneten
                                                                                                                                            Elementen)

  Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                               7
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




 Ground-Truth für Bildvorverarbeitung

Drehungs-                                         Wölbungs-
                                                                                                Randentfernung                                             Binarisierung
korrektur                                         korrektur




 Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                                        8
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Das PAGE Format
Page Analysis and Ground-Truth Elements
   Zweistufige Architektur:
          – Integrierendes Wurzelelement
          – Aufgabenspezifische Unterformate
        Separate XML Schema Definitionen
        Format Identifikation über Namespaces
        Abbildung von
          – Abhängigkeiten
          – Prozessketten
                                                                                                                                 Repräsentation von
          – Alternativen Verarbeitungsschritten
                                                                                                                                 Verarbeitungsergebnissen
        Verlinkung von Komponenten über IDs                                                                                      oder Ground-Truth

       http://schema.primaresearch.org/PAGE/
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                          9
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Evaluierungswerkzeuge
 Segmentierung und
 Layout
 OCR-Text

 Drehungskorrektur
 Wölbungskorrektur
 Randentfernung
 Binarisierung
 Doppelseitentrennung




Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                       10
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




 Beispiel 1: Segmentierung und Layout
                                                    Ground
                                                                                              Ergebniss
                                                     Truth
Fehlerarten
                                Miss / Part.                                                                        Differenzierung von Fehlern in
                                                                       Überlappung
                                Miss                                                                                Abhängigkeit der Lesereihenfolge

                                Split
                                                                                                                                                    tolerierbar
                                Misclass.


                                Merge

                                 False
                                 Detection                                                                              nicht-tolerierbar
 Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                               11
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Beispiel 1: Ground-Truth
                 Pag                                                                                                                                     Header
                 e
                                                                                                                                                                  Paragrap
                                                                                                                                                                  h




                                                                                                                                                                  Paragrap
                                                                                                                                                                  h




   Caption




               Image

Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                                           12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Beispiel 1: Ergebnis Layoutanalyse
                                                                                                                                                         Header

                                                                                                                                                                  Paragrap
                                                                                                                                                                  h




   Paragrap
   h




                Image
                                                        Image
                                                              Image
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                                           13
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




        Beispiel 1: Fehlerauswertung
             Miss                                                                                                                                                Partial Miss



Misclassi-
fication
                                                                                                                                                                        Merge

              Caption
          Paragrap
          h




                                                                                                                                                                        Ground-Truth
                                                                                                                                                                        Ergebnis
                                                                                                                                                                        Layoutanalyse
                                                                                            Split
        Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                                       14
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Beispiel 2: OCR-Text
 Vergleich von Ground-Truth Text mit OCR Ergebnis (ASCII, Unicode)
    – Zeichengenauigkeit
                    Abstandsmaß (minimal notwendige Anzahl von Einfüge-, Lösch- bzw. Austauschoperationen)
                    Nach Zeichenklassen (Leerzeichen, Klein- und Großbuchstaben, Ziffern, Satzzeichen)
    – Wortgenauigkeit
                    Vollständig korrekt erkannte Wörter vs. Gesamtzahl an Wörtern
                    Mit oder ohne Stoppwörter
    – Abgelehnte und als verdächtig markierte Zeichen/Wörter
    – Besondere Schwere von Ersetzungsfehlern
    – Maßzahlen für Korrekturaufwand


                                            Hans im Glück                                    Hahn im Gluk


Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                       15
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Interpretation von Ergebnissen
 Metrik                                                                                                                  Miss
    – Messung von Zuständen                                                                                      Misclass.
    – Art und Anzahl von Fehlern
                                                                                                                      Merge
 Szenarios
                                                                                                                         Split
    – Anwendungskontext
                                                                                                            False detect.
    – Wichtung von Fehlern

                 M
     M           2           M
                                            S1          S2                                         Kennzahlen zur Gesamtbewertung
     1                       3                                                                     basierend auf
             Merge                               Split                                               – gewichteten individuellen Ergebnissen
             Rate                                Rate
                                                                      ...
                                                                                                     – Typ und Größe (betroffene Region)
                                                                                                     – tolerierbaren und nicht-tolerierbaren
                                                                                                       Fehlern
                           Error
                           Rate
Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                       16
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Weitere Informationen

PRImA
 http://www.primaresearch.org

IMPACT
 http://www.impact-project.eu



Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011                                                                       17

Weitere ähnliche Inhalte

Andere mochten auch

Cl ms cc mango - feedback for 1st round
Cl ms cc mango - feedback for 1st roundCl ms cc mango - feedback for 1st round
Cl ms cc mango - feedback for 1st roundzasranec1990
 
Procesos Administrativos 1
Procesos Administrativos 1Procesos Administrativos 1
Procesos Administrativos 1guest9627ba
 
Independência indiana
Independência indianaIndependência indiana
Independência indianaVictoria Porto
 
Intertextualidade e interdiscutividade
Intertextualidade e interdiscutividadeIntertextualidade e interdiscutividade
Intertextualidade e interdiscutividadeEdilson A. Souza
 
Zastita privatnosti u lokaciono zasnovanim mobilnim servisima
Zastita privatnosti u lokaciono zasnovanim mobilnim servisimaZastita privatnosti u lokaciono zasnovanim mobilnim servisima
Zastita privatnosti u lokaciono zasnovanim mobilnim servisimaIvan Vasic
 
Aplicacionesdeclculofinanc 090926124452 Phpapp01
Aplicacionesdeclculofinanc 090926124452 Phpapp01Aplicacionesdeclculofinanc 090926124452 Phpapp01
Aplicacionesdeclculofinanc 090926124452 Phpapp01Javi Romero
 
ルーブリック作成課題導入による議論スキル改善の試み
ルーブリック作成課題導入による議論スキル改善の試みルーブリック作成課題導入による議論スキル改善の試み
ルーブリック作成課題導入による議論スキル改善の試みNoaki Keitoku
 
Udderly Smooth - Referências Técnicas - DERMATOLOGIA
Udderly Smooth - Referências Técnicas - DERMATOLOGIAUdderly Smooth - Referências Técnicas - DERMATOLOGIA
Udderly Smooth - Referências Técnicas - DERMATOLOGIAUdderly Smooth
 
Faty Presentacon Wakeos
Faty Presentacon WakeosFaty Presentacon Wakeos
Faty Presentacon Wakeosciudadania0910
 
Trabajo de lengua
Trabajo de lenguaTrabajo de lengua
Trabajo de lenguaalicia1999
 
Artigo luiz-agner-usihc-2012
Artigo luiz-agner-usihc-2012Artigo luiz-agner-usihc-2012
Artigo luiz-agner-usihc-2012Rodrigo Almeida
 

Andere mochten auch (18)

Cl ms cc mango - feedback for 1st round
Cl ms cc mango - feedback for 1st roundCl ms cc mango - feedback for 1st round
Cl ms cc mango - feedback for 1st round
 
Ganoderma - Ganomas
Ganoderma - GanomasGanoderma - Ganomas
Ganoderma - Ganomas
 
Procesos Administrativos 1
Procesos Administrativos 1Procesos Administrativos 1
Procesos Administrativos 1
 
Seminario n°5
Seminario n°5Seminario n°5
Seminario n°5
 
Alba Amas De Casa
Alba Amas De CasaAlba Amas De Casa
Alba Amas De Casa
 
Independência indiana
Independência indianaIndependência indiana
Independência indiana
 
preguntas de prezi
preguntas de prezipreguntas de prezi
preguntas de prezi
 
Intertextualidade e interdiscutividade
Intertextualidade e interdiscutividadeIntertextualidade e interdiscutividade
Intertextualidade e interdiscutividade
 
Zastita privatnosti u lokaciono zasnovanim mobilnim servisima
Zastita privatnosti u lokaciono zasnovanim mobilnim servisimaZastita privatnosti u lokaciono zasnovanim mobilnim servisima
Zastita privatnosti u lokaciono zasnovanim mobilnim servisima
 
7b higiene
7b higiene7b higiene
7b higiene
 
Aplicacionesdeclculofinanc 090926124452 Phpapp01
Aplicacionesdeclculofinanc 090926124452 Phpapp01Aplicacionesdeclculofinanc 090926124452 Phpapp01
Aplicacionesdeclculofinanc 090926124452 Phpapp01
 
ルーブリック作成課題導入による議論スキル改善の試み
ルーブリック作成課題導入による議論スキル改善の試みルーブリック作成課題導入による議論スキル改善の試み
ルーブリック作成課題導入による議論スキル改善の試み
 
Dinks
DinksDinks
Dinks
 
Udderly Smooth - Referências Técnicas - DERMATOLOGIA
Udderly Smooth - Referências Técnicas - DERMATOLOGIAUdderly Smooth - Referências Técnicas - DERMATOLOGIA
Udderly Smooth - Referências Técnicas - DERMATOLOGIA
 
Polusi
PolusiPolusi
Polusi
 
Faty Presentacon Wakeos
Faty Presentacon WakeosFaty Presentacon Wakeos
Faty Presentacon Wakeos
 
Trabajo de lengua
Trabajo de lenguaTrabajo de lengua
Trabajo de lengua
 
Artigo luiz-agner-usihc-2012
Artigo luiz-agner-usihc-2012Artigo luiz-agner-usihc-2012
Artigo luiz-agner-usihc-2012
 

Ähnlich wie BSB Demo Day - Pletschacher - Evaluationswerkzeuge

BSB Demo Day - Mühlberger - Dokumentstrukturanalyse
BSB Demo Day - Mühlberger - DokumentstrukturanalyseBSB Demo Day - Mühlberger - Dokumentstrukturanalyse
BSB Demo Day - Mühlberger - DokumentstrukturanalyseIMPACT Centre of Competence
 
BSB Demo Day - Reffle - Analyse und Nachkorrektur
BSB Demo Day - Reffle - Analyse und NachkorrekturBSB Demo Day - Reffle - Analyse und Nachkorrektur
BSB Demo Day - Reffle - Analyse und NachkorrekturIMPACT Centre of Competence
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 
Thesaurusvisualisierung mit ICE-Map und SEMTINEL
Thesaurusvisualisierung mit ICE-Map und SEMTINELThesaurusvisualisierung mit ICE-Map und SEMTINEL
Thesaurusvisualisierung mit ICE-Map und SEMTINELKai Eckert
 
Nutzungsstatistiken für Repositorien - das Projekt OA-Statistik
Nutzungsstatistiken für Repositorien - das Projekt OA-StatistikNutzungsstatistiken für Repositorien - das Projekt OA-Statistik
Nutzungsstatistiken für Repositorien - das Projekt OA-StatistikDaniel Beucke
 
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceBSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceIMPACT Centre of Competence
 
Abap course chapter 2 tools in the development environment
Abap course   chapter 2 tools in the development environmentAbap course   chapter 2 tools in the development environment
Abap course chapter 2 tools in the development environmentMilind Patil
 
PyLucene@PyCon DE 2011
PyLucene@PyCon DE 2011PyLucene@PyCon DE 2011
PyLucene@PyCon DE 2011Thomas Koch
 
Methodenlehrplan GWG 8 KvFG
Methodenlehrplan GWG 8 KvFGMethodenlehrplan GWG 8 KvFG
Methodenlehrplan GWG 8 KvFGDo Wel
 

Ähnlich wie BSB Demo Day - Pletschacher - Evaluationswerkzeuge (16)

BSB Demo Day - Mühlberger - Dokumentstrukturanalyse
BSB Demo Day - Mühlberger - DokumentstrukturanalyseBSB Demo Day - Mühlberger - Dokumentstrukturanalyse
BSB Demo Day - Mühlberger - Dokumentstrukturanalyse
 
BSB Demo Day - Zechmeister - OCR-Software
BSB Demo Day - Zechmeister - OCR-SoftwareBSB Demo Day - Zechmeister - OCR-Software
BSB Demo Day - Zechmeister - OCR-Software
 
BSB Demo Day - Reffle - Analyse und Nachkorrektur
BSB Demo Day - Reffle - Analyse und NachkorrekturBSB Demo Day - Reffle - Analyse und Nachkorrektur
BSB Demo Day - Reffle - Analyse und Nachkorrektur
 
KAHINA
KAHINAKAHINA
KAHINA
 
BSB Demo Day - Skaric - Kollaborative Korrektur
BSB Demo Day - Skaric - Kollaborative KorrekturBSB Demo Day - Skaric - Kollaborative Korrektur
BSB Demo Day - Skaric - Kollaborative Korrektur
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
Thesaurusvisualisierung mit ICE-Map und SEMTINEL
Thesaurusvisualisierung mit ICE-Map und SEMTINELThesaurusvisualisierung mit ICE-Map und SEMTINEL
Thesaurusvisualisierung mit ICE-Map und SEMTINEL
 
Nutzungsstatistiken für Repositorien - das Projekt OA-Statistik
Nutzungsstatistiken für Repositorien - das Projekt OA-StatistikNutzungsstatistiken für Repositorien - das Projekt OA-Statistik
Nutzungsstatistiken für Repositorien - das Projekt OA-Statistik
 
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceBSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
 
BSB Demo Day - Zechmeister - Bildoptimierung
BSB Demo Day - Zechmeister - BildoptimierungBSB Demo Day - Zechmeister - Bildoptimierung
BSB Demo Day - Zechmeister - Bildoptimierung
 
Abap course chapter 2 tools in the development environment
Abap course   chapter 2 tools in the development environmentAbap course   chapter 2 tools in the development environment
Abap course chapter 2 tools in the development environment
 
PyLucene@PyCon DE 2011
PyLucene@PyCon DE 2011PyLucene@PyCon DE 2011
PyLucene@PyCon DE 2011
 
Illik verteilte systeme
Illik verteilte systemeIllik verteilte systeme
Illik verteilte systeme
 
Methodenlehrplan GWG 8 KvFG
Methodenlehrplan GWG 8 KvFGMethodenlehrplan GWG 8 KvFG
Methodenlehrplan GWG 8 KvFG
 
Meyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUCMeyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUC
 
BSB Demo Day - Fischer - Strategische Werkzeuge
BSB Demo Day - Fischer - Strategische WerkzeugeBSB Demo Day - Fischer - Strategische Werkzeuge
BSB Demo Day - Fischer - Strategische Werkzeuge
 

Mehr von IMPACT Centre of Competence

Mehr von IMPACT Centre of Competence (20)

Session6 01.helmut schmid
Session6 01.helmut schmidSession6 01.helmut schmid
Session6 01.helmut schmid
 
Session1 03.hsian-an wang
Session1 03.hsian-an wangSession1 03.hsian-an wang
Session1 03.hsian-an wang
 
Session7 03.katrien depuydt
Session7 03.katrien depuydtSession7 03.katrien depuydt
Session7 03.katrien depuydt
 
Session7 02.peter kiraly
Session7 02.peter kiralySession7 02.peter kiraly
Session7 02.peter kiraly
 
Session6 04.giuseppe celano
Session6 04.giuseppe celanoSession6 04.giuseppe celano
Session6 04.giuseppe celano
 
Session6 03.sandra young
Session6 03.sandra youngSession6 03.sandra young
Session6 03.sandra young
 
Session6 02.jeremi ochab
Session6 02.jeremi ochabSession6 02.jeremi ochab
Session6 02.jeremi ochab
 
Session5 04.evangelos varthis
Session5 04.evangelos varthisSession5 04.evangelos varthis
Session5 04.evangelos varthis
 
Session5 03.george rehm
Session5 03.george rehmSession5 03.george rehm
Session5 03.george rehm
 
Session5 02.tom derrick
Session5 02.tom derrickSession5 02.tom derrick
Session5 02.tom derrick
 
Session5 01.rutger vankoert
Session5 01.rutger vankoertSession5 01.rutger vankoert
Session5 01.rutger vankoert
 
Session4 04.senka drobac
Session4 04.senka drobacSession4 04.senka drobac
Session4 04.senka drobac
 
Session3 04.arnau baro
Session3 04.arnau baroSession3 04.arnau baro
Session3 04.arnau baro
 
Session3 03.christian clausner
Session3 03.christian clausnerSession3 03.christian clausner
Session3 03.christian clausner
 
Session3 02.kimmo ketunnen
Session3 02.kimmo ketunnenSession3 02.kimmo ketunnen
Session3 02.kimmo ketunnen
 
Session3 01.clemens neudecker
Session3 01.clemens neudeckerSession3 01.clemens neudecker
Session3 01.clemens neudecker
 
Session2 04.ashkan ashkpour
Session2 04.ashkan ashkpourSession2 04.ashkan ashkpour
Session2 04.ashkan ashkpour
 
Session2 03.juri opitz
Session2 03.juri opitzSession2 03.juri opitz
Session2 03.juri opitz
 
Session2 02.christian reul
Session2 02.christian reulSession2 02.christian reul
Session2 02.christian reul
 
Session2 01.emad mohamed
Session2 01.emad mohamedSession2 01.emad mohamed
Session2 01.emad mohamed
 

BSB Demo Day - Pletschacher - Evaluationswerkzeuge

  • 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Evaluierung im Rahmen von OCR-Workflows Stefan Pletschacher
  • 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Überblick Digitalisierungsworkflows Evaluierungsinfrastruktur Werkzeuge zur Ground-Truth Erstellung Evaluierungswerkzeuge Bespiel 1: Segmentierung und Layout Beispiel 2: OCR-Text Interpretation von Ergebnissen Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 2
  • 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Digitalisierungsworkflows Evaluierung ① Scannen •Individuelle Prozessschritte ② Bildvorverarbeitung und -verbesserung •Komplette Workflows Trennung von Doppelseiten Hintergrund-/Randentfernung Korrektur von Bildwölbungen (systematisch und zufällig) Beseitigung von allgemeinen Bildstörungen Binarisierung ③ Layoutanalyse Segmentierung von Regionen, Zeilen, Wörtern und Zeichen Klassifikation von Regionen Logische und strukturelle Layoutanalyse ④ OCR ⑤ Nachverarbeitung Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 3
  • 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Eine vollständige Evaluierungsinfrastruktur Evaluierungs- ergebnisse Evaluierungs werkzeuge Kompatibilität durch ein gemeinsames Format (PAGE) Bild- datenbank Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 4
  • 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT Image Repository Zentrale Speicherung und Verwaltung von Dokumentbildern, Metadaten und Ground-Truth Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 5
  • 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Werkzeuge zur Ground-Truth Erstellung Aletheia Seitenrand/Hintergrund Layout Regionen (inkl. Metadaten) Textzeilen, Wörter und Glyphen Unicode-Text auf allen Ebenen Lesereihenfolge, Ebenen, etc. FineReader Engine Exporter (Vorproduktion) GT Validator Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 6
  • 7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ground-Truth für Historische Dokumente Durchgehende Unterstützung von Unicode (inkl. Sonderzeichen für historische Dokumente) Komplexe Lese- reihenfolge (Gruppen von geordneten oder ungeordneten Elementen) Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 7
  • 8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ground-Truth für Bildvorverarbeitung Drehungs- Wölbungs- Randentfernung Binarisierung korrektur korrektur Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 8
  • 9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Das PAGE Format Page Analysis and Ground-Truth Elements Zweistufige Architektur: – Integrierendes Wurzelelement – Aufgabenspezifische Unterformate Separate XML Schema Definitionen Format Identifikation über Namespaces Abbildung von – Abhängigkeiten – Prozessketten Repräsentation von – Alternativen Verarbeitungsschritten Verarbeitungsergebnissen Verlinkung von Komponenten über IDs oder Ground-Truth http://schema.primaresearch.org/PAGE/ Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 9
  • 10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Evaluierungswerkzeuge Segmentierung und Layout OCR-Text Drehungskorrektur Wölbungskorrektur Randentfernung Binarisierung Doppelseitentrennung Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 10
  • 11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Beispiel 1: Segmentierung und Layout Ground Ergebniss Truth Fehlerarten Miss / Part. Differenzierung von Fehlern in Überlappung Miss Abhängigkeit der Lesereihenfolge Split tolerierbar Misclass. Merge False Detection nicht-tolerierbar Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 11
  • 12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Beispiel 1: Ground-Truth Pag Header e Paragrap h Paragrap h Caption Image Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 12
  • 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Beispiel 1: Ergebnis Layoutanalyse Header Paragrap h Paragrap h Image Image Image Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 13
  • 14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Beispiel 1: Fehlerauswertung Miss Partial Miss Misclassi- fication Merge Caption Paragrap h Ground-Truth Ergebnis Layoutanalyse Split Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 14
  • 15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Beispiel 2: OCR-Text Vergleich von Ground-Truth Text mit OCR Ergebnis (ASCII, Unicode) – Zeichengenauigkeit Abstandsmaß (minimal notwendige Anzahl von Einfüge-, Lösch- bzw. Austauschoperationen) Nach Zeichenklassen (Leerzeichen, Klein- und Großbuchstaben, Ziffern, Satzzeichen) – Wortgenauigkeit Vollständig korrekt erkannte Wörter vs. Gesamtzahl an Wörtern Mit oder ohne Stoppwörter – Abgelehnte und als verdächtig markierte Zeichen/Wörter – Besondere Schwere von Ersetzungsfehlern – Maßzahlen für Korrekturaufwand Hans im Glück  Hahn im Gluk Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 15
  • 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Interpretation von Ergebnissen Metrik Miss – Messung von Zuständen Misclass. – Art und Anzahl von Fehlern Merge Szenarios Split – Anwendungskontext False detect. – Wichtung von Fehlern M M 2 M S1 S2 Kennzahlen zur Gesamtbewertung 1 3 basierend auf Merge Split – gewichteten individuellen Ergebnissen Rate Rate ... – Typ und Größe (betroffene Region) – tolerierbaren und nicht-tolerierbaren Fehlern Error Rate Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 16
  • 17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Weitere Informationen PRImA http://www.primaresearch.org IMPACT http://www.impact-project.eu Stefan Pletschacher - Evaluierung im Rahmen von OCR-Workflows, München, 11.10.2011 17