IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




OCR-Software für historische Dokumente
Gerd Zechmeister (Österr. Nationalbibliothek)


11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




11.10.2011 DemoDay BSB                                                                                                                                   2
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




    Was ist OCR?
Optische Zeichenerkennung ist die mechanische oder elektronische
Übersetzung von - üblicherweise von einem Scanner erfassten - Abbildern
von hand- oder maschingeschriebenem bzw. gedrucktem Text in
maschinenlesbaren Text. (Übersetzte Definition aus dem IMPACT Glossar)




    11.10.2011 DemoDay BSB                                                                                                                                   3
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Warum OCR?
        Volltextgewinnung und Einsatz spezieller Lexika zur Wiederauffindung von
        Dokumenten in Suchsystemen



        Editierbarkeit (z.B. Redigieren für reprints oder eBook-Formate)
        Schriftart-Erkennung




        „Trainieren“ von OCR Software
11.10.2011 DemoDay BSB                                                                                                                                   4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




OCR Verarbeitungsschritte
        Bildvorverarbeitung
          – Kompensieren und Ausgleichen von Image-Defekten (z.B. Geraderücken,
            Entfernen von Flecken) zur Optimierung des Scans sowie als Vorverarbeitung
            für die OCR (Binarisierung)
            integriert im OCR-System oder als Vorverarbeitungsschritt vorgesehen
        Layout-Analyse und Segmentierung
          – Erkennen von Layout-Elementen (Druckbereich, Marginalia, Seiten- und
            Kapitelzahlen etc.) und Blöcken (Text, Illustrationen etc.)
            Mehrinformation über diese Elemente und Blöcke (z.B. Koordinaten) können je
            nach Ausgabeformat in den Ergebnissen mitgeliefert werden
        Mustererkennung
          – Erkennen einzelner Zeichen und Abgleich derselben mit der Datenbank von
            Klassifikatoren (= Zeichenmuster)
          – Ausgabe von Ergebnissen (z.B. TXT, XML, RTF)

11.10.2011 DemoDay BSB                                                                                                                                   5
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT & ABBYY
        ABBYY ist der OCR-Technologie-Lieferant für IMPACT
        Die IMPACT Partner arbeiten mit der FineReader Engine (SDK)
        ABBYY verbessert Features im Rahmen von IMPACT, darunter:
          – Bildvorverarbeitung
          – Zeichenerkennung
          – Segmentierung
            werden in zukünftige Produkte integriert
        IMPACT ermöglicht Forschung, liefert kein Produktivsystem




11.10.2011 DemoDay BSB                                                                                                                                   6
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Binarisierung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Adaptive Binarisierung

                                                                                                                   Original-Scan




             alte
        Binarisierung


                                     neue
                                 Binarisierung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT Binarisierung

            Original                                             Stand der Technik                                                                 IMPACT




                                                                                                                                                            9
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Segmentierung




           Blöcke/Regionen                                                               Worte                                        Glyphen/Zeichen
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT Segmentierung: Beispiel 1
       Pre-IMPACT FR Engine 9                                                                                     FR Engine 10




              Ein Teil wurde fälschlicherweise als Grafikblock interpretiert

                                                                                                                                                          11
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT Segmentierung: Beispiel 2
                  Pre-IMPACT FR Engine 9                                                                                      FR Engine 10




                  Fehler in der Zuordnung von Elementen wurden behoben
                                                                                                                                                          12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT Segmentierung: Beispiel 3
 Pre-IMPACT FR Engine 9                                                                                                 FR Engine 10




                 In v9 nicht berücksichtigte Textregionen sind jetzt inkludiert
                                                                                                                                                          13
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Fraktur-Erkennung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Sprachen und Wörterbücher
 Ziel: Schnittstelle zur Integration externer Wörterbücher in die
 Engine
 2008 - 2009:
  • Betaversion der Schnittstelle
  • Selbe Prozessqualität möglich wie mit internen Wörterbüchern

 2010 - 2011:
  • Schnittstelle “stabilisieren” (weitere
    Funktionstests notwendig)
  • Partner einschulen wie die Schnittstelle
    zu benutzen ist
  • Unterstützung für alle verfügbaren
    Sprachen und Zeiträume


                                                                                                                                                          15
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Eigennamenerkennung
         Erkennen von Personen, Orten und Körperschaften in Volltexten
         Arbeitsschritte
          1. Erstellen von Eigennamenverzeichnissen (z. B. Abtippen von Ortsverzeichnissen,
             Konvertierung von Normdateien in geeignete Formate)
          2. Indexieren von Volltexten
          3. Suchschnittstelle generieren
         IMPACT Retrieval Demonstrator




11.10.2011 DemoDay BSB                                                                                                                                   16
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




ALTO: neues natives Exportformat




 Verfügbar seit FineReader Engine 10 R2
 Unterstützt aktuelles Schema: ALTO v. 2.0
 Koordinaten auf Linienebene verfügbar
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Ergebnisvergleich
         Prozess 1
          1.       Geometrische Korrektur
          2.       Rahmenentfernung
          3.       ABBYY FineReader 10 Binarisation Service
          4.       ABBYY FineReader 10 OCR Service
         Prozess 2
          1. ABBYY FineReader 10 OCR Service




11.10.2011 DemoDay BSB                                                                                                                                   18
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




        Prozess 1 (Bildvorverarbeitung + FR 9)




        Prozess 2 (FR 9)




11.10.2011 DemoDay BSB                                                                                                                                   19
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




                                   Vielen Dank … Fragen?




11.10.2011 DemoDay BSB                                                                                                                                   20

BSB Demo Day - Zechmeister - OCR-Software

  • 1.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. OCR-Software für historische Dokumente Gerd Zechmeister (Österr. Nationalbibliothek) 11.10.2011 DemoDay BSB
  • 2.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. 11.10.2011 DemoDay BSB 2
  • 3.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Was ist OCR? Optische Zeichenerkennung ist die mechanische oder elektronische Übersetzung von - üblicherweise von einem Scanner erfassten - Abbildern von hand- oder maschingeschriebenem bzw. gedrucktem Text in maschinenlesbaren Text. (Übersetzte Definition aus dem IMPACT Glossar) 11.10.2011 DemoDay BSB 3
  • 4.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Warum OCR? Volltextgewinnung und Einsatz spezieller Lexika zur Wiederauffindung von Dokumenten in Suchsystemen Editierbarkeit (z.B. Redigieren für reprints oder eBook-Formate) Schriftart-Erkennung „Trainieren“ von OCR Software 11.10.2011 DemoDay BSB 4
  • 5.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. OCR Verarbeitungsschritte Bildvorverarbeitung – Kompensieren und Ausgleichen von Image-Defekten (z.B. Geraderücken, Entfernen von Flecken) zur Optimierung des Scans sowie als Vorverarbeitung für die OCR (Binarisierung) integriert im OCR-System oder als Vorverarbeitungsschritt vorgesehen Layout-Analyse und Segmentierung – Erkennen von Layout-Elementen (Druckbereich, Marginalia, Seiten- und Kapitelzahlen etc.) und Blöcken (Text, Illustrationen etc.) Mehrinformation über diese Elemente und Blöcke (z.B. Koordinaten) können je nach Ausgabeformat in den Ergebnissen mitgeliefert werden Mustererkennung – Erkennen einzelner Zeichen und Abgleich derselben mit der Datenbank von Klassifikatoren (= Zeichenmuster) – Ausgabe von Ergebnissen (z.B. TXT, XML, RTF) 11.10.2011 DemoDay BSB 5
  • 6.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT & ABBYY ABBYY ist der OCR-Technologie-Lieferant für IMPACT Die IMPACT Partner arbeiten mit der FineReader Engine (SDK) ABBYY verbessert Features im Rahmen von IMPACT, darunter: – Bildvorverarbeitung – Zeichenerkennung – Segmentierung werden in zukünftige Produkte integriert IMPACT ermöglicht Forschung, liefert kein Produktivsystem 11.10.2011 DemoDay BSB 6
  • 7.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Binarisierung
  • 8.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Adaptive Binarisierung Original-Scan alte Binarisierung neue Binarisierung
  • 9.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT Binarisierung Original Stand der Technik IMPACT 9
  • 10.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Segmentierung Blöcke/Regionen Worte Glyphen/Zeichen
  • 11.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT Segmentierung: Beispiel 1 Pre-IMPACT FR Engine 9 FR Engine 10 Ein Teil wurde fälschlicherweise als Grafikblock interpretiert 11
  • 12.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT Segmentierung: Beispiel 2 Pre-IMPACT FR Engine 9 FR Engine 10 Fehler in der Zuordnung von Elementen wurden behoben 12
  • 13.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT Segmentierung: Beispiel 3 Pre-IMPACT FR Engine 9 FR Engine 10 In v9 nicht berücksichtigte Textregionen sind jetzt inkludiert 13
  • 14.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Fraktur-Erkennung
  • 15.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Sprachen und Wörterbücher Ziel: Schnittstelle zur Integration externer Wörterbücher in die Engine 2008 - 2009: • Betaversion der Schnittstelle • Selbe Prozessqualität möglich wie mit internen Wörterbüchern 2010 - 2011: • Schnittstelle “stabilisieren” (weitere Funktionstests notwendig) • Partner einschulen wie die Schnittstelle zu benutzen ist • Unterstützung für alle verfügbaren Sprachen und Zeiträume 15
  • 16.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Eigennamenerkennung Erkennen von Personen, Orten und Körperschaften in Volltexten Arbeitsschritte 1. Erstellen von Eigennamenverzeichnissen (z. B. Abtippen von Ortsverzeichnissen, Konvertierung von Normdateien in geeignete Formate) 2. Indexieren von Volltexten 3. Suchschnittstelle generieren IMPACT Retrieval Demonstrator 11.10.2011 DemoDay BSB 16
  • 17.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. ALTO: neues natives Exportformat Verfügbar seit FineReader Engine 10 R2 Unterstützt aktuelles Schema: ALTO v. 2.0 Koordinaten auf Linienebene verfügbar
  • 18.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ergebnisvergleich Prozess 1 1. Geometrische Korrektur 2. Rahmenentfernung 3. ABBYY FineReader 10 Binarisation Service 4. ABBYY FineReader 10 OCR Service Prozess 2 1. ABBYY FineReader 10 OCR Service 11.10.2011 DemoDay BSB 18
  • 19.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Prozess 1 (Bildvorverarbeitung + FR 9) Prozess 2 (FR 9) 11.10.2011 DemoDay BSB 19
  • 20.
    IMPACT is supportedby the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Vielen Dank … Fragen? 11.10.2011 DemoDay BSB 20