SlideShare ist ein Scribd-Unternehmen logo
1 von 20
Downloaden Sie, um offline zu lesen
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




OCR-Software für historische Dokumente
Gerd Zechmeister (Österr. Nationalbibliothek)


11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




11.10.2011 DemoDay BSB                                                                                                                                   2
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




    Was ist OCR?
Optische Zeichenerkennung ist die mechanische oder elektronische
Übersetzung von - üblicherweise von einem Scanner erfassten - Abbildern
von hand- oder maschingeschriebenem bzw. gedrucktem Text in
maschinenlesbaren Text. (Übersetzte Definition aus dem IMPACT Glossar)




    11.10.2011 DemoDay BSB                                                                                                                                   3
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Warum OCR?
        Volltextgewinnung und Einsatz spezieller Lexika zur Wiederauffindung von
        Dokumenten in Suchsystemen



        Editierbarkeit (z.B. Redigieren für reprints oder eBook-Formate)
        Schriftart-Erkennung




        „Trainieren“ von OCR Software
11.10.2011 DemoDay BSB                                                                                                                                   4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




OCR Verarbeitungsschritte
        Bildvorverarbeitung
          – Kompensieren und Ausgleichen von Image-Defekten (z.B. Geraderücken,
            Entfernen von Flecken) zur Optimierung des Scans sowie als Vorverarbeitung
            für die OCR (Binarisierung)
            integriert im OCR-System oder als Vorverarbeitungsschritt vorgesehen
        Layout-Analyse und Segmentierung
          – Erkennen von Layout-Elementen (Druckbereich, Marginalia, Seiten- und
            Kapitelzahlen etc.) und Blöcken (Text, Illustrationen etc.)
            Mehrinformation über diese Elemente und Blöcke (z.B. Koordinaten) können je
            nach Ausgabeformat in den Ergebnissen mitgeliefert werden
        Mustererkennung
          – Erkennen einzelner Zeichen und Abgleich derselben mit der Datenbank von
            Klassifikatoren (= Zeichenmuster)
          – Ausgabe von Ergebnissen (z.B. TXT, XML, RTF)

11.10.2011 DemoDay BSB                                                                                                                                   5
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT & ABBYY
        ABBYY ist der OCR-Technologie-Lieferant für IMPACT
        Die IMPACT Partner arbeiten mit der FineReader Engine (SDK)
        ABBYY verbessert Features im Rahmen von IMPACT, darunter:
          – Bildvorverarbeitung
          – Zeichenerkennung
          – Segmentierung
            werden in zukünftige Produkte integriert
        IMPACT ermöglicht Forschung, liefert kein Produktivsystem




11.10.2011 DemoDay BSB                                                                                                                                   6
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Binarisierung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Adaptive Binarisierung

                                                                                                                   Original-Scan




             alte
        Binarisierung


                                     neue
                                 Binarisierung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT Binarisierung

            Original                                             Stand der Technik                                                                 IMPACT




                                                                                                                                                            9
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Segmentierung




           Blöcke/Regionen                                                               Worte                                        Glyphen/Zeichen
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT Segmentierung: Beispiel 1
       Pre-IMPACT FR Engine 9                                                                                     FR Engine 10




              Ein Teil wurde fälschlicherweise als Grafikblock interpretiert

                                                                                                                                                          11
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT Segmentierung: Beispiel 2
                  Pre-IMPACT FR Engine 9                                                                                      FR Engine 10




                  Fehler in der Zuordnung von Elementen wurden behoben
                                                                                                                                                          12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT Segmentierung: Beispiel 3
 Pre-IMPACT FR Engine 9                                                                                                 FR Engine 10




                 In v9 nicht berücksichtigte Textregionen sind jetzt inkludiert
                                                                                                                                                          13
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Fraktur-Erkennung
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Sprachen und Wörterbücher
 Ziel: Schnittstelle zur Integration externer Wörterbücher in die
 Engine
 2008 - 2009:
  • Betaversion der Schnittstelle
  • Selbe Prozessqualität möglich wie mit internen Wörterbüchern

 2010 - 2011:
  • Schnittstelle “stabilisieren” (weitere
    Funktionstests notwendig)
  • Partner einschulen wie die Schnittstelle
    zu benutzen ist
  • Unterstützung für alle verfügbaren
    Sprachen und Zeiträume


                                                                                                                                                          15
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Eigennamenerkennung
         Erkennen von Personen, Orten und Körperschaften in Volltexten
         Arbeitsschritte
          1. Erstellen von Eigennamenverzeichnissen (z. B. Abtippen von Ortsverzeichnissen,
             Konvertierung von Normdateien in geeignete Formate)
          2. Indexieren von Volltexten
          3. Suchschnittstelle generieren
         IMPACT Retrieval Demonstrator




11.10.2011 DemoDay BSB                                                                                                                                   16
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




ALTO: neues natives Exportformat




 Verfügbar seit FineReader Engine 10 R2
 Unterstützt aktuelles Schema: ALTO v. 2.0
 Koordinaten auf Linienebene verfügbar
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Ergebnisvergleich
         Prozess 1
          1.       Geometrische Korrektur
          2.       Rahmenentfernung
          3.       ABBYY FineReader 10 Binarisation Service
          4.       ABBYY FineReader 10 OCR Service
         Prozess 2
          1. ABBYY FineReader 10 OCR Service




11.10.2011 DemoDay BSB                                                                                                                                   18
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




        Prozess 1 (Bildvorverarbeitung + FR 9)




        Prozess 2 (FR 9)




11.10.2011 DemoDay BSB                                                                                                                                   19
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




                                   Vielen Dank … Fragen?




11.10.2011 DemoDay BSB                                                                                                                                   20

Weitere ähnliche Inhalte

Andere mochten auch

Lessons from Indic OCR Development
Lessons from Indic OCR DevelopmentLessons from Indic OCR Development
Lessons from Indic OCR DevelopmentNishad Thalhath
 
LVTS - Image Resolution Monitor for Litho-Metrology
LVTS - Image Resolution Monitor for Litho-MetrologyLVTS - Image Resolution Monitor for Litho-Metrology
LVTS - Image Resolution Monitor for Litho-MetrologyVladislav Kaplan
 
LVTS - Macro-inspection using Flatbed scanner concept
LVTS - Macro-inspection using Flatbed scanner conceptLVTS - Macro-inspection using Flatbed scanner concept
LVTS - Macro-inspection using Flatbed scanner conceptVladislav Kaplan
 
As Ict (Ocr) G061 3.1.6 Application Software used for the Presentation & Comm...
As Ict (Ocr) G061 3.1.6 Application Software used for the Presentation & Comm...As Ict (Ocr) G061 3.1.6 Application Software used for the Presentation & Comm...
As Ict (Ocr) G061 3.1.6 Application Software used for the Presentation & Comm...Christos Demetriou
 
Signal &telicommunication doc/sanjeet-1308143
Signal &telicommunication doc/sanjeet-1308143Signal &telicommunication doc/sanjeet-1308143
Signal &telicommunication doc/sanjeet-1308143sanjeet kumar
 
Optical Character Recognition (OCR)
Optical Character Recognition (OCR)Optical Character Recognition (OCR)
Optical Character Recognition (OCR)Vidyut Singhania
 
optical character recognition system
optical character recognition systemoptical character recognition system
optical character recognition systemVijay Apurva
 
Project report of OCR Recognition
Project report of OCR RecognitionProject report of OCR Recognition
Project report of OCR RecognitionBharat Kalia
 
Optical Character Recognition( OCR )
Optical Character Recognition( OCR )Optical Character Recognition( OCR )
Optical Character Recognition( OCR )Karan Panjwani
 
Revision Guide A2 Media OCR
Revision Guide A2 Media OCRRevision Guide A2 Media OCR
Revision Guide A2 Media OCRreigatemedia
 

Andere mochten auch (17)

Lessons from Indic OCR Development
Lessons from Indic OCR DevelopmentLessons from Indic OCR Development
Lessons from Indic OCR Development
 
LVTS - Image Resolution Monitor for Litho-Metrology
LVTS - Image Resolution Monitor for Litho-MetrologyLVTS - Image Resolution Monitor for Litho-Metrology
LVTS - Image Resolution Monitor for Litho-Metrology
 
LVTS - Macro-inspection using Flatbed scanner concept
LVTS - Macro-inspection using Flatbed scanner conceptLVTS - Macro-inspection using Flatbed scanner concept
LVTS - Macro-inspection using Flatbed scanner concept
 
IMPACT Final Conference - NCSR - Wordspotting
IMPACT Final Conference - NCSR - WordspottingIMPACT Final Conference - NCSR - Wordspotting
IMPACT Final Conference - NCSR - Wordspotting
 
ICoC - Management report 2014-2015
ICoC - Management report 2014-2015ICoC - Management report 2014-2015
ICoC - Management report 2014-2015
 
As Ict (Ocr) G061 3.1.6 Application Software used for the Presentation & Comm...
As Ict (Ocr) G061 3.1.6 Application Software used for the Presentation & Comm...As Ict (Ocr) G061 3.1.6 Application Software used for the Presentation & Comm...
As Ict (Ocr) G061 3.1.6 Application Software used for the Presentation & Comm...
 
05a
05a05a
05a
 
ocr with N N
ocr with N Nocr with N N
ocr with N N
 
Signal &telicommunication doc/sanjeet-1308143
Signal &telicommunication doc/sanjeet-1308143Signal &telicommunication doc/sanjeet-1308143
Signal &telicommunication doc/sanjeet-1308143
 
OCR
OCROCR
OCR
 
Optical Character Recognition (OCR)
Optical Character Recognition (OCR)Optical Character Recognition (OCR)
Optical Character Recognition (OCR)
 
Basics of-optical-character-recognition
Basics of-optical-character-recognitionBasics of-optical-character-recognition
Basics of-optical-character-recognition
 
optical character recognition system
optical character recognition systemoptical character recognition system
optical character recognition system
 
Project report of OCR Recognition
Project report of OCR RecognitionProject report of OCR Recognition
Project report of OCR Recognition
 
Optical Character Recognition( OCR )
Optical Character Recognition( OCR )Optical Character Recognition( OCR )
Optical Character Recognition( OCR )
 
Text Detection and Recognition
Text Detection and RecognitionText Detection and Recognition
Text Detection and Recognition
 
Revision Guide A2 Media OCR
Revision Guide A2 Media OCRRevision Guide A2 Media OCR
Revision Guide A2 Media OCR
 

Ähnlich wie BSB Demo Day - Zechmeister - OCR-Software

BSB Demo Day - Pletschacher - Evaluationswerkzeuge
BSB Demo Day - Pletschacher - EvaluationswerkzeugeBSB Demo Day - Pletschacher - Evaluationswerkzeuge
BSB Demo Day - Pletschacher - EvaluationswerkzeugeIMPACT Centre of Competence
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 
BSB Demo Day - Balk-Pennington de Jongh - Projektvorstellung
BSB Demo Day - Balk-Pennington de Jongh - ProjektvorstellungBSB Demo Day - Balk-Pennington de Jongh - Projektvorstellung
BSB Demo Day - Balk-Pennington de Jongh - ProjektvorstellungIMPACT Centre of Competence
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newspapers
 
Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers
 
Bessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity RecognitionBessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity Recognitioncneudecker
 
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...EuropeanaConnect
 
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und ChancenDigitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancencneudecker
 
Europeana Newspapers German infoday - Verarbeitung Digitale Zeitungen
Europeana Newspapers German infoday - Verarbeitung Digitale ZeitungenEuropeana Newspapers German infoday - Verarbeitung Digitale Zeitungen
Europeana Newspapers German infoday - Verarbeitung Digitale ZeitungenEuropeana Newspapers
 
2011 - Vorstellung des projektes Grenznetz
2011 - Vorstellung des projektes Grenznetz2011 - Vorstellung des projektes Grenznetz
2011 - Vorstellung des projektes GrenznetztrESS Network
 

Ähnlich wie BSB Demo Day - Zechmeister - OCR-Software (17)

BSB Demo Day - Fischer - Strategische Werkzeuge
BSB Demo Day - Fischer - Strategische WerkzeugeBSB Demo Day - Fischer - Strategische Werkzeuge
BSB Demo Day - Fischer - Strategische Werkzeuge
 
BSB Demo Day - Bochow - Einführung
BSB Demo Day - Bochow - EinführungBSB Demo Day - Bochow - Einführung
BSB Demo Day - Bochow - Einführung
 
BSB Demo Day - Pletschacher - Evaluationswerkzeuge
BSB Demo Day - Pletschacher - EvaluationswerkzeugeBSB Demo Day - Pletschacher - Evaluationswerkzeuge
BSB Demo Day - Pletschacher - Evaluationswerkzeuge
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
Fuchs Ocr Impact Workshop MUC
Fuchs Ocr Impact Workshop MUCFuchs Ocr Impact Workshop MUC
Fuchs Ocr Impact Workshop MUC
 
BSB Demo Day - Balk-Pennington de Jongh - Projektvorstellung
BSB Demo Day - Balk-Pennington de Jongh - ProjektvorstellungBSB Demo Day - Balk-Pennington de Jongh - Projektvorstellung
BSB Demo Day - Balk-Pennington de Jongh - Projektvorstellung
 
Meyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUCMeyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUC
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday Neudecker
 
Enp lft infoday_neudecker
Enp lft infoday_neudeckerEnp lft infoday_neudecker
Enp lft infoday_neudecker
 
Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday
 
Bessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity RecognitionBessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity Recognition
 
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
 
ENP_ONB_infoday_Neudecker
ENP_ONB_infoday_NeudeckerENP_ONB_infoday_Neudecker
ENP_ONB_infoday_Neudecker
 
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und ChancenDigitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
 
Europeana Newspapers German infoday - Verarbeitung Digitale Zeitungen
Europeana Newspapers German infoday - Verarbeitung Digitale ZeitungenEuropeana Newspapers German infoday - Verarbeitung Digitale Zeitungen
Europeana Newspapers German infoday - Verarbeitung Digitale Zeitungen
 
2011 - Vorstellung des projektes Grenznetz
2011 - Vorstellung des projektes Grenznetz2011 - Vorstellung des projektes Grenznetz
2011 - Vorstellung des projektes Grenznetz
 

Mehr von IMPACT Centre of Competence

Mehr von IMPACT Centre of Competence (20)

Session6 01.helmut schmid
Session6 01.helmut schmidSession6 01.helmut schmid
Session6 01.helmut schmid
 
Session1 03.hsian-an wang
Session1 03.hsian-an wangSession1 03.hsian-an wang
Session1 03.hsian-an wang
 
Session7 03.katrien depuydt
Session7 03.katrien depuydtSession7 03.katrien depuydt
Session7 03.katrien depuydt
 
Session7 02.peter kiraly
Session7 02.peter kiralySession7 02.peter kiraly
Session7 02.peter kiraly
 
Session6 04.giuseppe celano
Session6 04.giuseppe celanoSession6 04.giuseppe celano
Session6 04.giuseppe celano
 
Session6 03.sandra young
Session6 03.sandra youngSession6 03.sandra young
Session6 03.sandra young
 
Session6 02.jeremi ochab
Session6 02.jeremi ochabSession6 02.jeremi ochab
Session6 02.jeremi ochab
 
Session5 04.evangelos varthis
Session5 04.evangelos varthisSession5 04.evangelos varthis
Session5 04.evangelos varthis
 
Session5 03.george rehm
Session5 03.george rehmSession5 03.george rehm
Session5 03.george rehm
 
Session5 02.tom derrick
Session5 02.tom derrickSession5 02.tom derrick
Session5 02.tom derrick
 
Session5 01.rutger vankoert
Session5 01.rutger vankoertSession5 01.rutger vankoert
Session5 01.rutger vankoert
 
Session4 04.senka drobac
Session4 04.senka drobacSession4 04.senka drobac
Session4 04.senka drobac
 
Session3 04.arnau baro
Session3 04.arnau baroSession3 04.arnau baro
Session3 04.arnau baro
 
Session3 03.christian clausner
Session3 03.christian clausnerSession3 03.christian clausner
Session3 03.christian clausner
 
Session3 02.kimmo ketunnen
Session3 02.kimmo ketunnenSession3 02.kimmo ketunnen
Session3 02.kimmo ketunnen
 
Session3 01.clemens neudecker
Session3 01.clemens neudeckerSession3 01.clemens neudecker
Session3 01.clemens neudecker
 
Session2 04.ashkan ashkpour
Session2 04.ashkan ashkpourSession2 04.ashkan ashkpour
Session2 04.ashkan ashkpour
 
Session2 03.juri opitz
Session2 03.juri opitzSession2 03.juri opitz
Session2 03.juri opitz
 
Session2 02.christian reul
Session2 02.christian reulSession2 02.christian reul
Session2 02.christian reul
 
Session2 01.emad mohamed
Session2 01.emad mohamedSession2 01.emad mohamed
Session2 01.emad mohamed
 

BSB Demo Day - Zechmeister - OCR-Software

  • 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. OCR-Software für historische Dokumente Gerd Zechmeister (Österr. Nationalbibliothek) 11.10.2011 DemoDay BSB
  • 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. 11.10.2011 DemoDay BSB 2
  • 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Was ist OCR? Optische Zeichenerkennung ist die mechanische oder elektronische Übersetzung von - üblicherweise von einem Scanner erfassten - Abbildern von hand- oder maschingeschriebenem bzw. gedrucktem Text in maschinenlesbaren Text. (Übersetzte Definition aus dem IMPACT Glossar) 11.10.2011 DemoDay BSB 3
  • 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Warum OCR? Volltextgewinnung und Einsatz spezieller Lexika zur Wiederauffindung von Dokumenten in Suchsystemen Editierbarkeit (z.B. Redigieren für reprints oder eBook-Formate) Schriftart-Erkennung „Trainieren“ von OCR Software 11.10.2011 DemoDay BSB 4
  • 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. OCR Verarbeitungsschritte Bildvorverarbeitung – Kompensieren und Ausgleichen von Image-Defekten (z.B. Geraderücken, Entfernen von Flecken) zur Optimierung des Scans sowie als Vorverarbeitung für die OCR (Binarisierung) integriert im OCR-System oder als Vorverarbeitungsschritt vorgesehen Layout-Analyse und Segmentierung – Erkennen von Layout-Elementen (Druckbereich, Marginalia, Seiten- und Kapitelzahlen etc.) und Blöcken (Text, Illustrationen etc.) Mehrinformation über diese Elemente und Blöcke (z.B. Koordinaten) können je nach Ausgabeformat in den Ergebnissen mitgeliefert werden Mustererkennung – Erkennen einzelner Zeichen und Abgleich derselben mit der Datenbank von Klassifikatoren (= Zeichenmuster) – Ausgabe von Ergebnissen (z.B. TXT, XML, RTF) 11.10.2011 DemoDay BSB 5
  • 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT & ABBYY ABBYY ist der OCR-Technologie-Lieferant für IMPACT Die IMPACT Partner arbeiten mit der FineReader Engine (SDK) ABBYY verbessert Features im Rahmen von IMPACT, darunter: – Bildvorverarbeitung – Zeichenerkennung – Segmentierung werden in zukünftige Produkte integriert IMPACT ermöglicht Forschung, liefert kein Produktivsystem 11.10.2011 DemoDay BSB 6
  • 7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Binarisierung
  • 8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Adaptive Binarisierung Original-Scan alte Binarisierung neue Binarisierung
  • 9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT Binarisierung Original Stand der Technik IMPACT 9
  • 10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Segmentierung Blöcke/Regionen Worte Glyphen/Zeichen
  • 11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT Segmentierung: Beispiel 1 Pre-IMPACT FR Engine 9 FR Engine 10 Ein Teil wurde fälschlicherweise als Grafikblock interpretiert 11
  • 12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT Segmentierung: Beispiel 2 Pre-IMPACT FR Engine 9 FR Engine 10 Fehler in der Zuordnung von Elementen wurden behoben 12
  • 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT Segmentierung: Beispiel 3 Pre-IMPACT FR Engine 9 FR Engine 10 In v9 nicht berücksichtigte Textregionen sind jetzt inkludiert 13
  • 14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Fraktur-Erkennung
  • 15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Sprachen und Wörterbücher Ziel: Schnittstelle zur Integration externer Wörterbücher in die Engine 2008 - 2009: • Betaversion der Schnittstelle • Selbe Prozessqualität möglich wie mit internen Wörterbüchern 2010 - 2011: • Schnittstelle “stabilisieren” (weitere Funktionstests notwendig) • Partner einschulen wie die Schnittstelle zu benutzen ist • Unterstützung für alle verfügbaren Sprachen und Zeiträume 15
  • 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Eigennamenerkennung Erkennen von Personen, Orten und Körperschaften in Volltexten Arbeitsschritte 1. Erstellen von Eigennamenverzeichnissen (z. B. Abtippen von Ortsverzeichnissen, Konvertierung von Normdateien in geeignete Formate) 2. Indexieren von Volltexten 3. Suchschnittstelle generieren IMPACT Retrieval Demonstrator 11.10.2011 DemoDay BSB 16
  • 17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. ALTO: neues natives Exportformat Verfügbar seit FineReader Engine 10 R2 Unterstützt aktuelles Schema: ALTO v. 2.0 Koordinaten auf Linienebene verfügbar
  • 18. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ergebnisvergleich Prozess 1 1. Geometrische Korrektur 2. Rahmenentfernung 3. ABBYY FineReader 10 Binarisation Service 4. ABBYY FineReader 10 OCR Service Prozess 2 1. ABBYY FineReader 10 OCR Service 11.10.2011 DemoDay BSB 18
  • 19. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Prozess 1 (Bildvorverarbeitung + FR 9) Prozess 2 (FR 9) 11.10.2011 DemoDay BSB 19
  • 20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Vielen Dank … Fragen? 11.10.2011 DemoDay BSB 20