SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Optische Zeichen Erkennung (OCR)
Einführung & Überblick

Michael Fuchs
Senior Product Marketing Manager
ABBYY Europe

fuchs@abbyy.com
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Agenda
          ABBYY Technology im IMPACT Project
          Wer ist ABBYY?
           Firmenüberblick
           Produktüberblick
           Wie findet OCR Verarbeitung in der Praxis statt?

          Optical Character Recognition - Grundlagen
           Was ist OCR?
           Wie wird OCR heute genutzt?
           Wie funktioniert OCR?
           OCR = Only Character Recognition?
           IMPACT – die Optimierungsansätze

          Fragen

IMPACT + ABBYY - OCR Einführung & Überblick                                                                                                              2
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




                                 IMPACT & ABBYY




IMPACT + ABBYY - OCR Einführung & Überblick                                                                                                              3
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Improving Access to Text
      Mission of IMPACT: It aims to significantly improve access to historical text and
       to take away the barriers that stand in the way of the mass digitisation of the
       European cultural heritage.

      Partners:
        Koninklijke Bibliotheek, The British Library, Österreichische Nationalbibliothek, Universität Innsbruck,

        Deutsche Nationalbibliothek, Bayerische Staatsbibliothek, Staats- und Universitätsbibliothek Göttingen

        ABBYY, IBM Israel – Science and Technology Ltd, Instituut voor Nederlandse Lexicologie

        National Centre for Scientific Research "Demokritos“,

        Centrum für Informations- und Sprachverarbeitung, University of Munich

        University of Bath, University of Salford, Bibliothèque Nationale de France

      Web: www.impact-project.eu



IMPACT + ABBYY - OCR Einführung & Überblick                                                                                                              4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT & ABBYY
     ABBYY ist der OCR Technologie Lieferant für IMPACT Mitglieder

     OCR Technology für IMPACT wird Mitgliedern als SDK gestellt, da
              Nur Entwicklerwerkzeuge es erlauben, neue/andere Module zu verbinden,
               z.B. komplexe externe Wörterbücher ( IMPACT: LMU)
              Wissenschaftliche Forschung & Tests in eigenen Modulen durchgeführt werden




IMPACT + ABBYY - OCR Einführung & Überblick                                                                                                              5
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




IMPACT & ABBYY
     ABBYY verbessert u.a. die OCR Kerntechnologien zur Erkennung
      alter Dokumente
              Bild-Vorverarbeitung
              Zeichenerkennung

     Aktuell liegt der IMPACT Schwerpunkt auf Forschung und nicht im
      Aufbau eines Produktivsystems ;o)

     Verbesserungen der ABBYY Technologien aus dem IMPACT Projekt
      werden in künftige Produkte integriert werden.
              Wichtig: ABBYY FineReader 8/9/10 Professional (Box) bieten keine Fraktur OCR
              Fraktur OCR gibt es nur in Recognition Server und FineReader Engine



IMPACT + ABBYY - OCR Einführung & Überblick                                                                                                              6
ABBYY im Überblick




IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY weltweit




                                                       ABBYY Headquarters/ ABBYY Russia
                              ABBYY Europe UK
               Fremont                                 Moscow
               ABBYY USA        ABBYY Europe GmbH   ABBYY Ukraine              ABBYY Japan
                                Munich, Germany     Kiev
                                                                           ABBYY Taiwan




IMPACT + ABBYY - OCR Einführung & Überblick
Wer ist ABBYY?
Führender Hersteller von Technologie und Software für

        Dokumenterkennung
       OCR (Texterkennung)
       ICR (Handschrifterkennung)
       OBR (Barcodeerkennung)
       OMR (Erkennung von Auswahlfeldern)

        Data Capture
       Formularverarbeitung (Fragebögen, Wahlscheine, etc.)
       Semi-strukturierte Dokumente (Rechnungen, Lieferscheine Bestellungen, etc.)
       Unstrukturierte Dokumente (Verträge, Briefe, etc.)

        Linguistik / Wörterbücher



IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY in West Europa
 ABBYY Europe GmbH
     Büro in München

     Gegründet 2001 – heute mehr als 50 Beschäftigte

     Betreut Partner und Kunden in westeuropäischen Ländern

     Vertrieb & Marketing
           Vertrieb
              ●   Distribution, Entwicklung von Vertriebskanälen, Partner Management

           Marketing
              ●   Produkt Marketing, Channel Marketing, Outbound Marketing


     ABBYY weltweit mehr als 800 Beschäftigte




IMPACT + ABBYY - OCR Einführung & Überblick
Produkte im Überblick




IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY Produkte
Mainline Distribution
                             “Box” Produkte:
                                 ABBYY FineReader
                                  OCR Anwendungen für Endanwender

                                 ABBYY FotoReader
                                  Texterkennung aus Dokumenten, die mit einer Digitalkamera
                                  aufgenommen wurden

                                 ABBYY PDF Transformer
                                  PDF Konvertierung und Erzeugung für Endanwender

                                 ABBYY Lingvo
                                  Elektronische Wörterbücher, Russisch und europäische Sprachen




IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY Produkte
Direktvertrieb und VAR Distribution
                             Technische Produktlinien:
                                 ABBYY Recognition Server
                                  Serverbasierte OCR

                                 ABBYY FormReader und ABBYY FlexiCapture
                                  Formularverarbeitung, Datenextrahierung aus semi- und
                                  unstrukturierten Dokumenten

                                 ABBYY FineReader Engine SDK
                                  Software Development Kit um OCR Technologien in andere Systeme
                                  und Anwendungen integrieren zu können

                                 ABBYY Mobile OCR Engine
                                  OCR für mobile Geräte, PDAs und Web Anwendungen




IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY OCR Produkte – Anwendungssicht

                 Desktop/Workgroup                     Server/Backend                    SDK/Integration

                 Anwender gesteuerte                      Automatisierte                  Automatisierte
                     Verarbeitung,                         Verarbeitung,                   Verarbeitung,
OCR & Dokument




                  Fertige Anwendung                       Fertige Lösung                 Entwicklung nötig
 Konvertierung




                 FineReader                          Recognition Server                 FineReader Engines
                 (Professional, Corporate,           (Professional, Extended Edition)   (Windows, Linux, Mac OS X,
                  Site Licence Edition)                                                  Free BSD, Embedded Systems)

                 PDF Transformer
                                                                                        Mobile OCR Engine
                 FotoReader                                                             (Android, Symbian, Linux,
                                                                                         Windows, Windows Mobile,
                 ScreenshotReader                                                        iPhone )
Anwender




                     Endanwender,                          Firmen,                            Entwickler,
  sind:




                        Firmen                         Scandienstleister,                  Scandienstleister
                                                         Bibliotheken
                                                                                          IMPACT Research
       IMPACT + ABBYY - OCR Einführung & Überblick
OCR Grundlagen




IMPACT + ABBYY - OCR Einführung & Überblick
Nicht OCR-fähig per Design




IMPACT + ABBYY - OCR Einführung & Überblick   16
Was (ABBYY) OCR lesen kann...

        Unterstützte Erkennungssprachen
       191 Sprachen insgesamt
       Alphabete: Latein, Griechisch, Kyrillisch, Armenisch,
        Hebräisch, Thai
       34 Sprachen mit Wörterbuch und Rechtschreibkorrektur
       Chinesisch, Japanisch, Koreanisch (CJK) – 4 hieroglyphische Systeme
       5 Sprachen in FineReader XIX
        (Gotisch und andere Schriften des 17.-20. Jahrhunderts)
       6 Programmiersprachen (Basic, C/C++, COBOL, Java, etc.)
       4 künstliche Sprachen (Esperanto, Interlingua, etc.)
       Einfache chemische Formeln
        Schriftarten
       Erkennung unterschiedlicher Schriftarten
        (Nadeldrucker, Schreibmaschinen, Fraktur, etc.)
       OCR-A
       OCR-B
       MICR (E13B)
       CMC-7

IMPACT + ABBYY - OCR Einführung & Überblick                                   17
OCR Verarbeitungsschritte

        Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung
       Korrektur von Bildfehlern, Verbesserung des optischen Eindrucks und
        Vorbereitung für die eigentliche automatische OCR

        Schritt 2. Dokument Analyse
       Erkennen der verschiedenen Bereiche eines Dokuments, Layoutanalyse,
        finden von Spalten, Tabellen, Bildern und Barcodes

        Schritt 3. Zeichenerkennung
       Automatische Erkennung der einzelnen Zeichen, Anwenden der Sprachdefinitionen,
        Wörterbücher und anderer Optionen

        Schritt 4. Prüfung & Korrektur durch Anwender (optional)
       Manuelle Validierung/Korrektur unsicher erkannter Zeichen und Wörter

        Schritt 5. Dokument Synthese und Export
       Erzeugung der entsprechenden Ausgabeformate mit den gewählten Optionen




IMPACT + ABBYY - OCR Einführung & Überblick                                              18
OCR Verarbeitungsschritte

       Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

    Existierende Bildformate laden oder diese vom Scanner übernehmen

       Trennung von Doppelseiten
       Skalierung & Anpassung der Auflösung, z.B. bei Bildern mit sehr geringer
        Auflösung
       Rotation (um 90, 180, oder 270 Grad)
       Bildtonumkehr
       Bildbeschneidung (Cropping)
       Erzeugung von Seitenvorschaubildern
       Änderung der Text und Hintergrundfarben




IMPACT + ABBYY - OCR Einführung & Überblick                                        19
OCR Verarbeitungsschritte

       Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

    Kompensierung von Scanfehlern

       Automatisches Geraderücken der
        Dokumentseiten
       Begradigung von Textzeilen
       Kontrollierte Entfernung von
        Staub und Rauschen
        Achtung: Punkte bei: i, ä, ö, ü




IMPACT + ABBYY - OCR Einführung & Überblick                               20
OCR Verarbeitungsschritte

       Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

       Intelligente Hintergrundfilterung




       Adaptive Binarisierung




    Eine einfache Binarisierung auf Basis des gesamten
    Bildes kann keine guten OCR Ergebnisse liefern.
    Problem: Mikrofilm Erstellung = Binarisierung
IMPACT + ABBYY - OCR Einführung & Überblick                               21
OCR Verarbeitungsschritte

       Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

       Erste IMPACT Verbesserungen

         Original                         State of the Art             Neu




                                                                Kein Text der Rückseite


IMPACT + ABBYY - OCR Einführung & Überblick                                                22
OCR Verarbeitungsschritte

       Schritt 3. Zeichenerkennung
       Nachdem die Zeilen gefunden wurden, werden verschiedene Classifier zur
       Zeichenerkennung genutzt und die Ergebnisse bewertet

         Raster Classifier                                   Kontur Classifier




         Struktur Classifier                  Classifier zur Unterscheidung von Merkmalen




IMPACT + ABBYY - OCR Einführung & Überblick                                           24
OCR Optimierung

       Schritt 3. Zeichenerkennung – Trainieren neuer Symbole
       Sogenanntes Pattern Training erlaubt es OCR Anwendungen,
       spezielle Zeichen auf Pixelebene zu lernen




IMPACT + ABBYY - OCR Einführung & Überblick                       25
OCR Optimierung

       Schritt 3. Zeichenerkennung – zurück auf die Wort-/Sprach-Ebene
    Anwenden der gewählten Sprach- und Wörterbuch-Einstellungen

       Eigene Sprachen und Wörterbücher können hinzugefügt werden  IMPACT




IMPACT + ABBYY - OCR Einführung & Überblick                                   26
OCR Verarbeitungsschritte

        Schritt 4. Prüfung & Korrektur durch Anwender (optional)

Manueller Eingriff möglich:
       Ergebnisse der Layout Analyse
        ● Textblöcke
        ● Bildblöcke
        ● Tabellenblöcke

       Korrektur unsicher erkannter
        Zeichen und Wörter, mit
        Wörterbuch-Unterstützung

       Erneute OCR Erkennung mit
        anderen Spracheinstellungen

       Recognition Server / FineReader Engine
        erlauben den Export der Ergebnisse auch als XML Datei  Impact



IMPACT + ABBYY - OCR Einführung & Überblick                              27
OCR Verarbeitungsschritte

        Schritt 5. Dokument Synthese und Export

    Erzeugung der Ausgabeformate mit verschiedenen Optionen

       TXT, Office Formate, PDF, etc.

       Beginnend mit Version 9.0 nutzt ABBYY
        ADRT = Adaptive Document
        Recognition Technology. Diese hat das Ziel,
        ein Dokument als Einheit zu verstehen.
        V9: Erkennung von Kopf- und Fußzeilen
        V10: Rekonstruktion von Inhaltsverzeichnissen

       SDKs und Recognition Server erlauben
        weitere Exportformate, z.B.:
        ● XML
        ● Internes FineReader Engine Format




IMPACT + ABBYY - OCR Einführung & Überblick                   28
OCR Allgemein
                                &
                      Im Speziellen: IMPACT




IMPACT + ABBYY - OCR Einführung & Überblick
OCR – Only Character Recognition?

        Nachbau des Originallayouts im neu erzeugten Dokument
       Das erzeugte Dokument basiert auf dem Originallayout des gescannten Dokuments
       Informationen aus der Layoutanalyse werden hier wiederverwendet
       Wichtig auch für PDF mit Text unter dem Originalbild

        Unterstützung verbreiteter Formate
       ABBYY Produkte unterstützen die gängigsten Dokumentenformate, z.B.:
        PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel, PowerPoint und DBF

        Unterstützung von Bildexportformten
       BMP, PCX, JPEG, JPEG 2000, TIFF, PNG

        Einhaltung von Standards
       Unterstützung von kennwortgeschützen PDFs, Verschlüsselung von PDFs
       Support von PDF/A zur Langzeitarchivierung, etc.



IMPACT + ABBYY - OCR Einführung & Überblick                                             30
IMPACT = „Schrittweise“ Optimierung
        Schritt 1. Bildqualität
       Problembereiche: Scans von Mikrofilm, Wölbungen, durchscheinende Zeichen
       Optimierung sansatz : Bildvorverarbeitung, z.B: Binarisierung

        Schritt 2. Dokument Analyse
       Problembereiche: Layout alter Druckwerke, z.B. enger Spaltensatz bei alten Zeitungen,
       Optimierung sansatz : Verbesserte Layoutanalyse

        Schritt 3. Zeichenerkennung & Sprache
       Problembereiche: Verwendete Schriftarten, alte Sprache (Grammatik und Rechtschreibung)
       Optimierung sansatz : Verbesserte Erkennungsmuster, Erstellung spezieller Wörterbücher

        Schritt 4. Prüfung & Korrektur
       Problembereiche: Oft Serienfehler bei Frakturerkennung , Skalierung
       Optimierung sansatz : Neue Ansätze zur Massenkorrektur

        Schritt 5. Dokument Synthese, Export & Bewertung
       Problembereiche: Inhalts-Klassifizierung , Metadaten Generierung, Sichere Formate
       Optimierung sansatz : XML Analyse, XML, AltoXML, PDF/A, …

IMPACT + ABBYY - OCR Einführung & Überblick                                                     31
Danke für Ihre Aufmerksamkeit

                                              Fragen?




IMPACT + ABBYY - OCR Einführung & Überblick

Weitere ähnliche Inhalte

Andere mochten auch

Communardo SharePoint Solution Day - Qualifikationskonzept SharePoint 2010
Communardo SharePoint Solution Day - Qualifikationskonzept SharePoint 2010Communardo SharePoint Solution Day - Qualifikationskonzept SharePoint 2010
Communardo SharePoint Solution Day - Qualifikationskonzept SharePoint 2010
Communardo GmbH
 
Nire aurkezpena
Nire aurkezpenaNire aurkezpena
Nire aurkezpena
musikatuz
 
SPSD 2014 - Die moderne Art der Zusammenarbeit mit SharePoint und Yammer
SPSD 2014 - Die moderne Art der Zusammenarbeit mit SharePoint und YammerSPSD 2014 - Die moderne Art der Zusammenarbeit mit SharePoint und Yammer
SPSD 2014 - Die moderne Art der Zusammenarbeit mit SharePoint und Yammer
Communardo GmbH
 
Ringlstetter Historische Lexika Impact Workshop MUC
Ringlstetter Historische Lexika Impact Workshop MUCRinglstetter Historische Lexika Impact Workshop MUC
Ringlstetter Historische Lexika Impact Workshop MUC
IMPACT Centre of Competence
 
GESCHÄFTSPROZESSE MANAGEN MIT IHREN BESTEHENDEN OFFICE-SYSTEMEN
GESCHÄFTSPROZESSE MANAGEN MIT IHREN BESTEHENDEN OFFICE-SYSTEMENGESCHÄFTSPROZESSE MANAGEN MIT IHREN BESTEHENDEN OFFICE-SYSTEMEN
GESCHÄFTSPROZESSE MANAGEN MIT IHREN BESTEHENDEN OFFICE-SYSTEMEN
Telekom MMS
 
ECM und Social Media: zwei Welten, vereint im Unternehmenseinsatz
ECM und Social Media: zwei Welten, vereint im UnternehmenseinsatzECM und Social Media: zwei Welten, vereint im Unternehmenseinsatz
ECM und Social Media: zwei Welten, vereint im Unternehmenseinsatz
Matthias Tausendpfund
 

Andere mochten auch (17)

Whitepaper "Mobile Marketing in der Hotellerie"
Whitepaper "Mobile Marketing in der Hotellerie"Whitepaper "Mobile Marketing in der Hotellerie"
Whitepaper "Mobile Marketing in der Hotellerie"
 
Communardo SharePoint Solution Day - Qualifikationskonzept SharePoint 2010
Communardo SharePoint Solution Day - Qualifikationskonzept SharePoint 2010Communardo SharePoint Solution Day - Qualifikationskonzept SharePoint 2010
Communardo SharePoint Solution Day - Qualifikationskonzept SharePoint 2010
 
Twitter für kleine(re) Hotels
Twitter für kleine(re) HotelsTwitter für kleine(re) Hotels
Twitter für kleine(re) Hotels
 
Ost
OstOst
Ost
 
Nire aurkezpena
Nire aurkezpenaNire aurkezpena
Nire aurkezpena
 
SPSD 2014 - Die moderne Art der Zusammenarbeit mit SharePoint und Yammer
SPSD 2014 - Die moderne Art der Zusammenarbeit mit SharePoint und YammerSPSD 2014 - Die moderne Art der Zusammenarbeit mit SharePoint und Yammer
SPSD 2014 - Die moderne Art der Zusammenarbeit mit SharePoint und Yammer
 
Booklet83 Cases
Booklet83 CasesBooklet83 Cases
Booklet83 Cases
 
Ringlstetter Historische Lexika Impact Workshop MUC
Ringlstetter Historische Lexika Impact Workshop MUCRinglstetter Historische Lexika Impact Workshop MUC
Ringlstetter Historische Lexika Impact Workshop MUC
 
DESEO Marketing
DESEO MarketingDESEO Marketing
DESEO Marketing
 
Wunschmaschinen − Menschen und Museen im Web 2.0
Wunschmaschinen − Menschen und Museen im Web 2.0Wunschmaschinen − Menschen und Museen im Web 2.0
Wunschmaschinen − Menschen und Museen im Web 2.0
 
Klinik der Solidarität - Teil 1
Klinik der Solidarität - Teil 1Klinik der Solidarität - Teil 1
Klinik der Solidarität - Teil 1
 
GESCHÄFTSPROZESSE MANAGEN MIT IHREN BESTEHENDEN OFFICE-SYSTEMEN
GESCHÄFTSPROZESSE MANAGEN MIT IHREN BESTEHENDEN OFFICE-SYSTEMENGESCHÄFTSPROZESSE MANAGEN MIT IHREN BESTEHENDEN OFFICE-SYSTEMEN
GESCHÄFTSPROZESSE MANAGEN MIT IHREN BESTEHENDEN OFFICE-SYSTEMEN
 
Bochow Einführung Impact Workshop
Bochow Einführung Impact WorkshopBochow Einführung Impact Workshop
Bochow Einführung Impact Workshop
 
Schlarb Werkzeuge Impact Workshop MUC
Schlarb Werkzeuge Impact Workshop MUCSchlarb Werkzeuge Impact Workshop MUC
Schlarb Werkzeuge Impact Workshop MUC
 
webcific
webcificwebcific
webcific
 
ECM und Social Media: zwei Welten, vereint im Unternehmenseinsatz
ECM und Social Media: zwei Welten, vereint im UnternehmenseinsatzECM und Social Media: zwei Welten, vereint im Unternehmenseinsatz
ECM und Social Media: zwei Welten, vereint im Unternehmenseinsatz
 
Alexandria
Alexandria Alexandria
Alexandria
 

Ähnlich wie Fuchs Ocr Impact Workshop MUC

SeEF 2013 | Sichere und effiziente Anbindung von iPhones und iPads (Melkon To...
SeEF 2013 | Sichere und effiziente Anbindung von iPhones und iPads (Melkon To...SeEF 2013 | Sichere und effiziente Anbindung von iPhones und iPads (Melkon To...
SeEF 2013 | Sichere und effiziente Anbindung von iPhones und iPads (Melkon To...
Swiss eEconomy Forum
 
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
inPuncto GmbH
 
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Produktport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Produktport...Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Produktport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Produktport...
inPuncto GmbH
 
B&IT-Broschüre: Innovativer IDoc-Monitor mit SAPUI5 App
B&IT-Broschüre: Innovativer IDoc-Monitor mit SAPUI5 AppB&IT-Broschüre: Innovativer IDoc-Monitor mit SAPUI5 App
B&IT-Broschüre: Innovativer IDoc-Monitor mit SAPUI5 App
Wolfgang Hornung
 

Ähnlich wie Fuchs Ocr Impact Workshop MUC (20)

Portale 2.0 mit Liferay
Portale 2.0 mit LiferayPortale 2.0 mit Liferay
Portale 2.0 mit Liferay
 
SeEF 2013 | Sichere und effiziente Anbindung von iPhones und iPads (Melkon To...
SeEF 2013 | Sichere und effiziente Anbindung von iPhones und iPads (Melkon To...SeEF 2013 | Sichere und effiziente Anbindung von iPhones und iPads (Melkon To...
SeEF 2013 | Sichere und effiziente Anbindung von iPhones und iPads (Melkon To...
 
Mag. Franz Waldhofer (Raiffeisen Software)
Mag. Franz Waldhofer (Raiffeisen Software)Mag. Franz Waldhofer (Raiffeisen Software)
Mag. Franz Waldhofer (Raiffeisen Software)
 
Webinar ITPro Kollektion SkillSoft
Webinar ITPro Kollektion SkillSoftWebinar ITPro Kollektion SkillSoft
Webinar ITPro Kollektion SkillSoft
 
Open Source als Innovator und Treiber von De‐Facto Standards für das Internet...
Open Source als Innovator und Treiber von De‐Facto Standards für das Internet...Open Source als Innovator und Treiber von De‐Facto Standards für das Internet...
Open Source als Innovator und Treiber von De‐Facto Standards für das Internet...
 
BSB Demo Day - Schlarb - Workflow-Design
BSB Demo Day - Schlarb - Workflow-DesignBSB Demo Day - Schlarb - Workflow-Design
BSB Demo Day - Schlarb - Workflow-Design
 
Testautomatisierung mit CodedUI für Fortgeschrittende
Testautomatisierung mit CodedUI für FortgeschrittendeTestautomatisierung mit CodedUI für Fortgeschrittende
Testautomatisierung mit CodedUI für Fortgeschrittende
 
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
 
White-Label-Apps für Werbe- und Mediaagenturen
White-Label-Apps für Werbe- und MediaagenturenWhite-Label-Apps für Werbe- und Mediaagenturen
White-Label-Apps für Werbe- und Mediaagenturen
 
Alexander Pohl Performance meßbar machen
Alexander Pohl   Performance meßbar machenAlexander Pohl   Performance meßbar machen
Alexander Pohl Performance meßbar machen
 
iOS: Einstieg und Ausblick
iOS: Einstieg und AusblickiOS: Einstieg und Ausblick
iOS: Einstieg und Ausblick
 
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Lösungsport...
 
Eine Stunde was mit Api First!
Eine Stunde was mit Api First!Eine Stunde was mit Api First!
Eine Stunde was mit Api First!
 
Building Blocks for Mobile
Building Blocks for MobileBuilding Blocks for Mobile
Building Blocks for Mobile
 
Fruehling fuers iPhone
Fruehling fuers iPhoneFruehling fuers iPhone
Fruehling fuers iPhone
 
BSB Demo Day - Zechmeister - OCR-Software
BSB Demo Day - Zechmeister - OCR-SoftwareBSB Demo Day - Zechmeister - OCR-Software
BSB Demo Day - Zechmeister - OCR-Software
 
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Produktport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Produktport...Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Produktport...
Dokumente in SAP ablegen und an SAP-Prozesse übergeben - inPuncto Produktport...
 
Smarter arbeiten v1.1
Smarter arbeiten v1.1Smarter arbeiten v1.1
Smarter arbeiten v1.1
 
B&IT-Broschüre: Innovativer IDoc-Monitor mit SAPUI5 App
B&IT-Broschüre: Innovativer IDoc-Monitor mit SAPUI5 AppB&IT-Broschüre: Innovativer IDoc-Monitor mit SAPUI5 App
B&IT-Broschüre: Innovativer IDoc-Monitor mit SAPUI5 App
 
Collaboration day 2016 - IBM Watson in ihren zukünftigen Business Applikationen
Collaboration day 2016  - IBM Watson in ihren zukünftigen Business ApplikationenCollaboration day 2016  - IBM Watson in ihren zukünftigen Business Applikationen
Collaboration day 2016 - IBM Watson in ihren zukünftigen Business Applikationen
 

Mehr von IMPACT Centre of Competence

Mehr von IMPACT Centre of Competence (20)

Session6 01.helmut schmid
Session6 01.helmut schmidSession6 01.helmut schmid
Session6 01.helmut schmid
 
Session1 03.hsian-an wang
Session1 03.hsian-an wangSession1 03.hsian-an wang
Session1 03.hsian-an wang
 
Session7 03.katrien depuydt
Session7 03.katrien depuydtSession7 03.katrien depuydt
Session7 03.katrien depuydt
 
Session7 02.peter kiraly
Session7 02.peter kiralySession7 02.peter kiraly
Session7 02.peter kiraly
 
Session6 04.giuseppe celano
Session6 04.giuseppe celanoSession6 04.giuseppe celano
Session6 04.giuseppe celano
 
Session6 03.sandra young
Session6 03.sandra youngSession6 03.sandra young
Session6 03.sandra young
 
Session6 02.jeremi ochab
Session6 02.jeremi ochabSession6 02.jeremi ochab
Session6 02.jeremi ochab
 
Session5 04.evangelos varthis
Session5 04.evangelos varthisSession5 04.evangelos varthis
Session5 04.evangelos varthis
 
Session5 03.george rehm
Session5 03.george rehmSession5 03.george rehm
Session5 03.george rehm
 
Session5 02.tom derrick
Session5 02.tom derrickSession5 02.tom derrick
Session5 02.tom derrick
 
Session5 01.rutger vankoert
Session5 01.rutger vankoertSession5 01.rutger vankoert
Session5 01.rutger vankoert
 
Session4 04.senka drobac
Session4 04.senka drobacSession4 04.senka drobac
Session4 04.senka drobac
 
Session3 04.arnau baro
Session3 04.arnau baroSession3 04.arnau baro
Session3 04.arnau baro
 
Session3 03.christian clausner
Session3 03.christian clausnerSession3 03.christian clausner
Session3 03.christian clausner
 
Session3 02.kimmo ketunnen
Session3 02.kimmo ketunnenSession3 02.kimmo ketunnen
Session3 02.kimmo ketunnen
 
Session3 01.clemens neudecker
Session3 01.clemens neudeckerSession3 01.clemens neudecker
Session3 01.clemens neudecker
 
Session2 04.ashkan ashkpour
Session2 04.ashkan ashkpourSession2 04.ashkan ashkpour
Session2 04.ashkan ashkpour
 
Session2 03.juri opitz
Session2 03.juri opitzSession2 03.juri opitz
Session2 03.juri opitz
 
Session2 02.christian reul
Session2 02.christian reulSession2 02.christian reul
Session2 02.christian reul
 
Session2 01.emad mohamed
Session2 01.emad mohamedSession2 01.emad mohamed
Session2 01.emad mohamed
 

Fuchs Ocr Impact Workshop MUC

  • 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Optische Zeichen Erkennung (OCR) Einführung & Überblick Michael Fuchs Senior Product Marketing Manager ABBYY Europe fuchs@abbyy.com
  • 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Agenda  ABBYY Technology im IMPACT Project  Wer ist ABBYY?  Firmenüberblick  Produktüberblick  Wie findet OCR Verarbeitung in der Praxis statt?  Optical Character Recognition - Grundlagen  Was ist OCR?  Wie wird OCR heute genutzt?  Wie funktioniert OCR?  OCR = Only Character Recognition?  IMPACT – die Optimierungsansätze  Fragen IMPACT + ABBYY - OCR Einführung & Überblick 2
  • 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT & ABBYY IMPACT + ABBYY - OCR Einführung & Überblick 3
  • 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Improving Access to Text  Mission of IMPACT: It aims to significantly improve access to historical text and to take away the barriers that stand in the way of the mass digitisation of the European cultural heritage.  Partners: Koninklijke Bibliotheek, The British Library, Österreichische Nationalbibliothek, Universität Innsbruck, Deutsche Nationalbibliothek, Bayerische Staatsbibliothek, Staats- und Universitätsbibliothek Göttingen ABBYY, IBM Israel – Science and Technology Ltd, Instituut voor Nederlandse Lexicologie National Centre for Scientific Research "Demokritos“, Centrum für Informations- und Sprachverarbeitung, University of Munich University of Bath, University of Salford, Bibliothèque Nationale de France  Web: www.impact-project.eu IMPACT + ABBYY - OCR Einführung & Überblick 4
  • 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT & ABBYY  ABBYY ist der OCR Technologie Lieferant für IMPACT Mitglieder  OCR Technology für IMPACT wird Mitgliedern als SDK gestellt, da  Nur Entwicklerwerkzeuge es erlauben, neue/andere Module zu verbinden, z.B. komplexe externe Wörterbücher ( IMPACT: LMU)  Wissenschaftliche Forschung & Tests in eigenen Modulen durchgeführt werden IMPACT + ABBYY - OCR Einführung & Überblick 5
  • 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT & ABBYY  ABBYY verbessert u.a. die OCR Kerntechnologien zur Erkennung alter Dokumente  Bild-Vorverarbeitung  Zeichenerkennung  Aktuell liegt der IMPACT Schwerpunkt auf Forschung und nicht im Aufbau eines Produktivsystems ;o)  Verbesserungen der ABBYY Technologien aus dem IMPACT Projekt werden in künftige Produkte integriert werden.  Wichtig: ABBYY FineReader 8/9/10 Professional (Box) bieten keine Fraktur OCR  Fraktur OCR gibt es nur in Recognition Server und FineReader Engine IMPACT + ABBYY - OCR Einführung & Überblick 6
  • 7. ABBYY im Überblick IMPACT + ABBYY - OCR Einführung & Überblick
  • 8. ABBYY weltweit ABBYY Headquarters/ ABBYY Russia ABBYY Europe UK Fremont Moscow ABBYY USA ABBYY Europe GmbH ABBYY Ukraine ABBYY Japan Munich, Germany Kiev ABBYY Taiwan IMPACT + ABBYY - OCR Einführung & Überblick
  • 9. Wer ist ABBYY? Führender Hersteller von Technologie und Software für  Dokumenterkennung  OCR (Texterkennung)  ICR (Handschrifterkennung)  OBR (Barcodeerkennung)  OMR (Erkennung von Auswahlfeldern)  Data Capture  Formularverarbeitung (Fragebögen, Wahlscheine, etc.)  Semi-strukturierte Dokumente (Rechnungen, Lieferscheine Bestellungen, etc.)  Unstrukturierte Dokumente (Verträge, Briefe, etc.)  Linguistik / Wörterbücher IMPACT + ABBYY - OCR Einführung & Überblick
  • 10. ABBYY in West Europa ABBYY Europe GmbH  Büro in München  Gegründet 2001 – heute mehr als 50 Beschäftigte  Betreut Partner und Kunden in westeuropäischen Ländern  Vertrieb & Marketing  Vertrieb ● Distribution, Entwicklung von Vertriebskanälen, Partner Management  Marketing ● Produkt Marketing, Channel Marketing, Outbound Marketing  ABBYY weltweit mehr als 800 Beschäftigte IMPACT + ABBYY - OCR Einführung & Überblick
  • 11. Produkte im Überblick IMPACT + ABBYY - OCR Einführung & Überblick
  • 12. ABBYY Produkte Mainline Distribution “Box” Produkte:  ABBYY FineReader OCR Anwendungen für Endanwender  ABBYY FotoReader Texterkennung aus Dokumenten, die mit einer Digitalkamera aufgenommen wurden  ABBYY PDF Transformer PDF Konvertierung und Erzeugung für Endanwender  ABBYY Lingvo Elektronische Wörterbücher, Russisch und europäische Sprachen IMPACT + ABBYY - OCR Einführung & Überblick
  • 13. ABBYY Produkte Direktvertrieb und VAR Distribution Technische Produktlinien:  ABBYY Recognition Server Serverbasierte OCR  ABBYY FormReader und ABBYY FlexiCapture Formularverarbeitung, Datenextrahierung aus semi- und unstrukturierten Dokumenten  ABBYY FineReader Engine SDK Software Development Kit um OCR Technologien in andere Systeme und Anwendungen integrieren zu können  ABBYY Mobile OCR Engine OCR für mobile Geräte, PDAs und Web Anwendungen IMPACT + ABBYY - OCR Einführung & Überblick
  • 14. ABBYY OCR Produkte – Anwendungssicht Desktop/Workgroup Server/Backend SDK/Integration Anwender gesteuerte Automatisierte Automatisierte Verarbeitung, Verarbeitung, Verarbeitung, OCR & Dokument Fertige Anwendung Fertige Lösung Entwicklung nötig Konvertierung FineReader Recognition Server FineReader Engines (Professional, Corporate, (Professional, Extended Edition) (Windows, Linux, Mac OS X, Site Licence Edition) Free BSD, Embedded Systems) PDF Transformer Mobile OCR Engine FotoReader (Android, Symbian, Linux, Windows, Windows Mobile, ScreenshotReader iPhone ) Anwender Endanwender, Firmen, Entwickler, sind: Firmen Scandienstleister, Scandienstleister Bibliotheken IMPACT Research IMPACT + ABBYY - OCR Einführung & Überblick
  • 15. OCR Grundlagen IMPACT + ABBYY - OCR Einführung & Überblick
  • 16. Nicht OCR-fähig per Design IMPACT + ABBYY - OCR Einführung & Überblick 16
  • 17. Was (ABBYY) OCR lesen kann...  Unterstützte Erkennungssprachen  191 Sprachen insgesamt  Alphabete: Latein, Griechisch, Kyrillisch, Armenisch, Hebräisch, Thai  34 Sprachen mit Wörterbuch und Rechtschreibkorrektur  Chinesisch, Japanisch, Koreanisch (CJK) – 4 hieroglyphische Systeme  5 Sprachen in FineReader XIX (Gotisch und andere Schriften des 17.-20. Jahrhunderts)  6 Programmiersprachen (Basic, C/C++, COBOL, Java, etc.)  4 künstliche Sprachen (Esperanto, Interlingua, etc.)  Einfache chemische Formeln  Schriftarten  Erkennung unterschiedlicher Schriftarten (Nadeldrucker, Schreibmaschinen, Fraktur, etc.)  OCR-A  OCR-B  MICR (E13B)  CMC-7 IMPACT + ABBYY - OCR Einführung & Überblick 17
  • 18. OCR Verarbeitungsschritte  Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung  Korrektur von Bildfehlern, Verbesserung des optischen Eindrucks und Vorbereitung für die eigentliche automatische OCR  Schritt 2. Dokument Analyse  Erkennen der verschiedenen Bereiche eines Dokuments, Layoutanalyse, finden von Spalten, Tabellen, Bildern und Barcodes  Schritt 3. Zeichenerkennung  Automatische Erkennung der einzelnen Zeichen, Anwenden der Sprachdefinitionen, Wörterbücher und anderer Optionen  Schritt 4. Prüfung & Korrektur durch Anwender (optional)  Manuelle Validierung/Korrektur unsicher erkannter Zeichen und Wörter  Schritt 5. Dokument Synthese und Export  Erzeugung der entsprechenden Ausgabeformate mit den gewählten Optionen IMPACT + ABBYY - OCR Einführung & Überblick 18
  • 19. OCR Verarbeitungsschritte  Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung Existierende Bildformate laden oder diese vom Scanner übernehmen  Trennung von Doppelseiten  Skalierung & Anpassung der Auflösung, z.B. bei Bildern mit sehr geringer Auflösung  Rotation (um 90, 180, oder 270 Grad)  Bildtonumkehr  Bildbeschneidung (Cropping)  Erzeugung von Seitenvorschaubildern  Änderung der Text und Hintergrundfarben IMPACT + ABBYY - OCR Einführung & Überblick 19
  • 20. OCR Verarbeitungsschritte  Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung Kompensierung von Scanfehlern  Automatisches Geraderücken der Dokumentseiten  Begradigung von Textzeilen  Kontrollierte Entfernung von Staub und Rauschen Achtung: Punkte bei: i, ä, ö, ü IMPACT + ABBYY - OCR Einführung & Überblick 20
  • 21. OCR Verarbeitungsschritte  Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung  Intelligente Hintergrundfilterung  Adaptive Binarisierung Eine einfache Binarisierung auf Basis des gesamten Bildes kann keine guten OCR Ergebnisse liefern. Problem: Mikrofilm Erstellung = Binarisierung IMPACT + ABBYY - OCR Einführung & Überblick 21
  • 22. OCR Verarbeitungsschritte  Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung  Erste IMPACT Verbesserungen  Original  State of the Art  Neu  Kein Text der Rückseite IMPACT + ABBYY - OCR Einführung & Überblick 22
  • 23.
  • 24. OCR Verarbeitungsschritte  Schritt 3. Zeichenerkennung Nachdem die Zeilen gefunden wurden, werden verschiedene Classifier zur Zeichenerkennung genutzt und die Ergebnisse bewertet Raster Classifier Kontur Classifier Struktur Classifier Classifier zur Unterscheidung von Merkmalen IMPACT + ABBYY - OCR Einführung & Überblick 24
  • 25. OCR Optimierung  Schritt 3. Zeichenerkennung – Trainieren neuer Symbole Sogenanntes Pattern Training erlaubt es OCR Anwendungen, spezielle Zeichen auf Pixelebene zu lernen IMPACT + ABBYY - OCR Einführung & Überblick 25
  • 26. OCR Optimierung  Schritt 3. Zeichenerkennung – zurück auf die Wort-/Sprach-Ebene Anwenden der gewählten Sprach- und Wörterbuch-Einstellungen  Eigene Sprachen und Wörterbücher können hinzugefügt werden  IMPACT IMPACT + ABBYY - OCR Einführung & Überblick 26
  • 27. OCR Verarbeitungsschritte  Schritt 4. Prüfung & Korrektur durch Anwender (optional) Manueller Eingriff möglich:  Ergebnisse der Layout Analyse ● Textblöcke ● Bildblöcke ● Tabellenblöcke  Korrektur unsicher erkannter Zeichen und Wörter, mit Wörterbuch-Unterstützung  Erneute OCR Erkennung mit anderen Spracheinstellungen  Recognition Server / FineReader Engine erlauben den Export der Ergebnisse auch als XML Datei  Impact IMPACT + ABBYY - OCR Einführung & Überblick 27
  • 28. OCR Verarbeitungsschritte  Schritt 5. Dokument Synthese und Export Erzeugung der Ausgabeformate mit verschiedenen Optionen  TXT, Office Formate, PDF, etc.  Beginnend mit Version 9.0 nutzt ABBYY ADRT = Adaptive Document Recognition Technology. Diese hat das Ziel, ein Dokument als Einheit zu verstehen. V9: Erkennung von Kopf- und Fußzeilen V10: Rekonstruktion von Inhaltsverzeichnissen  SDKs und Recognition Server erlauben weitere Exportformate, z.B.: ● XML ● Internes FineReader Engine Format IMPACT + ABBYY - OCR Einführung & Überblick 28
  • 29. OCR Allgemein & Im Speziellen: IMPACT IMPACT + ABBYY - OCR Einführung & Überblick
  • 30. OCR – Only Character Recognition?  Nachbau des Originallayouts im neu erzeugten Dokument  Das erzeugte Dokument basiert auf dem Originallayout des gescannten Dokuments  Informationen aus der Layoutanalyse werden hier wiederverwendet  Wichtig auch für PDF mit Text unter dem Originalbild  Unterstützung verbreiteter Formate  ABBYY Produkte unterstützen die gängigsten Dokumentenformate, z.B.: PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel, PowerPoint und DBF  Unterstützung von Bildexportformten  BMP, PCX, JPEG, JPEG 2000, TIFF, PNG  Einhaltung von Standards  Unterstützung von kennwortgeschützen PDFs, Verschlüsselung von PDFs  Support von PDF/A zur Langzeitarchivierung, etc. IMPACT + ABBYY - OCR Einführung & Überblick 30
  • 31. IMPACT = „Schrittweise“ Optimierung  Schritt 1. Bildqualität  Problembereiche: Scans von Mikrofilm, Wölbungen, durchscheinende Zeichen  Optimierung sansatz : Bildvorverarbeitung, z.B: Binarisierung  Schritt 2. Dokument Analyse  Problembereiche: Layout alter Druckwerke, z.B. enger Spaltensatz bei alten Zeitungen,  Optimierung sansatz : Verbesserte Layoutanalyse  Schritt 3. Zeichenerkennung & Sprache  Problembereiche: Verwendete Schriftarten, alte Sprache (Grammatik und Rechtschreibung)  Optimierung sansatz : Verbesserte Erkennungsmuster, Erstellung spezieller Wörterbücher  Schritt 4. Prüfung & Korrektur  Problembereiche: Oft Serienfehler bei Frakturerkennung , Skalierung  Optimierung sansatz : Neue Ansätze zur Massenkorrektur  Schritt 5. Dokument Synthese, Export & Bewertung  Problembereiche: Inhalts-Klassifizierung , Metadaten Generierung, Sichere Formate  Optimierung sansatz : XML Analyse, XML, AltoXML, PDF/A, … IMPACT + ABBYY - OCR Einführung & Überblick 31
  • 32. Danke für Ihre Aufmerksamkeit Fragen? IMPACT + ABBYY - OCR Einführung & Überblick