IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National...
ABBYY im Überblick




IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY weltweit




                                                       ABBYY Headquarters/ ABBYY Russia
               ...
Wer ist ABBYY?
Führender Hersteller von Technologie und Software für

        Dokumenterkennung
       OCR (Texterkennun...
ABBYY in West Europa
 ABBYY Europe GmbH
     Büro in München

     Gegründet 2001 – heute mehr als 50 Beschäftigte

   ...
Produkte im Überblick




IMPACT + ABBYY - OCR Einführung & Überblick
ABBYY Produkte
Mainline Distribution
                             “Box” Produkte:
                                 ABBYY ...
ABBYY Produkte
Direktvertrieb und VAR Distribution
                             Technische Produktlinien:
                ...
ABBYY OCR Produkte – Anwendungssicht

                 Desktop/Workgroup                     Server/Backend               ...
OCR Grundlagen




IMPACT + ABBYY - OCR Einführung & Überblick
Nicht OCR-fähig per Design




IMPACT + ABBYY - OCR Einführung & Überblick   16
Was (ABBYY) OCR lesen kann...

        Unterstützte Erkennungssprachen
       191 Sprachen insgesamt
       Alphabete: ...
OCR Verarbeitungsschritte

        Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung
       Korrektur von ...
OCR Verarbeitungsschritte

       Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

    Existierende Bildf...
OCR Verarbeitungsschritte

       Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

    Kompensierung von ...
OCR Verarbeitungsschritte

       Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

       Intelligente H...
OCR Verarbeitungsschritte

       Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung

       Erste IMPACT V...
OCR Verarbeitungsschritte

       Schritt 3. Zeichenerkennung
       Nachdem die Zeilen gefunden wurden, werden verschied...
OCR Optimierung

       Schritt 3. Zeichenerkennung – Trainieren neuer Symbole
       Sogenanntes Pattern Training erlaub...
OCR Optimierung

       Schritt 3. Zeichenerkennung – zurück auf die Wort-/Sprach-Ebene
    Anwenden der gewählten Sprach...
OCR Verarbeitungsschritte

        Schritt 4. Prüfung & Korrektur durch Anwender (optional)

Manueller Eingriff möglich:
...
OCR Verarbeitungsschritte

        Schritt 5. Dokument Synthese und Export

    Erzeugung der Ausgabeformate mit verschie...
OCR Allgemein
                                &
                      Im Speziellen: IMPACT




IMPACT + ABBYY - OCR Einfü...
OCR – Only Character Recognition?

        Nachbau des Originallayouts im neu erzeugten Dokument
       Das erzeugte Dok...
IMPACT = „Schrittweise“ Optimierung
        Schritt 1. Bildqualität
       Problembereiche: Scans von Mikrofilm, Wölbung...
Danke für Ihre Aufmerksamkeit

                                              Fragen?




IMPACT + ABBYY - OCR Einführung &...
Fuchs Ocr Impact Workshop MUC
Nächste SlideShare
Wird geladen in …5
×

Fuchs Ocr Impact Workshop MUC

1.390 Aufrufe

Veröffentlicht am

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.390
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
404
Aktionen
Geteilt
0
Downloads
11
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Fuchs Ocr Impact Workshop MUC

  1. 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Optische Zeichen Erkennung (OCR) Einführung & Überblick Michael Fuchs Senior Product Marketing Manager ABBYY Europe fuchs@abbyy.com
  2. 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Agenda  ABBYY Technology im IMPACT Project  Wer ist ABBYY?  Firmenüberblick  Produktüberblick  Wie findet OCR Verarbeitung in der Praxis statt?  Optical Character Recognition - Grundlagen  Was ist OCR?  Wie wird OCR heute genutzt?  Wie funktioniert OCR?  OCR = Only Character Recognition?  IMPACT – die Optimierungsansätze  Fragen IMPACT + ABBYY - OCR Einführung & Überblick 2
  3. 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT & ABBYY IMPACT + ABBYY - OCR Einführung & Überblick 3
  4. 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Improving Access to Text  Mission of IMPACT: It aims to significantly improve access to historical text and to take away the barriers that stand in the way of the mass digitisation of the European cultural heritage.  Partners: Koninklijke Bibliotheek, The British Library, Österreichische Nationalbibliothek, Universität Innsbruck, Deutsche Nationalbibliothek, Bayerische Staatsbibliothek, Staats- und Universitätsbibliothek Göttingen ABBYY, IBM Israel – Science and Technology Ltd, Instituut voor Nederlandse Lexicologie National Centre for Scientific Research "Demokritos“, Centrum für Informations- und Sprachverarbeitung, University of Munich University of Bath, University of Salford, Bibliothèque Nationale de France  Web: www.impact-project.eu IMPACT + ABBYY - OCR Einführung & Überblick 4
  5. 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT & ABBYY  ABBYY ist der OCR Technologie Lieferant für IMPACT Mitglieder  OCR Technology für IMPACT wird Mitgliedern als SDK gestellt, da  Nur Entwicklerwerkzeuge es erlauben, neue/andere Module zu verbinden, z.B. komplexe externe Wörterbücher ( IMPACT: LMU)  Wissenschaftliche Forschung & Tests in eigenen Modulen durchgeführt werden IMPACT + ABBYY - OCR Einführung & Überblick 5
  6. 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. IMPACT & ABBYY  ABBYY verbessert u.a. die OCR Kerntechnologien zur Erkennung alter Dokumente  Bild-Vorverarbeitung  Zeichenerkennung  Aktuell liegt der IMPACT Schwerpunkt auf Forschung und nicht im Aufbau eines Produktivsystems ;o)  Verbesserungen der ABBYY Technologien aus dem IMPACT Projekt werden in künftige Produkte integriert werden.  Wichtig: ABBYY FineReader 8/9/10 Professional (Box) bieten keine Fraktur OCR  Fraktur OCR gibt es nur in Recognition Server und FineReader Engine IMPACT + ABBYY - OCR Einführung & Überblick 6
  7. 7. ABBYY im Überblick IMPACT + ABBYY - OCR Einführung & Überblick
  8. 8. ABBYY weltweit ABBYY Headquarters/ ABBYY Russia ABBYY Europe UK Fremont Moscow ABBYY USA ABBYY Europe GmbH ABBYY Ukraine ABBYY Japan Munich, Germany Kiev ABBYY Taiwan IMPACT + ABBYY - OCR Einführung & Überblick
  9. 9. Wer ist ABBYY? Führender Hersteller von Technologie und Software für  Dokumenterkennung  OCR (Texterkennung)  ICR (Handschrifterkennung)  OBR (Barcodeerkennung)  OMR (Erkennung von Auswahlfeldern)  Data Capture  Formularverarbeitung (Fragebögen, Wahlscheine, etc.)  Semi-strukturierte Dokumente (Rechnungen, Lieferscheine Bestellungen, etc.)  Unstrukturierte Dokumente (Verträge, Briefe, etc.)  Linguistik / Wörterbücher IMPACT + ABBYY - OCR Einführung & Überblick
  10. 10. ABBYY in West Europa ABBYY Europe GmbH  Büro in München  Gegründet 2001 – heute mehr als 50 Beschäftigte  Betreut Partner und Kunden in westeuropäischen Ländern  Vertrieb & Marketing  Vertrieb ● Distribution, Entwicklung von Vertriebskanälen, Partner Management  Marketing ● Produkt Marketing, Channel Marketing, Outbound Marketing  ABBYY weltweit mehr als 800 Beschäftigte IMPACT + ABBYY - OCR Einführung & Überblick
  11. 11. Produkte im Überblick IMPACT + ABBYY - OCR Einführung & Überblick
  12. 12. ABBYY Produkte Mainline Distribution “Box” Produkte:  ABBYY FineReader OCR Anwendungen für Endanwender  ABBYY FotoReader Texterkennung aus Dokumenten, die mit einer Digitalkamera aufgenommen wurden  ABBYY PDF Transformer PDF Konvertierung und Erzeugung für Endanwender  ABBYY Lingvo Elektronische Wörterbücher, Russisch und europäische Sprachen IMPACT + ABBYY - OCR Einführung & Überblick
  13. 13. ABBYY Produkte Direktvertrieb und VAR Distribution Technische Produktlinien:  ABBYY Recognition Server Serverbasierte OCR  ABBYY FormReader und ABBYY FlexiCapture Formularverarbeitung, Datenextrahierung aus semi- und unstrukturierten Dokumenten  ABBYY FineReader Engine SDK Software Development Kit um OCR Technologien in andere Systeme und Anwendungen integrieren zu können  ABBYY Mobile OCR Engine OCR für mobile Geräte, PDAs und Web Anwendungen IMPACT + ABBYY - OCR Einführung & Überblick
  14. 14. ABBYY OCR Produkte – Anwendungssicht Desktop/Workgroup Server/Backend SDK/Integration Anwender gesteuerte Automatisierte Automatisierte Verarbeitung, Verarbeitung, Verarbeitung, OCR & Dokument Fertige Anwendung Fertige Lösung Entwicklung nötig Konvertierung FineReader Recognition Server FineReader Engines (Professional, Corporate, (Professional, Extended Edition) (Windows, Linux, Mac OS X, Site Licence Edition) Free BSD, Embedded Systems) PDF Transformer Mobile OCR Engine FotoReader (Android, Symbian, Linux, Windows, Windows Mobile, ScreenshotReader iPhone ) Anwender Endanwender, Firmen, Entwickler, sind: Firmen Scandienstleister, Scandienstleister Bibliotheken IMPACT Research IMPACT + ABBYY - OCR Einführung & Überblick
  15. 15. OCR Grundlagen IMPACT + ABBYY - OCR Einführung & Überblick
  16. 16. Nicht OCR-fähig per Design IMPACT + ABBYY - OCR Einführung & Überblick 16
  17. 17. Was (ABBYY) OCR lesen kann...  Unterstützte Erkennungssprachen  191 Sprachen insgesamt  Alphabete: Latein, Griechisch, Kyrillisch, Armenisch, Hebräisch, Thai  34 Sprachen mit Wörterbuch und Rechtschreibkorrektur  Chinesisch, Japanisch, Koreanisch (CJK) – 4 hieroglyphische Systeme  5 Sprachen in FineReader XIX (Gotisch und andere Schriften des 17.-20. Jahrhunderts)  6 Programmiersprachen (Basic, C/C++, COBOL, Java, etc.)  4 künstliche Sprachen (Esperanto, Interlingua, etc.)  Einfache chemische Formeln  Schriftarten  Erkennung unterschiedlicher Schriftarten (Nadeldrucker, Schreibmaschinen, Fraktur, etc.)  OCR-A  OCR-B  MICR (E13B)  CMC-7 IMPACT + ABBYY - OCR Einführung & Überblick 17
  18. 18. OCR Verarbeitungsschritte  Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung  Korrektur von Bildfehlern, Verbesserung des optischen Eindrucks und Vorbereitung für die eigentliche automatische OCR  Schritt 2. Dokument Analyse  Erkennen der verschiedenen Bereiche eines Dokuments, Layoutanalyse, finden von Spalten, Tabellen, Bildern und Barcodes  Schritt 3. Zeichenerkennung  Automatische Erkennung der einzelnen Zeichen, Anwenden der Sprachdefinitionen, Wörterbücher und anderer Optionen  Schritt 4. Prüfung & Korrektur durch Anwender (optional)  Manuelle Validierung/Korrektur unsicher erkannter Zeichen und Wörter  Schritt 5. Dokument Synthese und Export  Erzeugung der entsprechenden Ausgabeformate mit den gewählten Optionen IMPACT + ABBYY - OCR Einführung & Überblick 18
  19. 19. OCR Verarbeitungsschritte  Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung Existierende Bildformate laden oder diese vom Scanner übernehmen  Trennung von Doppelseiten  Skalierung & Anpassung der Auflösung, z.B. bei Bildern mit sehr geringer Auflösung  Rotation (um 90, 180, oder 270 Grad)  Bildtonumkehr  Bildbeschneidung (Cropping)  Erzeugung von Seitenvorschaubildern  Änderung der Text und Hintergrundfarben IMPACT + ABBYY - OCR Einführung & Überblick 19
  20. 20. OCR Verarbeitungsschritte  Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung Kompensierung von Scanfehlern  Automatisches Geraderücken der Dokumentseiten  Begradigung von Textzeilen  Kontrollierte Entfernung von Staub und Rauschen Achtung: Punkte bei: i, ä, ö, ü IMPACT + ABBYY - OCR Einführung & Überblick 20
  21. 21. OCR Verarbeitungsschritte  Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung  Intelligente Hintergrundfilterung  Adaptive Binarisierung Eine einfache Binarisierung auf Basis des gesamten Bildes kann keine guten OCR Ergebnisse liefern. Problem: Mikrofilm Erstellung = Binarisierung IMPACT + ABBYY - OCR Einführung & Überblick 21
  22. 22. OCR Verarbeitungsschritte  Schritt 1. Scannen, Bilder laden, Vorverarbeitung & Veränderung  Erste IMPACT Verbesserungen  Original  State of the Art  Neu  Kein Text der Rückseite IMPACT + ABBYY - OCR Einführung & Überblick 22
  23. 23. OCR Verarbeitungsschritte  Schritt 3. Zeichenerkennung Nachdem die Zeilen gefunden wurden, werden verschiedene Classifier zur Zeichenerkennung genutzt und die Ergebnisse bewertet Raster Classifier Kontur Classifier Struktur Classifier Classifier zur Unterscheidung von Merkmalen IMPACT + ABBYY - OCR Einführung & Überblick 24
  24. 24. OCR Optimierung  Schritt 3. Zeichenerkennung – Trainieren neuer Symbole Sogenanntes Pattern Training erlaubt es OCR Anwendungen, spezielle Zeichen auf Pixelebene zu lernen IMPACT + ABBYY - OCR Einführung & Überblick 25
  25. 25. OCR Optimierung  Schritt 3. Zeichenerkennung – zurück auf die Wort-/Sprach-Ebene Anwenden der gewählten Sprach- und Wörterbuch-Einstellungen  Eigene Sprachen und Wörterbücher können hinzugefügt werden  IMPACT IMPACT + ABBYY - OCR Einführung & Überblick 26
  26. 26. OCR Verarbeitungsschritte  Schritt 4. Prüfung & Korrektur durch Anwender (optional) Manueller Eingriff möglich:  Ergebnisse der Layout Analyse ● Textblöcke ● Bildblöcke ● Tabellenblöcke  Korrektur unsicher erkannter Zeichen und Wörter, mit Wörterbuch-Unterstützung  Erneute OCR Erkennung mit anderen Spracheinstellungen  Recognition Server / FineReader Engine erlauben den Export der Ergebnisse auch als XML Datei  Impact IMPACT + ABBYY - OCR Einführung & Überblick 27
  27. 27. OCR Verarbeitungsschritte  Schritt 5. Dokument Synthese und Export Erzeugung der Ausgabeformate mit verschiedenen Optionen  TXT, Office Formate, PDF, etc.  Beginnend mit Version 9.0 nutzt ABBYY ADRT = Adaptive Document Recognition Technology. Diese hat das Ziel, ein Dokument als Einheit zu verstehen. V9: Erkennung von Kopf- und Fußzeilen V10: Rekonstruktion von Inhaltsverzeichnissen  SDKs und Recognition Server erlauben weitere Exportformate, z.B.: ● XML ● Internes FineReader Engine Format IMPACT + ABBYY - OCR Einführung & Überblick 28
  28. 28. OCR Allgemein & Im Speziellen: IMPACT IMPACT + ABBYY - OCR Einführung & Überblick
  29. 29. OCR – Only Character Recognition?  Nachbau des Originallayouts im neu erzeugten Dokument  Das erzeugte Dokument basiert auf dem Originallayout des gescannten Dokuments  Informationen aus der Layoutanalyse werden hier wiederverwendet  Wichtig auch für PDF mit Text unter dem Originalbild  Unterstützung verbreiteter Formate  ABBYY Produkte unterstützen die gängigsten Dokumentenformate, z.B.: PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel, PowerPoint und DBF  Unterstützung von Bildexportformten  BMP, PCX, JPEG, JPEG 2000, TIFF, PNG  Einhaltung von Standards  Unterstützung von kennwortgeschützen PDFs, Verschlüsselung von PDFs  Support von PDF/A zur Langzeitarchivierung, etc. IMPACT + ABBYY - OCR Einführung & Überblick 30
  30. 30. IMPACT = „Schrittweise“ Optimierung  Schritt 1. Bildqualität  Problembereiche: Scans von Mikrofilm, Wölbungen, durchscheinende Zeichen  Optimierung sansatz : Bildvorverarbeitung, z.B: Binarisierung  Schritt 2. Dokument Analyse  Problembereiche: Layout alter Druckwerke, z.B. enger Spaltensatz bei alten Zeitungen,  Optimierung sansatz : Verbesserte Layoutanalyse  Schritt 3. Zeichenerkennung & Sprache  Problembereiche: Verwendete Schriftarten, alte Sprache (Grammatik und Rechtschreibung)  Optimierung sansatz : Verbesserte Erkennungsmuster, Erstellung spezieller Wörterbücher  Schritt 4. Prüfung & Korrektur  Problembereiche: Oft Serienfehler bei Frakturerkennung , Skalierung  Optimierung sansatz : Neue Ansätze zur Massenkorrektur  Schritt 5. Dokument Synthese, Export & Bewertung  Problembereiche: Inhalts-Klassifizierung , Metadaten Generierung, Sichere Formate  Optimierung sansatz : XML Analyse, XML, AltoXML, PDF/A, … IMPACT + ABBYY - OCR Einführung & Überblick 31
  31. 31. Danke für Ihre Aufmerksamkeit Fragen? IMPACT + ABBYY - OCR Einführung & Überblick

×