OCR Software – Automatisiertehochskalierbare OCR imBibliotheksumfeldMarkus PichlerProduct Marketing ManagerABBYY Europe Gm...
Die ABBYY GruppeABBYY – das Unternehmen:•   > 800 Mitarbeiter weltweit•   > 400 Entwickler in der Zentrale•   Gegründet 19...
Was macht ABBYY Recognition Server?  Serverbasierte OCR und Dokumenten-  Konvertierung  Hochskalierbare und automatisierte...
Automatisierte und zentrale VerarbeitungAutomatische, zentralisierte Verarbeitung Automatisierte Server Software für OCR s...
Herausforderungen historischer Dokumente Bildqualitä Bildqualität     Gewelltes Papier, verschachtelte Layouts,     geboge...
Bildqualität verbessernAusrichtung (De-Skew) & Begradigung   Adaptive Binarisierung                                       ...
Layouterkennung                           Bild• Layouterkennung durch  Dokumentenanalyse                    Tablelle  • Id...
Verifizierung und Qualitätskontrolle• Ergebnisse der Layout Analyse   •   Textblöcke   •   Bildblöcke   •   Tabellenblöcke...
ABBYY Optimierungen im IMPACT Projekt• Bildvorverarbeitung  •   Adaptive Binarisierung  •   Verbesserung der texturierten ...
Fragen?
Nächste SlideShare
Wird geladen in …5
×

Digitalisierungspraxis - Pichler - Abbyy

1.357 Aufrufe

Veröffentlicht am

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.357
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
572
Aktionen
Geteilt
0
Downloads
9
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Digitalisierungspraxis - Pichler - Abbyy

  1. 1. OCR Software – Automatisiertehochskalierbare OCR imBibliotheksumfeldMarkus PichlerProduct Marketing ManagerABBYY Europe GmbHpichler@abbyy.com
  2. 2. Die ABBYY GruppeABBYY – das Unternehmen:• > 800 Mitarbeiter weltweit• > 400 Entwickler in der Zentrale• Gegründet 1989 in Moskau, RusslandFührender Anbieter von:• Software für Texterkennung und Dokumentenkonvertierung (OCR, ICR, OBR und OMR)• Data Capture zur Formular- sowie Freiformerkennung zur Verarbeitung geschäftskritischer Dokumente (Rechnungen, Lieferscheine, Anträge etc.)• Übersetzungs- sowie Sprachensoftware (Wörterbücher und Übersetzungsservices)
  3. 3. Was macht ABBYY Recognition Server? Serverbasierte OCR und Dokumenten- Konvertierung Hochskalierbare und automatisierte OCR- Umwandlung für Volltextsuche und -erschließung Läuft als Service und kann von allen Abteilungen genutzt werden Unterstützung für die Erkennung von historischen Schriften und Fraktur
  4. 4. Automatisierte und zentrale VerarbeitungAutomatische, zentralisierte Verarbeitung Automatisierte Server Software für OCR sowie zur PDF Umwandlung Indexing Station Konvertiert gescannte Dokumente, Bilder und PDF in Dateien, die editiert, indexiert sowie durchsucht werden können. Scanning Station Wandelt gescannte Dokumente oder Bilder in durchsuchbare PDFs Zentrale Verarbeitung als Service Management und zentrale Administration Hohe Skalierbarkeit für hochvolumige Dokumentenverarbeitung Unterstützt: zeitgeplante und automatische OCR sowie Verarbeitung im Hintergrund
  5. 5. Herausforderungen historischer Dokumente Bildqualitä Bildqualität Gewelltes Papier, verschachtelte Layouts, gebogene Textzeilen liefern mangelhafte Bildqualität Layouterkennung Historische Bücher/Dokumente haben oft eine andere Layoutstruktur Algorithmen für die Erkennung von modernen Layouts nicht anwendbar auf alten Dokumenten Verwendete Typographie Verwendung alter Schriftarten mit minderer Qualität der Buchstaben Unvollständige Zeichen
  6. 6. Bildqualität verbessernAusrichtung (De-Skew) & Begradigung Adaptive Binarisierung ABBYY Binarisierung Fehlerhafte Binarisierung OriginabildAbschneiden (Crop)
  7. 7. Layouterkennung Bild• Layouterkennung durch Dokumentenanalyse Tablelle • Identifizierung der Struktur des Dokumentes • Erkennen von Textblöcken, Tabellen, und Bildern • Erkennen von vertikalem Text in Tabellen • OCR-fähig vs. Bild• ADRT (Adaptive Document A Recognition Technology) Textblöcke
  8. 8. Verifizierung und Qualitätskontrolle• Ergebnisse der Layout Analyse • Textblöcke • Bildblöcke • Tabellenblöcke • Absätze • Textlinien • Buchstaben• Manueller Eingriff möglich • Manuelle Korrektur von Blöcken • Korrektur unsicher erkannter Zeichen und Wörter, mit Wörterbuch- Unterstützung (auch externe Wörterbücher) • Erneute OCR Erkennung mit anderen Spracheinstellungen möglich
  9. 9. ABBYY Optimierungen im IMPACT Projekt• Bildvorverarbeitung • Adaptive Binarisierung • Verbesserung der texturierten Hintergrunderkennung Bild-• Verbesserungen der Bild- sowie Texterkennung • Verbesserte Erkennung von Gothic/Frakturschriften • Anbindung externer Wörterbücher (individuelle manuell erstelle Wörterbücher)• ADRT – Adaptive Document Recognition Technology • Erkennung von Inhaltsverzeichnissen• Neue XML Exportformate • ALTO XML Support (Recognition Server 3.0. Release 8, Juli 2011) • Unterstützung spezifischer Formate wie ePub zur Erzeugung elektronischer Bücher
  10. 10. Fragen?

×