1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Analyse und Nachkorrektur historischer und OCR-
erfasster Ergebnisse
Ulrich Reffle, CIS, LMU München
11.10.2011
2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Inhalt
Dokumentenspezifische Analyse historischer und OCR-erfasster Texte
Ein System zur interaktiven OCR-Nachkorrektur
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 2
3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Dokumentenspezifische Analyse
historischer und OCR-erfasster Texte
date footertext 3
4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Warum spezielle Methoden?
Spezifische Probleme in der Verarbeitung historischer Sprache im Kontext
von Digitalisierung und Massendigitalisierung:
– Hohe OCR-Fehlerraten
– Nicht-standardisierte Sprache
Spezielle Ressourcen und Methoden für OCR, Nachbearbeitung und Retrieval
notwendig
Digitales OCR- Nach-
OCR korrektur IR
Bild Resultat
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 4
5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Warum spezielle Methoden?
Heterogenität der Vorlagen erfordert dokumentenspezifische Einstellungen:
– Historische Varianten
– Auswahl von Speziallexika
– Charakterisierung des OCR-Fehlerkanals
Digitales OCR- Nach-
OCR korrektur IR
Bild Resultat
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 5
6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Dokumentenspezifische Sprach- und
Fehlerprofile
Sprach- und Fehlerprofile stellen auf Dokumentebene spezifische
Charakteristika der Sprache und der OCR-Erfassung zur Verfügung.
Sprachprofile: Anteile fremder Sprachen (etwa Latein), Frequenzmodelle,
wichtige Muster historischer Sprachvariation (etwa t th, ei ey)
Fehlerprofile: geschätzte Fehlerrate, wichtige OCR-Fehler (z.B. e c, i l),
Fehlererkennung und Korrekturvorschläge für einzelne Wörter
Profile werden vollautomatisch und ausschließlich auf Grundlage der OCR-
Ausgabe berechnet.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 6
7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Dokumentenspezifische Sprach- und
Fehlerprofile
Sprach- und Fehlerprofile können zur Verbesserung der Qualität von
OCR, Nachkorrektur und Information Retrieval beitragen.
Sprach- und
Fehlerprofile
Digitales OCR- Nach-
OCR korrektur IR
Bild Resultat
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 7
8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Globales Profil eines Dokuments
Historische
Varianten
OCR-
Fehler
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 8
9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Lokales Profil eines Dokuments
Bewertete Interpretationen/ Korrekturvorschläge für alle Wörter des
Dokuments:
„theil“
„theil“
„theil“
„theil“
„Tneil“
Korrekturvorschlag Moderne Schreibung Wahrscheinlichkeit
Theil Teil 0,98
Keil Keil 0,01
… … …
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 9
10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Zusammenfassung
Dokumentenspezifische Sprach- und Fehlerprofile werden vollautomatisch
auf Grundlage eines OCR-erfassten Dokuments berechnet.
Sie liefern Charakteristika der vorgefundenen Sprache sowie des OCR-
Fehlerkanals, um OCR oder nachverarbeitende Prozesse gezielt auf das
Dokument einzustellen.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 10
11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
System zur interaktiven
Nachkorrektur von OCR-erfassten
Dokumenten
date footertext 11
12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
Eine graphische Oberfläche zur schnellen und einfachen Nachkorrektur
speziell von historischen, durch OCR digitalisierten Dokumenten
Sprach- und Fehlerprofile eröffnen neuartige Möglichkeiten zur Erkennung,
Präsentation und Korrektur von OCR-Fehlern.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 12
13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
OCR
Anordnung der Arbeitsfläche frei konfigurierbar:
– OCR mit Bildsnippets
– Komplette Bildseite
– Korrekturkandidaten/
spezielle Funktionen
Spezielle Funktionen
Image
date footertext 13
14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
Erkannter Text wird Wort für Wort direkt mit dem entsprechenden
Bildausschnitt dargestellt.
Fehlererkennung durch Profile
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 14
15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Nachkorrektursystem
Originalbild wird auch komplett dargestellt.
– Nützlich bei schwer lesbaren Wörtern
– Nützlich, wenn Wortsegmentierung der OCR zu mangelhaft
– Aktives Wort wird durch Rahmen hervorgehoben
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 15
16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Behandlung historischer Varianten
Historische Varianten werden auf Basis historischer Lexika und von
Sprachprofile identifiziert und als korrekt dargestellt.
Auch Korrekturvorchläge beinhalten nicht-moderne Wörter
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 16
17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Klassische Korrekturwerkzeuge
Korrekturen in der Textsicht
– Durch manuelle Eingabe
– Durch Auswahl eines Korrekturvorschlags
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 17
18. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Batch-Verarbeitung für systematische OCR-
Fehler
Fehlerprofile identifizieren die häufigen, systematischen OCR-Fehler
Ganze Gruppen von gleichartigen Fehlern können schneller und besser
korrigiert werden.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 18
19. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Evaluierung
User-Experiment mit insgesamt 14 Einzelversuchen
Verwendung der vorgestellten neuen Technologien beschleunigt die
Korrektur um das bis zu 2,7-fache.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 19
20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Verfügbarkeit
Graphische Oberfläche wird in den nächsten Wochen frei verfügbar
gemacht.
Vorverarbeitung von Dokumenten zur Erstellung von Sprach- und
Fehlerprofilen ist durch Patentmeldung geschützt.
– LMU München wird Preprocessing über Webservice anbieten, der bis auf
Weiteres kostenlos sein wird.
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 20
21. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Vielen Dank
11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 21