SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Analyse und Nachkorrektur historischer und OCR-
erfasster Ergebnisse
Ulrich Reffle, CIS, LMU München
11.10.2011
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Inhalt
        Dokumentenspezifische Analyse historischer und OCR-erfasster Texte
        Ein System zur interaktiven OCR-Nachkorrektur




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        2
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Dokumentenspezifische Analyse
historischer und OCR-erfasster Texte




date footertext                                                                                                                                          3
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




   Warum spezielle Methoden?
           Spezifische Probleme in der Verarbeitung historischer Sprache im Kontext
           von Digitalisierung und Massendigitalisierung:
             – Hohe OCR-Fehlerraten
             – Nicht-standardisierte Sprache
                              Spezielle Ressourcen und Methoden für OCR, Nachbearbeitung und Retrieval
                              notwendig




Digitales                                                              OCR-                                       Nach-
                                          OCR                                                                    korrektur                                  IR
Bild                                                                   Resultat
   11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                             4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




   Warum spezielle Methoden?
           Heterogenität der Vorlagen erfordert dokumentenspezifische Einstellungen:
             – Historische Varianten
             – Auswahl von Speziallexika
             – Charakterisierung des OCR-Fehlerkanals




Digitales                                                              OCR-                                       Nach-
                                          OCR                                                                    korrektur                                  IR
Bild                                                                   Resultat
   11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                             5
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.



Dokumentenspezifische Sprach- und
Fehlerprofile
        Sprach- und Fehlerprofile stellen auf Dokumentebene spezifische
        Charakteristika der Sprache und der OCR-Erfassung zur Verfügung.
        Sprachprofile: Anteile fremder Sprachen (etwa Latein), Frequenzmodelle,
        wichtige Muster historischer Sprachvariation (etwa t th, ei ey)
        Fehlerprofile: geschätzte Fehlerrate, wichtige OCR-Fehler (z.B. e c, i l),
        Fehlererkennung und Korrekturvorschläge für einzelne Wörter
        Profile werden vollautomatisch und ausschließlich auf Grundlage der OCR-
        Ausgabe berechnet.




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        6
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.



   Dokumentenspezifische Sprach- und
   Fehlerprofile
           Sprach- und Fehlerprofile können zur Verbesserung der Qualität von
           OCR, Nachkorrektur und Information Retrieval beitragen.



                                                                       Sprach- und
                                                                       Fehlerprofile




Digitales                                                              OCR-                                       Nach-
                                          OCR                                                                    korrektur                                  IR
Bild                                                                   Resultat
   11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                             7
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




     Globales Profil eines Dokuments


Historische
Varianten




  OCR-
  Fehler



     11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        8
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




   Lokales Profil eines Dokuments
           Bewertete Interpretationen/ Korrekturvorschläge für alle Wörter des
           Dokuments:
    „theil“
   „theil“
  „theil“
 „theil“
„Tneil“
   Korrekturvorschlag                                     Moderne Schreibung                                     Wahrscheinlichkeit
   Theil                                                  Teil                                                   0,98
   Keil                                                   Keil                                                   0,01
   …                                                      …                                                      …



   11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        9
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Zusammenfassung
        Dokumentenspezifische Sprach- und Fehlerprofile werden vollautomatisch
        auf Grundlage eines OCR-erfassten Dokuments berechnet.
        Sie liefern Charakteristika der vorgefundenen Sprache sowie des OCR-
        Fehlerkanals, um OCR oder nachverarbeitende Prozesse gezielt auf das
        Dokument einzustellen.




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        10
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




System zur interaktiven
Nachkorrektur von OCR-erfassten
Dokumenten




date footertext                                                                                                                                          11
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Nachkorrektursystem
        Eine graphische Oberfläche zur schnellen und einfachen Nachkorrektur
        speziell von historischen, durch OCR digitalisierten Dokumenten
        Sprach- und Fehlerprofile eröffnen neuartige Möglichkeiten zur Erkennung,
        Präsentation und Korrektur von OCR-Fehlern.




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Nachkorrektursystem
                                                                                                                                                         OCR
Anordnung der Arbeitsfläche frei konfigurierbar:
        – OCR mit Bildsnippets
        – Komplette Bildseite
        – Korrekturkandidaten/
            spezielle Funktionen



Spezielle Funktionen




                                                                                                                                                          Image
date footertext                                                                                                                                                   13
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Nachkorrektursystem
        Erkannter Text wird Wort für Wort direkt mit dem entsprechenden
        Bildausschnitt dargestellt.
        Fehlererkennung durch Profile




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        14
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Nachkorrektursystem
        Originalbild wird auch komplett dargestellt.
          – Nützlich bei schwer lesbaren Wörtern
          – Nützlich, wenn Wortsegmentierung der OCR zu mangelhaft
          – Aktives Wort wird durch Rahmen hervorgehoben




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        15
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Behandlung historischer Varianten
        Historische Varianten werden auf Basis historischer Lexika und von
        Sprachprofile identifiziert und als korrekt dargestellt.
        Auch Korrekturvorchläge beinhalten nicht-moderne Wörter




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        16
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Klassische Korrekturwerkzeuge
        Korrekturen in der Textsicht
          – Durch manuelle Eingabe
          – Durch Auswahl eines Korrekturvorschlags




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        17
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.



Batch-Verarbeitung für systematische OCR-
Fehler
        Fehlerprofile identifizieren die häufigen, systematischen OCR-Fehler
        Ganze Gruppen von gleichartigen Fehlern können schneller und besser
        korrigiert werden.




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        18
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Evaluierung
        User-Experiment mit insgesamt 14 Einzelversuchen
        Verwendung der vorgestellten neuen Technologien beschleunigt die
        Korrektur um das bis zu 2,7-fache.




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        19
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Verfügbarkeit
        Graphische Oberfläche wird in den nächsten Wochen frei verfügbar
        gemacht.
        Vorverarbeitung von Dokumenten zur Erstellung von Sprach- und
        Fehlerprofilen ist durch Patentmeldung geschützt.
          – LMU München wird Preprocessing über Webservice anbieten, der bis auf
            Weiteres kostenlos sein wird.




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        20
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




                                                           Vielen Dank




11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de                                                                                                        21

Weitere ähnliche Inhalte

Ähnlich wie BSB Demo Day - Reffle - Analyse und Nachkorrektur

EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 
BSB Demo Day - Pletschacher - Evaluationswerkzeuge
BSB Demo Day - Pletschacher - EvaluationswerkzeugeBSB Demo Day - Pletschacher - Evaluationswerkzeuge
BSB Demo Day - Pletschacher - EvaluationswerkzeugeIMPACT Centre of Competence
 
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...EuropeanaConnect
 
Europeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenEuropeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenMax Kaiser
 
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.chS. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.chinfoclio.ch
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliothekencneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
Bessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity RecognitionBessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity Recognitioncneudecker
 
EuropeanaConnect
EuropeanaConnectEuropeanaConnect
EuropeanaConnectMax Kaiser
 
Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers
 

Ähnlich wie BSB Demo Day - Reffle - Analyse und Nachkorrektur (16)

BSB Demo Day - Skaric - Kollaborative Korrektur
BSB Demo Day - Skaric - Kollaborative KorrekturBSB Demo Day - Skaric - Kollaborative Korrektur
BSB Demo Day - Skaric - Kollaborative Korrektur
 
BSB Demo Day - Bochow - Einführung
BSB Demo Day - Bochow - EinführungBSB Demo Day - Bochow - Einführung
BSB Demo Day - Bochow - Einführung
 
BSB Demo Day - Schlarb - Workflow-Design
BSB Demo Day - Schlarb - Workflow-DesignBSB Demo Day - Schlarb - Workflow-Design
BSB Demo Day - Schlarb - Workflow-Design
 
BSB Demo Day - Fischer - Strategische Werkzeuge
BSB Demo Day - Fischer - Strategische WerkzeugeBSB Demo Day - Fischer - Strategische Werkzeuge
BSB Demo Day - Fischer - Strategische Werkzeuge
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
BSB Demo Day - Pletschacher - Evaluationswerkzeuge
BSB Demo Day - Pletschacher - EvaluationswerkzeugeBSB Demo Day - Pletschacher - Evaluationswerkzeuge
BSB Demo Day - Pletschacher - Evaluationswerkzeuge
 
Meyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUCMeyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUC
 
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
 
Europeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenEuropeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - Metadaten
 
Fuchs Ocr Impact Workshop MUC
Fuchs Ocr Impact Workshop MUCFuchs Ocr Impact Workshop MUC
Fuchs Ocr Impact Workshop MUC
 
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.chS. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
S. Schneider (E-Lib.ch) - Projekt Web-Portal E-Lib.ch
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Bessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity RecognitionBessere Suchergebnisse durch Named Entity Recognition
Bessere Suchergebnisse durch Named Entity Recognition
 
EuropeanaConnect
EuropeanaConnectEuropeanaConnect
EuropeanaConnect
 
Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday
 

Mehr von IMPACT Centre of Competence

Mehr von IMPACT Centre of Competence (20)

Session6 01.helmut schmid
Session6 01.helmut schmidSession6 01.helmut schmid
Session6 01.helmut schmid
 
Session1 03.hsian-an wang
Session1 03.hsian-an wangSession1 03.hsian-an wang
Session1 03.hsian-an wang
 
Session7 03.katrien depuydt
Session7 03.katrien depuydtSession7 03.katrien depuydt
Session7 03.katrien depuydt
 
Session7 02.peter kiraly
Session7 02.peter kiralySession7 02.peter kiraly
Session7 02.peter kiraly
 
Session6 04.giuseppe celano
Session6 04.giuseppe celanoSession6 04.giuseppe celano
Session6 04.giuseppe celano
 
Session6 03.sandra young
Session6 03.sandra youngSession6 03.sandra young
Session6 03.sandra young
 
Session6 02.jeremi ochab
Session6 02.jeremi ochabSession6 02.jeremi ochab
Session6 02.jeremi ochab
 
Session5 04.evangelos varthis
Session5 04.evangelos varthisSession5 04.evangelos varthis
Session5 04.evangelos varthis
 
Session5 03.george rehm
Session5 03.george rehmSession5 03.george rehm
Session5 03.george rehm
 
Session5 02.tom derrick
Session5 02.tom derrickSession5 02.tom derrick
Session5 02.tom derrick
 
Session5 01.rutger vankoert
Session5 01.rutger vankoertSession5 01.rutger vankoert
Session5 01.rutger vankoert
 
Session4 04.senka drobac
Session4 04.senka drobacSession4 04.senka drobac
Session4 04.senka drobac
 
Session3 04.arnau baro
Session3 04.arnau baroSession3 04.arnau baro
Session3 04.arnau baro
 
Session3 03.christian clausner
Session3 03.christian clausnerSession3 03.christian clausner
Session3 03.christian clausner
 
Session3 02.kimmo ketunnen
Session3 02.kimmo ketunnenSession3 02.kimmo ketunnen
Session3 02.kimmo ketunnen
 
Session3 01.clemens neudecker
Session3 01.clemens neudeckerSession3 01.clemens neudecker
Session3 01.clemens neudecker
 
Session2 04.ashkan ashkpour
Session2 04.ashkan ashkpourSession2 04.ashkan ashkpour
Session2 04.ashkan ashkpour
 
Session2 03.juri opitz
Session2 03.juri opitzSession2 03.juri opitz
Session2 03.juri opitz
 
Session2 02.christian reul
Session2 02.christian reulSession2 02.christian reul
Session2 02.christian reul
 
Session2 01.emad mohamed
Session2 01.emad mohamedSession2 01.emad mohamed
Session2 01.emad mohamed
 

BSB Demo Day - Reffle - Analyse und Nachkorrektur

  • 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Analyse und Nachkorrektur historischer und OCR- erfasster Ergebnisse Ulrich Reffle, CIS, LMU München 11.10.2011
  • 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Inhalt Dokumentenspezifische Analyse historischer und OCR-erfasster Texte Ein System zur interaktiven OCR-Nachkorrektur 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 2
  • 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dokumentenspezifische Analyse historischer und OCR-erfasster Texte date footertext 3
  • 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Warum spezielle Methoden? Spezifische Probleme in der Verarbeitung historischer Sprache im Kontext von Digitalisierung und Massendigitalisierung: – Hohe OCR-Fehlerraten – Nicht-standardisierte Sprache Spezielle Ressourcen und Methoden für OCR, Nachbearbeitung und Retrieval notwendig Digitales OCR- Nach- OCR korrektur IR Bild Resultat 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 4
  • 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Warum spezielle Methoden? Heterogenität der Vorlagen erfordert dokumentenspezifische Einstellungen: – Historische Varianten – Auswahl von Speziallexika – Charakterisierung des OCR-Fehlerkanals Digitales OCR- Nach- OCR korrektur IR Bild Resultat 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 5
  • 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dokumentenspezifische Sprach- und Fehlerprofile Sprach- und Fehlerprofile stellen auf Dokumentebene spezifische Charakteristika der Sprache und der OCR-Erfassung zur Verfügung. Sprachprofile: Anteile fremder Sprachen (etwa Latein), Frequenzmodelle, wichtige Muster historischer Sprachvariation (etwa t th, ei ey) Fehlerprofile: geschätzte Fehlerrate, wichtige OCR-Fehler (z.B. e c, i l), Fehlererkennung und Korrekturvorschläge für einzelne Wörter Profile werden vollautomatisch und ausschließlich auf Grundlage der OCR- Ausgabe berechnet. 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 6
  • 7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dokumentenspezifische Sprach- und Fehlerprofile Sprach- und Fehlerprofile können zur Verbesserung der Qualität von OCR, Nachkorrektur und Information Retrieval beitragen. Sprach- und Fehlerprofile Digitales OCR- Nach- OCR korrektur IR Bild Resultat 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 7
  • 8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Globales Profil eines Dokuments Historische Varianten OCR- Fehler 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 8
  • 9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Lokales Profil eines Dokuments Bewertete Interpretationen/ Korrekturvorschläge für alle Wörter des Dokuments: „theil“ „theil“ „theil“ „theil“ „Tneil“ Korrekturvorschlag Moderne Schreibung Wahrscheinlichkeit Theil Teil 0,98 Keil Keil 0,01 … … … 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 9
  • 10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Zusammenfassung Dokumentenspezifische Sprach- und Fehlerprofile werden vollautomatisch auf Grundlage eines OCR-erfassten Dokuments berechnet. Sie liefern Charakteristika der vorgefundenen Sprache sowie des OCR- Fehlerkanals, um OCR oder nachverarbeitende Prozesse gezielt auf das Dokument einzustellen. 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 10
  • 11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. System zur interaktiven Nachkorrektur von OCR-erfassten Dokumenten date footertext 11
  • 12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Nachkorrektursystem Eine graphische Oberfläche zur schnellen und einfachen Nachkorrektur speziell von historischen, durch OCR digitalisierten Dokumenten Sprach- und Fehlerprofile eröffnen neuartige Möglichkeiten zur Erkennung, Präsentation und Korrektur von OCR-Fehlern. 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 12
  • 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Nachkorrektursystem OCR Anordnung der Arbeitsfläche frei konfigurierbar: – OCR mit Bildsnippets – Komplette Bildseite – Korrekturkandidaten/ spezielle Funktionen Spezielle Funktionen Image date footertext 13
  • 14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Nachkorrektursystem Erkannter Text wird Wort für Wort direkt mit dem entsprechenden Bildausschnitt dargestellt. Fehlererkennung durch Profile 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 14
  • 15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Nachkorrektursystem Originalbild wird auch komplett dargestellt. – Nützlich bei schwer lesbaren Wörtern – Nützlich, wenn Wortsegmentierung der OCR zu mangelhaft – Aktives Wort wird durch Rahmen hervorgehoben 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 15
  • 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Behandlung historischer Varianten Historische Varianten werden auf Basis historischer Lexika und von Sprachprofile identifiziert und als korrekt dargestellt. Auch Korrekturvorchläge beinhalten nicht-moderne Wörter 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 16
  • 17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Klassische Korrekturwerkzeuge Korrekturen in der Textsicht – Durch manuelle Eingabe – Durch Auswahl eines Korrekturvorschlags 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 17
  • 18. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Batch-Verarbeitung für systematische OCR- Fehler Fehlerprofile identifizieren die häufigen, systematischen OCR-Fehler Ganze Gruppen von gleichartigen Fehlern können schneller und besser korrigiert werden. 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 18
  • 19. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Evaluierung User-Experiment mit insgesamt 14 Einzelversuchen Verwendung der vorgestellten neuen Technologien beschleunigt die Korrektur um das bis zu 2,7-fache. 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 19
  • 20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Verfügbarkeit Graphische Oberfläche wird in den nächsten Wochen frei verfügbar gemacht. Vorverarbeitung von Dokumenten zur Erstellung von Sprach- und Fehlerprofilen ist durch Patentmeldung geschützt. – LMU München wird Preprocessing über Webservice anbieten, der bis auf Weiteres kostenlos sein wird. 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 20
  • 21. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Vielen Dank 11.10.2011, Ulrich Reffle uli@cis.uni-muenchen.de 21