Ansatz zur Fehlerkorrektur in OCR-Systemen
  Angewandte linguistische Datenverarbeitung, WS 2009 / 2010

                 ...
   Andrei Andrejewitsch Markov
    (†1922)

   Untersucht das Gedicht
    „Eugene Onegin“ von
    Alexander Puschkin

 ...
   Так думал молодой повеса,
    Летя в пыли на почтовых,
    Всевышней волею Зевеса
    Наследник всех своих родных.
   ...
   Eine Menge möglicher Zustände und eine
    Angabe der Übergangswahrscheinlichkeiten
    zwischen ihnen

   Wechsel zw...
0,001

                             A
            0,081
                                         0,092
                   ...
e       16,65%        er   re      4594
   n       10,36%        en   ne      3759
   i        8,14%        es   se      2...
ICH          1435    CHEN          617
 EIN          1366     SICH         357
 SCH          1277     ICHE         347
 UN...
   Authentifizierung von Texten
    ◦ Übergangsstatistik für einen Autor
    ◦ Übergangsstatistik für einen anderen Text
...
   Schritt 1: Kontrolle von „ri“ in geheri

    ◦ Auftrittswahrscheinlichkeit von „ri“:
      Insgesamt 4825 mal
      ...
   Schritt 2: Kontrolle von „er“ in geheri

    ◦ Auftrittswahrscheinlichkeit von „er“:
      Insgesamt 42909 mal
     ...
   Schritt 3: Kontrolle von „eri“ in geheri

    ◦ Auftrittswahrscheinlichkeit von „eri“:
      Tritt nicht auf!
      ...
   Schritt 4: Kontrolle von „heri“ in geheri

    ◦ Entfällt, da „eri“ nicht auftritt
   Ähnliche Orthografie zu „ri“
    ◦   rj
    ◦   n
    ◦   d
    ◦   h
    ◦   …



   Prüfung nach der wahrscheinlich...
   Kontrolle von „en“ in gehen

    ◦ Auftrittswahrscheinlichkeit von „en“:
      Insgesamt 46061 mal (vs. 42909 mal bei...
   Visueller Hinweis auf den potenziellen Fehler

   Dialogfenster, mit Lösungsvorschlag „en“

   Option zur Selbstkorr...
   Themenbasierte Statistiken mit
    Übergangswahrscheinlichkeiten

   Mögliche Textsorten:
    ◦   Medizin
    ◦   Jur...
Übergangswahrscheinlichkeiten
Nächste SlideShare
Wird geladen in …5
×

Übergangswahrscheinlichkeiten

750 Aufrufe

Veröffentlicht am

Referatspräsentation zum Thema "Übergangswahrscheinlichkeiten" - Ansatz zur Fehlerkorrektur in OCR Systemen. Präsentiert im Seminar "Angewandte linguistische Datenerarbeitung" für das Fach "Informationsverarbeitung" an der Universität zu Köln.

Veröffentlicht in: Bildung
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
750
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
19
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Übergangswahrscheinlichkeiten

  1. 1. Ansatz zur Fehlerkorrektur in OCR-Systemen Angewandte linguistische Datenverarbeitung, WS 2009 / 2010 Bilal Erkin
  2. 2.  Andrei Andrejewitsch Markov (†1922)  Untersucht das Gedicht „Eugene Onegin“ von Alexander Puschkin  Annahme: bestimmte Buchstabenpaare sind häufiger als andere
  3. 3.  Так думал молодой повеса, Летя в пыли на почтовых, Всевышней волею Зевеса Наследник всех своих родных. Друзья Людмилы и Руслана! С героем моего романа Без предисловий, сей же час Позвольте познакомить вас: Онегин, добрый мой приятель, Родился на брегах Невы, Где, может быть, родились вы Или блистали, мой читатель; Там некогда гулял и я: Но вреден север для меня. Auszug aus dem Versroman Buchstabenpaare mit ihren von Alexander Puschkin Übergangswahrscheinlichkeiten
  4. 4.  Eine Menge möglicher Zustände und eine Angabe der Übergangswahrscheinlichkeiten zwischen ihnen  Wechsel zwischen den Zuständen immer zufällig  „stochastischer Prozess“
  5. 5. 0,001 A 0,081 0,092 0,021 0,023 B 0,000 C 0,005 0,000 0,012
  6. 6. e 16,65% er re 4594 n 10,36% en ne 3759 i 8,14% es se 2820 r 7,94% de ed 2644 s 5,57% ar ra 2011 t 5,43% in ni 1890 a 5,15% te te 1885 h 4,76% ie ei 1815 d 4,21% an na 1808 u 4,01% al la 1680 Monogrammhäufigkeiten Digrammhäufigkeiten
  7. 7. ICH 1435 CHEN 617 EIN 1366 SICH 357 SCH 1277 ICHE 347 UND 822 NDER 321 UNG 810 NGEN 286 CHT 734 SSEN 276 VER 520 EICH 244 AUS 433 ENDE 244 ERS 385 SEIN 227 Trigrammstatistik Tetragrammstatistik
  8. 8.  Authentifizierung von Texten ◦ Übergangsstatistik für einen Autor ◦ Übergangsstatistik für einen anderen Text ◦ Vergleich und Prüfung der Abweichung  Korrekturmechanismus in OCR ◦ Beispiel: „gehen“ wird als „geheri“ erkannt
  9. 9.  Schritt 1: Kontrolle von „ri“ in geheri ◦ Auftrittswahrscheinlichkeit von „ri“:  Insgesamt 4825 mal  Davon 2198 mal nach der 5. Stelle im Wort  Hypothese: „ri“ ist möglich
  10. 10.  Schritt 2: Kontrolle von „er“ in geheri ◦ Auftrittswahrscheinlichkeit von „er“:  Insgesamt 42909 mal  Davon 5088 an der 4. Stelle im Wort  Hypothese: „er“ ist möglich
  11. 11.  Schritt 3: Kontrolle von „eri“ in geheri ◦ Auftrittswahrscheinlichkeit von „eri“:  Tritt nicht auf!  Kann trotzdem stimmen  Hypothese: „eri“ ist zweifelhaft
  12. 12.  Schritt 4: Kontrolle von „heri“ in geheri ◦ Entfällt, da „eri“ nicht auftritt
  13. 13.  Ähnliche Orthografie zu „ri“ ◦ rj ◦ n ◦ d ◦ h ◦ …  Prüfung nach der wahrscheinlichsten Möglichkeit ( Monogrammstatistik)
  14. 14.  Kontrolle von „en“ in gehen ◦ Auftrittswahrscheinlichkeit von „en“:  Insgesamt 46061 mal (vs. 42909 mal bei „er“)  5599 mal an der 4. Stelle (vs. 5088 bei „er“)  Hypothese: „en“ ist wahrscheinlicher als „eri“
  15. 15.  Visueller Hinweis auf den potenziellen Fehler  Dialogfenster, mit Lösungsvorschlag „en“  Option zur Selbstkorrigierung  Durch Interaktion erweiterbar und trainierbar  Andere: vvenn  wenn; zusamrnen  zusammen
  16. 16.  Themenbasierte Statistiken mit Übergangswahrscheinlichkeiten  Mögliche Textsorten: ◦ Medizin ◦ Juristisch ◦ Mathematik ◦ Gedicht ◦ Politik ◦ Umgangssprache

×