Übergangswahrscheinlichkeiten

Ansatz zur Fehlerkorrektur in OCR-Systemen
Angewandte linguistische Datenverarbeitung, WS 2009 / 2010

Bilal Erkin

 Andrei Andrejewitsch Markov
(†1922)

 Untersucht das Gedicht
„Eugene Onegin“ von
Alexander Puschkin

 Annahme: bestimmte
Buchstabenpaare sind häufiger
als andere

 Так думал молодой повеса,
Летя в пыли на почтовых,
Всевышней волею Зевеса
Наследник всех своих родных.
Друзья Людмилы и Руслана!
С героем моего романа
Без предисловий, сей же час
Позвольте познакомить вас:
Онегин, добрый мой приятель,
Родился на брегах Невы,
Где, может быть, родились вы
Или блистали, мой читатель;
Там некогда гулял и я:
Но вреден север для меня.

Auszug aus dem Versroman Buchstabenpaare mit ihren
von Alexander Puschkin Übergangswahrscheinlichkeiten

 Eine Menge möglicher Zustände und eine
Angabe der Übergangswahrscheinlichkeiten
zwischen ihnen

 Wechsel zwischen den Zuständen immer
zufällig  „stochastischer Prozess“

0,001

A
0,081
0,092
0,021 0,023

B 0,000 C
0,005 0,000 0,012

e 16,65% er re 4594
n 10,36% en ne 3759
i 8,14% es se 2820
r 7,94% de ed 2644
s 5,57% ar ra 2011
t 5,43% in ni 1890
a 5,15% te te 1885
h 4,76% ie ei 1815
d 4,21% an na 1808
u 4,01% al la 1680
Monogrammhäufigkeiten Digrammhäufigkeiten

ICH 1435 CHEN 617
EIN 1366 SICH 357
SCH 1277 ICHE 347
UND 822 NDER 321
UNG 810 NGEN 286
CHT 734 SSEN 276
VER 520 EICH 244
AUS 433 ENDE 244
ERS 385 SEIN 227

Trigrammstatistik Tetragrammstatistik

 Authentifizierung von Texten
◦ Übergangsstatistik für einen Autor
◦ Übergangsstatistik für einen anderen Text
◦ Vergleich und Prüfung der Abweichung

 Korrekturmechanismus in OCR

◦ Beispiel: „gehen“ wird als „geheri“ erkannt

 Schritt 1: Kontrolle von „ri“ in geheri

◦ Auftrittswahrscheinlichkeit von „ri“:
 Insgesamt 4825 mal
 Davon 2198 mal nach der 5. Stelle im Wort

 Hypothese: „ri“ ist möglich

 Schritt 2: Kontrolle von „er“ in geheri

◦ Auftrittswahrscheinlichkeit von „er“:
 Insgesamt 42909 mal
 Davon 5088 an der 4. Stelle im Wort

 Hypothese: „er“ ist möglich

 Schritt 3: Kontrolle von „eri“ in geheri

◦ Auftrittswahrscheinlichkeit von „eri“:
 Tritt nicht auf!
 Kann trotzdem stimmen

 Hypothese: „eri“ ist zweifelhaft

 Schritt 4: Kontrolle von „heri“ in geheri

◦ Entfällt, da „eri“ nicht auftritt

 Ähnliche Orthografie zu „ri“
◦ rj
◦ n
◦ d
◦ h
◦ …

 Prüfung nach der wahrscheinlichsten
Möglichkeit ( Monogrammstatistik)

 Kontrolle von „en“ in gehen

◦ Auftrittswahrscheinlichkeit von „en“:
 Insgesamt 46061 mal (vs. 42909 mal bei „er“)
 5599 mal an der 4. Stelle (vs. 5088 bei „er“)

 Hypothese: „en“ ist wahrscheinlicher als „eri“

 Visueller Hinweis auf den potenziellen Fehler

 Dialogfenster, mit Lösungsvorschlag „en“

 Option zur Selbstkorrigierung

 Durch Interaktion erweiterbar und trainierbar

 Andere: vvenn  wenn; zusamrnen  zusammen

 Themenbasierte Statistiken mit
Übergangswahrscheinlichkeiten

 Mögliche Textsorten:
◦ Medizin
◦ Juristisch
◦ Mathematik
◦ Gedicht
◦ Politik
◦ Umgangssprache

Übergangswahrscheinlichkeiten

Übergangswahrscheinlichkeiten

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (13)

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

Übergangswahrscheinlichkeiten