Hidden Markov Modelle

3.108 Aufrufe

Veröffentlicht am

Referat zum Thema "Hidden Markov Modelle" im Kurs "Künstliche Intelligenz" an der Universität zu Köln

Veröffentlicht in: Technologie, Bildung
0 Kommentare
2 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
3.108
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
41
Aktionen
Geteilt
0
Downloads
39
Kommentare
0
Gefällt mir
2
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Hidden Markov Modelle

  1. 1. Hidden Markov Modelle Domenico Strigari, Byambasuren Terbish, Bilal Erkin
  2. 2. Hidden Markov Modelle (HMM) i. Geschichte ii. Markovkette iii. Wahrscheinlichkeitsgrundlagen iv. HMM Theorie v. Spracherkennung vi. Forward Algorithmus vii. Viterbi Algorithmus viii. Part of Speech Tagger ix. Ausblick von Bilal Erkin, Domenico Strigari und Terbish Biambasuren Proseminar Künstliche Intelligenz Universität zu Köln SS2009 Mittwoch, 8. Juli 2009
  3. 3. Andrei Andrejewitsch Markow (1856- (1856-1922) 1874-1878 - Universität in St. Petersburg, an der Fakultät für Physik und Mathematik 1885 Habilitationsschrift “Über einige Anwendungen algebraischer Kettenbrüche“ Ab 1886 Professor an der Universität in St. Peterburg 1913 Ansatz über Berechnung der Buchstabensequenzen in russischer Literatur (A.A.Pushkin “Eugen Onegin”) -> stochastischer Markow-Prozess Wesentliche Beiträge zur Wahrscheinlichkeits- theorie und Analysis
  4. 4. 1940- 1940-1950 - "verspätete" westliche Rezeption von Markovs Forschungen in den USA 1960- 1960-1970 Hidden Markow Modelle (HMM) und andere Markow- Markow-Prozesse Bedeutung erst mit der Verbreitung der Computertechnologie ab 80er bis heute sehr populär
  5. 5. „Eugen Onegin” A.S.Puschkin Onegin” Seine Untersuchung betrifft 20.000 russische Buchstaben ohne Sonderzeichen (1 Kapitel und 16 Paragraphen des 2 Kapitels) Zerlegt in 200 einzelne Folgen, je 100 Buchstaben 7 Wahrscheinlichkeitsparameter, die anhand der Häufigkeiten der Vokale, Konsonanten und ihren Kombinationen, geschätzt wurden Ergebnisse von Häufigkeiten durch entsprechende Zeilensumme geteilt in einer Tabelle eingetragen -> Statistische Charakterisierung jedes Buchstaben im Text mit Wahrscheinlichkeit für jeden möglichen Nachfolgebuchstaben
  6. 6. 7 Wahrscheinlichkeitsparameter in der „Eugen Onegin“ Forschung p - Wahrscheinlichkeit, dass ein Buchstabe ein Vokal ist p - Vokal p1 - Vokal Vokal p0 - Konsonant Vokal p1,1 - (Vokal Vokal) Vokal p1,0 - (Vokal Konsonant) Vokal p0,1 - (Konsonant Vokal) Vokal p0,0 - (Konsonant Konsonat) Vokal Der Wert von p wird durch das Zählen der Buchstabenkombinationen geschätzt.
  7. 7. Ergebnisse der Markov Forschung an englischer Übersetzung des „Eugen Onegin” (35 Strophen = 430 Zeilen)
  8. 8. Tabellen mit absoluten und relativen Häufigkeiten von Buchstabenpaaren
  9. 9. Statistische Daten dynamischer Vorgang Startbuchstaben auswählen Gemäß des Wahrscheinlichkeitswertes den Nachfolgebuchstaben wählen Den Vorgang wiederholen für den neugewählten Buchstaben
  10. 10. Ergebnis des dynamischen Vorgangs – - statistisch identischer Text
  11. 11. Stochastischer Prozess Stochastischer Prozess ist eine mathematische Beschreibung von zeitlich geordneten, zufälligen Vorgängen. Der Vorgang besteht in einem wiederholten Springen von einem Zustand zum anderen, wobei die Wahl des nächsten Zustands zufällig ist. Wiederholte Beobachtungen des Vorgangs führen auf Grund des Zufallsfaktors zu unterschiedlichen Ergebnissen. Durch Markov erstmalig beschriebene stochastische Prozesse werden als Markov-Ketten bezeichnet
  12. 12. Markov- Markov-Kette Eine spezielle Klasse von stochastischen Prozessen. Ziel: Wahrscheinlichkeiten für das Auftreten zukünftiger Ereignisse anzugeben. Eigenschaft: bei Kenntnis der gesamten oder begrenzten Vorgeschichte des Prozesses sind Prognosen über die zukünftige Entwicklung möglich.
  13. 13. Markov- Markov-Kette erster Ordnung Die Zukunft des Systems hängt nur von der Gegenwart (dem aktuellen Zustand) und nicht von der Vergangenheit ab. ->Gedächtnislosigkeit oder Eigenschaft der Markov- Kette Die Markov–Kette erster Ordnung ist die einfachste Art der Form der Markov-Prozesse. Vergangenheiten werden berücksichtigt (erweiterte Markov-Eigenschaft).
  14. 14. Markov- Markov-Modell Ist ein Endlicher Automat, der sich bei der Wahl zwischen zwei oder mehr Listen nach vorher festgelegten Wahrscheinlichkeitswerten entscheidet (bsw. für Liste von A besteht eine Chance von 0,02 und für Liste von B 0,3).
  15. 15. Anwendungen der Markov-Kette Markov- Biologie: Die Ausbreitung von Arten und ihre Wechselwirkungen. Physik: Die Bewegung von Staubteilchen in der Luft (Brownsche Bewegung). Chemie: Die Sequenzberechnung in DNS-Molekülen. Informatik: Die Analyse von Computer-Netzwerken und Spracheingaben Ökonomie: Die Dynamik von Börsenkursen und Branchenindizes Logistik und Verkehr: Die Analyse von Warteschlangen und Verkehrsnetzwerken Qualitäts- und Sicherheitstechnik: Die Verfügbarkeit und Sicherheit von technischen Systemen Soziologie: Die Beschreibung von sozialen Netzwerken und sozialem Verhalten
  16. 16. Anwendungsbeispiel Google PageRank Verfahren, welches verlinkte Dokumente in einem vordefinierten Netz bezüglich ihrer Netzintegrität bewertet und gewichtet. Ein Dokument ist um so wichtiger , je häufiger es von anderen verlinkt wird. Wenn die verlinkte Seite selbst einen guten PageRank-Wert hat, dann ist der Link von ihr auf andere Seiten wieder etwas wichtiger. Häufig verlinkte Seiten werden so öfter aufgerufen als weniger stark ins Netz eingebundene und erhalten somit einen höheren Rang.
  17. 17. Anwendungsbeispiel Google PageRank
  18. 18. Beispiel einer einfachen Markov-Kette Markov-
  19. 19. Wie groß ist die Wahrscheinlichkeit, dass nach einem sonnigen Tag das Wetter an den folgenden 5 Tagen “sonnig, regnerisch, regnerisch, bewölkt, sonnig ” ist?
  20. 20. Markov- Markov-Kette 0,375 Regen 0,25 0,375 0,125 0,675 Sonne 0,375 Wolken 0,5 0,25 0,125
  21. 21. Markov- Markov-Kette P(SRRWS | Model) = P(S) P(R|S) P(R|R) P(W|R) P(S|W) s aSR aRR aRW aWS = 1 0,25 0,375 0,675 0,375 = 0,0237 0,375 Regen 0,25 0,375 0,125 0,675 Sonne 0,375 Wolken 0,5 0,25 0,125
  22. 22. Wahrscheinlichkeit Relative Häufigkeit: -Ereignis A, das bei N-Versuchen m-Mal auftaucht. -je mehr Versuche, umso weniger Variation der Ergebnisse -Verallgemeinerung: f(A) = P(A) P(A)=0 unmögliches Ereignis P(A)=1 sicheres Ereignis
  23. 23. Wahrscheinlichkeit Bedingte Wahrscheinlichkeit -Wahrscheinlichkeit eines Wertes hängt von der Wahrscheinlichkeit eines anderen Wertes ab. (ohne B kein A) −Andere Schreibweise könnte sein:
  24. 24. Hidden Markov Modelle • definiert als ein stochastisches Modell, das sich durch 2 Zufallsprozesse beschreiben lässt. • erste Prozess: Markov-Kette, mit verborgenen Zuständen; • zweiter Zufallsprozess: zu jedem Zeitpunkt beobachtbare Ausgabesymbole. • Ausgabesymbol = Observation Ot
  25. 25. Hidden Markov Modell 0,375 Regen 0,25 0,375 0,125 0,675 Sonne 0,375 Wolken 0,5 0,125 0,25 Trocken : 0,6 Trocken : 0,05 Trocken : 0,25 Eher trocken Eher trocken Eher trocken Observationen :0,2 :0,1 :0,25 Eher feucht : Eher feucht : Eher feucht : 0,15 0,35 0,25 Feucht : 0,05 Feucht : 0,5 Feucht : 0,25
  26. 26. Hidden Markov Modelle Hidden Markov Model ist ein Quintupel. =( ) mit S = {S1,S2,…,SN}, endliche Anzahl an Zustände V = {V1,V2,…,VM}, Ausgabealphabet A={aij} , Übergangswahrscheinlichkeitsmatrix B={bj(k)}, Ausgabewahrscheinlichekitsmatrix i, Startwahrscheinlichkeit von Si
  27. 27. Hidden Markov Modelle − Wenn Zustandsstartwahrscheinlichkeiten und Übergangswahrscheinlichkeiten des Modells bekannt, lässt sich Auftrittswahrscheinlichkeit einer bestimmten Zustandsfolge berechnen.
  28. 28. Hidden Markov Modelle -Wenn Zustandsfolge gegeben, und wir Observationen mit berücksichtigen möchten, und ausrechnen wollen, mit welcher Wahrscheinlichkeit eine Observationsfolge mit einer bekannten Zustandsfolge zusammen auftritt, muss die oben stehende Formel erweitert werden.
  29. 29. Hidden Markov Modelle -Da bei Hidden Markov Modellen die Zustände verborgen, und somit die Zustandsfolge unbekannt, kann diese Formel nicht ohne weiteres angewendet werden. -Lösung: nicht eine Zustandsfolge betrachten, sondern alle möglichen Zustandsfolgen berücksichtigen. Diese Formel erlaubt es, ohne Kenntnis der Zustandsfolge, die Auftrittswahrscheinlichkeit der Symbolfolge zu berechnen. (Brute-Force-Methode Laufzeit: O(T NT))
  30. 30. Hidden Markov Modelle - Exponentielle Berechnungen für die möglichen Zustandsfolgen für eine gegebene Observationsfolge -ineffizent, da hohe Rechenleistung 2 Hauptprobleme : 1) Wenn eine Observationsfolge O zu einem HMM gegeben ist, wie lässt sich die Auftrittswahrscheinlichkeit am effizientesten berechnen? 2) Wenn eine Observationsfolge O zu einem HMM gegeben ist, wie lässt sich die verborgene Zustandsfolge ausrechnen?
  31. 31. Fragestellungen an ein Hidden Markov Modell 1. Die Wahrscheinlichkeit, dass eine beliebige Zustandssequenz durch eine gegebene Observationssequenz von dem Modell generiert wird 1,O2,…,OT} P(O| ) Evaluation 2. Die wahrscheinlichste verborgene Zustandsfolge bei gegebener Observationssequenz? Dekodierung 3. Die Modellparameter derart einstellbar das P(O| ) optimiert wird. Training
  32. 32. Forward Algorithmus Es wird ein Trainingsset gesucht, welches am besten bzw. wahrscheinlichsten mit dem Gesprochen zusammenpasst (Spracherkennung)
  33. 33. Forward Algorithmus Gesucht ist in unserem Beispiel die Wahrscheinlichkeit, dass eine beliebige Zustandssequenz von der Observationssequenz Trocken, Eher Trocken, Eher Feucht, Feucht generiert wird P(O| ).
  34. 34. Forward Algorithmus S={H,A,B,E,N} H bH(O1) aHA bA(O2) aAB bB(O3) aBE bE(O4) aEN bN(O5) Diese Berechnung für „haben“ müsste nun N^T oft gemacht werden, also für jede mögliche Zustandsfolge
  35. 35. Naives Verfahren O1 O2 i S oder W oder R S W R O3 S W R S W R S W R O4 S W R S W R S W R S W R S W R S W R S W R S W R S W R t=1 (bi(O1) und i zu berücksichtigen) P(S) (+) P(W) (+) P(R)
  36. 36. Naives Verfahren O1 O2 i S oder W oder R S W R O3 S W R S W R S W R O4 S W R S W R S W R S W R S W R S W R S W R S W R S W R t=2 (bi(O1) bi(O2) ) P(SS,WS und RS) (+) P(SW,WW und RW) (+) P(SR,WR und RR)
  37. 37. Naives Verfahren O1 O2 i S oder W oder R S W R O3 S W R S W R S W R O4 S W R S W R S W R S W R S W R S W R S W R S W R S W R t=3 (bi(O1) bi(O2) bi(O3) ) P(SSS,WSS,RSS,SWS,WWS,RWS,SRS,WRS,RRS) (+) P(SSW,WSW,RSW,SWW,WWW,RWW,SRW,WRW,RRW) (+) P(SSR,WSR,RSR,SWR,WWR,RWR,SRR,WRR,RRR)
  38. 38. Naives Verfahren O1 i S oder W oder R O2 S W R O3 S W R S W R S W R O4 S W R S W R S W R S W R S W R S W R S W R S W R S W R t=4 (bi(O1)bi(O2) bi(O3)bi(O4)) N^T=81 Kombinationsmöglichkeiten einer Zustandsfolge exponentielle Laufzeit
  39. 39. Forward Algorithmus Es wird ein Alpha definiert, welcher die Wahrscheinlichkeiten aller vorherigen Zustandsmöglichkeiten abspeichert dadurch wird eine Berechnung dieser im nächsten Schritt nicht mehr nötig
  40. 40. Forward Algorithmus Beispiel Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen t=1 t=2 t=3 t=4
  41. 41. Forward Algorithmus Beispiel Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 Wolken Regen 1(1)=0.63 0.6 1 1 b1(O1)
  42. 42. Forward Algorithmus Beispiel Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 Wolken 0.0425 Regen 1(2)=0.17 0.25 1 2 b2(O1)
  43. 43. Forward Algorithmus Beispiel Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 Wolken 0.0425 Regen 0.01 1(3)=0.2 0.05 1 3 b3(O1)
  44. 44. Forward Algorithmus Beispiel Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 0.041237503 Wolken 0.0425 Regen 0.01 2(1)= (((0.378 0.5) + (0.0425 0.375) + (0.01 0.125)) 0.2) 2(1)=( ( 1(1) a11) + ( 1(2) a21) + ( 1(3) a31)) b1(O2)
  45. 45. Forward Algorithmus Beispiel Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 0.041237503 Wolken 0.0425 0.026640628 Regen 0.01 2(2)= (((0.378 0.25) + (0.0425 0.125) + (0.01 0.675)) 0.25) 2(2)=( ( 1(1) a12) + ( 1(2) a22) + ( 1(3) a32)) b2(O2)
  46. 46. Forward Algorithmus Beispiel Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 0.041237503 Wolken 0.0425 0.026640628 Regen 0.01 0.011418751 2(3)= (((0.378 0.25) + (0.0425 0.375) + (0.01 0.375)) 0.1) 2(3)=((( 1(1) a13) + ( 1(2) a23) + ( 1(3) a33)) b3(O2))
  47. 47. Forward Algorithmus Beispiel Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 0.041237503 0.00480545 Wolken 0.0425 0.026640628 Regen 0.01 0.011418751 3(1)= (((0.041237503 0.5) + (0.026640628 0.375) + (0.011418751 0.125)) 0.15) 3(1)=((( 2(1) a11) + ( 2(2) a21) + ( 2(3) a31)) b1(O3))
  48. 48. Forward Algorithmus Beispiel Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 0.041237503 0.00480545 0.000273973 Wolken 0.0425 0.026640628 0.005336778 0.0019189683 Regen 0.01 0.011418751 0.008603575 0.0032144971 Wahrscheinlichkeit der Observationsfolge Trocken, Eher Trocken, Eher Feucht und Feucht liegt bei etwa 0,0054074386 und dabei jede Zustandsfolge möglich
  49. 49. Laufzeit Beispiel N=3 T=4 O(N²T) Berechnungen beim Forward Algorithmus O(NT) Speicherbedarf 36 Berechnungen Naives Verfahren O(2TN^T) 648 Berechnungen
  50. 50. Forward Algorithmus Initialisierung : 1 i bi(O1 Induktion : N t+1(j) = [ ∑ t(i) aij ] bj(Ot+1) i =1 Terminierung : N P(O| ) =∑ T(i) i=1
  51. 51. Viterbi Algorithmus Gesucht ist die wahrscheinlichste verborgene Zustandsfolge bei gegebener Observationssequenz: Trocken, Eher Trocken, Eher Feucht, Feucht.
  52. 52. Viterbi Algorithmus Wir definieren ein Delta, welches uns im Vergleich zum Forward Algorithmus nur den wahrscheinlichsten Ausgangszustand heraussucht.
  53. 53. Viterbi Algorithmus Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 Wolken 0.0425 Regen 0.01 1(1)= 0.63 0.6 1(2)= 0.17 0.25 1(3)= 0.2 0.05
  54. 54. Viterbi Algorithmus Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 0.0378 Wolken 0.0425 0.023625 Regen 0.01 0.00945 2(1)= max((0.378 0.5), (0.0425 0.375), (0.01 0.125)) 0.2 2(2)= max ((0.378 0.25), (0.0425 0.125), (0.01 0.675)) 0.25 2(3)= max ((0.378 0.25), (0.0425 0.375), (0.01 0.375)) 0.1
  55. 55. Viterbi Algorithmus Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 0.0378 0.002835 Wolken 0.0425 0.023625 0.0023625 Regen 0.01 0.00945 0.0033075 3(1)= max ((0.0378 0.5), (0.023625 0.375), (0.00945 0.125)) 0.15 3(2)= max ((0.378 0.25), (0.0425 0.125), (0.01 0.675)) 0.25 3(3)= max ((0.378 0.25), (0.0425 0.375), (0.01 0.375)) 0.1
  56. 56. Viterbi Algorithmus Zust.Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne 0.378 0.0378 0.002835 0.00007087501 Wolken 0.0425 0.023625 0.0023625 0.0005581407 Regen 0.01 0.00945 0.0033075 0.0006201563 4(1)= 0.00007087501 4(2)= 0.0005581407 4(3)= 0.0006201563 Wahrscheinlichste Zustandsfolge=SSRR
  57. 57. Laufzeit Ebenfalls wie beim Forward Algorithmus O(N²T) und Speicheraufwand auch identisch O(NT)
  58. 58. Viterbi Algorithmus Initialisierung : 1 ibi(O1 1(i) =0 Rekursion : t(j) = max [ t-1(i)aij]bj(Ot t(j) = argmax [ t-1(i)aij] Terminierung : P* = max [ t(i)] qT* = argmax [ t(i)] Pfad (Zustandssequenz) Backtracking : qt* = t+1(q*t+1) t = T-1,T-2,…,1
  59. 59. Spracherkennung • Was ist Spracherkennung? – Unter Spracherkennung (engl. speech recognition) versteht man das Erkennen gesprochener Sprache.
  60. 60. Spracherkennung • Sprecherunabhängige Spracherkennung – Keine Trainingsphase – Geringer Wortschatz – Mehrere Benutzer möglich • Sprecherabhängige Spracherkennung – Anpassung auf den jeweiligen Benutzer – Trainingsphase – Keine wechselnden Benutzer möglich
  61. 61. Spracherkennung • Diskrete Sprache – Künstliche Pause zwischen den Wörtern • Kontinuierliche Sprache – Flüssige Aussprache ohne Pause
  62. 62. Spracherkennung • Bürolärm • Fahrgeräusche • Andere Personen • Rauschen der Telefonleitung Diese sollten entfernt werden
  63. 63. Spracherkennung • Wörter die identisch klingen, aber eine andere Bedeutung haben • • • Usw…
  64. 64. Spracherkennung - Vorverarbeitung • Entfernung von Störgeräuschen • Entfernung von Sprachsignalen anderer Personen Ziel: Vereinfachung und Beschleunigung der Weiterverarbeitung
  65. 65. Spracherkennung - Merkmalsextraktion • Blockweise Aufteilung des Audiosignals • Abfolge von Merkmalsvektoren
  66. 66. Spracherkennung - Untereinheitenvergleich • Umwandlung der Merkmalsvektoren in Phoneme, Silben und Wörter • Angewendete Sprachmoddelle: – Hidden-Markov-Modelle – Neuronale Netze –…
  67. 67. HIDDEN- HIDDEN-MARKOV MODELLE O F E N
  68. 68. HIDDEN- HIDDEN-MARKOV MODELLE - II Übergänge zu den nächsten Zuständen enthalten Wahrscheinlichkeitswerte O F E N
  69. 69. HIDDEN- HIDDEN-MARKOV MODELLE - Ablauf Errechnen eines Phonems und Vergleich mit dem Audiosignal Wiederholdung, falls keine Übereinstimmung
  70. 70. HIDDEN- HIDDEN-MARKOV MODELLE - Ablauf Ausgabe des Phonems bei Übereinstimmung O
  71. 71. HIDDEN- HIDDEN-MARKOV MODELLE - Ablauf Übergang zum nächsten Zustand O
  72. 72. HIDDEN- HIDDEN-MARKOV MODELLE - Ablauf Übergang zum nächsten Zustand O F E N
  73. 73. Spracherkennung- Spracherkennung- HMM -Wörter, Silben oder Phoneme werden durch HMM repräsentiert -2 Ansätze: Ganzwortmodell vs Phonemmodell Ganzwortmodelle: für kleinere spezialisierte Wortschätze (Bahnauskunft)
  74. 74. Ganzwortmodelle – Schritte Schritte: -Festlegung eines Vokabulars -Beschaffung von Referenzäußerungen -Worttraining -innere Struktur eines Wortes ist nötig, -Optimierung: Anzahl der Zustände = Anzahl der Phoneme Nachteil: -ein und derselbe Laut, wird immer neu generiert, wenn es in anderen Wörtern vorkommt. unnötiger Speicherplatzbedarf
  75. 75. Phonemmodelle -Modellierung von Wortuntereinheiten sind wesentlich flexibler Wörter können nach Baukastenprinzip erstellt werden -Inventar: Gesamtheit der Modelle (Phoneme) -Bei Aufnahme eines Wortes in das Vokabular, wird es in Phoneme unterteilt
  76. 76. Phonemmodelle -Aussprachevarianten können eingetragen werden -Probleme bei: Eigennamen, Abkürzungen, Markennamen, elektronische Geräte…
  77. 77. Kombination zu Wortmodellen -Folge von Phonemen, werden einander angehängt -In der kontinuierlichen Sprache müssen Vorgänger und Nachfolger mit berücksichtigt werden
  78. 78. Erkennung -Training: Wortpaare werden empirisch erhoben und Auftrittswahrscheinlichekiten werden als Parameter übergeben -HMM‘s auch bei Erkennung der Grammatik/ Syntax genutzt
  79. 79. Spracherkennung – Perspektiven Keinen universellen Spracherkenner Systeme für spezielle Anwendungen Optimierung bei der Entfernung der Umgebungsgeräusche Erkennung unbekannter Wörter
  80. 80. Part of Speech Tagger „ Unter Part-of-speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech).“ Wikipedia
  81. 81. Part of Speech Tagger Sie bieten die Möglichkeit: Sätze in Tokens aufzuteilen Alle möglichen Tags für ein Wort zu finden (morphologische Analyse) Eindeutige Wortartklärung der Wörter (Disambiguierung) Training vorhandener Sets oder es können neue angelegt werden
  82. 82. Part of Speech Tagger Beispiel: Eingabe: Where is the teacher? Observation Ausgabe: Where_WRB is_VB the_DT teacher_NN ? die Ausgabeform ist je nach Tagger unterschiedlich Tags je nach Corpus unterschiedlich (Brown Corpus für Englisch) jeder Corpus hat meist ein unterschiedliches Tagset ein bekanntes Tagset ist das Penn Treebank Tagset http://www.mozart-oz.org/mogul/doc/lager/brill-tagger/penn.html
  83. 83. Part of Speech Tagger Beispiel: Where is the teacher? Observation Gesucht sind die Wortarten (Zustände) „Where“ kann sowohl Konjunktion sein, also einleitender Wortbestandteil eines Nebensatzes , als auch ein Adverb im Sinne eines Frage-wortes. Alle anderen Satzbestandteile sind eindeutig einer Wortart zuweisbar.
  84. 84. Part of Speech Tagger Beispiel: …,where the teacher is. Nebensatz mit Konjunktion Unser Modell ermöglicht es also, die Wortart der Konjunktion auszuschließen, da nach einer Konjunktion in der Regel kein „is“ folgt. Per Training der Modelle lassen sich so neue Sprachen modellieren und somit leßbar machen
  85. 85. Schlusswort Vorteile: hervorragendes Werkzeug zum Modellieren von stochastisch berechenbaren Vorgängen die Erreichbarkeit zwischen den Zuständen in beliebig vielen Schritten leicht berechenbar unendlich große Anzahl an Einsatzmöglichkeiten und Anwendungen einfache Definition leichte Erlernbarkeit und Lesbarkeit
  86. 86. Schlusswort Nachteile: Mit steigender Komplexität des abzubildenden Systems wächst die Komplexität der Markow- Kette rapide an, sodass sie schnell unübersichtlich bzw. aufwendiger wird Etwaige Nachbesserungen und Korrekturen werden aus obiger Erkenntnis schwieriger und aufwändiger

×