Spracherkennung

2.568 Aufrufe

Veröffentlicht am

Referat zum Thema "Spracherkennung" im Fach "Computerlinguistische Grundlagen" an der Universität zu Köln.

Veröffentlicht in: Technologie, Bildung
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.568
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
25
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Spracherkennung

  1. 1. SPRACHERKENNUNG UNIVERSITÄT ZU KÖLN COMPUTERLINGUISTIK IM WS 2008 / 09 JENNIFER STEINBACH BILAL ERKIN Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  2. 2. SPRACHERKENNUNG  Was ist Spracherkennung?  Unter Spracherkennung (engl. speech recognition) versteht man das Erkennen gesprochener Sprache. Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  3. 3. GESCHICHTE • Erforschung von Spracherkennungssystemen seit den 1960er Jahren • bis zum Beginn der 1980er Jahre wenig Fortschritte; Erkennung von gerade mal einigen hundert Einzelwörtern • im Jahre 1962 wird von IBM das erste Sprachausgabegerät vorgestellt • ab 1988 Entwicklung von TANGORA deutsch in Heidelberg, es umfasst etwa 2020-30 tausend Wörter; Einsatzgebiete in der Medizin, dem Gerichtswesen sowie der Geschäftskorrespondenz • IBM entwickelt 1992 SpeechServer als Client/Server Client/Server-System - Server benötigte RISC-Prozessoren - Kostenpunkt um die 10.000$ • IBM entwirft 1993 erneut ein Spracherkennungssystem  Personal DictationSystem (heute: IBM VoiceType) - Spracherkennung erstmals für den breiten Markt - Kostenpunkt unter 1.000$ • 1994 konzipiert die Firma Philips DictationSystems das erste Client/Server Client/Server-System für Spracherkennung • drei Jahre später entwickelte Philips DictationSystems das erste Konsumentenprodukt (FreeSpeech98) Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  4. 4. SPRACHERKENNUNG  Sprecherunabhängige Spracherkennung  Keine Trainingsphase  Geringer Wortschatz  Mehrere Benutzer möglich  Sprecherabhängige Spracherkennung  Anpassung auf den jeweiligen Benutzer  Trainingsphase  Keine wechselnden Benutzer möglich Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  5. 5. HERAUSFORDERUNGEN HERAUSFORDERUNGE AUSSPRACHE UMGEBUNGSGERÄUSCHE HOMOPHONE VOKALERKENNUNG Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  6. 6. AUSSPRACHE  Diskrete Sprache  Künstliche Pause zwischen den Wörtern  Kontinuierliche Sprache  Flüssige Aussprache ohne Pause Bilder: www.wikipedia.de Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  7. 7. UMGEBUNGSGERÄUSCHE  Bürolärm  Fahrgeräusche  Andere Personen  Rauschen der Telefonleitung  Diese sollten entfernt werden Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  8. 8. HOMOPHONE  Wörter die identisch klingen, aber eine andere Bedeutung haben  Meer ≠ mehr  Graf ≠ Graph  Usw… Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  9. 9. VOKALERKENNUNG  Vokale sind von ihren Frequenzbereichen zu unterscheiden  „O“ liegt im Frequenzbereich tiefer als „E“ Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  10. 10. REALISIERUNG VORVERARBEITUNG MERKMALSEXTRAKTION UNTEREINHEITENVERGLEICH HIDDEN-MARKOV-MODELLE SYNTAKTISCHE / SEMANTISCHE ANALYSE Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  11. 11. VORVERARBEITUNG  Entfernung von Störgeräuschen  Entfernung von Sprachsignalen anderer Personen Ziel: Vereinfachung und Beschleunigung der Weiterverarbeitung Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  12. 12. MERKMALSEXTRAKTION  Blockweise Aufteilung des Audiosignals  Abfolge von Merkmalsvektoren Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  13. 13. UNTEREINHEITENVERGLEICH  Umwandlung der Merkmalsvektoren in Phoneme, Silben und Wörter  Angewendete Sprachmoddelle:  Hidden-Markov-Modelle  Neuronale Netze  … Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  14. 14. HIDDEN-MARKOV MARKOV-MODELLE  Stochastische Methode, um Phoneme zu finden, die am besten zu den Eingangssignalen passen  Fehlt ein wichtiges Phonem, kann das Wort nicht zugeordnet werden  HMMs berechnen die Wahrscheinlichkeit aus welcher Folge von Phonemen das Wort enstanden sein könnte Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  15. 15. HIDDEN-MARKOV MODELLE MARKOV  Jedes Phonem wird durch einen Zustand dargstellt O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  16. 16. HIDDEN-MARKOV MODELLE - II MARKOV  Übergänge zu den nächsten Zuständen enthalten Wahrscheinlichkeitswerte O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  17. 17. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Aussuchen eines Phonems und Vergleich mit dem Audiosignal  Wiederholdung, falls keine Übereinstimmung Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  18. 18. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Ausgabe des Phonems bei Übereinstimmung O Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  19. 19. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Übergang zum nächsten Zustand O Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  20. 20. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Übergang zum nächsten Zustand O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  21. 21. HIDDEN-MARKOV MODELLE – Ablauf MARKOV  HMMs können auch auf anderen Ebenen angewendet werden (Syntax, Semantik) O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  22. 22. SYNTAKTISCHE / SEMANTISCHE ANALYSE  Syntaktische Analyse  Zulassung von Wörtern, die nur im Wörterbuch vorhanden sind  Vorgegebene Reihenfolge der Wörter (Grammatik)  Semantische Analyse  Erkennung der Satzstruktur Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  23. 23. PERSPEKTIVEN  Keinen universellen Spracherkenner  Systeme für spezielle Anwendungen  Optimierung bei der Entfernung der Umgebungsgeräusche  Erkennung unbekannter Wörter Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  24. 24. WINDOWS VISTA - SPRACHERKENNUNG • Windows Vista verfügt über leistungsstarke Sprachfeatures • Mit Hilfe dieser Sprachfeatures wird dem Anwender ermöglicht, den Computer statt mit der Tastatur oder der Maus mittels Sprachbefehlen zu steuern. • Die Spracherkennung unter Windows Vista ermöglicht die Interaktion mit dem Computer per Stimme. • Es können Dokumente und E E-Mail-Nachrichten in gängigen Anwendungen diktiert und Formulare im Internet mit Hilfe von Sprachbefehlen ausgefüllt werden. Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  25. 25. SPRACHERKENNUNG - ENTWICKLUNG • Entwicklung von multilingualen Spracherkennungssystemen • Multilinguale Spracherkennungssysteme: o Dies sind Systeme, die für mehrere Sprachen gleichzeitig genutzt werden können. Vorteile: - man kann während des Diktiervorgangs zwischen den Sprachen wechseln Nachteile: - Entwicklung sehr kostspielig, da erst das gesamte Vokabular der jeweiligen Sprache erfasst werden muss - Entwicklungsdauer somit sehr lang - es gibt bis jetzt kein System, das diese Fähigkeiten aufweist Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  26. 26. QUELLENNACHWEIS • http://digbib.ubka.uni-karlsruhe.de/volltexte/1000008467 karlsruhe.de/volltexte/1000008467 • http://www.lars-lehre.de/download/Vorlesung5.pdf • http://www.fh-wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm • Vater, H. (1994): Einführung in die Sprachwissenschaft. München: Fink. • Carstensen, K.U., Ebert, C., Endriss, C., Jekat, S., Klabunde, R., Langer, H. (2004): Computerlinguistik und Sprachtechnologie. Eine Einführung (2. Auflage). Heidelberg, Berlin: Spektrum. • Euler, Stefan: Grundkurs Spracherkennung, Vieweg-Verlag, Wiesbaden, 2006. Verlag,  Mitkov, Ruslan (hrsg.): The Oxford handbook of computational linguistics, Oxford University Press, Oxford, 2005.  www8.informatik.uni-erlangen.de/IMMD8/Lectures/AI- -GAMES/SS2002/hs/vortraege/12062002/VoiceCCC.ppt  http://nats-www.informatik.uni-hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

×