Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Spracherkennung

2.879 Aufrufe

Veröffentlicht am

Referat zum Thema "Spracherkennung" im Fach "Computerlinguistische Grundlagen" an der Universität zu Köln.

Veröffentlicht in: Technologie, Bildung
  • Als Erste(r) kommentieren

Spracherkennung

  1. 1. SPRACHERKENNUNG UNIVERSITÄT ZU KÖLN COMPUTERLINGUISTIK IM WS 2008 / 09 JENNIFER STEINBACH BILAL ERKIN Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  2. 2. SPRACHERKENNUNG  Was ist Spracherkennung?  Unter Spracherkennung (engl. speech recognition) versteht man das Erkennen gesprochener Sprache. Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  3. 3. GESCHICHTE • Erforschung von Spracherkennungssystemen seit den 1960er Jahren • bis zum Beginn der 1980er Jahre wenig Fortschritte; Erkennung von gerade mal einigen hundert Einzelwörtern • im Jahre 1962 wird von IBM das erste Sprachausgabegerät vorgestellt • ab 1988 Entwicklung von TANGORA deutsch in Heidelberg, es umfasst etwa 2020-30 tausend Wörter; Einsatzgebiete in der Medizin, dem Gerichtswesen sowie der Geschäftskorrespondenz • IBM entwickelt 1992 SpeechServer als Client/Server Client/Server-System - Server benötigte RISC-Prozessoren - Kostenpunkt um die 10.000$ • IBM entwirft 1993 erneut ein Spracherkennungssystem  Personal DictationSystem (heute: IBM VoiceType) - Spracherkennung erstmals für den breiten Markt - Kostenpunkt unter 1.000$ • 1994 konzipiert die Firma Philips DictationSystems das erste Client/Server Client/Server-System für Spracherkennung • drei Jahre später entwickelte Philips DictationSystems das erste Konsumentenprodukt (FreeSpeech98) Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  4. 4. SPRACHERKENNUNG  Sprecherunabhängige Spracherkennung  Keine Trainingsphase  Geringer Wortschatz  Mehrere Benutzer möglich  Sprecherabhängige Spracherkennung  Anpassung auf den jeweiligen Benutzer  Trainingsphase  Keine wechselnden Benutzer möglich Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  5. 5. HERAUSFORDERUNGEN HERAUSFORDERUNGE AUSSPRACHE UMGEBUNGSGERÄUSCHE HOMOPHONE VOKALERKENNUNG Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  6. 6. AUSSPRACHE  Diskrete Sprache  Künstliche Pause zwischen den Wörtern  Kontinuierliche Sprache  Flüssige Aussprache ohne Pause Bilder: www.wikipedia.de Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  7. 7. UMGEBUNGSGERÄUSCHE  Bürolärm  Fahrgeräusche  Andere Personen  Rauschen der Telefonleitung  Diese sollten entfernt werden Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  8. 8. HOMOPHONE  Wörter die identisch klingen, aber eine andere Bedeutung haben  Meer ≠ mehr  Graf ≠ Graph  Usw… Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  9. 9. VOKALERKENNUNG  Vokale sind von ihren Frequenzbereichen zu unterscheiden  „O“ liegt im Frequenzbereich tiefer als „E“ Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  10. 10. REALISIERUNG VORVERARBEITUNG MERKMALSEXTRAKTION UNTEREINHEITENVERGLEICH HIDDEN-MARKOV-MODELLE SYNTAKTISCHE / SEMANTISCHE ANALYSE Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  11. 11. VORVERARBEITUNG  Entfernung von Störgeräuschen  Entfernung von Sprachsignalen anderer Personen Ziel: Vereinfachung und Beschleunigung der Weiterverarbeitung Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  12. 12. MERKMALSEXTRAKTION  Blockweise Aufteilung des Audiosignals  Abfolge von Merkmalsvektoren Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  13. 13. UNTEREINHEITENVERGLEICH  Umwandlung der Merkmalsvektoren in Phoneme, Silben und Wörter  Angewendete Sprachmoddelle:  Hidden-Markov-Modelle  Neuronale Netze  … Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  14. 14. HIDDEN-MARKOV MARKOV-MODELLE  Stochastische Methode, um Phoneme zu finden, die am besten zu den Eingangssignalen passen  Fehlt ein wichtiges Phonem, kann das Wort nicht zugeordnet werden  HMMs berechnen die Wahrscheinlichkeit aus welcher Folge von Phonemen das Wort enstanden sein könnte Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  15. 15. HIDDEN-MARKOV MODELLE MARKOV  Jedes Phonem wird durch einen Zustand dargstellt O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  16. 16. HIDDEN-MARKOV MODELLE - II MARKOV  Übergänge zu den nächsten Zuständen enthalten Wahrscheinlichkeitswerte O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  17. 17. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Aussuchen eines Phonems und Vergleich mit dem Audiosignal  Wiederholdung, falls keine Übereinstimmung Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  18. 18. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Ausgabe des Phonems bei Übereinstimmung O Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  19. 19. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Übergang zum nächsten Zustand O Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  20. 20. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Übergang zum nächsten Zustand O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  21. 21. HIDDEN-MARKOV MODELLE – Ablauf MARKOV  HMMs können auch auf anderen Ebenen angewendet werden (Syntax, Semantik) O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  22. 22. SYNTAKTISCHE / SEMANTISCHE ANALYSE  Syntaktische Analyse  Zulassung von Wörtern, die nur im Wörterbuch vorhanden sind  Vorgegebene Reihenfolge der Wörter (Grammatik)  Semantische Analyse  Erkennung der Satzstruktur Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  23. 23. PERSPEKTIVEN  Keinen universellen Spracherkenner  Systeme für spezielle Anwendungen  Optimierung bei der Entfernung der Umgebungsgeräusche  Erkennung unbekannter Wörter Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  24. 24. WINDOWS VISTA - SPRACHERKENNUNG • Windows Vista verfügt über leistungsstarke Sprachfeatures • Mit Hilfe dieser Sprachfeatures wird dem Anwender ermöglicht, den Computer statt mit der Tastatur oder der Maus mittels Sprachbefehlen zu steuern. • Die Spracherkennung unter Windows Vista ermöglicht die Interaktion mit dem Computer per Stimme. • Es können Dokumente und E E-Mail-Nachrichten in gängigen Anwendungen diktiert und Formulare im Internet mit Hilfe von Sprachbefehlen ausgefüllt werden. Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  25. 25. SPRACHERKENNUNG - ENTWICKLUNG • Entwicklung von multilingualen Spracherkennungssystemen • Multilinguale Spracherkennungssysteme: o Dies sind Systeme, die für mehrere Sprachen gleichzeitig genutzt werden können. Vorteile: - man kann während des Diktiervorgangs zwischen den Sprachen wechseln Nachteile: - Entwicklung sehr kostspielig, da erst das gesamte Vokabular der jeweiligen Sprache erfasst werden muss - Entwicklungsdauer somit sehr lang - es gibt bis jetzt kein System, das diese Fähigkeiten aufweist Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  26. 26. QUELLENNACHWEIS • http://digbib.ubka.uni-karlsruhe.de/volltexte/1000008467 karlsruhe.de/volltexte/1000008467 • http://www.lars-lehre.de/download/Vorlesung5.pdf • http://www.fh-wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm • Vater, H. (1994): Einführung in die Sprachwissenschaft. München: Fink. • Carstensen, K.U., Ebert, C., Endriss, C., Jekat, S., Klabunde, R., Langer, H. (2004): Computerlinguistik und Sprachtechnologie. Eine Einführung (2. Auflage). Heidelberg, Berlin: Spektrum. • Euler, Stefan: Grundkurs Spracherkennung, Vieweg-Verlag, Wiesbaden, 2006. Verlag,  Mitkov, Ruslan (hrsg.): The Oxford handbook of computational linguistics, Oxford University Press, Oxford, 2005.  www8.informatik.uni-erlangen.de/IMMD8/Lectures/AI- -GAMES/SS2002/hs/vortraege/12062002/VoiceCCC.ppt  http://nats-www.informatik.uni-hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

×