SPRACHERKENNUNG


                                  UNIVERSITÄT ZU KÖLN

               COMPUTERLINGUISTIK IM WS 2008 / 09...
SPRACHERKENNUNG



 Was ist Spracherkennung?



      Unter Spracherkennung (engl. speech recognition)
       versteht m...
GESCHICHTE

•   Erforschung von Spracherkennungssystemen seit den 1960er Jahren

•   bis zum Beginn der 1980er Jahre wenig...
SPRACHERKENNUNG

 Sprecherunabhängige Spracherkennung
      Keine Trainingsphase
      Geringer Wortschatz
      Mehre...
HERAUSFORDERUNGEN
                HERAUSFORDERUNGE


                                      AUSSPRACHE

                   ...
AUSSPRACHE

 Diskrete Sprache
      Künstliche Pause zwischen den Wörtern




 Kontinuierliche Sprache
      Flüssige ...
UMGEBUNGSGERÄUSCHE

 Bürolärm


 Fahrgeräusche


 Andere Personen


 Rauschen der Telefonleitung


 Diese sollten ent...
HOMOPHONE

 Wörter die identisch klingen, aber eine andere
   Bedeutung haben

 Meer ≠ mehr


 Graf ≠ Graph


 Usw…

C...
VOKALERKENNUNG



 Vokale sind von ihren Frequenzbereichen zu
   unterscheiden



 „O“ liegt im Frequenzbereich tiefer a...
REALISIERUNG

                                     VORVERARBEITUNG

                                   MERKMALSEXTRAKTION
...
VORVERARBEITUNG


 Entfernung von Störgeräuschen


 Entfernung von Sprachsignalen anderer
   Personen

Ziel: Vereinfachu...
MERKMALSEXTRAKTION



 Blockweise Aufteilung des Audiosignals




 Abfolge von Merkmalsvektoren




Computerlinguistik W...
UNTEREINHEITENVERGLEICH


 Umwandlung der Merkmalsvektoren in Phoneme,
   Silben und Wörter



 Angewendete Sprachmoddel...
HIDDEN-MARKOV
                       MARKOV-MODELLE

 Stochastische Methode, um Phoneme zu finden,
   die am besten zu de...
HIDDEN-MARKOV MODELLE
                         MARKOV

 Jedes Phonem wird durch einen Zustand
   dargstellt




         ...
HIDDEN-MARKOV MODELLE - II
                   MARKOV

 Übergänge zu den nächsten Zuständen enthalten
   Wahrscheinlichkei...
HIDDEN-MARKOV MODELLE - Ablauf
             MARKOV

 Aussuchen eines Phonems und Vergleich mit
  dem Audiosignal
 Wieder...
HIDDEN-MARKOV MODELLE - Ablauf
             MARKOV

 Ausgabe des Phonems bei Übereinstimmung




              O




Comp...
HIDDEN-MARKOV MODELLE - Ablauf
             MARKOV

 Übergang zum nächsten Zustand




              O




Computerlingui...
HIDDEN-MARKOV MODELLE - Ablauf
             MARKOV

 Übergang zum nächsten Zustand




              O                   ...
HIDDEN-MARKOV MODELLE – Ablauf
             MARKOV

 HMMs können auch auf anderen Ebenen
   angewendet werden (Syntax, Se...
SYNTAKTISCHE / SEMANTISCHE ANALYSE


 Syntaktische Analyse
      Zulassung von Wörtern, die nur im Wörterbuch vorhanden
...
PERSPEKTIVEN


 Keinen universellen Spracherkenner


 Systeme für spezielle Anwendungen


 Optimierung bei der Entfernu...
WINDOWS VISTA - SPRACHERKENNUNG

• Windows Vista verfügt über leistungsstarke
   Sprachfeatures

• Mit Hilfe dieser Sprach...
SPRACHERKENNUNG - ENTWICKLUNG

• Entwicklung von         multilingualen Spracherkennungssystemen

• Multilinguale Spracher...
QUELLENNACHWEIS


•    http://digbib.ubka.uni-karlsruhe.de/volltexte/1000008467
                            karlsruhe.de/v...
Nächste SlideShare
Wird geladen in …5
×

Spracherkennung

2.709 Aufrufe

Veröffentlicht am

Referat zum Thema "Spracherkennung" im Fach "Computerlinguistische Grundlagen" an der Universität zu Köln.

Veröffentlicht in: Technologie, Bildung
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.709
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
25
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Spracherkennung

  1. 1. SPRACHERKENNUNG UNIVERSITÄT ZU KÖLN COMPUTERLINGUISTIK IM WS 2008 / 09 JENNIFER STEINBACH BILAL ERKIN Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  2. 2. SPRACHERKENNUNG  Was ist Spracherkennung?  Unter Spracherkennung (engl. speech recognition) versteht man das Erkennen gesprochener Sprache. Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  3. 3. GESCHICHTE • Erforschung von Spracherkennungssystemen seit den 1960er Jahren • bis zum Beginn der 1980er Jahre wenig Fortschritte; Erkennung von gerade mal einigen hundert Einzelwörtern • im Jahre 1962 wird von IBM das erste Sprachausgabegerät vorgestellt • ab 1988 Entwicklung von TANGORA deutsch in Heidelberg, es umfasst etwa 2020-30 tausend Wörter; Einsatzgebiete in der Medizin, dem Gerichtswesen sowie der Geschäftskorrespondenz • IBM entwickelt 1992 SpeechServer als Client/Server Client/Server-System - Server benötigte RISC-Prozessoren - Kostenpunkt um die 10.000$ • IBM entwirft 1993 erneut ein Spracherkennungssystem  Personal DictationSystem (heute: IBM VoiceType) - Spracherkennung erstmals für den breiten Markt - Kostenpunkt unter 1.000$ • 1994 konzipiert die Firma Philips DictationSystems das erste Client/Server Client/Server-System für Spracherkennung • drei Jahre später entwickelte Philips DictationSystems das erste Konsumentenprodukt (FreeSpeech98) Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  4. 4. SPRACHERKENNUNG  Sprecherunabhängige Spracherkennung  Keine Trainingsphase  Geringer Wortschatz  Mehrere Benutzer möglich  Sprecherabhängige Spracherkennung  Anpassung auf den jeweiligen Benutzer  Trainingsphase  Keine wechselnden Benutzer möglich Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  5. 5. HERAUSFORDERUNGEN HERAUSFORDERUNGE AUSSPRACHE UMGEBUNGSGERÄUSCHE HOMOPHONE VOKALERKENNUNG Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  6. 6. AUSSPRACHE  Diskrete Sprache  Künstliche Pause zwischen den Wörtern  Kontinuierliche Sprache  Flüssige Aussprache ohne Pause Bilder: www.wikipedia.de Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  7. 7. UMGEBUNGSGERÄUSCHE  Bürolärm  Fahrgeräusche  Andere Personen  Rauschen der Telefonleitung  Diese sollten entfernt werden Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  8. 8. HOMOPHONE  Wörter die identisch klingen, aber eine andere Bedeutung haben  Meer ≠ mehr  Graf ≠ Graph  Usw… Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  9. 9. VOKALERKENNUNG  Vokale sind von ihren Frequenzbereichen zu unterscheiden  „O“ liegt im Frequenzbereich tiefer als „E“ Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  10. 10. REALISIERUNG VORVERARBEITUNG MERKMALSEXTRAKTION UNTEREINHEITENVERGLEICH HIDDEN-MARKOV-MODELLE SYNTAKTISCHE / SEMANTISCHE ANALYSE Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  11. 11. VORVERARBEITUNG  Entfernung von Störgeräuschen  Entfernung von Sprachsignalen anderer Personen Ziel: Vereinfachung und Beschleunigung der Weiterverarbeitung Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  12. 12. MERKMALSEXTRAKTION  Blockweise Aufteilung des Audiosignals  Abfolge von Merkmalsvektoren Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  13. 13. UNTEREINHEITENVERGLEICH  Umwandlung der Merkmalsvektoren in Phoneme, Silben und Wörter  Angewendete Sprachmoddelle:  Hidden-Markov-Modelle  Neuronale Netze  … Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  14. 14. HIDDEN-MARKOV MARKOV-MODELLE  Stochastische Methode, um Phoneme zu finden, die am besten zu den Eingangssignalen passen  Fehlt ein wichtiges Phonem, kann das Wort nicht zugeordnet werden  HMMs berechnen die Wahrscheinlichkeit aus welcher Folge von Phonemen das Wort enstanden sein könnte Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  15. 15. HIDDEN-MARKOV MODELLE MARKOV  Jedes Phonem wird durch einen Zustand dargstellt O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  16. 16. HIDDEN-MARKOV MODELLE - II MARKOV  Übergänge zu den nächsten Zuständen enthalten Wahrscheinlichkeitswerte O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  17. 17. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Aussuchen eines Phonems und Vergleich mit dem Audiosignal  Wiederholdung, falls keine Übereinstimmung Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  18. 18. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Ausgabe des Phonems bei Übereinstimmung O Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  19. 19. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Übergang zum nächsten Zustand O Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  20. 20. HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Übergang zum nächsten Zustand O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  21. 21. HIDDEN-MARKOV MODELLE – Ablauf MARKOV  HMMs können auch auf anderen Ebenen angewendet werden (Syntax, Semantik) O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  22. 22. SYNTAKTISCHE / SEMANTISCHE ANALYSE  Syntaktische Analyse  Zulassung von Wörtern, die nur im Wörterbuch vorhanden sind  Vorgegebene Reihenfolge der Wörter (Grammatik)  Semantische Analyse  Erkennung der Satzstruktur Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  23. 23. PERSPEKTIVEN  Keinen universellen Spracherkenner  Systeme für spezielle Anwendungen  Optimierung bei der Entfernung der Umgebungsgeräusche  Erkennung unbekannter Wörter Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  24. 24. WINDOWS VISTA - SPRACHERKENNUNG • Windows Vista verfügt über leistungsstarke Sprachfeatures • Mit Hilfe dieser Sprachfeatures wird dem Anwender ermöglicht, den Computer statt mit der Tastatur oder der Maus mittels Sprachbefehlen zu steuern. • Die Spracherkennung unter Windows Vista ermöglicht die Interaktion mit dem Computer per Stimme. • Es können Dokumente und E E-Mail-Nachrichten in gängigen Anwendungen diktiert und Formulare im Internet mit Hilfe von Sprachbefehlen ausgefüllt werden. Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  25. 25. SPRACHERKENNUNG - ENTWICKLUNG • Entwicklung von multilingualen Spracherkennungssystemen • Multilinguale Spracherkennungssysteme: o Dies sind Systeme, die für mehrere Sprachen gleichzeitig genutzt werden können. Vorteile: - man kann während des Diktiervorgangs zwischen den Sprachen wechseln Nachteile: - Entwicklung sehr kostspielig, da erst das gesamte Vokabular der jeweiligen Sprache erfasst werden muss - Entwicklungsdauer somit sehr lang - es gibt bis jetzt kein System, das diese Fähigkeiten aufweist Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach
  26. 26. QUELLENNACHWEIS • http://digbib.ubka.uni-karlsruhe.de/volltexte/1000008467 karlsruhe.de/volltexte/1000008467 • http://www.lars-lehre.de/download/Vorlesung5.pdf • http://www.fh-wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm • Vater, H. (1994): Einführung in die Sprachwissenschaft. München: Fink. • Carstensen, K.U., Ebert, C., Endriss, C., Jekat, S., Klabunde, R., Langer, H. (2004): Computerlinguistik und Sprachtechnologie. Eine Einführung (2. Auflage). Heidelberg, Berlin: Spektrum. • Euler, Stefan: Grundkurs Spracherkennung, Vieweg-Verlag, Wiesbaden, 2006. Verlag,  Mitkov, Ruslan (hrsg.): The Oxford handbook of computational linguistics, Oxford University Press, Oxford, 2005.  www8.informatik.uni-erlangen.de/IMMD8/Lectures/AI- -GAMES/SS2002/hs/vortraege/12062002/VoiceCCC.ppt  http://nats-www.informatik.uni-hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

×