Aktivitäten des Instituts Signaltrennung      Independent Component Analysis      Zeit-Frequenzmaskierung Robuste Spracherkennung      Missing-Data Techniken zur Erkennung gestörter Sprachsignale Anwendung zur Fehlerdetektion      Signalaufbereitung +   HMM- oder DTW-Klassifikation Überblick
   Spracherkennung in gestörten Umgebungen leidet besonders  unter Überlagerung des erwünschten Sprachsignals mit anderen  Sprechersignalen     Mikrofone zeichnen nur gefaltete Mischungen von Sprechersignalen auf     Ziel: Rekonstruktion einzelner Sprechersignale Mischungen Independent Component Analysis
Sprechertrennung mit ICA    Independent Component Analysis (ICA) schätzt optimale  Entmischungsmatrix im Sinn der maximalen statistischen  Unabhängigkeit der Signale Rekonstruktionen mit linearen ICA-Methoden A(  ) -1 A(  ) gefaltete Mischung S 1 (  ) S 2 (  ) X 1 (  ) X 2 (  ) Y 1 (  ) Y 2 (  ) Max. Unab- hängigkeit für  alle  
   Erlaubt im Idealfall fast perfekte Trennung aus nur einem Mikrophonsignal  Sprachsignale Mischung Maskierungs- funktion Zeit-Frequenzmaskierung
ICA + Zeit-Frequenzmaskierung    Independent Component  Analysis kann genutzt  werden, um Signale linear  zu trennen und um die  Berechnung einer zusätzlichen  Zeit-Frequenz-Maske zu  ermöglichen. Ohne Maskierung: Mit Maskierung:
Zeit-Frequenzmaskierung verbessert ICA-Ergebnisse und bietet    Durchschnittliche Verbesserung des Signal-Störverhältnisses von  3.4dB gegenüber ICA allein     Geringen Rechenaufwand    Robustheit gegenüber Störgeräuschen Aber verbessertes SNR verbessert Spracherkennung nur wenig    Das liegt wahrscheinlich an veränderten    Merkmalen, aber die menschliche Erkennung    von  zeigt, dass auch im gestörten Signal    genug Information für die Erkennung präsent ist. Mögliche Lösung: Einsatz von Missing-Data Techniken Zeit-Frequenzmaskierung
Eingesetzte Methoden zur Verwendung der Unsicherheitsinformation:    Uncertainty Decoding   „ Data Imputation“    Modified Imputation S(  ) Quellen- Trennung HMM- Spracherkennung Punkt- schätzung x 1 (t) x 2 (t) Quellen- Trennung HMM- Spracherkennung Unsicherheits- information x 1 (t) x 2 (t) S(  ),   S(  )) Missing-Data Techniken
Ergebnisse Spracherkennung
Anwendung zur Fehlerdetektion    Independent Component  Analysis kann genutzt  werden, um Signale linear  zu trennen und die  Berechnung einer optionalen  Zeit-Frequenz-Maske zu  ermöglichen.    Anschliessende Erkennung kann  sowohl mit DTW als auch mit  HMMs zur Musterklassifikation  und Fehlererkennung  eingesetzt werden.
Vielen Dank!

Robuste Mehrsprecher-Spracherkennung mit ICA

  • 1.
    Aktivitäten des InstitutsSignaltrennung  Independent Component Analysis  Zeit-Frequenzmaskierung Robuste Spracherkennung  Missing-Data Techniken zur Erkennung gestörter Sprachsignale Anwendung zur Fehlerdetektion  Signalaufbereitung + HMM- oder DTW-Klassifikation Überblick
  • 2.
    Spracherkennung in gestörten Umgebungen leidet besonders unter Überlagerung des erwünschten Sprachsignals mit anderen Sprechersignalen  Mikrofone zeichnen nur gefaltete Mischungen von Sprechersignalen auf  Ziel: Rekonstruktion einzelner Sprechersignale Mischungen Independent Component Analysis
  • 3.
    Sprechertrennung mit ICA Independent Component Analysis (ICA) schätzt optimale Entmischungsmatrix im Sinn der maximalen statistischen Unabhängigkeit der Signale Rekonstruktionen mit linearen ICA-Methoden A(  ) -1 A(  ) gefaltete Mischung S 1 (  ) S 2 (  ) X 1 (  ) X 2 (  ) Y 1 (  ) Y 2 (  ) Max. Unab- hängigkeit für alle 
  • 4.
    Erlaubt im Idealfall fast perfekte Trennung aus nur einem Mikrophonsignal Sprachsignale Mischung Maskierungs- funktion Zeit-Frequenzmaskierung
  • 5.
    ICA + Zeit-Frequenzmaskierung Independent Component Analysis kann genutzt werden, um Signale linear zu trennen und um die Berechnung einer zusätzlichen Zeit-Frequenz-Maske zu ermöglichen. Ohne Maskierung: Mit Maskierung:
  • 6.
    Zeit-Frequenzmaskierung verbessert ICA-Ergebnisseund bietet  Durchschnittliche Verbesserung des Signal-Störverhältnisses von 3.4dB gegenüber ICA allein  Geringen Rechenaufwand  Robustheit gegenüber Störgeräuschen Aber verbessertes SNR verbessert Spracherkennung nur wenig Das liegt wahrscheinlich an veränderten Merkmalen, aber die menschliche Erkennung von zeigt, dass auch im gestörten Signal genug Information für die Erkennung präsent ist. Mögliche Lösung: Einsatz von Missing-Data Techniken Zeit-Frequenzmaskierung
  • 7.
    Eingesetzte Methoden zurVerwendung der Unsicherheitsinformation:  Uncertainty Decoding  „ Data Imputation“  Modified Imputation S(  ) Quellen- Trennung HMM- Spracherkennung Punkt- schätzung x 1 (t) x 2 (t) Quellen- Trennung HMM- Spracherkennung Unsicherheits- information x 1 (t) x 2 (t) S(  ),  S(  )) Missing-Data Techniken
  • 8.
  • 9.
    Anwendung zur Fehlerdetektion Independent Component Analysis kann genutzt werden, um Signale linear zu trennen und die Berechnung einer optionalen Zeit-Frequenz-Maske zu ermöglichen.  Anschliessende Erkennung kann sowohl mit DTW als auch mit HMMs zur Musterklassifikation und Fehlererkennung eingesetzt werden.
  • 10.