TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
1. (ICASSP2019音声&音響論文読み会)
TEACHER-STUDENT DEEP CLUSTERING
FOR LOW-DELAY SINGLE CHANNEL
SPEECH SEPARATION
Ryo Aihara, Toshiyuki Hanazawa, Yohei Okato
(Mitsubishi Electric Corp.)
Gordon Wichern, Jonathan Le Roux
(Mitsubishi Electric Research Labs.)
5. 直接的なマスクの推定を避ける
スペクトルの(時間ー周波数)ビンに対して「埋め込みベクトル」を推定
埋め込みベクトルをK-meansしてマスクを推定
Kに話者数を与えることで、アルゴリズム上は何人でも分離可
5
Deep Clustering [J. R. Hershey et al., 2016]
埋め込みベクトル
tV
FxD
F
D
行列化 F
C
クラスラベル
t}{Y
F
tX
混合発話スペクトル
ベクトル
T
BLSTM
K-means Mask
D
6. 直接的なマスクの推定
求めるマスクは、ランダム値で初期化
2つのペアで誤差の小さい方を教師とする
6
Mask Inference Learning
[J. R. Hershey et al., 2016]
[D. Yu et al., 2017]
BLSTM
Speaker A + B
Target
Speaker A
Estimated
Mask ?
Target
Speaker B
Estimated
Mask ?
7. Deep Clustering + Mask Inference Learning
分離時にはMIで推定されたマスクを使用
汎化能力の向上によって、分離性精度が向上する
7
Chimera Network [Z.-Q. Wang et al., 2018]
BLSTMs
Linear
Sigmoid
Masks
Spectrogram
Linear
Sigmoid
+
Unit-norm
Embeddings
8. BLSTMではオンライン処理が不可能。
発話全体を入力とするため、発話長以上の遅延が発生。
まずは、処理開始までの遅延を削減したい。
関連研究
“LOW-LATENCY DEEP CLUSTERING FOR SPEECH
SEPARATION”, S. Wang et. al., ICASSP2019.
LSTMでDeep Clusteringを実装。
K-meansをブロック化。
BLSTMと比較して大幅な精度劣化は避けられない。
8
Our motivation