8. 音響モデル
■ GMM + HMM, DNN + HMM, RNN + CTC ...
■ HMMやCTCの役割は時間方向の継続長の処理
8
GMM...Gaussian Mixture Model HMM...Hidden Markov Model
DNN... Deep Neural Network CTC...Connectionist Temporal Classification
p p r e f f e r r r d
preferred
26. RNNLMをFirst-passで利用する例1
Conversion of recurrent neural network language models to weighted finite state transducers for automatic
speech[Lecorvé+ 12]
26
■ 連続空間で表されている単語をstateに変換するために無理やり量子化を行う
■ k-meansで似ている単語ベクトルを1つにまとめる
量子化
状態の枝刈り
28. Variational approximation of long-span language models for LVCSR [Deoras+ 11]
Approximate inference: A sampling based modeling technique to capture complex dependencies in a
language model [Deoras+ 13]
28
RNNLMをFirst-passで利用する例2
■ First-passで使用できる計算コストの低い確率分布QとRNNLMのようなLong-
spanLMの確率分布を変分近似する
■ KL距離最小化
30. Cache based recurrent neural network language model inference for first pass speech recognition[Huang+ 14]
30
RNNLMをFirst-passで利用する例3
■ 同じ計算を行っている箇所に注目して,計算結果をキャッシュとして蓄えてお
くことでRNNLMを呼ぶ回数を最小限にとどめている
N-gramLMと同程度の速度を保ったままN-gramLMよりも良い精度を出している
35. Noise Contrastive Estimation for Speech Recognition
Recurrent neural network language model training with noise contrastive estimation for speech
recognition [Chen+ 15]
35
損失関数
正規化項が過去の単語に依存
38. Noise Contrastive Estimation for Speech Recognition
38
Cross-Entropy(通常のソフトマックス)と同等のWERを保ちながら,
train,evalの双方で大幅な高速化を実現
RNNLMの学習データは20M word Fisher data