More Related Content Similar to ICASSP2020 論文読み会 柏木陽佑 (20) ICASSP2020 論文読み会 柏木陽佑3. ICASSP2020論文読み会2020/06/193
論文概要
UNSUPERVISED SPEAKER ADAPTATION USING ATTENTION-BASED SPEAKER
MEMORY FOR END-TO-END ASR
• 著者:Leda Sarı, Niko Moritz, Takaaki Hori, Jonathan Le Roux (MERL)
• セッション: SPE-P15: Speech Recognition: Adaptation
• Arxiv:
• https://arxiv.org/abs/2002.06165
• End-to-end音声認識 + 話者適応 をattention構造を用いてサンプルベースで実現
6. ICASSP2020論文読み会2020/06/196
End-to-End音声認識 + 話者適応
End-to-End音声認識に対しても話者適応は可能
• External features
• i-vector : i-vector(話者を表現する特徴量)を入力または中間層に連結して用いる
• Feature domain speaker aware approach
• fMLLR : 特徴量ドメインでの話者依存性除去
• GMM-derived features
• Model domain speaker aware approach
• Speaker adversarial training : モデルドメインでの話者性依存性除去
これらは、主に入力層に近い部分でのアプローチであり、他の層なども検討したい。
新しいE2E音声認識に対する話者適応技術の提案
8. ICASSP2020論文読み会2020/06/198
Joint CTC/Attention E2E ASR
標準的に音声認識研究界隈でベースラインとして採用されるE2E音声認識
• 初出もMERLから (渡部晋治 氏)
• Hybrid CTC/Attention Architecture for End-to-End Speech Recognition
[S. Watanabe, 2017]
• コード公開
• https://github.com/espnet/espnet
• pytorch or chainer に対応し使いやすい。おすすめ。
• 多彩なコーパスに対応したサンプルあり
10. ICASSP2020論文読み会2020/06/1910
Neural Turing Machine (NTM) [Alex Graves (Google), 2014]
Memoryとmemoryを読み書きするcontrollerを持つネットワーク
M-vectorはNTMをattentionの枠組みで実現 + memoryをi-vectorで固定したものと解釈できる。
• NTM • M-vector
cosine距離からscaled dot productに
scalingなし
memoryは固定memoryも学習可能
13. ICASSP2020論文読み会2020/06/1913
評価 (WSJ)
• データ
• Wall Street Journal database
• Training: 81.3h, Development: 1.1h, Test: 0.7 h
• ツール
• i-vector :Kaldi (https://github.com/kaldi-asr/kaldi)
• それ以外:ESPnet (https://github.com/espnet/espnet)
• ネットワーク
• Encoder: 6層BLSTM, 320x2次元
• Decoder: 1層LSTM, 300次元
• CTC weight (λ): 0.2
• UBM: 1024次元, i-vector: 100次元
• memory size (N): 283次元
20. Interspeech2019論文読み会@Sony2019/11/2420
参考文献
Leda Sarı, Niko Moritz, Takaaki Hori, Jonathan Le Roux, “Unsupervised Speaker Adaptation
Using Attention-Based Speaker Memory for End-to-End ASR,” 2020
Graves, Alex and Wayne, Greg and Danihelka, Ivo, “Neural turing machines,” 2014
Saon, George and Soltau, Hagen and Nahamoo, David and Picheny, Michael, “Speaker adaptation
of neural network acoustic models using i-vectors”, 2013
22. ICASSP2020論文読み会2020/06/1922
評価 (TED-LIUM2)
• データ
• TED-LIUM2
• Training: 211.1h, Development: 1.6h, Test: 2.6 h
• ツール
• i-vector :Kaldi (https://github.com/kaldi-asr/kaldi)
• それ以外:ESPnet (https://github.com/espnet/espnet)
• ネットワーク
• Encoder: 6層BLSTM, 320x2次元
• Decoder: 1層LSTM, 300次元
• CTC weight (λ): 0.5
• UBM: 1024次元, i-vector: 100次元
• memory size (N): 1267次元