ICASSP2020 論文読み会柏木陽佑

UNSUPERVISED SPEAKER ADAPTATION USING ATTENTION-BASED
SPEAKER MEMORY FOR END-TO-END ASR
ソニー株式会社
柏木陽佑
End-to-End 音声認識 + 教師なし話者適応
論文紹介

Interspeech2019論文読み会@Sony2019/11/242
自己紹介
・柏木陽佑
- 所属 :
ソニー株式会社 R&D
- 専門 :
音声認識（雑音抑圧, end-to-end）
- 経歴：
2014.夏ソニーでインターンシップを経験
2016.3 東京大学大学院工学系研究科博士課程卒 (峯松研究室)
2016.4～ソニー株式会社。音声認識の研究開発に従事

ICASSP2020論文読み会2020/06/193
論文概要
UNSUPERVISED SPEAKER ADAPTATION USING ATTENTION-BASED SPEAKER
MEMORY FOR END-TO-END ASR
• 著者：Leda Sarı, Niko Moritz, Takaaki Hori, Jonathan Le Roux (MERL)
• セッション： SPE-P15: Speech Recognition: Adaptation
• Arxiv:
• https://arxiv.org/abs/2002.06165
• End-to-end音声認識 + 話者適応をattention構造を用いてサンプルベースで実現

音声認識と話者ミスマッチ
学習データとテストデータの話者ミスマッチにより音声認識精度が悪化する
代表的なのが、成人データで学習した音声認識器では子供音声の認識精度が上がらない現象
学習データ

話者適応技術
少量の適応データを用いて、話者ミスマッチの影響を低減し、認識精度を向上させる
多くの話者適応技術が提案されてきた
• MLLT
• External features
• Model domain speaker aware approach
• Feature domain speaker aware approach
(Embedding learning)
これらの多くはGMM-HMM, DNN-HMM
などの従来の音響モデルに対しての技術
適応データ

End-to-End音声認識 + 話者適応
End-to-End音声認識に対しても話者適応は可能
• External features
• i-vector : i-vector（話者を表現する特徴量）を入力または中間層に連結して用いる
• Feature domain speaker aware approach
• fMLLR : 特徴量ドメインでの話者依存性除去
• GMM-derived features
• Model domain speaker aware approach
• Speaker adversarial training : モデルドメインでの話者性依存性除去
これらは、主に入力層に近い部分でのアプローチであり、他の層なども検討したい。
新しいE2E音声認識に対する話者適応技術の提案

全体構成
Joint CTC/Attention E2E ASR + Memory block
• Memory blockから当該フレームに対応する話者特徴量ベクトルをattentionにより引っ張る。
• 従来の話者特徴量（i-vector, x-vectorなど）の抽出を推論時に行う必要がない。
話者特徴量抽出 E2E音声認識
encoderの分割の仕方で、どの層で適応を行うかを制御可能

Joint CTC/Attention E2E ASR
標準的に音声認識研究界隈でベースラインとして採用されるE2E音声認識
• 初出もMERLから (渡部晋治氏)
• Hybrid CTC/Attention Architecture for End-to-End Speech Recognition
[S. Watanabe, 2017]
• コード公開
• https://github.com/espnet/espnet
• pytorch or chainer に対応し使いやすい。おすすめ。
• 多彩なコーパスに対応したサンプルあり

Memory block
Attention+ i-vector (inspired by Neural Turing Machine)
• 学習データ中の話者のi-vectorをmemoryとして利用（固定）
• Attention によってmemory中のi-vectorの重みづけ和によって、入力音声の話者表現を得る
→ M-vector
• Encoderの出力と連結して、後段のE2E音声認識に利用
学習データ中の i-vectorを並べる
AttentionでM-vectorを計算
連結して後段に流す

Neural Turing Machine (NTM) [Alex Graves (Google), 2014]
Memoryとmemoryを読み書きするcontrollerを持つネットワーク
M-vectorはNTMをattentionの枠組みで実現 + memoryをi-vectorで固定したものと解釈できる。
• NTM • M-vector
cosine距離からscaled dot productに
scalingなし
memoryは固定memoryも学習可能

学習時
学習データ中のi-vectorを計算しメモリに並べたのち、CTC + Attentionのマルチタスク学習
によりprojection layer, encoder, decoderのパラメーターを学習する。

テスト時
テスト時もメモリは学習時のi-vectorで固定する。
これによって、テスト時にi-vectorの計算を行わなくてすむ。
また、M-vectorは時間インデクス t に依存するため、発話単位・話者単位などで計算する
i-vectorと異なり、話者の切り替わりなどに対応することができる。

評価 (WSJ)
• データ
• Wall Street Journal database
• Training: 81.3h, Development: 1.1h, Test: 0.7 h
• ツール
• i-vector ：Kaldi (https://github.com/kaldi-asr/kaldi)
• それ以外：ESPnet (https://github.com/espnet/espnet)
• ネットワーク
• Encoder: 6層BLSTM, 320x2次元
• Decoder: 1層LSTM, 300次元
• CTC weight (λ): 0.2
• UBM: 1024次元, i-vector: 100次元
• memory size (N): 283次元

評価 (WSJ)
• 層毎の違い
テスト時のi-vectorはoracleを使用

評価 (WSJ)
• 層毎の違い
Oracleのi-vectorとほぼ同等の性能

評価 (WSJ)
• 層毎の違い
適応を行わない場合と比較しても良い。
適応の効果あり。

評価 (WSJ)
• 層毎の違い
適応を行わない場合と比較しても良い。
適応の効果あり。
学習データのi-vectorの内挿で表現することで、
話者表現が制限されることが良いのでは…？

評価 (WSJ)
• 短セグメントにおける話者特徴量の効果
i-vectorは学習時とテスト時にミスマッチがあると△
ただし、発話単位でのi-vector同士でなら、
性能劣化はほとんどない。
M-vectorはフレーム毎に話者特徴量が変化するため
1発話の中で話者が切り替わる場合に効果的

まとめ
End-to-End音声認識のための新しい教師なし話者適応手法
• 学習データ中のi-vectorをattentionによって重みづけ和にして利用する。(M-vector)
• 学習データのi-vectorの内挿になるため、話者表現を制約できる。
• i-vectorをそのまま使う場合と異なり、フレーム単位で話者情報が変化する。
• 発話の途中で話者が変化する場合などに対してi-vectorと比較して大幅に性能改善することが可能。
• ただし、i-vectorはonline化もできるため、それとの比較がないのは気になる。
筆者らの今後の展望
• x-vectorなどのほかの話者特徴量を利用した場合の検討。
• NTMに則って、memoryも学習した場合にどうなるかの検討。

Interspeech2019論文読み会@Sony2019/11/2420
参考文献
 Leda Sarı, Niko Moritz, Takaaki Hori, Jonathan Le Roux, “Unsupervised Speaker Adaptation
Using Attention-Based Speaker Memory for End-to-End ASR,” 2020
 Graves, Alex and Wayne, Greg and Danihelka, Ivo, “Neural turing machines,” 2014
 Saon, George and Soltau, Hagen and Nahamoo, David and Picheny, Michael, “Speaker adaptation
of neural network acoustic models using i-vectors”, 2013

補助資料

評価 (TED-LIUM2)
• データ
• TED-LIUM2
• Training: 211.1h, Development: 1.6h, Test: 2.6 h
• ツール
• i-vector ：Kaldi (https://github.com/kaldi-asr/kaldi)
• それ以外：ESPnet (https://github.com/espnet/espnet)
• ネットワーク
• Encoder: 6層BLSTM, 320x2次元
• Decoder: 1層LSTM, 300次元
• CTC weight (λ): 0.5
• UBM: 1024次元, i-vector: 100次元
• memory size (N): 1267次元

評価 (TED-LIUM2)
• 層毎の違い
傾向はほぼWSJの時と同じ
M-vectorは教師なし適応だが、
教師ありのi-vector適応と同等なので良い

評価 (TED-LIUM2)
• 短セグメントにおける話者特徴量の効果
WSJと違って、発話単位だと少し悪化
1発話の中で話者が切り替わる場合の効果は
WSJの場合と同じ

ICASSP2020 論文読み会柏木陽佑

Recommended

Recommended

More Related Content

Similar to ICASSP2020 論文読み会柏木陽佑

Similar to ICASSP2020 論文読み会柏木陽佑 (20)

Recently uploaded

Recently uploaded (10)