SlideShare a Scribd company logo
1 of 24
Download to read offline
UNSUPERVISED SPEAKER ADAPTATION USING ATTENTION-BASED
SPEAKER MEMORY FOR END-TO-END ASR
ソニー株式会社
柏木 陽佑
End-to-End 音声認識 + 教師なし話者適応
論文紹介
Interspeech2019論文読み会@Sony2019/11/242
自己紹介
・ 柏木 陽佑
- 所属 :
ソニー株式会社 R&D
- 専門 :
音声認識(雑音抑圧, end-to-end)
- 経歴:
2014.夏 ソニーでインターンシップを経験
2016.3 東京大学大学院 工学系研究科 博士課程卒 (峯松研究室)
2016.4~ ソニー株式会社。音声認識の研究開発に従事
ICASSP2020論文読み会2020/06/193
論文概要
UNSUPERVISED SPEAKER ADAPTATION USING ATTENTION-BASED SPEAKER
MEMORY FOR END-TO-END ASR
• 著者:Leda Sarı, Niko Moritz, Takaaki Hori, Jonathan Le Roux (MERL)
• セッション: SPE-P15: Speech Recognition: Adaptation
• Arxiv:
• https://arxiv.org/abs/2002.06165
• End-to-end音声認識 + 話者適応 をattention構造を用いてサンプルベースで実現
ICASSP2020論文読み会2020/06/194
音声認識と話者ミスマッチ
学習データとテストデータの話者ミスマッチにより音声認識精度が悪化する
代表的なのが、成人データで学習した音声認識器では子供音声の認識精度が上がらない現象
学習データ
ICASSP2020論文読み会2020/06/195
話者適応技術
少量の適応データを用いて、話者ミスマッチの影響を低減し、認識精度を向上させる
多くの話者適応技術が提案されてきた
• MLLT
• External features
• Model domain speaker aware approach
• Feature domain speaker aware approach
(Embedding learning)
これらの多くはGMM-HMM, DNN-HMM
などの従来の音響モデルに対しての技術
適応データ
ICASSP2020論文読み会2020/06/196
End-to-End音声認識 + 話者適応
End-to-End音声認識に対しても話者適応は可能
• External features
• i-vector : i-vector(話者を表現する特徴量)を入力または中間層に連結して用いる
• Feature domain speaker aware approach
• fMLLR : 特徴量ドメインでの話者依存性除去
• GMM-derived features
• Model domain speaker aware approach
• Speaker adversarial training : モデルドメインでの話者性依存性除去
これらは、主に入力層に近い部分でのアプローチであり、他の層なども検討したい。
新しいE2E音声認識に対する話者適応技術の提案
ICASSP2020論文読み会2020/06/197
全体構成
Joint CTC/Attention E2E ASR + Memory block
• Memory blockから当該フレームに対応する話者特徴量ベクトルをattentionにより引っ張る。
• 従来の話者特徴量(i-vector, x-vectorなど)の抽出を推論時に行う必要がない。
話者特徴量抽出 E2E音声認識
encoderの分割の仕方で、どの層で適応を行うかを制御可能
ICASSP2020論文読み会2020/06/198
Joint CTC/Attention E2E ASR
標準的に音声認識研究界隈でベースラインとして採用されるE2E音声認識
• 初出もMERLから (渡部晋治 氏)
• Hybrid CTC/Attention Architecture for End-to-End Speech Recognition
[S. Watanabe, 2017]
• コード公開
• https://github.com/espnet/espnet
• pytorch or chainer に対応し使いやすい。おすすめ。
• 多彩なコーパスに対応したサンプルあり
ICASSP2020論文読み会2020/06/199
Memory block
Attention+ i-vector (inspired by Neural Turing Machine)
• 学習データ中の話者のi-vectorをmemoryとして利用(固定)
• Attention によってmemory中のi-vectorの重みづけ和によって、入力音声の話者表現を得る
→ M-vector
• Encoderの出力と連結して、後段のE2E音声認識に利用
学習データ中の i-vectorを並べる
AttentionでM-vectorを計算
連結して後段に流す
ICASSP2020論文読み会2020/06/1910
Neural Turing Machine (NTM) [Alex Graves (Google), 2014]
Memoryとmemoryを読み書きするcontrollerを持つネットワーク
M-vectorはNTMをattentionの枠組みで実現 + memoryをi-vectorで固定したものと解釈できる。
• NTM • M-vector
cosine距離からscaled dot productに
scalingなし
memoryは固定memoryも学習可能
ICASSP2020論文読み会2020/06/1911
学習時
学習データ中のi-vectorを計算しメモリに並べたのち、CTC + Attentionのマルチタスク学習
によりprojection layer, encoder, decoderのパラメーターを学習する。
ICASSP2020論文読み会2020/06/1912
テスト時
テスト時もメモリは学習時のi-vectorで固定する。
これによって、テスト時にi-vectorの計算を行わなくてすむ。
また、M-vectorは時間インデクス t に依存するため、発話単位・話者単位などで計算する
i-vectorと異なり、話者の切り替わりなどに対応することができる。
ICASSP2020論文読み会2020/06/1913
評価 (WSJ)
• データ
• Wall Street Journal database
• Training: 81.3h, Development: 1.1h, Test: 0.7 h
• ツール
• i-vector :Kaldi (https://github.com/kaldi-asr/kaldi)
• それ以外:ESPnet (https://github.com/espnet/espnet)
• ネットワーク
• Encoder: 6層BLSTM, 320x2次元
• Decoder: 1層LSTM, 300次元
• CTC weight (λ): 0.2
• UBM: 1024次元, i-vector: 100次元
• memory size (N): 283次元
ICASSP2020論文読み会2020/06/1914
評価 (WSJ)
• 層毎の違い
テスト時のi-vectorはoracleを使用
ICASSP2020論文読み会2020/06/1915
評価 (WSJ)
• 層毎の違い
テスト時のi-vectorはoracleを使用
Oracleのi-vectorとほぼ同等の性能
ICASSP2020論文読み会2020/06/1916
評価 (WSJ)
• 層毎の違い
テスト時のi-vectorはoracleを使用
Oracleのi-vectorとほぼ同等の性能
適応を行わない場合と比較しても良い。
適応の効果あり。
ICASSP2020論文読み会2020/06/1917
評価 (WSJ)
• 層毎の違い
テスト時のi-vectorはoracleを使用
Oracleのi-vectorとほぼ同等の性能
適応を行わない場合と比較しても良い。
適応の効果あり。
学習データのi-vectorの内挿で表現することで、
話者表現が制限されることが良いのでは…?
ICASSP2020論文読み会2020/06/1918
評価 (WSJ)
• 短セグメントにおける話者特徴量の効果
i-vectorは学習時とテスト時にミスマッチがあると△
ただし、発話単位でのi-vector同士でなら、
性能劣化はほとんどない。
M-vectorはフレーム毎に話者特徴量が変化するため
1発話の中で話者が切り替わる場合に効果的
ICASSP2020論文読み会2020/06/1919
まとめ
End-to-End音声認識のための新しい教師なし話者適応手法
• 学習データ中のi-vectorをattentionによって重みづけ和にして利用する。(M-vector)
• 学習データのi-vectorの内挿になるため、話者表現を制約できる。
• i-vectorをそのまま使う場合と異なり、フレーム単位で話者情報が変化する。
• 発話の途中で話者が変化する場合などに対してi-vectorと比較して大幅に性能改善することが可能。
• ただし、i-vectorはonline化もできるため、それとの比較がないのは気になる。
筆者らの今後の展望
• x-vectorなどのほかの話者特徴量を利用した場合の検討。
• NTMに則って、memoryも学習した場合にどうなるかの検討。
Interspeech2019論文読み会@Sony2019/11/2420
参考文献
 Leda Sarı, Niko Moritz, Takaaki Hori, Jonathan Le Roux, “Unsupervised Speaker Adaptation
Using Attention-Based Speaker Memory for End-to-End ASR,” 2020
 Graves, Alex and Wayne, Greg and Danihelka, Ivo, “Neural turing machines,” 2014
 Saon, George and Soltau, Hagen and Nahamoo, David and Picheny, Michael, “Speaker adaptation
of neural network acoustic models using i-vectors”, 2013
ICASSP2020論文読み会2020/06/1921
補助資料
ICASSP2020論文読み会2020/06/1922
評価 (TED-LIUM2)
• データ
• TED-LIUM2
• Training: 211.1h, Development: 1.6h, Test: 2.6 h
• ツール
• i-vector :Kaldi (https://github.com/kaldi-asr/kaldi)
• それ以外:ESPnet (https://github.com/espnet/espnet)
• ネットワーク
• Encoder: 6層BLSTM, 320x2次元
• Decoder: 1層LSTM, 300次元
• CTC weight (λ): 0.5
• UBM: 1024次元, i-vector: 100次元
• memory size (N): 1267次元
ICASSP2020論文読み会2020/06/1923
評価 (TED-LIUM2)
• 層毎の違い
テスト時のi-vectorはoracleを使用
傾向はほぼWSJの時と同じ
M-vectorは教師なし適応だが、
教師ありのi-vector適応と同等なので良い
ICASSP2020論文読み会2020/06/1924
評価 (TED-LIUM2)
• 短セグメントにおける話者特徴量の効果
WSJと違って、発話単位だと少し悪化
1発話の中で話者が切り替わる場合の効果は
WSJの場合と同じ

More Related Content

Similar to ICASSP2020 論文読み会 柏木陽佑

Similar to ICASSP2020 論文読み会 柏木陽佑 (20)

フローデバッグツール「Flow Debugger」
フローデバッグツール「Flow Debugger」フローデバッグツール「Flow Debugger」
フローデバッグツール「Flow Debugger」
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
これ以上ソースコードの負債を増やさないためにVisual Studioの静的解析とAzure PipelinesでCIを回す
これ以上ソースコードの負債を増やさないためにVisual Studioの静的解析とAzure PipelinesでCIを回すこれ以上ソースコードの負債を増やさないためにVisual Studioの静的解析とAzure PipelinesでCIを回す
これ以上ソースコードの負債を増やさないためにVisual Studioの静的解析とAzure PipelinesでCIを回す
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムJapan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
 
2018/06/21 Game Change of deep learning and practical examples of Sony
 2018/06/21 Game Change of  deep learning and practical examples of Sony 2018/06/21 Game Change of  deep learning and practical examples of Sony
2018/06/21 Game Change of deep learning and practical examples of Sony
 
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
 
Machine Learning Nagoya 20170619
Machine Learning Nagoya 20170619Machine Learning Nagoya 20170619
Machine Learning Nagoya 20170619
 
ICCV2011 report
ICCV2011 reportICCV2011 report
ICCV2011 report
 
北九州デジタルクリエイターコンテスト2013記念講演会
北九州デジタルクリエイターコンテスト2013記念講演会北九州デジタルクリエイターコンテスト2013記念講演会
北九州デジタルクリエイターコンテスト2013記念講演会
 
【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities
 
JAWSUG 20180413
JAWSUG 20180413JAWSUG 20180413
JAWSUG 20180413
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 

Recently uploaded

Recently uploaded (10)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

ICASSP2020 論文読み会 柏木陽佑