Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

ICASSP2019音声&音響論文読み会 論文紹介(認識系)

1.063 Aufrufe

Veröffentlicht am

SLP P-9.10: Streaming End-to-end Speech Recognition for Mobile Devices の紹介

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

ICASSP2019音声&音響論文読み会 論文紹介(認識系)

  1. 1. SLP P-9.10: Streaming End-to-end Speech Recognition for Mobile Devices ICASSP2019音声&音響論文読み会 論文紹介(認識系) 2019/06/08 益子 貴史 (株) Preferred Networks
  2. 2. 目次  はじめに  論文概要  ①性能改善  ②レスポンスの改善  ③ユーザの状況に合わせた認識  ④数字表記の正規化  まとめ
  3. 3. はじめに
  4. 4. 免責事項 本スライドの内容は発表者の個人的な解釈に基づくものであり,事実と異なる点や 誤りが含まれる可能性があります.
  5. 5. 自己紹介  略歴 ﹘ 1992年 研究室配属時にじゃんけんで負けて音声情報処理の世界へ ﹘ 1995年 東京工業大学 小林隆夫研究室 助手  先輩助手が辞職してプロミュージシャンになったため,たまたまポストが空いた  1994年に現名古屋工業大学教授徳田先生がHMM音声合成の基本アルゴリズムを考案 先生方,学生らとともに新たな研究を最初期から発展させる機会を得た ﹘ 2004年 学術界から産業界へ  東芝研究開発センター勤務  組込向け・サーバー向け音声認識エンジン等の開発を通じて実用化に向けた多くの課題を経験 ﹘ 2018年8月〜 現職  引き続き音声認識の研究開発に従事
  6. 6. 論文概要
  7. 7. 今回紹介する論文  SLP P-9.10: Streaming End-to-end Speech Recognition for Mobile Devices ﹘ 著者:Yanzhang He*, Tara N. Sainath*, Rohit Prabhavalkar, Ian McGraw, Raziel Alvarez, Ding Zhao, David Rybach, Anjuli Kannan, Yonghui Wu, Ruoming Pang, Qiao Liang, Deepti Bhatia, Yuan Shangguan, Bo Li, Golan Pundak, Khe Chai Sim, Tom Bagby, Shuo-Yiin Chang, Kanishka Rao, Alexander Gruenstein *Equal contribution ﹘ 所属:Google, Inc., United States ﹘ この論文を選んだ理由: 「実用化のためには『やるべきことをちゃんとやる』ことが大事」 ということを少しでも感じてもらえたら嬉しい 20名!!
  8. 8. 一言で言うと... All-Neural の End-to-End 音声認識を RNN-T* ベース (一部 Non-Neural なモデルを利用) 実用的な性能で 従来の CTC** ベースのモデルと同等以上 voice search タスクと dictation タスクでは 20% 以上の性能向上 端末で動作させた Google Pixel phone 上で 90% の音声に対して実時間比 0.51 以下で動作 *RNN-T: Recurrent Neural Network Transducer **CTC: Connectionist Temporal Classification
  9. 9. デモ動画 (この論文の技術が使われているはず...)  Google (YouTube) Next Generation Google Assistant: Demo 2 at Google I/O 2019 https://youtube.com/watch?v=QsX7uEEKCDE (accessed 2019/06/05)  Danny Winget @superscientific (Twitter) Google Assistant directly on the device is NO JOKE! 😱 #io19 https://twitter.com/superscientific/status/1125815561500315648?s=21 (accessed 2019/06/05)
  10. 10. End-to-End 音声認識の実用に向けた課題 ① 性能改善 ﹘ 少なくとも従来と同等の性能 ② レスポンスの改善 ﹘ 話し終わってから結果が得られるまでの時間が短いこと ③ ユーザの状況に合わせた認識 ﹘ 好みの曲名,連絡先名,アプリ名などを認識できること ④ 数字表記の正規化 ﹘ 電話番号や住所などの数字の表記を正しく出力できること 論文中の例:call two double four triple six five → call 244-6665
  11. 11. 課題解決へのアプローチ  Recurrent neural network transducer (RNN-T) ①②  Layer normalization ①  Large batch size with tensor processing units (TPUs) ①  Word-piece model (WPM) ①  Low frame rate ②  Time reduction layer ②  RNN の State caching ②  Inference 計算の thread 分割 ②  Contextual biasing by shallow-fusion ③  教師なしの固有名詞発声を用いた学習 ③  合成音声を用いた学習 ④ ① 性能改善 ② レスポンスの改善 ③ ユーザの状況に合わせた認識 ④ 数字表記の正規化
  12. 12. ①性能改善
  13. 13. RNN-T と他の代表的な End-to-End モデルとの比較 ストリーミング処理 出力シンボルの 依存関係 Attention-based Encoder-Decoder Model × ○ Encoder Attention Decoder Softmax 𝑠𝑖−1 𝑠𝑖 𝑦𝑖−1, 𝑐𝑖−1 ℎ1 𝑦𝑖 𝑐𝑖 RNN-T ○ ○ Prediction Joint Network Encoder Softmax 𝑥𝑡𝑖 𝑦𝑖 𝑦𝑢 𝑖−1 ℎ 𝑡𝑖 𝑝 𝑢 𝑖 𝑧𝑖 CTC ○ × Encoder Softmax 𝑥𝑡 ℎ 𝑡 𝑦𝑡 [Chan et al., 2015] 𝑥1 ⋯ 𝑥 𝑇 ℎ 𝑈
  14. 14. Model Architecture  Encoder LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP … … ・・・・・・ 10ms 30ms 60ms 特徴量 80-dim. Mel-log feat. Stack and downsample Time-reduction layer 6 layers LSTMP* LSTM Projection 2048 dim. 640 dim. *LSTMP: LSTM with projection layer
  15. 15. Model Architecture  Prediction Network ﹘ ( 2048-dim. LSTM + 640-dim. projection ) × 2 layers  Joint Network ﹘ 640 hidden units  Softmax Layer ﹘ Graphemes: 76 units → totally 117M parameters ﹘ WPM: 4096 units → totally 120M parameters, 120MB after quantization
  16. 16. Training Optimizations  Layer normalization ﹘ 入力を(ゲートも?)正規化 → 安定性向上 → 性能向上  Word-piece subword units の導入 ﹘ Graphemes と比べ性能が向上  Large batch size (4096) with tensor processing units (TPUs) ﹘ 学習の高速化 → 性能向上 こ こ ?
  17. 17. Training Optimizations [He et al., 2019] pp.6384 より引用
  18. 18. ②レスポンスの改善
  19. 19. Model Architecture (再掲)  Encoder LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP LSTMP … … ・・・・・・ 10ms 30ms 60ms 特徴量 80-dim. Mel-log feat. Stack and downsample Time-reduction layer 6 layers LSTMP* LSTM Projection 2048 dim. 640 dim. *LSTMP: LSTM with projection layer
  20. 20. Efficient Inference  Prediction network への state caching の導入 ﹘ 同一の履歴に対する冗長な計算を回避 ﹘ Prediction network の計算の 50-60% を削減  Thread 分割 ﹘ 以下を別々の thread で実行  Prediction network  Encoder (time-reduction layer 前)  Encoder (time-reduction layer 後) ﹘ Single thread と比べ 28% の高速化 非同期 異なるフレームレート
  21. 21. Parameter Quantization  32 bit 浮動小数点のパラメータを 8 bit 符号付固定小数点に量子化 ﹘ メモリ削減と計算高速化 ﹘ 量子化係数 𝜃 = 127 max 𝒙min , 𝒙max (論文中では 𝜃 = 127 max 𝒙min,𝒙max と記載) ﹘ 量子化ベクトル 𝒙 𝑞 = int 𝜃𝒙 ← 値の範囲は ± 27 − 1 ﹘ 2つの乗算の積の和は 16 bit 以下 (論文中では 15-bits と記載) → 32-bit accumulator で複数の multiply-accumulate operation を実行可能 8 bit signed 8 bit signed 8 bit signed 8 bit signed 15 bit signed 15 bit signed 16 bit signed この演算を2つ同時に実行可能
  22. 22. Parameter Quantization [He et al., 2019] pp.63184 より引用 RT90: 90 percentile での実時間比(計算時間/発声時間)
  23. 23. ③ユーザの状況に合わせた認識
  24. 24. Contextual Biasing  ユーザの好みの曲名,連絡先名,アプリ名などの事前知識を導入  Biasing phrases を WFST* に変換して探索時に shallow-fusion  500M unsupervised voice search utterances を RNN-T の学習に利用 ﹘ production-level recognizer で ラベル付けし信頼度で filtering ﹘ 各バッチの 20% を unsupervised に *WFST: weighted finite state transducer [He et al., 2019] pp.6383 より引用 WFSTの例
  25. 25. Contextual Biasing [He et al., 2019] pp.6384 より引用
  26. 26. ④数字表記の正規化
  27. 27. Text Normalization  住所や電話番号などの数字表記の正規化 ﹘ 論文中の例:  call two double four triple six five → call 244-6665  navigate to two twenty one b baker street → navigate to 221b baker street  正規化された数字表記を出力するように End-to-End モデルを学習 ﹘ 課題: ・数字発声を含む学習データ (audio-text pairs) の量が不十分 ・学習データに存在しない組み合わせは正しく出力できない ﹘ 数字を含む5 million 発声を音声合成で生成  各バッチの 10% を合成音声に
  28. 28. Text Normalization [He et al., 2019] pp.6384 より引用
  29. 29. まとめ
  30. 30. まとめ  End-to-End 音声認識を実用的な性能で端末で動作させたるため, RNN-T をベースに様々な手法を導入  従来の CTC ベースのモデルと比べ同等以上の性能と速度を達成 ﹘ Google Pixel phone で実時間の 2倍の処理速度 ﹘ voice search タスクと dictation タスクでは 20% 以上の性能向上  でも,良く見ると Contextual Biasing と Text Normalization の両方を適用し たモデルの評価結果は載せられていない?? ﹘ きっと製品版のモデルは両方適用されているはず...
  31. 31. 参考文献  [He et al., 2019] Y. He, et al., ''Streaming End-to-end Speech Recognition for Mobile Devices,'' Proc. ICASSP2019, pp.6381-6385, 2019.  [Chan et al., 2015] W. Chan, et al., "Listen, Attend and Spell," arXiv:1508.01211, 2015.
  32. 32. Copyright © 2019 Preferred Networks All Right Reserved.

×