15. 所感
● 音響モデル(Text2melモデル)
○ 自己or非自己 回帰Transformer TTSを使用した合成
○ 逐次音声合成(incremental/streaming TTS)の台頭 ←これの話が主
○
● ウェーブネットボコーダ
○ 課題:高速学習/推論・高品質
○ 音声生成モデルや、音響工学の知見を生かしたモデル提案
○ HiNet(位相と振幅をニューラルネットで予測し音声復元)
■ → HiNet + ニューラル残響モデルで収録音声の復元[Ai, et al.]
○ ソース・フィルタモデルの線形時不変フィルタを制御[Liu, et al.]
○
● その他の発表トピック
○ 歌唱合成、韻律モデリング、パラ言語生成、テキスト処理及び評価
○ 大規模多言語複数話者TTSの挑戦、50言語ID+複数話者ID[Yang, et al.]
[Ai, et al.]Reverberation Modeling for Source-Filter-based Neural Vocoder, Interspeech 2020
[Liu, et al.]Neural Homomorphic Vocoder, Interspeech 2020
[Yang, et al.]Towards Universal Text-to-Speech, Interspeech 2020
16. [Ma, et al., 2020]テキスト入力中に音声出力
k系列の入力後、音響特徴生成開始
→ 最適な入出力長を決定不可
[Mohan, et al., 2020 Interspeech]入出力長制御に強化学習
→ 環境からの観測で行動を選択し、その行動で環境が変化するモデル
行動を繰り返し、最終的な報酬を最大化する行動を学習
Incremental Text to Speech for Neural Sequence-to-Sequence
Models using Reinforcement Learning
[Ma, et al., 2020]“Incremental Text-to-Speech Synthesis with Prefix-to-Prefix Framework”, (https://arxiv.org/abs/1911.02750)
[Mohan, et al., 2020 Interspeech] Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning, Interspeech 2020
処理の例
①3単語入力し、1単語目を生成開始
②argmax(注意スコア)が2単語目なら生成停止
③4単語目を入力、①から同様に繰り返す
20. その他Interspeech2020 逐次音声合成の発表
[Stephenson, et al.] What the Future Brings: Investigating
the Impact of Lookahead for Incremental Neural TTS
逐次音声合成の中間表現と、通常TTSとの類似性分析
2単語の単語先読みで94%の類似性(英語)
[Ellinas, et al.] High Quality Streaming Speech Synthesis
with Low, Sentence-Length-Independent Latency
CPU用End-to-End逐次音声合成の構築及び遅延評価
22. 全般
一般セッション: 7
● Speaker recognition I, II
● Learning Techniques for Speaker Recognition I, II
● Speaker Embedding
● DNN Architectures for Speaker Recognition
● Speaker Recognition Challenges and Applications
スペシャルセッション: 3
● Large-Scale Evaluation of Short-Duration Speaker Verification
● The Interspeech 2020 Far Field Speaker Verification Challenge
● The Attacker’s Perspective on Automatic Speaker Verification
29. Speech-BERT と BERT の
同時ファインチューニング [Siriwardhana20]
● Speech-BERT [Baevski19]
○ 10ms-stride のCNN … ダウンサンプリング
○ Gumbel-softmax … 量子化
○ 処理後は,100サンプル/秒の離散シンボル
■ 自然言語と同様にBERTを学習可能
■ (マスクされた入力を予測する)
■
● 音声情報・言語情報を使う音声感情認識モデルの学習
○ それぞれのCLS (classification) トークンを結合し,shallow fusion
S. Siriwardhana et al.
“Jointly Fine-Tuning “BERT-Like” Self Supervised Models to Improve Multimodal Speech Emotion Recognition,” Interspeech2020.
https://arxiv.org/pdf/1910.05453.pdf
C
L
S
Speech-BERT
C
L
S
BERT
Quantized speech BPE-tokenized text
30. Speech-XLNet [Song20]
● 前提:BERT から XLNet へ
○ マスクされたトークンの独立予測から自己回帰的予測へ
● Speech-XLNet
○ 基本的にはXLNet と同じだが,トークンは連続値のベクトル
○ Huber loss を採用 (L1/L2ロスはうまく動かなかった)
■ L1とL2ロスの切り替え
X. Song et al., “Speech-XLNet: Unsupervised Acoustic Model Pretraining for Self-Attention Networks,” Interspeech2020.
New York is a
BERT
city
New York is a city
BERTの損失関数 (“New” と “York” を独立に予測)
XLNetの損失関数 (自己回帰的に予測)
31. Audio Transformer [Liu20] [Yang20]
● Mockingjay [Liu20]: もう一つの音声版BERT
○ Speech BERT: 音声波形 -> 音声を離散化 -> 自然言語と同様に学習
○ Mockingjay: 音声波形 -> 連続値の特徴量に対してL1ロスでBERTを学習
○
● Mockingjay の multi-head attention は何を表している [Yang20]
○ 3つに分類されると報告
○ Global … 全体的な特徴(話者性など)
○ Vertical … 特定の音素の注視
○ Diagonal … 近傍の音素を考慮
S.-w. Yang et al., “Understanding Self-Attention of Self-Supervised Audio Transformers,” Interspeech2020.
A. T. Liu et al., “Mockingjay: Unsupervised speech representation learning with deep bidirectional transformer encoders,” ICASSP2020.