Weitere ähnliche Inhalte
Ähnlich wie Nakai22sp03 presentation (15)
Nakai22sp03 presentation
- 3. /28
イントロダクション
• テキスト音声合成 (Text to Speech: TTS)
• テキストから人間の自然音声に近い音声を合成する技術
• 既に社会にも広く浸透
→音声アシスタント,スマートスピーカーなど
近年は Deep Neural Network (DNN) [1]による学習モデルが主流に
• 多話者音声合成 [2]
• 複数の話者に対して音声合成を行う TTS
• それぞれの話者が持つ固有の特徴(話者埋め込み)をうまく捉えることが重要
• 多様な話者埋め込みをどう学習,解釈すべきかが本研究の関心
2
イントロダクション
[1] Y. Ren et al., ICLR, 2021 [2] N. Hojo et al., IEICE Trans., 2018
- 4. /28
本発表の概要
• 従来法 : Speaker Encoder で事前学習した話者埋め込みによる多話者音声合成
• Synthesizer, Vocoder と独立に学習することで少ないデータセットでも高品質な音声合成
が可能に
• 問題点 : Synthesizer に対して埋め込み空間の解釈性の高さが保証されない
• 未知話者を入力とした際に話者性を捉えた音声を合成できないという懸念
• 提案法 : Adversarial Regularizer を考慮した敵対学習による埋め込み空間の解
釈性の向上
• 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット
ワークを導入,Synthesizer と敵対学習
• 結果 : 合成音声の話者類似性の改善を確認
3
イントロダクション
- 7. /28
• 3 つの独立した DNN から構成される
① Speaker Encoder
• メルスペクトログラムから識別的タスクにより話者埋め込みを抽出
② Synthesizer
• テキストから得られる言語特徴量と話者埋め込みからメルスペクトログラムを合成
③ Vocoder
• メルスペクトログラムから音声を合成
6
従来の多話者音声合成モデル
従来の多話者音声合成モデル [4]
[4] Y. Jia et al., NIPS, 2018
- 10. /28
• Speaker Encoder と Synthesizer は独立に学習するため,話者埋め
込み空間が Synthesizer にとって解釈性が高いとは限らない
→埋め込み空間の解釈性が低い場合,未知話者の特徴を上手く抽出できない
可能性がある
• 提案法では,話者埋め込み空間を上手く捉えられるような
Synthesizer の構築を目的とする
9
提案法
従来法の問題点
- 11. /28
• 画像生成の文脈での技術
• 特徴空間の解釈性の向上が
モチベーションの敵対学習
• Encoder 𝑓𝜃, Decoder 𝑔𝜙, Critic 𝑑𝜔 からなる
① 異なるデータ 𝑥1, 𝑥2 を Encoder に入力,抽出された特徴量 𝑧1, 𝑧2を 𝛼 ∶ 1 − 𝛼
の割合で混合 ( 𝛼 ∈ 0, 0.5 )
• 𝑧𝑖 = 𝑓𝜃 𝑥𝑖 (𝑖 = 1, 2)
② 混合した特徴量を Decoder に与え,データを出力
• ො
𝑥𝛼 = 𝑔𝜙(𝛼𝑧1 + (1 − 𝛼)𝑧2)
③ Critic は入力された合成データから混合率 𝛼 を推定
10
提案法
Adversarial Regularizer [6]
[6] D. Berthelot et al., ICLR, 2019
- 15. /28
③ Critic は入力 ො
𝑥𝛼 から混合率 𝛼 を推定
• モデルの更新は Critic → Synthesizer の順で行う
14
提案法
提案法
- 16. /28
• Critic は以下の損失関数でパラメータを更新
• 第 1 項 : 真の 𝛼 と Critic が推定した ො
𝛼 との二乗誤差
• 第 2 項 : 入力 𝑥1 と Synthesizer により再構成した 𝑔𝜙(𝑓𝜃(𝑥1)) を 𝛾 で混合したもの
• 初期段階で Synthesizer による合成音声の品質が十分でない時の学習を安定させる
ための項
• Critic 更新後,Synthesizer を更新
• 第 1 項 : 従来法と等しい損失
• 第 2 項 : ො
𝛼 の 2 乗に比例する項
• 混合した話者埋め込みによる音声特徴量と実在話者の音声特徴量との区別がつかな
くなるようにしたいというモチベーション
提案法
提案法
15
- 17. /28
• FastSpeech2 [7]
• 言語特徴量と話者埋め込みを Variance Adaptor に入力,
分散情報(ピッチ,エネルギー,音素継続長)を予測して
メルスペクトログラムを合成する Synthesizer
• 非自己回帰型のモデルで高速
• HiFi-GAN [8]
• メルスペクトログラムから音声を生成する,敵対的生成
ネットワーク (generative adversarial network: GAN) による
Vocoder
16
提案法
Synthesizer / Vocoder
[7] Y. Ren et al., 2021 [8] J. Kong et al., NIPS, 2020
- 19. /28
18
実験
実験条件
話者エンコーダの
学習用コーパス
CSJ コーパス [9]
日本語母語話者 1417 名(男性 947 名,女性 470 名),計 660 時間
Synthesizer のモデル Wataru-Nakata により公開されている FastSpeech 2
TTS の学習用コーパス
JVS コーパス [10] のパラレル発話データ
日本語母語話者 100 名(男性 49 名,女性 51 名),話者ごとに 100 文ずつ
TTS
学習データ 96 名(男性47 名,女性 49名)の 9600 発話のうちランダムにサンプリングした 9048 発話
評価データ 学習,検証データから除外した 4 名(男女 2 名ずつ)
検証データ 96 名(男性47 名,女性 49名)の 9600 発話のうち学習データで用いなかった 512 発話
ハイパーパラメータ 𝛾=0.1, 𝜆 = 0.01
Vocoder のモデル Wataru-Nakata により公開されているHiFi-GAN [11]
比較手法 Jia et al. の従来法,提案法
評価尺度
客観評価 客観:音声特徴量の予測性能
主観評価
①②合成音声の品質
③補間音声の自然性
④話者モーフィングの解釈性に関するスコアの root mean squared error (RMSE)
[9] K. Maekawa et al., SSPR, 2003 [10] S. Takamichi et al., AST, 2020 [11] J. Kong et al., NIPS, 2020
- 20. /28
• 評価話者 4 名(男女 2 名ずつ)の自然音声,合成音声に対して音素ごとのピッチ,
エネルギー,音素継続長を抽出,root mean squared error (RMSE)を計算
• ピッチ,エネルギーは継続時間で重みづけした RMSE も計算
• 全ての特徴量について,従来法より
良好な結果に
• 話者性の大きなファクターである pitch
で大幅な精度向上を確認
19
(𝑑𝑖 ∶ 音素継続長)
客観評価
- 24. /28
• 評価話者 2 名の埋め込みを 𝛼 = 0.5 の割合で混合,従来法と提案法それぞれに
よる合成音声を聴き,どちらの音声がより自然かを選択
• 話者埋め込み空間の頑健性の変化を知りたいというモチベーション
• 評価者数 25 名が手法ごとに 10 発話分を評価
• 一部の話者の組について自然性の改善を確認
• 異性間 (jvs078 to jvs060) でも自然な補間音声
が合成可能
23
実験
主観評価③ 補間音声の自然性
太字 : p<0.05 の有意差
- 26. /28
• 評価話者 2 名の埋め込みを 𝛼 = 0, 0.25, 0.5, 0.75, 1 の割合で混合,受聴者は
評価話者の音声を聴いた後に混合した合成音声を聴き,混合率 𝛼 を予想
• 評価者数 50 名が手法ごとに 20 発話分を評価
• 予想結果と真の混合率との RMSE を計算,
手法間で比較
• 全ての組で提案法が従来法に勝る結果に
• 自然な話者モーフィングが可能な Synthesizer
を学習できたと推察
25
実験
主観評価④ 話者モーフィングの解釈性
- 29. /28
結論
• 目的 : 話者埋め込み空間の解釈性向上
• 未知話者でも話者性を抽出できるようなモデルの構築
• 提案法 : Adversarial Regularizer を考慮した敵対学習による多話者 TTS
• 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット
ワークを導入,Synthesizer と敵対学習
• 結果 : 合成音声の話者類似性の改善を確認
• 今後の展望
• 話者埋め込みのより良い補間方法を検討
• ハイパーパラメータのチューニング,Critic のモデル改善
28
結論