Nakai22sp03 presentation

多話者音声合成のためのAdversarial
Regularizerを考慮した学習アルゴリズム
仲井佑友輔，齋藤佑樹，宇田川健太，猿渡洋（東大）
2022 年 3 月音声 (SP) 研究会 3 月 1 日（火）

/28
目次
• イントロダクション
• 従来の多話者音声合成モデル
• 提案法
• 実験的評価
• 結論
1
イントロダクション

/28
• テキスト音声合成 (Text to Speech: TTS)
• テキストから人間の自然音声に近い音声を合成する技術
• 既に社会にも広く浸透
→音声アシスタント，スマートスピーカーなど
近年は Deep Neural Network (DNN) [1]による学習モデルが主流に
• 多話者音声合成 [2]
• 複数の話者に対して音声合成を行う TTS
• それぞれの話者が持つ固有の特徴（話者埋め込み）をうまく捉えることが重要
• 多様な話者埋め込みをどう学習，解釈すべきかが本研究の関心
2
[1] Y. Ren et al., ICLR, 2021 [2] N. Hojo et al., IEICE Trans., 2018

/28
本発表の概要
• 従来法 : Speaker Encoder で事前学習した話者埋め込みによる多話者音声合成
• Synthesizer, Vocoder と独立に学習することで少ないデータセットでも高品質な音声合成
が可能に
• 問題点 : Synthesizer に対して埋め込み空間の解釈性の高さが保証されない
• 未知話者を入力とした際に話者性を捉えた音声を合成できないという懸念
• 提案法 : Adversarial Regularizer を考慮した敵対学習による埋め込み空間の解
釈性の向上
• 2 名の話者埋め込みを混合，得られたメルスペクトログラムから混合率を推定するネット
ワークを導入，Synthesizer と敵対学習
• 結果 : 合成音声の話者類似性の改善を確認
3

/28
• 提案法
• 実験的評価
• 結論
4

/28
• テキストから抽出された言語特徴
量から音素継続長，音響特徴量を
学習
• 学習したモデルから音素継続長，
音響特徴量を予測
• 多話者音声合成では話者埋め込み
も入力として用いる
DNN音声合成
5
従来の多話者音声合成モデル
[3]
[3] 山本, 高道, Pythonで学ぶ音声合成機械学習実践シリーズ, 2021

/28
• 3 つの独立した DNN から構成される
① Speaker Encoder
• メルスペクトログラムから識別的タスクにより話者埋め込みを抽出
② Synthesizer
• テキストから得られる言語特徴量と話者埋め込みからメルスペクトログラムを合成
③ Vocoder
• メルスペクトログラムから音声を合成
6
従来の多話者音声合成モデル
従来の多話者音声合成モデル [4]
[4] Y. Jia et al., NIPS, 2018

/28
• 自然音声から変換したメルスペクトログラムを入力とし，固定次元の話者埋め
込みを学習する
• Generalized end-to-end (GE2E) 損失 [5] を用いた識別的な学習タスクにより，
同じ話者による埋め込みは対応する話者のセントロイドの近くに，異なる話者
のセントロイドから遠くに分布するように学習
7
Speaker Encoder 従来の多話者音声合成モデル
[5] G. Heigold, ICASSP, 2016

/28
• 提案法
• 実験的評価
• 結論
8

/28
• Speaker Encoder と Synthesizer は独立に学習するため，話者埋め
込み空間が Synthesizer にとって解釈性が高いとは限らない
→埋め込み空間の解釈性が低い場合，未知話者の特徴を上手く抽出できない
可能性がある
• 提案法では，話者埋め込み空間を上手く捉えられるような
Synthesizer の構築を目的とする
9
提案法
従来法の問題点

/28
• 画像生成の文脈での技術
• 特徴空間の解釈性の向上が
モチベーションの敵対学習
• Encoder 𝑓𝜃, Decoder 𝑔𝜙, Critic 𝑑𝜔 からなる
① 異なるデータ 𝑥1, 𝑥2 を Encoder に入力，抽出された特徴量 𝑧1, 𝑧2を 𝛼 ∶ 1 − 𝛼
の割合で混合 ( 𝛼 ∈ 0, 0.5 )
• 𝑧𝑖 = 𝑓𝜃 𝑥𝑖 (𝑖 = 1, 2)
② 混合した特徴量を Decoder に与え，データを出力
• ො
𝑥𝛼 = 𝑔𝜙(𝛼𝑧1 + (1 − 𝛼)𝑧2)
③ Critic は入力された合成データから混合率 𝛼 を推定
10
提案法
Adversarial Regularizer [6]
[6] D. Berthelot et al., ICLR, 2019

/28
• 話者埋め込み空間を上手く捉えられるような Synthesizer の構築がモチベーション
• Speaker Encoder は Synthesizer とは独立に事前学習し，パラメータは更新しない
11
提案法
提案法

/28
① 異なる話者による発話を 1つずつサンプリング，メルスペクトログラム 𝑥1, 𝑥2 を
Speaker Encoder に入力
12
提案法
提案法

/28
② 話者埋め込みを混合，Synthesizer は混合した話者埋め込みによるメルスペクト
ログラム ො
𝑥𝛼 を出力
13
提案法
提案法

/28
③ Critic は入力 ො
𝑥𝛼 から混合率 𝛼 を推定
• モデルの更新は Critic → Synthesizer の順で行う
14
提案法
提案法

/28
• Critic は以下の損失関数でパラメータを更新
• 第 1 項 : 真の 𝛼 と Critic が推定した ො
𝛼 との二乗誤差
• 第 2 項 : 入力 𝑥1 と Synthesizer により再構成した 𝑔𝜙(𝑓𝜃(𝑥1)) を 𝛾 で混合したもの
• 初期段階で Synthesizer による合成音声の品質が十分でない時の学習を安定させる
ための項
• Critic 更新後，Synthesizer を更新
• 第 1 項 : 従来法と等しい損失
• 第 2 項 : ො
𝛼 の 2 乗に比例する項
• 混合した話者埋め込みによる音声特徴量と実在話者の音声特徴量との区別がつかな
くなるようにしたいというモチベーション
提案法
提案法
15

/28
• FastSpeech2 [7]
• 言語特徴量と話者埋め込みを Variance Adaptor に入力，
分散情報（ピッチ，エネルギー，音素継続長）を予測して
メルスペクトログラムを合成する Synthesizer
• 非自己回帰型のモデルで高速
• HiFi-GAN [8]
• メルスペクトログラムから音声を生成する，敵対的生成
ネットワーク (generative adversarial network: GAN) による
Vocoder
16
提案法
Synthesizer / Vocoder
[7] Y. Ren et al., 2021 [8] J. Kong et al., NIPS, 2020

/28
• 提案法
• 実験的評価
• 結論
17

/28
18
実験
実験条件
話者エンコーダの
学習用コーパス
CSJ コーパス [9]
日本語母語話者 1417 名（男性 947 名，女性 470 名），計 660 時間
Synthesizer のモデル Wataru-Nakata により公開されている FastSpeech 2
TTS の学習用コーパス
JVS コーパス [10] のパラレル発話データ
日本語母語話者 100 名（男性 49 名，女性 51 名），話者ごとに 100 文ずつ
TTS
学習データ 96 名（男性47 名，女性 49名）の 9600 発話のうちランダムにサンプリングした 9048 発話
評価データ学習，検証データから除外した 4 名（男女 2 名ずつ）
検証データ 96 名（男性47 名，女性 49名）の 9600 発話のうち学習データで用いなかった 512 発話
ハイパーパラメータ 𝛾＝0.1, 𝜆 = 0.01
Vocoder のモデル Wataru-Nakata により公開されているHiFi-GAN [11]
比較手法 Jia et al. の従来法，提案法
評価尺度
客観評価客観：音声特徴量の予測性能
主観評価
①②合成音声の品質
③補間音声の自然性
④話者モーフィングの解釈性に関するスコアの root mean squared error (RMSE)
[9] K. Maekawa et al., SSPR, 2003 [10] S. Takamichi et al., AST, 2020 [11] J. Kong et al., NIPS, 2020

/28
• 評価話者 4 名（男女 2 名ずつ）の自然音声，合成音声に対して音素ごとのピッチ，
エネルギー，音素継続長を抽出，root mean squared error (RMSE)を計算
• ピッチ，エネルギーは継続時間で重みづけした RMSE も計算
• 全ての特徴量について，従来法より
良好な結果に
• 話者性の大きなファクターである pitch
で大幅な精度向上を確認
19
（𝑑𝑖 ∶ 音素継続長）
客観評価

/28
• 従来法と提案法それぞれによる合成音声を聴き，どちらの音声がより自然か
を選択
• 評価者数 25 名が手法ごとに 10 発話分を評価
• 提案法が総じて従来法に劣る結果に
• Synthesizer の損失関数における Critic の影響が原因？
20
実験
主観評価① 合成音声の自然性
太字 : p<0.05 の有意差

/28
• 自然音声を聴いた後に該当話者の合成音声を聴き，どちらの音声が該当話者
に類似しているか選択
• 1 名を除き，提案法の方が話者類似性は高
いという結果に
• 話者埋め込み空間の解釈性向上により Synthesizer
が話者性を上手く捉えることが可能になったこと
を示唆
21
実験
主観評価② 合成音声の話者類似性

/28
• 評価話者の自然音声 (VOICEACTRESS100_001) 男性：青，女性：赤
• 従来法 vs 提案法 (jvs010)
jvs005 jvs010 jvs060 jvs078
音声サンプル①②
22
音声サンプルはこちらから試聴できます．
従来法提案法

/28
• 評価話者 2 名の埋め込みを 𝛼 = 0.5 の割合で混合，従来法と提案法それぞれに
よる合成音声を聴き，どちらの音声がより自然かを選択
• 話者埋め込み空間の頑健性の変化を知りたいというモチベーション
• 一部の話者の組について自然性の改善を確認
• 異性間 (jvs078 to jvs060) でも自然な補間音声
が合成可能
23
実験
主観評価③ 補間音声の自然性

/28
• 従来法 vs 提案法
音声サンプル③
24
jvs005 to jvs078 jvs078 to jvs060
従来法
提案法

/28
• 評価話者 2 名の埋め込みを 𝛼 = 0, 0.25, 0.5, 0.75, 1 の割合で混合，受聴者は
評価話者の音声を聴いた後に混合した合成音声を聴き，混合率 𝛼 を予想
• 予想結果と真の混合率との RMSE を計算，
手法間で比較
• 全ての組で提案法が従来法に勝る結果に
• 自然な話者モーフィングが可能な Synthesizer
を学習できたと推察
25
実験
主観評価④ 話者モーフィングの解釈性

/28
• 従来法 vs 提案法 (jvs005 to jvs078)
音声サンプル④
26
α=0 α=0.25 α=0.5 α=0.75 α=1
従来法
提案法

/28
• 提案法
• 実験的評価
• 結論
27

/28
結論
• 目的 : 話者埋め込み空間の解釈性向上
• 未知話者でも話者性を抽出できるようなモデルの構築
• 提案法 : Adversarial Regularizer を考慮した敵対学習による多話者 TTS
• 2 名の話者埋め込みを混合，得られたメルスペクトログラムから混合率を推定するネット
ワークを導入，Synthesizer と敵対学習
• 結果 : 合成音声の話者類似性の改善を確認
• 今後の展望
• 話者埋め込みのより良い補間方法を検討
• ハイパーパラメータのチューニング，Critic のモデル改善
28
結論

Nakai22sp03 presentation

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Nakai22sp03 presentation

Ähnlich wie Nakai22sp03 presentation (15)

Mehr von Yuki Saito

Mehr von Yuki Saito (20)

Nakai22sp03 presentation