SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Downloaden Sie, um offline zu lesen
多話者音声合成のためのAdversarial
Regularizerを考慮した学習アルゴリズム
仲井 佑友輔,齋藤 佑樹,宇田川 健太,猿渡 洋(東大)
2022 年 3 月 音声 (SP) 研究会 3 月 1 日(火)
/28
目次
• イントロダクション
• 従来の多話者音声合成モデル
• 提案法
• 実験的評価
• 結論
1
イントロダクション
/28
イントロダクション
• テキスト音声合成 (Text to Speech: TTS)
• テキストから人間の自然音声に近い音声を合成する技術
• 既に社会にも広く浸透
→音声アシスタント,スマートスピーカーなど
近年は Deep Neural Network (DNN) [1]による学習モデルが主流に
• 多話者音声合成 [2]
• 複数の話者に対して音声合成を行う TTS
• それぞれの話者が持つ固有の特徴(話者埋め込み)をうまく捉えることが重要
• 多様な話者埋め込みをどう学習,解釈すべきかが本研究の関心
2
イントロダクション
[1] Y. Ren et al., ICLR, 2021 [2] N. Hojo et al., IEICE Trans., 2018
/28
本発表の概要
• 従来法 : Speaker Encoder で事前学習した話者埋め込みによる多話者音声合成
• Synthesizer, Vocoder と独立に学習することで少ないデータセットでも高品質な音声合成
が可能に
• 問題点 : Synthesizer に対して埋め込み空間の解釈性の高さが保証されない
• 未知話者を入力とした際に話者性を捉えた音声を合成できないという懸念
• 提案法 : Adversarial Regularizer を考慮した敵対学習による埋め込み空間の解
釈性の向上
• 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット
ワークを導入,Synthesizer と敵対学習
• 結果 : 合成音声の話者類似性の改善を確認
3
イントロダクション
/28
• イントロダクション
• 従来の多話者音声合成モデル
• 提案法
• 実験的評価
• 結論
4
/28
• テキストから抽出された言語特徴
量から音素継続長,音響特徴量を
学習
• 学習したモデルから音素継続長,
音響特徴量を予測
• 多話者音声合成では話者埋め込み
も入力として用いる
DNN音声合成
5
従来の多話者音声合成モデル
[3]
[3] 山本, 高道, Pythonで学ぶ音声合成 機械学習実践シリーズ, 2021
/28
• 3 つの独立した DNN から構成される
① Speaker Encoder
• メルスペクトログラムから識別的タスクにより話者埋め込みを抽出
② Synthesizer
• テキストから得られる言語特徴量と話者埋め込みからメルスペクトログラムを合成
③ Vocoder
• メルスペクトログラムから音声を合成
6
従来の多話者音声合成モデル
従来の多話者音声合成モデル [4]
[4] Y. Jia et al., NIPS, 2018
/28
• 自然音声から変換したメルスペクトログラムを入力とし,固定次元の話者埋め
込みを学習する
• Generalized end-to-end (GE2E) 損失 [5] を用いた識別的な学習タスクにより,
同じ話者による埋め込みは対応する話者のセントロイドの近くに,異なる話者
のセントロイドから遠くに分布するように学習
7
Speaker Encoder 従来の多話者音声合成モデル
[5] G. Heigold, ICASSP, 2016
/28
• イントロダクション
• 従来の多話者音声合成モデル
• 提案法
• 実験的評価
• 結論
8
/28
• Speaker Encoder と Synthesizer は独立に学習するため,話者埋め
込み空間が Synthesizer にとって解釈性が高いとは限らない
→埋め込み空間の解釈性が低い場合,未知話者の特徴を上手く抽出できない
可能性がある
• 提案法では,話者埋め込み空間を上手く捉えられるような
Synthesizer の構築を目的とする
9
提案法
従来法の問題点
/28
• 画像生成の文脈での技術
• 特徴空間の解釈性の向上が
モチベーションの敵対学習
• Encoder 𝑓𝜃, Decoder 𝑔𝜙, Critic 𝑑𝜔 からなる
① 異なるデータ 𝑥1, 𝑥2 を Encoder に入力,抽出された特徴量 𝑧1, 𝑧2を 𝛼 ∶ 1 − 𝛼
の割合で混合 ( 𝛼 ∈ 0, 0.5 )
• 𝑧𝑖 = 𝑓𝜃 𝑥𝑖 (𝑖 = 1, 2)
② 混合した特徴量を Decoder に与え,データを出力
• ො
𝑥𝛼 = 𝑔𝜙(𝛼𝑧1 + (1 − 𝛼)𝑧2)
③ Critic は入力された合成データから混合率 𝛼 を推定
10
提案法
Adversarial Regularizer [6]
[6] D. Berthelot et al., ICLR, 2019
/28
• 話者埋め込み空間を上手く捉えられるような Synthesizer の構築がモチベーション
• Speaker Encoder は Synthesizer とは独立に事前学習し,パラメータは更新しない
11
提案法
提案法
/28
① 異なる話者による発話を 1つずつサンプリング,メルスペクトログラム 𝑥1, 𝑥2 を
Speaker Encoder に入力
12
提案法
提案法
/28
② 話者埋め込みを混合,Synthesizer は混合した話者埋め込みによるメルスペクト
ログラム ො
𝑥𝛼 を出力
13
提案法
提案法
/28
③ Critic は入力 ො
𝑥𝛼 から混合率 𝛼 を推定
• モデルの更新は Critic → Synthesizer の順で行う
14
提案法
提案法
/28
• Critic は以下の損失関数でパラメータを更新
• 第 1 項 : 真の 𝛼 と Critic が推定した ො
𝛼 との二乗誤差
• 第 2 項 : 入力 𝑥1 と Synthesizer により再構成した 𝑔𝜙(𝑓𝜃(𝑥1)) を 𝛾 で混合したもの
• 初期段階で Synthesizer による合成音声の品質が十分でない時の学習を安定させる
ための項
• Critic 更新後,Synthesizer を更新
• 第 1 項 : 従来法と等しい損失
• 第 2 項 : ො
𝛼 の 2 乗に比例する項
• 混合した話者埋め込みによる音声特徴量と実在話者の音声特徴量との区別がつかな
くなるようにしたいというモチベーション
提案法
提案法
15
/28
• FastSpeech2 [7]
• 言語特徴量と話者埋め込みを Variance Adaptor に入力,
分散情報(ピッチ,エネルギー,音素継続長)を予測して
メルスペクトログラムを合成する Synthesizer
• 非自己回帰型のモデルで高速
• HiFi-GAN [8]
• メルスペクトログラムから音声を生成する,敵対的生成
ネットワーク (generative adversarial network: GAN) による
Vocoder
16
提案法
Synthesizer / Vocoder
[7] Y. Ren et al., 2021 [8] J. Kong et al., NIPS, 2020
/28
• イントロダクション
• 従来の多話者音声合成モデル
• 提案法
• 実験的評価
• 結論
17
/28
18
実験
実験条件
話者エンコーダの
学習用コーパス
CSJ コーパス [9]
日本語母語話者 1417 名(男性 947 名,女性 470 名),計 660 時間
Synthesizer のモデル Wataru-Nakata により公開されている FastSpeech 2
TTS の学習用コーパス
JVS コーパス [10] のパラレル発話データ
日本語母語話者 100 名(男性 49 名,女性 51 名),話者ごとに 100 文ずつ
TTS
学習データ 96 名(男性47 名,女性 49名)の 9600 発話のうちランダムにサンプリングした 9048 発話
評価データ 学習,検証データから除外した 4 名(男女 2 名ずつ)
検証データ 96 名(男性47 名,女性 49名)の 9600 発話のうち学習データで用いなかった 512 発話
ハイパーパラメータ 𝛾=0.1, 𝜆 = 0.01
Vocoder のモデル Wataru-Nakata により公開されているHiFi-GAN [11]
比較手法 Jia et al. の従来法,提案法
評価尺度
客観評価 客観:音声特徴量の予測性能
主観評価
①②合成音声の品質
③補間音声の自然性
④話者モーフィングの解釈性に関するスコアの root mean squared error (RMSE)
[9] K. Maekawa et al., SSPR, 2003 [10] S. Takamichi et al., AST, 2020 [11] J. Kong et al., NIPS, 2020
/28
• 評価話者 4 名(男女 2 名ずつ)の自然音声,合成音声に対して音素ごとのピッチ,
エネルギー,音素継続長を抽出,root mean squared error (RMSE)を計算
• ピッチ,エネルギーは継続時間で重みづけした RMSE も計算
• 全ての特徴量について,従来法より
良好な結果に
• 話者性の大きなファクターである pitch
で大幅な精度向上を確認
19
(𝑑𝑖 ∶ 音素継続長)
客観評価
/28
• 従来法と提案法それぞれによる合成音声を聴き,どちらの音声がより自然か
を選択
• 評価者数 25 名が手法ごとに 10 発話分を評価
• 提案法が総じて従来法に劣る結果に
• Synthesizer の損失関数における Critic の影響が原因?
20
実験
主観評価① 合成音声の自然性
太字 : p<0.05 の有意差
/28
• 自然音声を聴いた後に該当話者の合成音声を聴き,どちらの音声が該当話者
に類似しているか選択
• 評価者数 25 名が手法ごとに 10 発話分を評価
• 1 名を除き,提案法の方が話者類似性は高
いという結果に
• 話者埋め込み空間の解釈性向上により Synthesizer
が話者性を上手く捉えることが可能になったこと
を示唆
21
実験
主観評価② 合成音声の話者類似性
太字 : p<0.05 の有意差
/28
• 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤
• 従来法 vs 提案法 (jvs010)
jvs005 jvs010 jvs060 jvs078
音声サンプル①②
22
音声サンプルはこちらから試聴できます.
従来法 提案法
/28
• 評価話者 2 名の埋め込みを 𝛼 = 0.5 の割合で混合,従来法と提案法それぞれに
よる合成音声を聴き,どちらの音声がより自然かを選択
• 話者埋め込み空間の頑健性の変化を知りたいというモチベーション
• 評価者数 25 名が手法ごとに 10 発話分を評価
• 一部の話者の組について自然性の改善を確認
• 異性間 (jvs078 to jvs060) でも自然な補間音声
が合成可能
23
実験
主観評価③ 補間音声の自然性
太字 : p<0.05 の有意差
/28
• 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤
• 従来法 vs 提案法
jvs005 jvs010 jvs060 jvs078
音声サンプル③
24
音声サンプルはこちらから試聴できます.
jvs005 to jvs078 jvs078 to jvs060
従来法
提案法
/28
• 評価話者 2 名の埋め込みを 𝛼 = 0, 0.25, 0.5, 0.75, 1 の割合で混合,受聴者は
評価話者の音声を聴いた後に混合した合成音声を聴き,混合率 𝛼 を予想
• 評価者数 50 名が手法ごとに 20 発話分を評価
• 予想結果と真の混合率との RMSE を計算,
手法間で比較
• 全ての組で提案法が従来法に勝る結果に
• 自然な話者モーフィングが可能な Synthesizer
を学習できたと推察
25
実験
主観評価④ 話者モーフィングの解釈性
/28
• 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤
• 従来法 vs 提案法 (jvs005 to jvs078)
jvs005 jvs010 jvs060 jvs078
音声サンプル④
26
音声サンプルはこちらから試聴できます.
α=0 α=0.25 α=0.5 α=0.75 α=1
従来法
提案法
/28
• イントロダクション
• 従来の多話者音声合成モデル
• 提案法
• 実験的評価
• 結論
27
/28
結論
• 目的 : 話者埋め込み空間の解釈性向上
• 未知話者でも話者性を抽出できるようなモデルの構築
• 提案法 : Adversarial Regularizer を考慮した敵対学習による多話者 TTS
• 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット
ワークを導入,Synthesizer と敵対学習
• 結果 : 合成音声の話者類似性の改善を確認
• 今後の展望
• 話者埋め込みのより良い補間方法を検討
• ハイパーパラメータのチューニング,Critic のモデル改善
28
結論

Weitere ähnliche Inhalte

Was ist angesagt?

DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
Shinnosuke Takamichi
 

Was ist angesagt? (20)

WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズムDNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
ボコーダ波形生成における励振源の群遅延操作に向けた声帯音源特性の解析
 

Ähnlich wie Nakai22sp03 presentation

日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
 

Ähnlich wie Nakai22sp03 presentation (15)

日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
 

Mehr von Yuki Saito

Mehr von Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
saito2017asj_vc
saito2017asj_vcsaito2017asj_vc
saito2017asj_vc
 
Saito2017icassp
Saito2017icasspSaito2017icassp
Saito2017icassp
 
Slp201702
Slp201702Slp201702
Slp201702
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
 

Nakai22sp03 presentation

  • 2. /28 目次 • イントロダクション • 従来の多話者音声合成モデル • 提案法 • 実験的評価 • 結論 1 イントロダクション
  • 3. /28 イントロダクション • テキスト音声合成 (Text to Speech: TTS) • テキストから人間の自然音声に近い音声を合成する技術 • 既に社会にも広く浸透 →音声アシスタント,スマートスピーカーなど 近年は Deep Neural Network (DNN) [1]による学習モデルが主流に • 多話者音声合成 [2] • 複数の話者に対して音声合成を行う TTS • それぞれの話者が持つ固有の特徴(話者埋め込み)をうまく捉えることが重要 • 多様な話者埋め込みをどう学習,解釈すべきかが本研究の関心 2 イントロダクション [1] Y. Ren et al., ICLR, 2021 [2] N. Hojo et al., IEICE Trans., 2018
  • 4. /28 本発表の概要 • 従来法 : Speaker Encoder で事前学習した話者埋め込みによる多話者音声合成 • Synthesizer, Vocoder と独立に学習することで少ないデータセットでも高品質な音声合成 が可能に • 問題点 : Synthesizer に対して埋め込み空間の解釈性の高さが保証されない • 未知話者を入力とした際に話者性を捉えた音声を合成できないという懸念 • 提案法 : Adversarial Regularizer を考慮した敵対学習による埋め込み空間の解 釈性の向上 • 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット ワークを導入,Synthesizer と敵対学習 • 結果 : 合成音声の話者類似性の改善を確認 3 イントロダクション
  • 6. /28 • テキストから抽出された言語特徴 量から音素継続長,音響特徴量を 学習 • 学習したモデルから音素継続長, 音響特徴量を予測 • 多話者音声合成では話者埋め込み も入力として用いる DNN音声合成 5 従来の多話者音声合成モデル [3] [3] 山本, 高道, Pythonで学ぶ音声合成 機械学習実践シリーズ, 2021
  • 7. /28 • 3 つの独立した DNN から構成される ① Speaker Encoder • メルスペクトログラムから識別的タスクにより話者埋め込みを抽出 ② Synthesizer • テキストから得られる言語特徴量と話者埋め込みからメルスペクトログラムを合成 ③ Vocoder • メルスペクトログラムから音声を合成 6 従来の多話者音声合成モデル 従来の多話者音声合成モデル [4] [4] Y. Jia et al., NIPS, 2018
  • 8. /28 • 自然音声から変換したメルスペクトログラムを入力とし,固定次元の話者埋め 込みを学習する • Generalized end-to-end (GE2E) 損失 [5] を用いた識別的な学習タスクにより, 同じ話者による埋め込みは対応する話者のセントロイドの近くに,異なる話者 のセントロイドから遠くに分布するように学習 7 Speaker Encoder 従来の多話者音声合成モデル [5] G. Heigold, ICASSP, 2016
  • 10. /28 • Speaker Encoder と Synthesizer は独立に学習するため,話者埋め 込み空間が Synthesizer にとって解釈性が高いとは限らない →埋め込み空間の解釈性が低い場合,未知話者の特徴を上手く抽出できない 可能性がある • 提案法では,話者埋め込み空間を上手く捉えられるような Synthesizer の構築を目的とする 9 提案法 従来法の問題点
  • 11. /28 • 画像生成の文脈での技術 • 特徴空間の解釈性の向上が モチベーションの敵対学習 • Encoder 𝑓𝜃, Decoder 𝑔𝜙, Critic 𝑑𝜔 からなる ① 異なるデータ 𝑥1, 𝑥2 を Encoder に入力,抽出された特徴量 𝑧1, 𝑧2を 𝛼 ∶ 1 − 𝛼 の割合で混合 ( 𝛼 ∈ 0, 0.5 ) • 𝑧𝑖 = 𝑓𝜃 𝑥𝑖 (𝑖 = 1, 2) ② 混合した特徴量を Decoder に与え,データを出力 • ො 𝑥𝛼 = 𝑔𝜙(𝛼𝑧1 + (1 − 𝛼)𝑧2) ③ Critic は入力された合成データから混合率 𝛼 を推定 10 提案法 Adversarial Regularizer [6] [6] D. Berthelot et al., ICLR, 2019
  • 12. /28 • 話者埋め込み空間を上手く捉えられるような Synthesizer の構築がモチベーション • Speaker Encoder は Synthesizer とは独立に事前学習し,パラメータは更新しない 11 提案法 提案法
  • 13. /28 ① 異なる話者による発話を 1つずつサンプリング,メルスペクトログラム 𝑥1, 𝑥2 を Speaker Encoder に入力 12 提案法 提案法
  • 15. /28 ③ Critic は入力 ො 𝑥𝛼 から混合率 𝛼 を推定 • モデルの更新は Critic → Synthesizer の順で行う 14 提案法 提案法
  • 16. /28 • Critic は以下の損失関数でパラメータを更新 • 第 1 項 : 真の 𝛼 と Critic が推定した ො 𝛼 との二乗誤差 • 第 2 項 : 入力 𝑥1 と Synthesizer により再構成した 𝑔𝜙(𝑓𝜃(𝑥1)) を 𝛾 で混合したもの • 初期段階で Synthesizer による合成音声の品質が十分でない時の学習を安定させる ための項 • Critic 更新後,Synthesizer を更新 • 第 1 項 : 従来法と等しい損失 • 第 2 項 : ො 𝛼 の 2 乗に比例する項 • 混合した話者埋め込みによる音声特徴量と実在話者の音声特徴量との区別がつかな くなるようにしたいというモチベーション 提案法 提案法 15
  • 17. /28 • FastSpeech2 [7] • 言語特徴量と話者埋め込みを Variance Adaptor に入力, 分散情報(ピッチ,エネルギー,音素継続長)を予測して メルスペクトログラムを合成する Synthesizer • 非自己回帰型のモデルで高速 • HiFi-GAN [8] • メルスペクトログラムから音声を生成する,敵対的生成 ネットワーク (generative adversarial network: GAN) による Vocoder 16 提案法 Synthesizer / Vocoder [7] Y. Ren et al., 2021 [8] J. Kong et al., NIPS, 2020
  • 19. /28 18 実験 実験条件 話者エンコーダの 学習用コーパス CSJ コーパス [9] 日本語母語話者 1417 名(男性 947 名,女性 470 名),計 660 時間 Synthesizer のモデル Wataru-Nakata により公開されている FastSpeech 2 TTS の学習用コーパス JVS コーパス [10] のパラレル発話データ 日本語母語話者 100 名(男性 49 名,女性 51 名),話者ごとに 100 文ずつ TTS 学習データ 96 名(男性47 名,女性 49名)の 9600 発話のうちランダムにサンプリングした 9048 発話 評価データ 学習,検証データから除外した 4 名(男女 2 名ずつ) 検証データ 96 名(男性47 名,女性 49名)の 9600 発話のうち学習データで用いなかった 512 発話 ハイパーパラメータ 𝛾=0.1, 𝜆 = 0.01 Vocoder のモデル Wataru-Nakata により公開されているHiFi-GAN [11] 比較手法 Jia et al. の従来法,提案法 評価尺度 客観評価 客観:音声特徴量の予測性能 主観評価 ①②合成音声の品質 ③補間音声の自然性 ④話者モーフィングの解釈性に関するスコアの root mean squared error (RMSE) [9] K. Maekawa et al., SSPR, 2003 [10] S. Takamichi et al., AST, 2020 [11] J. Kong et al., NIPS, 2020
  • 20. /28 • 評価話者 4 名(男女 2 名ずつ)の自然音声,合成音声に対して音素ごとのピッチ, エネルギー,音素継続長を抽出,root mean squared error (RMSE)を計算 • ピッチ,エネルギーは継続時間で重みづけした RMSE も計算 • 全ての特徴量について,従来法より 良好な結果に • 話者性の大きなファクターである pitch で大幅な精度向上を確認 19 (𝑑𝑖 ∶ 音素継続長) 客観評価
  • 21. /28 • 従来法と提案法それぞれによる合成音声を聴き,どちらの音声がより自然か を選択 • 評価者数 25 名が手法ごとに 10 発話分を評価 • 提案法が総じて従来法に劣る結果に • Synthesizer の損失関数における Critic の影響が原因? 20 実験 主観評価① 合成音声の自然性 太字 : p<0.05 の有意差
  • 22. /28 • 自然音声を聴いた後に該当話者の合成音声を聴き,どちらの音声が該当話者 に類似しているか選択 • 評価者数 25 名が手法ごとに 10 発話分を評価 • 1 名を除き,提案法の方が話者類似性は高 いという結果に • 話者埋め込み空間の解釈性向上により Synthesizer が話者性を上手く捉えることが可能になったこと を示唆 21 実験 主観評価② 合成音声の話者類似性 太字 : p<0.05 の有意差
  • 23. /28 • 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤 • 従来法 vs 提案法 (jvs010) jvs005 jvs010 jvs060 jvs078 音声サンプル①② 22 音声サンプルはこちらから試聴できます. 従来法 提案法
  • 24. /28 • 評価話者 2 名の埋め込みを 𝛼 = 0.5 の割合で混合,従来法と提案法それぞれに よる合成音声を聴き,どちらの音声がより自然かを選択 • 話者埋め込み空間の頑健性の変化を知りたいというモチベーション • 評価者数 25 名が手法ごとに 10 発話分を評価 • 一部の話者の組について自然性の改善を確認 • 異性間 (jvs078 to jvs060) でも自然な補間音声 が合成可能 23 実験 主観評価③ 補間音声の自然性 太字 : p<0.05 の有意差
  • 25. /28 • 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤 • 従来法 vs 提案法 jvs005 jvs010 jvs060 jvs078 音声サンプル③ 24 音声サンプルはこちらから試聴できます. jvs005 to jvs078 jvs078 to jvs060 従来法 提案法
  • 26. /28 • 評価話者 2 名の埋め込みを 𝛼 = 0, 0.25, 0.5, 0.75, 1 の割合で混合,受聴者は 評価話者の音声を聴いた後に混合した合成音声を聴き,混合率 𝛼 を予想 • 評価者数 50 名が手法ごとに 20 発話分を評価 • 予想結果と真の混合率との RMSE を計算, 手法間で比較 • 全ての組で提案法が従来法に勝る結果に • 自然な話者モーフィングが可能な Synthesizer を学習できたと推察 25 実験 主観評価④ 話者モーフィングの解釈性
  • 27. /28 • 評価話者の自然音声 (VOICEACTRESS100_001) 男性:青,女性:赤 • 従来法 vs 提案法 (jvs005 to jvs078) jvs005 jvs010 jvs060 jvs078 音声サンプル④ 26 音声サンプルはこちらから試聴できます. α=0 α=0.25 α=0.5 α=0.75 α=1 従来法 提案法
  • 29. /28 結論 • 目的 : 話者埋め込み空間の解釈性向上 • 未知話者でも話者性を抽出できるようなモデルの構築 • 提案法 : Adversarial Regularizer を考慮した敵対学習による多話者 TTS • 2 名の話者埋め込みを混合,得られたメルスペクトログラムから混合率を推定するネット ワークを導入,Synthesizer と敵対学習 • 結果 : 合成音声の話者類似性の改善を確認 • 今後の展望 • 話者埋め込みのより良い補間方法を検討 • ハイパーパラメータのチューニング,Critic のモデル改善 28 結論