Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Saito18asj_s

147 Aufrufe

Veröffentlicht am

Talk at ASJ 2018 (spring meeting)

Veröffentlicht in: Wissenschaft
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Saito18asj_s

  1. 1. ©Yuki Saito, 2018/03/15 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成 ◎ 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大院・情報理工) 日本音響学会 2018年春季研究発表会 3-8-14
  2. 2. /13  従来法1: ボコーダを用いた敵対的DNN音声合成 [Saito et al., 2018] – GAN* に基づく音響モデル学習により,過剰な平滑化を緩和 – ボコーダ由来の音声パラメータ化により音質が劣化  従来法2: STFTスペクトルを用いた音声合成 [Takaki et al., 2017] – 振幅スペクトルを直接生成し,ボコーダ処理を回避 – 過剰な平滑化 & 音響モデル学習の困難性により音質が劣化  本発表: STFTスペクトルを用いた敵対的DNN音声合成 – 多重周波数解像度のスペクトルを用いた学習 • 元解像度での二乗誤差最小化: スペクトル全体の平均的な違いを補償 • 低解像度での分布間距離最小化: スペクトル包絡成分の違いを補償  結果: 提案法による合成音声の音質改善 1 本発表の概要 *Generative Adversarial Network [Goodfellow et al., 2014]
  3. 3. /13 敵対的DNN音声合成の音響モデル学習 [Saito et al., 2018] 2 STFTスペクトルを用いた音声合成 [Takaki et al., 2017] にも適用可能 音声パラメータの 分布間距離を最小化 𝐿MSE 𝒚, 𝒚 Linguistic feats. Natural speech params. 𝒚 ML-based parameter generation Generated speech params. 𝒚 Acoustic models 𝒙 ⋯ 𝒀 ⋯ ⋯ 𝐿ADV 𝒚 1: natural Discriminative models 音声パラメータの 二乗誤差を最小化 𝐿G 𝒚, 𝒚 = 𝐿MSE 𝒚, 𝒚 +𝜔D 𝐸𝐿MSE 𝐸𝐿ADV 𝐿ADV 𝒚
  4. 4. /133 STFTスペクトルを用いたDNN音声合成の問題点: スペクトルの過剰な平滑化 & 音響モデル学習の困難性 Frequencybin(e.g.,513dim.) Frame Natural (highly random) MSE (over-smoothing) ADV* (discontinuous) 振幅スペクトルの音響モデルのための効率的な学習法を提案 *元周波数解像度の振幅スペクトルを用いた敵対的DNN音声合成
  5. 5. /134 本発表: 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成
  6. 6. /135 提案法の動機: スペクトル包絡成分を補償する学習  振幅スペクトル: 複雑な分布を持つ高次元特徴量 – スペクトル微細構造と包絡成分の両方によって構成 – 従来法 [Saito et al., 2018] は,包絡成分の補償で有効  本研究の仮定: 低周波数解像度のスペクトル ≒ 包絡成分 – スペクトルを低周波数解像度に圧縮し,分布間距離を補償 Average pooling Average pooling Natural Generated 分布間距離 最小化
  7. 7. /13 多重周波数解像度のSTFTスペクトルを用いた 敵対的DNN音声合成の音響モデル学習 6 𝐿MSE 𝒚, 𝒚 Linguistic feats. + Log F0 Natural amplitude spectra 𝒚 ML-based parameter generation Generated amplitude spectra 𝒚 Acoustic models 𝒙 ⋯ 𝒀 ⋯ ⋯ 𝐿ADV 𝒚 L 1: natural Low-res. discriminative models 𝐿G (Low) 𝒚, 𝒚 = 𝐿MSE 𝒚, 𝒚 +𝜔D L 𝐸𝐿MSE 𝐸𝐿ADV 𝐿ADV 𝒚 L Average pooling 𝝓 ⋅ 𝝓 ⋅𝒚 𝒚 L 𝒚 L Average pooling 幅の変更 → 低解像度スペクトルの次元数の変更
  8. 8. /137 考察  提案法の損失関数: 元解像度のMSE + 低解像度のGAN – 元解像度のMSE: スペクトル全体の平均的な違いを補償 – 低解像度のGAN: スペクトル包絡成分の分布の違いを補償  Average pooling 幅: フィルタバンク抽出時の窓幅に対応 – Pooling 幅をより広く設定 → スペクトルをより低次元に圧縮  敵対的DNN音声合成の将来展望 – ボコーダ特徴量の音響モデル学習 [Saito et al., 2018] – STFT振幅スペクトルの音響モデル学習 (本発表) – 音声波形の音響モデル学習
  9. 9. /138 提案法の効果: スペクトル包絡成分の違いを補償 Natural MSE ADV ADV-Low (Proposed) スペクトル全体の構造を保持しつつ,ピークでの違いを補償!
  10. 10. /139 実験的評価
  11. 11. /13 実験条件 10 データセット 女性話者の日本語音声4,007文 (JSUTコーパス*の一部, 16 kHz サンプリング) 学習/評価データ 3,808文/199文 STFT分析条件 フレーム長: 400 (25 ms) シフト長: 80 (5 ms) FFT長: 1,024 分析窓: Hamming Average pooling の パラメータ Zero-padding サイズ: 6 Pooling 幅 𝑤: 14/30/70 ストライド幅: pooling 幅の半分 敵対損失の重み 1.0 音響モデルへの入力 444次元 (コンテキストラベル, 継続長, 対数𝐹0, U/V) 識別モデルへの入力 元周波数解像度: 513次元 低周波数解像度: 74/34/14次元 DNNアーキテクチャ 全て Feed-Forward (詳細は原稿参照) *[Sonobe et al., 2017]
  12. 12. /1311 元周波数解像度を用いた敵対的DNN音声合成の評価 (合成音声の音質に関するプリファレンスABテスト)  比較手法 – MSE: 二乗誤差最小化に基づく学習 [Takaki et al., 2017] – ADV: 元解像度を用いた敵対的DNN音声合成 [Saito et al., 2018] 元周波数解像度を用いた敵対的DNN音声合成による音質劣化を確認 ADVMSE 0.720 vs. 0.280 (𝑝 = 1.2 × 10−3 ) 評価者数25 (各評価者につき10サンプルを評価)
  13. 13. /1312 低周波数解像度を用いた敵対的DNN音声合成の評価 (合成音声の音質に関するプリファレンスABテスト)  比較手法 – MSE: 二乗誤差最小化に基づく学習 [Takaki et al., 2017] – ADV-Low: 低解像度を用いた敵対的DNN音声合成 (提案法) 低周波数解像度を用いた敵対的DNN音声合成による音質改善を確認 ADV-Low (𝑤 = 14) ADV-Low (𝑤 = 30) ADV-Low (𝑤 = 70) MSE 0.432 vs. 0.568 (𝑝 = 2.3 × 10−3) 0.428 vs. 0.572 (𝑝 = 1.2 × 10−3 ) 0.472 vs. 0.528 (𝑝 = 2.1 × 10−1) 評価者数25 (各評価者につき10サンプルを評価)
  14. 14. /1313 まとめ  従来法 – ボコーダを用いた敵対的DNN音声合成 • 音声パラメータの過剰な平滑化による音質劣化を改善 • ボコーダ由来のパラメータ化に起因して音質が劣化 – STFTスペクトルを用いたDNN音声合成 • ボコーダ由来のパラメータ化に起因する音質劣化を改善 • 過剰な平滑化 & 学習の困難性に起因して音質が劣化  本発表: STFTスペクトルを用いた敵対的DNN音声合成 – 多重周波数解像度の利用による効率的な学習法 – 低周波数解像度 (≒スペクトル包絡成分) での分布の違いを補償  結果: 従来法と比較して合成音声の音質を改善  今後: 元周波数解像度の効果的な利用法を検討

×