Saito18asj_s

©Yuki Saito, 2018/03/15
多重周波数解像度のSTFTスペクトルを用いた
敵対的DNN音声合成
◎ 齋藤佑樹, 高道慎之介, 猿渡洋 (東大院・情報理工)
日本音響学会 2018年春季研究発表会 3-8-14

/13
 従来法1: ボコーダを用いた敵対的DNN音声合成 [Saito et al., 2018]
– GAN* に基づく音響モデル学習により，過剰な平滑化を緩和
– ボコーダ由来の音声パラメータ化により音質が劣化
 従来法2: STFTスペクトルを用いた音声合成 [Takaki et al., 2017]
– 振幅スペクトルを直接生成し，ボコーダ処理を回避
– 過剰な平滑化 & 音響モデル学習の困難性により音質が劣化
 本発表: STFTスペクトルを用いた敵対的DNN音声合成
– 多重周波数解像度のスペクトルを用いた学習
• 元解像度での二乗誤差最小化: スペクトル全体の平均的な違いを補償
• 低解像度での分布間距離最小化: スペクトル包絡成分の違いを補償
 結果: 提案法による合成音声の音質改善
1
本発表の概要
*Generative Adversarial Network [Goodfellow et al., 2014]

/13
敵対的DNN音声合成の音響モデル学習 [Saito et al., 2018]
2
STFTスペクトルを用いた音声合成 [Takaki et al., 2017] にも適用可能
音声パラメータの
分布間距離を最小化
𝐿MSE 𝒚, 𝒚
Linguistic
feats.
Natural
speech
params.
𝒚
ML-based
parameter
generation
Generated
speech
params.
𝒚
Acoustic models
𝒙
⋯
𝒀
⋯
⋯
𝐿ADV 𝒚
1: natural
Discriminative models
音声パラメータの
二乗誤差を最小化
𝐿G 𝒚, 𝒚 = 𝐿MSE 𝒚, 𝒚 +𝜔D
𝐸𝐿MSE
𝐸𝐿ADV
𝐿ADV 𝒚

/133
STFTスペクトルを用いたDNN音声合成の問題点:
スペクトルの過剰な平滑化 & 音響モデル学習の困難性
Frequencybin(e.g.,513dim.)
Frame
Natural
(highly random)
MSE
(over-smoothing)
ADV*
(discontinuous)
振幅スペクトルの音響モデルのための効率的な学習法を提案
*元周波数解像度の振幅スペクトルを用いた敵対的DNN音声合成

/134
本発表:
敵対的DNN音声合成

/135
提案法の動機: スペクトル包絡成分を補償する学習
 振幅スペクトル: 複雑な分布を持つ高次元特徴量
– スペクトル微細構造と包絡成分の両方によって構成
– 従来法 [Saito et al., 2018] は，包絡成分の補償で有効
 本研究の仮定: 低周波数解像度のスペクトル ≒ 包絡成分
– スペクトルを低周波数解像度に圧縮し，分布間距離を補償
Average
pooling
Average
pooling
Natural
Generated
分布間距離
最小化

/13
敵対的DNN音声合成の音響モデル学習
6
𝐿MSE 𝒚, 𝒚
Linguistic
feats.
+
Log F0
Natural
amplitude
spectra
𝒚
ML-based
parameter
generation
Generated
amplitude
spectra
𝒚
Acoustic models
𝒙
⋯
𝒀
⋯
⋯
𝐿ADV 𝒚 L
1: natural
Low-res.
discriminative models
𝐿G
(Low)
𝒚, 𝒚 = 𝐿MSE 𝒚, 𝒚 +𝜔D
L 𝐸𝐿MSE
𝐸𝐿ADV
𝐿ADV 𝒚 L
Average
pooling
𝝓 ⋅
𝝓 ⋅𝒚 𝒚 L
𝒚 L
Average pooling 幅の変更 → 低解像度スペクトルの次元数の変更

/137
考察
 提案法の損失関数: 元解像度のMSE + 低解像度のGAN
– 元解像度のMSE: スペクトル全体の平均的な違いを補償
– 低解像度のGAN: スペクトル包絡成分の分布の違いを補償
 Average pooling 幅: フィルタバンク抽出時の窓幅に対応
– Pooling 幅をより広く設定 → スペクトルをより低次元に圧縮
 敵対的DNN音声合成の将来展望
– ボコーダ特徴量の音響モデル学習 [Saito et al., 2018]
– STFT振幅スペクトルの音響モデル学習 (本発表)
– 音声波形の音響モデル学習

/138
提案法の効果: スペクトル包絡成分の違いを補償
Natural MSE ADV
ADV-Low
(Proposed)
スペクトル全体の構造を保持しつつ，ピークでの違いを補償！

/13
実験条件
10
データセット
女性話者の日本語音声4,007文
(JSUTコーパス*の一部, 16 kHz サンプリング)
学習/評価データ 3,808文/199文
STFT分析条件
フレーム長: 400 (25 ms)
シフト長: 80 (5 ms)
FFT長: 1,024
分析窓: Hamming
Average pooling の
パラメータ
Zero-padding サイズ: 6
Pooling 幅 𝑤: 14/30/70
ストライド幅: pooling 幅の半分
敵対損失の重み 1.0
音響モデルへの入力 444次元 (コンテキストラベル, 継続長, 対数𝐹0, U/V)
識別モデルへの入力
元周波数解像度: 513次元
低周波数解像度: 74/34/14次元
DNNアーキテクチャ全て Feed-Forward (詳細は原稿参照)
*[Sonobe et al., 2017]

/1311
元周波数解像度を用いた敵対的DNN音声合成の評価
(合成音声の音質に関するプリファレンスABテスト)
 比較手法
– MSE: 二乗誤差最小化に基づく学習 [Takaki et al., 2017]
– ADV: 元解像度を用いた敵対的DNN音声合成 [Saito et al., 2018]
元周波数解像度を用いた敵対的DNN音声合成による音質劣化を確認
ADVMSE
0.720 vs. 0.280
(𝑝 = 1.2 × 10−3
)
評価者数25 (各評価者につき10サンプルを評価)

/1312
低周波数解像度を用いた敵対的DNN音声合成の評価
(合成音声の音質に関するプリファレンスABテスト)
 比較手法
– MSE: 二乗誤差最小化に基づく学習 [Takaki et al., 2017]
– ADV-Low: 低解像度を用いた敵対的DNN音声合成 (提案法)
低周波数解像度を用いた敵対的DNN音声合成による音質改善を確認
ADV-Low
(𝑤 = 14)
ADV-Low
(𝑤 = 30)
ADV-Low
(𝑤 = 70)
MSE
0.432 vs. 0.568
(𝑝 = 2.3 × 10−3)
0.428 vs. 0.572
(𝑝 = 1.2 × 10−3
)
0.472 vs. 0.528
(𝑝 = 2.1 × 10−1)
評価者数25 (各評価者につき10サンプルを評価)

/1313
まとめ
 従来法
– ボコーダを用いた敵対的DNN音声合成
• 音声パラメータの過剰な平滑化による音質劣化を改善
• ボコーダ由来のパラメータ化に起因して音質が劣化
– STFTスペクトルを用いたDNN音声合成
• ボコーダ由来のパラメータ化に起因する音質劣化を改善
• 過剰な平滑化 & 学習の困難性に起因して音質が劣化
 本発表: STFTスペクトルを用いた敵対的DNN音声合成
– 多重周波数解像度の利用による効率的な学習法
– 低周波数解像度 (≒スペクトル包絡成分) での分布の違いを補償
 結果: 従来法と比較して合成音声の音質を改善
 今後: 元周波数解像度の効果的な利用法を検討

Saito18asj_s

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Mehr von Yuki Saito

Mehr von Yuki Saito (20)

Saito18asj_s