Weitere ähnliche Inhalte
Ähnlich wie Deep learning for acoustic modeling in parametric speech generation (20)
Deep learning for acoustic modeling in parametric speech generation
- 1. ©Yuki Saito, 2017/05/10
Deep Learning for Acoustic Modeling in
Parametric Speech Generation
A Systematic Review of
Existing Techniques and Future Trends
[Z.-H. Ling et al., 2015.]
創造情報学専攻 修士2年 齋藤 佑樹
- 2. /401
Outline of This Paper
Statistical Parametric Speech Generation (SPSG)
– 入力特徴量と音声特徴量の対応関係を音響モデルにより表現
– 従来の音響モデル
• Hidden Markov Models (HMMs)
• Gaussian Mixture Models (GMMs)
Deep Neural Networks (DNNs) の導入
– Automatic Speech Recognition (ASR) での成功に基づく
– 人間の階層的な音声生成過程をモデル化
本稿の目的: DNNsを用いたSPSGの系統的な review
– 既存の技術 → DNNs を用いたSPSG へ
複雑な対応関係を
表現しにくい
- 3. /402
Introduction
音声信号処理における機械学習
– ASR: 音声波形 (もしくは音声特徴量系列) から単語列を予測 (分類)
– Speech generation: 入力から音声信号を予測 (回帰)
• Text-To-Speech (TTS): 入力テキストから音声を生成
• Voice Conversion (VC): 入力音声の非言語的な情報を修正・変換
• Speech enhancement: 入力音声の品質改善 (e.g., ノイズ軽減)
• Articulatory-to-acoustic: 発話機構の運動を音声特徴量へ変換
SPSG = 統計的な音響モデリング + Vocoder による音声波形生成
– (1) 𝑝(出力 | 入力) もしくは 𝑝(入力, 出力) を表現する音響モデルを構築
– (2) 上記の確率分布に従い音声特徴量を生成
• Spectral features (e.g., Mel-Cepstral Coefficients: MCCs)
• Excitation features (e.g., fundamental frequency, aperiodicity)
– (3) Vocoder による音声波形生成
- 4. /403
HMM-Based Speech Synthesis
HMM: 離散的な隠れ状態系列を用いて観測の系列を生成
HMM音声合成: コンテキスト依存のHMMを構築
– 音素, アクセントの型, 品詞などの組み合わせ毎にHMMが存在
状態間の遷移
– 遷移確率により表現
観測の生成分布
– State-Output PDFs により表現
– 個々の分布は Gaussian
各状態の継続長
– 別途推定 (継続長HMMを利用)
利点: 声質の制御が容易
– モデル適応や補間など
- 6. /405
Model Parameter Estimation Based on
Maximum Likelihood (ML) Criterion
音素数 𝑁 のテキスト特徴量系列: 𝒙 = 𝒙1, … , 𝒙 𝑁
フレーム数 𝑇 の音声特徴量系列: 𝒚 = 𝒚1
⊤
, … , 𝒚 𝑇
⊤ ⊤
– フレーム 𝑡 における音声特徴量: 𝒚 𝑡 = 𝒚 𝑠 𝑡
⊤
, Δ𝒚 𝑠 𝑡
⊤
, Δ2
𝒚 𝑠 𝑡
⊤ ⊤
• 𝒚 𝑠 𝑡
∈ ℝ 𝐷𝑠: 静的特徴量, Δ𝐲s 𝑡
, Δ2 𝒚 𝑠 𝑡
: 動的特徴量
– 静的特徴量の系列を 𝒚 𝑠 = 𝒚 𝑠1
⊤ , … , 𝒚 𝑠 𝑇
⊤ ⊤
とすると 𝒚 = 𝑴 𝑦 𝒚 𝑠
コンテキスト依存HMMのモデルパラメータ 𝜆∗
のML推定
– 𝜆∗ = arg max
𝜆
𝑝 𝒚 𝒙, 𝜆
– HMMの状態系列を 𝒒 = 𝑞1, … , 𝑞 𝑇 とすると
• 𝑝 𝒚 𝒙, 𝜆 = ∀𝒒 𝑝 𝒚, 𝒒 𝒙, 𝜆
• = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑝 𝒚 𝒒, 𝜆
• = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑡=1
𝑇
𝑝 𝒚 𝑡 𝑞𝑡, 𝜆
静的特徴量から
動的特徴量を
計算する行列
- 7. /406
Decision Tree-Based Clustering
問題点: コンテキストの組み合わせが膨大
– 同じコンテキストの発生は非常に稀 → overfitting
解決策: 類似したコンテキストをクラスタリング
– クラスタ毎にHMMの State-Output PDFs を割り当て
決定木 (Decision Tree):
– データの集合をいくつかの質問により
分割
– 質問の設定は対象とする言語に依存
• English, Chinese, Japanese, ...
- 9. /408
Speech Synthesis Stage
1. 入力テキストからテキスト特徴量 𝒙 を取得
2. HMMの状態系列 𝒒∗
を決定
– 𝒒∗
= arg max
𝒒
𝑃(𝒒| 𝒙, 𝜆∗
)
3. 静的・動的特徴量の制約を考慮して,音声特徴量を生成
– 𝒚 𝑠
∗ = arg max
𝒚 𝑠
𝑡=1
𝑇
𝑝(𝒚 𝑡|𝑞𝑡
∗
, 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠 𝑡
4. Vocoder により音声波形を生成
- 10. /409
GMM-Based Voice Conversion
入力話者の音声特徴量系列: 𝒙 = 𝒙1
⊤
, … , 𝒙 𝑇
⊤ ⊤
目的話者の音声特徴量系列: 𝒚 = 𝒚1
⊤
, … , 𝒚 𝑇
⊤ ⊤
Joint Distribution (JD)-GMM: 𝒛 𝑡 = 𝒙 𝑡
⊤
, 𝒚 𝑡
⊤ ⊤ の生成をモデル化
– モデルパラメータ: 𝜆 = 𝛼 𝑚, 𝝁 𝑚
𝑧
, 𝚺 𝑚
𝑧
𝑚=1
𝑀
• 𝛼 𝑚: 混合重み,𝝁 𝑚
(𝑧)
: 平均,𝚺 𝑚
𝑧
: 分散
• 𝝁 𝑚
𝑧
=
𝝁 𝑚
𝑥
𝝁 𝑚
𝑦
, 𝚺 𝑚
𝑧
=
𝚺 𝑚
𝑥𝑥
𝚺 𝑚
𝑥𝑦
𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑦𝑦
モデルパラメータのML推定
– 𝜆∗ = arg max
𝜆
𝑝 𝒙, 𝒚 𝜆
– = arg max
𝜆
𝑡=1
𝑇
𝑝 𝒛 𝑡 𝜆
Aligned by using
Dynamic Time Warping
- 12. /4011
Acoustic Feature Prediction Using
Conditional PDF
入力音声特徴量 𝒙 の変換 (𝒎 = 𝑚1, … , 𝑚 𝑇 は混合成分系列)
– 𝑝 𝒚 𝒙, 𝜆∗
= ∀𝒎 𝑝 𝒚, 𝒎 𝒙, 𝜆∗
– = ∀𝒎 𝑃(𝒎| 𝒙, 𝜆∗) 𝑡=1
𝑇
𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗
• 𝑃 𝒎 𝒙, 𝜆∗ = 𝑡=1
𝑇
𝑃 𝑚 𝑡 𝒙 𝑡, 𝜆∗ は
• 𝛼 𝑚, 𝝁 𝑚
𝑥
, 𝚺 𝑚
𝑥
𝑚=1
𝑀
• をパラメータとするGMMを用いて決定
• 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗ は
• 平均: 𝝁 𝑚,𝑡
𝑦|𝑥
= 𝝁 𝑚
(𝑦)
+ 𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑥𝑥 −1
𝒙 𝑡 − 𝝁 𝑚
𝑥
• 分散: 𝚺 𝑚
𝑦|𝑥
= 𝚺 𝑚
(𝑦𝑦)
− 𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑥𝑥 −1
𝚺 𝑚
(𝑥𝑦)
• とする Gaussian
- 13. /4012
Voice Conversion Stage
1. 入力音声波形から音声特徴量 𝒙 を取得
2. GMMの混合成分系列 𝒎∗
を決定
– 𝑚 𝑡
∗
= arg max
𝑚 𝑡
𝑃(𝑚 𝑡| 𝒙 𝑡, 𝜆∗
)
3. 静的・動的特徴量の制約を考慮して,音声特徴量を生成
– 𝒚 𝑠
∗ = arg max
𝒚 𝑠
𝑡=1
𝑇
𝑝(𝒚 𝑡| 𝒙 𝑡, 𝑚 𝑡
∗
, 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠
4. Vocoder により音声波形を生成
- 14. /4013
Common Structure: Two-Step Mapping
HMM音声合成とGMM音声変換の共通点: 2段階のモデル化
– (1) 離散的な隠れ変数を用いた「入力 → クラスター」のマッピング
• HMM: 状態 𝑞𝑡
∗
, GMM: 混合成分 𝑚 𝑡
∗
– (2) Gaussian を用いた「クラスター → 音声特徴量」のマッピング
• HMM: 𝑝 𝒚 𝑡|𝑞𝑡
∗
, 𝜆∗ , GMM: 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡
∗
, 𝜆∗
Limitations
– 決定木に基づくコンテキストクラスタリング
• → コンテキストの複雑な依存関係 (XORなど) を表現できない
– Single Gaussian with diagonal covariance matrices の仮定
• 音声特徴量はフレーム毎に独立 (隠れ変数が given のとき)
• フレーム内の音声特徴量は独立
• → 音声特徴量の over-smoothing & 合成音声の品質劣化
- 15. /4014
Deep Learning Technique for Acoustic Modeling
Motivations
– 従来手法よりも高い表現力
• 入力間, 出力間, さらに入出力間の対応関係
– 人間の音声生成に基づくモデリング
• 階層型のネットワーク構造を利用
本稿では
– Restricted Boltzmann Machines (RBMs)
– Deep Belief Networks (DBNs)
– Deep Neural Networks (DNNs) → conditional modeling
を紹介
Joint modeling
- 16. /4015
Restricted Boltzmann Machines (RBMs)
可視素子と隠れ素子の関係を表す2層の無向グラフィカルモデル
– 𝒗 = 𝑣1, … , 𝑣 𝑉
⊤
: 可視素子 (素子数 𝑉)
– 𝒉 = ℎ1, … , ℎ 𝐻
⊤: 隠れ素子 (素子数 𝐻)
– 𝜆 = {𝒂, 𝒃, 𝑾}: モデルパラメータ
• 𝒂 = 𝑎1, … , 𝑎 𝑉
⊤: 可視素子のバイアス
• 𝒃 = 𝑏1, … , 𝑏 𝐻
⊤: 隠れ素子のバイアス
• 𝑾 = 𝑤𝑖𝑗 ∈ ℝ 𝑉×𝐻: 素子間の結合重み
Joint PDF 𝑃 𝒗, 𝒉 𝜆 の表現 (可視素子, 隠れ素子ともに2値の場合)
– 𝑃 𝒗, 𝒉 𝜆 =
1
𝒵 𝜆
exp − 𝐸 𝒗, 𝒉; 𝜆 𝐶 𝑇 (𝐶 𝑇 は温度パラメータ, 本稿では1)
• 𝐸 𝒗, 𝒉; 𝜆 = − 𝑖=1
𝑉
𝑎𝑖 𝑣𝑖 − 𝑗=1
𝐻
𝑏𝑗ℎ𝑗 − 𝑖=1
𝑉
𝑗=1
𝐻
𝑤𝑖𝑗 𝑣𝑖ℎ𝑗
• → エネルギー関数
• 𝒵𝜆 = ∀𝒗 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
• → 分配関数
- 17. /4016
Training RBMs
可視素子 𝒗 の marginal PDF
– 𝑃 𝒗 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
確率的勾配降下法によるモデルパラメータのML推定 (𝑤𝑖𝑗)
–
𝜕 log 𝑃 𝒗 𝜆
𝜕𝑤 𝑖𝑗
= E 𝑃data
𝑣𝑖ℎ𝑗 − E 𝑃model
𝑣𝑖ℎ𝑗
• E 𝑃data
⋅ : 学習データの分布に関する期待値
• E 𝑃model
⋅ : 𝑃 𝒗 𝜆 に関する期待値
• → 計算が困難なので, Contrastive Divergence (CD) 法で近似
- 18. /4017
Gaussian-Bernoulli RBM:
RBM for Real-Valued Visible Units
エネルギー関数
– 𝐸 𝒗, 𝒉; 𝜆 = 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2𝜎𝑖
2 − 𝑗=1
𝐻
𝑏𝑗ℎ𝑗 − 𝑖=1
𝑉
𝑗=1
𝐻
𝑤𝑖𝑗ℎ𝑗
𝑣 𝑖
𝜎 𝑖
Conditional PDFs
– 𝑃 ℎ𝑗 = 1 𝒗, 𝜆 = 𝑔 𝑏𝑗 + 𝒗 𝑇
𝚺−
1
2 𝒘⋅𝑗
– 𝑝 𝒗 𝒉, 𝜆 = 𝒩 𝒗; 𝝁, 𝚺
• 𝑔 𝑥 = 1 (1 + exp −𝑥 ): sigmoid 関数
• 𝒘⋅𝑗: 𝑾 の 𝑗 番目の列ベクトル
• 𝝁 = 𝑾𝒉 + 𝒂: 平均
• 𝚺 = diag{𝜎1
2
, … , 𝜎 𝑉
2
}: 分散共分散行列
• 各成分は定数 (以降, 表記を簡単化するために全て1とする)
- 19. /4018
Marginal PDF of Gaussian-Bernoulli RBM
𝑝 𝒗 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
=
1
𝒵 𝜆
∀𝒉 exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2
+ 𝒃⊤ 𝒗 + 𝒗⊤ 𝑾𝒉
=
1
𝒵 𝜆
exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2 𝑗=1
𝐻
ℎ 𝑗∈{0,1} exp(𝑏𝑗ℎ𝑗 + 𝒗⊤
𝒘⋅𝑗ℎ𝑗)
=
1
𝒵 𝜆
𝑖=1
𝑉
exp −
𝑣 𝑖−𝑎 𝑖
2
2 𝑗=1
𝐻
1 + exp(𝑏𝑗 + 𝒗⊤
𝒘⋅𝑗)
この 𝑝 𝒗 𝜆 は
– Product of Experts (PoEs)
– GMM
として解釈可能
- 20. /4019
Gaussian-Bernoulli RBM as Product of Experts (PoEs)
PoE: 複数の単純な分布の積により1つの確率分布を表現
– 個々の分布よりも鋭い分布を生成可能
– 高次元空間における混合モデルよりも効率的
𝑝 𝒗 𝜆 =
1
𝒵 𝜆
𝑖=1
𝑉
exp −
𝑣 𝑖−𝑎 𝑖
2
2 𝑗=1
𝐻
1 + exp(𝑏𝑗 + 𝒗⊤
𝒘⋅𝑗)
First products
– 可視素子間の相関は考慮せず, 単変量のみでのモデル化
Second products
– 隠れ素子で結び付けられた可視素子同士の依存関係をモデル化
- 21. /4020
Gaussian-Bernoulli RBM as GMM
Gaussian-Bernoulli RBM ≡ 混合成分数が 2 𝐻 のGMM
– 𝐻 = 0 のとき...
• 𝑝 𝒗 𝜆 =
1
𝒵 𝜆
exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2
→ 平均 𝒂 の Gaussian
– 𝐻 = 1 のとき...
• 𝑝 𝒗 𝜆 =
1
𝒵 𝜆
exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2
+
𝜅
𝒵 𝜆
exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖−𝑤 𝑖1
2
2
• 𝜅: モデルパラメータによって決まる定数
– 一般的に...
• 隠れ素子数の増加 → 混合成分数が2倍に
• Structured mean vectors & tied covariance matrices
• → robust towards data sparsity problem
- 22. /4021
Conditional RBM (CRBM)
𝑝 𝒚 𝒙, 𝜆 をモデル化
– 𝒙 ∈ ℝ 𝐷 𝑋 と 𝒚 ∈ ℝ 𝐷 𝑌 が実数, 𝒉 が2値のとき
• 𝐸 𝒚, 𝒉, 𝒙; 𝜆 = 𝑖=1
𝐷 𝑌 𝑦 𝑖−𝑎 𝑖− 𝑘 𝐴 𝑘𝑖 𝑥 𝑘
2
2𝜎𝑖
2
• − 𝑗=1
𝐻
𝑏𝑗 + 𝑘 𝐵 𝑘𝑗 𝑥 𝑘 ℎ𝑗 − 𝑖=1
𝐷 𝑌
𝑗=1
𝐻
𝑤𝑖𝑗ℎ𝑗
𝑦 𝑖
𝜎 𝑖
• 𝑨 = 𝐴 𝑘𝑖 ∈ ℝ 𝐷 𝑋×𝐷 𝑌, 𝑩 = 𝐵 𝑘𝑗 ∈ ℝ 𝐷 𝑋×𝐻: モデルパラメータ
• 𝑝 𝒚 𝒙, 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆
• 𝒵𝜆 = ∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆 𝑑𝒚
モデルパラメータの推定はRBMと同様 (CD法)
- 23. /4022
Deep Belief Networks (DBNs)
隠れ素子を多層化 (𝐿層)
– 𝒉 𝑙 = ℎ1
𝑙
, … , ℎ 𝐻 𝑙
𝑙
⊤
: 𝑙番目の隠れ層 (素子数 𝐻𝑙)
– 𝜆 = 𝒂 1 , 𝑾 1 , … , 𝒂 𝐿 , 𝒃 𝐿 , 𝑾 𝐿 : モデルパラメータ
– 𝑝 𝒗, 𝒉 1 , … , 𝒉 𝐿 𝜆 = 𝑝 𝒗 𝒉 1 , 𝜆 𝑙=2
𝐿−1
𝑃 𝒉 𝑙−1 𝒉 𝑙 , 𝜆 𝑃(𝒉 𝐿−1 , 𝒉 𝐿 |𝜆)
• 𝑝 𝒗 𝒉 1 , 𝜆 = 𝒩 𝒗; 𝑾 1 𝒉 1 + 𝒂 1 , 𝑰
• 𝑃 ℎ𝑖
𝑙−1
= 1 𝒉 𝑙 , 𝜆 = 𝑔 𝑎𝑖
𝑙
+ 𝑗 𝑤𝑖𝑗
𝑙
ℎ𝑗
𝑙
Marginal PDF
– 𝑝 𝒗 𝜆 = ∀𝒉 1 ⋯ ∀𝒉 𝐿 𝑝 𝒗, 𝒉 1
, … , 𝒉 𝐿
𝜆
• → 𝜆 の直接的な推定は困難
- 25. /4024
Deep Neural Networks (DNNs)
教師あり学習に基づく 𝑝 𝒚 𝒙, 𝜆 のモデル化
– 𝜆 = 𝒃 1 , 𝑾 1 , … , 𝒃 𝐿+1 , 𝑾 𝐿+1 : モデルパラメータ
– ℎ𝑗
𝑙
= 𝑔 𝑏𝑗
𝑙
+ 𝑖 ℎ𝑖
𝑙−1
𝑤𝑖𝑗
𝑙
: 𝑙 番目の隠れ層の第 𝑗 成分
• ℎ𝑖
0
= 𝑥𝑖 (入力特徴量の第 𝑖 成分)
• 𝑏𝑗
(𝑙)
: バイアス成分,𝑤𝑖𝑗
𝑙
: 結合重み
出力層の活性化関数はタスク依存
– Classification → softmax 関数
• 𝑦𝑗 =
exp 𝑏 𝑗
(𝐿+1)
+ 𝑖 ℎ 𝑖
(𝐿)
𝑤𝑖𝑗
𝐿+1
𝑘 exp 𝑏 𝑘
(𝐿+1)
+ 𝑖 ℎ 𝑖
(𝐿)
𝑤𝑖𝑘
𝐿+1
– Regression → linear 関数
• 𝑦𝑗 = 𝑏𝑗
(𝐿+1)
+ 𝑖 ℎ𝑖
(𝐿)
𝑤𝑖𝑗
(𝐿+1)
- 26. /4025
Loss Function for Training DNN
Backpropagation アルゴリズムを用いた学習
– 出力層の損失関数 ℒ 𝒚, 𝒚; 𝜆 が小さくなるように 𝜆 を更新
• Classification → cross-entropy 関数
• ℒ 𝒚, 𝒚; 𝜆 = − 𝑗 𝑦𝑗 log( 𝑦)
• Regression → mean squared error
• ℒ 𝒚, 𝒚; 𝜆 = 𝑗 𝑦𝑗 − 𝑦𝑗
2
» → 𝑝 𝒚 𝒙, 𝜆 = 𝒩 𝒚; 𝒚, 𝑰 を仮定した 𝜆 のML推定と等価
DNNの学習における問題
– 𝜆 の更新に必要な情報を低層まで伝播不可 (勾配消失問題)
– 表現力が非常に高いので over-fitting しやすい
• → DBNによる pre-training
• (1) 𝐿 層のDBNを教師なし学習
• (2) 出力層を追加して全体を fine-tuning
- 27. /4026
Another Way to Pre-train DNN:
AutoEncoders (AEs)
入力 𝒙 を復元するための圧縮された中間表現 𝒉 を学習
– (1) 重み 𝑾 を用いて入力 𝒙 を 𝒉 に圧縮
– (2) 𝑾′ を用いて 𝒉 から 𝒙 を復元 (𝑾′ = 𝑾⊤ としてもよい)
– (3) 𝒙 と 𝒙 の誤差を最小化するようにモデルパラメータを学習
Denoising AE (DAE): 入力にノイズを加えて復元
– RBMsの代わりにDAEsを多層化させてDNNを構築
• ニューラルネットワークの学習として
• DNNの pre-training が可能 ̃
- 28. /4027
Cluster-to-Feature Mapping Using
Deep Generative Models
RBMsを用いたHMM音声合成
– MCCsなどの低次元特徴量ではなく, スペクトル包絡をモデル化
– HMM音声合成における Gaussian をRBMsで置換
実験条件
– 音声特徴量 (MCCs,F0,スペクトル包絡) の抽出: STRAIGHT法
• MCCsとF0のモデル化: HMM音声合成 (全手法で共通)
予測特徴量 生成分布
Baseline MCCs Gaussian
GMM スペクトル包絡 GMM (𝑀 = 8)
RBM スペクトル包絡 RBM (𝐻 = 50)
- 31. /4030
Input-to-Feature Mapping Using
Deep Joint Models
MultiDistribution DBN (MD-DBN) によるモデリング
– 「入力特徴量 → 音声特徴量」の直接的なマッピングを実現
– 音節単位での複数フレームの音声特徴量をモデル化
• Mel-Generalized Cepstrums (MGCs), log-energy, logF0, U/V
• 異なる音声特徴量の相関もモデル化可能
– 連続変数 (U/V以外) のモデル化
• → Gaussian
– 2値変数 (U/V) のモデル化
• → Bernoulli
- 32. /4031
Training/Synthesis Using MD-DBN
学習時
– (1) 𝒉 𝐿−1
までを教師なし学習 (通常のDBNの学習と同様)
– (2) 𝒙, 𝒉 𝐿 , 𝒉 𝐿−1 の相関を学習
生成時
– (1) テキスト特徴量 𝒙 を決定
– (2) 𝒉 𝐿−1 の推定
– (3) 𝒉(1) までを再帰的に推定
– (4) 音声特徴量 𝒚 を推定
– (5) 波形生成
- 33. /4032
Comparison between HMM and MD-DBN
生成分布の表現方法
– HMM: 複数の single Gaussian
– MD-DBN: 1つのネットワーク
音声特徴量モデル化の単位
– HMM: 状態単位でのモデル化
– MD-DBN: 音節単位 (複数フレーム) でのモデル化
同一フレーム内での音声特徴量のモデル化
– HMM: 異なる特徴量は互いに独立と仮定 (diagonal covariance)
– MD-DBN: 独立性の仮定なし
- 34. /4033
Experimental Results
比較手法
– HMM: HMM音声合成
– DBN (MGCs): スペクトルのみをMD-DBNで予測
– DBN (MGCs + logF0): スペクトルとF0の両方をMD-DBNで予測
結果
– スペクトル特徴量のみの予測では品質改善を確認
– F0も加えて予測すると有意差はなし → 特徴量の次元数の違いが問題?
- 35. /4034
Input-to-Feature Mapping Using
Deep Conditional Models
𝑝 𝒚 𝒙, 𝜆 を表すDNNにより音声特徴量をモデル化
– DNN音声合成: テキスト特徴量を音声特徴量へフレーム毎に変換
• テキスト特徴量: 2値変数と実数変数の混合
• 音声特徴量: 各フレームのMCCs, logF0, excitation, U/V
– 学習後のDNNの出力層 → 生成分布 (Gaussian) の平均
• 分散は学習データを用いて別途推定
– 結果: HMM音声合成と比較して品質改善
- 36. /4035
Comparisons among Three Approaches
Cluster-to-Feature w/ RBM
– 従来技術と類似した枠組み + 生成分布の表現方法を修正
Input-to-Feature w/ MD-DBN or DNN
– 2段階のモデル化を統合 (クラスターへのマッピングが不要)
• 音声特徴量への複雑なマッピングをより効率的に表現可能
– MD-DBN: サンプリングベースの音声特徴量生成
– DNN: 入力特徴量から音声特徴量を straightforward に生成
• 生成分布の表現力は弱い (単位行列を仮定した Gaussian)
タスクに応じてさまざまなアプローチが存在
– DNN + Gaussian Process を用いたlogF0の生成 (TTS)
– Mixture of RBMs を用いたVC
– DAEを用いた speech enhancement
– etc...
- 37. /4036
Performance of RBMs as Density Models
HMM音声合成におけるスペクトル
特徴量のモデル化
– GMM: モデルが複雑になるほど
over-fitting しやすい
– RBM: モデルを複雑にしたときの
over-fitting の影響が比較的小さい
→ good generalization
RBMを用いることにで, 生のスペク
トル包絡からの特徴抽出が可能に
– → 包絡モデリング時の誤差を軽減
- 38. /4037
Input and Target Features
入力特徴量はタスク依存で決定
– TTS: rich linguistic context, 入力テキストのベクトル表現
– VC: 入力音声のスペクトル特徴量
– Enhancement: noisy speech のパワースペクトル
出力特徴量 (音声) の表現方法も多数存在
– Deep generative models が持つ高い表現力を利用
• 生のスペクトル包絡,パワースペクトルからの特徴抽出
• 多数の音声特徴量を連結させた特徴量
– TTSでは, F0に関する特徴量の予測も重要
• これまで紹介した手法では, logF0の予測精度は今ひとつ...
- 39. /4038
Model Structures and Model Training
音声生成のアプローチに応じたモデルの設定
– RBMs, DBNs: joint PDFs and input-to-feature, or input-to-feature
– DNNs, CRBMs, DAEs: conditional PDFs and input-to-feature
モデルの深さも重要 (だが, 深ければよいというわけでもない)
– ASRに比べると学習データの数が少ないので,学習が困難
モデルの初期化法も多数存在
– Random initialization (TTS)
– DBNsを用いた初期化 (VC)
– AEs, RBMs を用いた初期化 (enhancement)
計算コスト削減にGPUを用いた高速化も有効
- 40. /4039
Comparison between Speech Synthesis and
Recognition both Using DNN-HMMs
DNN-HMM: ASRにおいて主流となっている手法
– (1) DNNにより音声特徴量を決定木の葉ノードにマッピング
– (2) HMMにより言語特徴量を decoding
SPSGでは,ASRに比べてモデルの構造が多様
– DNNを用いた conditional PDF のモデル化 → DNN-HMMに類似
• 主な違いは出力層の活性化関数
• ASR (classification): softmax 関数
• SPSG (regression): linear 関数
音声特徴量の役割
– ASR: 発話内容の予測 (exicitation, power spectra は使わない)
– SPSG: 音声波形の生成 (spectra, excitation の両方が必要)
- 41. /4040
Conclusions
概要: deep learning を用いたSPSGのための音響モデリング
– 入出力間の複雑な対応関係を表現可能
• Deep joint models (RBMs, DBNs)
• Deep conditional models (CRBMs, DNNs)
– 従来手法と比較して合成音声の品質改善
将来展望
– F0の高精度な予測を実現するモデルが必要
• スペクトルの予測とは別途行うべき?
• 時系列単位での依存性を考慮したモデル