Deep learning for acoustic modeling in parametric speech generation

©Yuki Saito, 2017/05/10
Deep Learning for Acoustic Modeling in
Parametric Speech Generation
A Systematic Review of
Existing Techniques and Future Trends
[Z.-H. Ling et al., 2015.]
創造情報学専攻修士2年齋藤佑樹

/401
Outline of This Paper
 Statistical Parametric Speech Generation (SPSG)
– 入力特徴量と音声特徴量の対応関係を音響モデルにより表現
– 従来の音響モデル
• Hidden Markov Models (HMMs)
• Gaussian Mixture Models (GMMs)
 Deep Neural Networks (DNNs) の導入
– Automatic Speech Recognition (ASR) での成功に基づく
– 人間の階層的な音声生成過程をモデル化
 本稿の目的: DNNsを用いたSPSGの系統的な review
– 既存の技術 → DNNs を用いたSPSG へ
複雑な対応関係を
表現しにくい

/402
Introduction
 音声信号処理における機械学習
– ASR: 音声波形 (もしくは音声特徴量系列) から単語列を予測 (分類)
– Speech generation: 入力から音声信号を予測 (回帰)
• Text-To-Speech (TTS): 入力テキストから音声を生成
• Voice Conversion (VC): 入力音声の非言語的な情報を修正・変換
• Speech enhancement: 入力音声の品質改善 (e.g., ノイズ軽減)
• Articulatory-to-acoustic: 発話機構の運動を音声特徴量へ変換
 SPSG = 統計的な音響モデリング + Vocoder による音声波形生成
– (1) 𝑝(出力 | 入力) もしくは 𝑝(入力, 出力) を表現する音響モデルを構築
– (2) 上記の確率分布に従い音声特徴量を生成
• Spectral features (e.g., Mel-Cepstral Coefficients: MCCs)
• Excitation features (e.g., fundamental frequency, aperiodicity)
– (3) Vocoder による音声波形生成

/403
HMM-Based Speech Synthesis
 HMM: 離散的な隠れ状態系列を用いて観測の系列を生成
 HMM音声合成: コンテキスト依存のHMMを構築
– 音素, アクセントの型, 品詞などの組み合わせ毎にHMMが存在
 状態間の遷移
– 遷移確率により表現
 観測の生成分布
– State-Output PDFs により表現
– 個々の分布は Gaussian
 各状態の継続長
– 別途推定 (継続長HMMを利用)
 利点: 声質の制御が容易
– モデル適応や補間など

/404
Block Diagram of
Typical HMM-Based Speech Synthesis System

/405
Model Parameter Estimation Based on
Maximum Likelihood (ML) Criterion
 音素数 𝑁 のテキスト特徴量系列: 𝒙 = 𝒙1, … , 𝒙 𝑁
 フレーム数 𝑇 の音声特徴量系列: 𝒚 = 𝒚1
⊤
, … , 𝒚 𝑇
⊤ ⊤
– フレーム 𝑡 における音声特徴量: 𝒚 𝑡 = 𝒚 𝑠 𝑡
⊤
, Δ𝒚 𝑠 𝑡
⊤
, Δ2
𝒚 𝑠 𝑡
⊤ ⊤
• 𝒚 𝑠 𝑡
∈ ℝ 𝐷𝑠: 静的特徴量, Δ𝐲s 𝑡
, Δ2 𝒚 𝑠 𝑡
: 動的特徴量
– 静的特徴量の系列を 𝒚 𝑠 = 𝒚 𝑠1
⊤ , … , 𝒚 𝑠 𝑇
⊤ ⊤
とすると 𝒚 = 𝑴 𝑦 𝒚 𝑠
 コンテキスト依存HMMのモデルパラメータ 𝜆∗
のML推定
– 𝜆∗ = arg max
𝜆
𝑝 𝒚 𝒙, 𝜆
– HMMの状態系列を 𝒒 = 𝑞1, … , 𝑞 𝑇 とすると
• 𝑝 𝒚 𝒙, 𝜆 = ∀𝒒 𝑝 𝒚, 𝒒 𝒙, 𝜆
• = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑝 𝒚 𝒒, 𝜆
• = ∀𝒒 𝑃 𝒒 𝒙, 𝜆 𝑡=1
𝑇
𝑝 𝒚 𝑡 𝑞𝑡, 𝜆
静的特徴量から
動的特徴量を
計算する行列

/406
Decision Tree-Based Clustering
 問題点: コンテキストの組み合わせが膨大
– 同じコンテキストの発生は非常に稀 → overfitting
 解決策: 類似したコンテキストをクラスタリング
– クラスタ毎にHMMの State-Output PDFs を割り当て
 決定木 (Decision Tree):
– データの集合をいくつかの質問により
分割
– 質問の設定は対象とする言語に依存
• English, Chinese, Japanese, ...

/407
Block Diagram of
Typical HMM-Based Speech Synthesis System

/408
Speech Synthesis Stage
 1. 入力テキストからテキスト特徴量 𝒙 を取得
 2. HMMの状態系列 𝒒∗
を決定
– 𝒒∗
= arg max
𝒒
𝑃(𝒒| 𝒙, 𝜆∗
)
 3. 静的・動的特徴量の制約を考慮して，音声特徴量を生成
– 𝒚 𝑠
∗ = arg max
𝒚 𝑠
𝑡=1
𝑇
𝑝(𝒚 𝑡|𝑞𝑡
∗
, 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠 𝑡
 4. Vocoder により音声波形を生成

/409
GMM-Based Voice Conversion
 入力話者の音声特徴量系列: 𝒙 = 𝒙1
⊤
, … , 𝒙 𝑇
⊤ ⊤
 目的話者の音声特徴量系列: 𝒚 = 𝒚1
⊤
, … , 𝒚 𝑇
⊤ ⊤
 Joint Distribution (JD)-GMM: 𝒛 𝑡 = 𝒙 𝑡
⊤
, 𝒚 𝑡
⊤ ⊤ の生成をモデル化
– モデルパラメータ: 𝜆 = 𝛼 𝑚, 𝝁 𝑚
𝑧
, 𝚺 𝑚
𝑧
𝑚=1
𝑀
• 𝛼 𝑚: 混合重み，𝝁 𝑚
(𝑧)
: 平均，𝚺 𝑚
𝑧
: 分散
• 𝝁 𝑚
𝑧
=
𝝁 𝑚
𝑥
𝝁 𝑚
𝑦
, 𝚺 𝑚
𝑧
=
𝚺 𝑚
𝑥𝑥
𝚺 𝑚
𝑥𝑦
𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑦𝑦
 モデルパラメータのML推定
– 𝜆∗ = arg max
𝜆
𝑝 𝒙, 𝒚 𝜆
– = arg max
𝜆
𝑡=1
𝑇
𝑝 𝒛 𝑡 𝜆
Aligned by using
Dynamic Time Warping

/4010
Block Diagram of
Typical GMM-Based Voice Conversion System

/4011
Acoustic Feature Prediction Using
Conditional PDF
 入力音声特徴量 𝒙 の変換 (𝒎 = 𝑚1, … , 𝑚 𝑇 は混合成分系列)
– 𝑝 𝒚 𝒙, 𝜆∗
= ∀𝒎 𝑝 𝒚, 𝒎 𝒙, 𝜆∗
– = ∀𝒎 𝑃(𝒎| 𝒙, 𝜆∗) 𝑡=1
𝑇
𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗
• 𝑃 𝒎 𝒙, 𝜆∗ = 𝑡=1
𝑇
𝑃 𝑚 𝑡 𝒙 𝑡, 𝜆∗ は
• 𝛼 𝑚, 𝝁 𝑚
𝑥
, 𝚺 𝑚
𝑥
𝑚=1
𝑀
• をパラメータとするGMMを用いて決定
• 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡, 𝜆∗ は
• 平均: 𝝁 𝑚,𝑡
𝑦|𝑥
= 𝝁 𝑚
(𝑦)
+ 𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑥𝑥 −1
𝒙 𝑡 − 𝝁 𝑚
𝑥
• 分散: 𝚺 𝑚
𝑦|𝑥
= 𝚺 𝑚
(𝑦𝑦)
− 𝚺 𝑚
𝑦𝑥
𝚺 𝑚
𝑥𝑥 −1
𝚺 𝑚
(𝑥𝑦)
• とする Gaussian

/4012
Voice Conversion Stage
 1. 入力音声波形から音声特徴量 𝒙 を取得
 2. GMMの混合成分系列 𝒎∗
を決定
– 𝑚 𝑡
∗
= arg max
𝑚 𝑡
𝑃(𝑚 𝑡| 𝒙 𝑡, 𝜆∗
)
 3. 静的・動的特徴量の制約を考慮して，音声特徴量を生成
– 𝒚 𝑠
∗ = arg max
𝒚 𝑠
𝑡=1
𝑇
𝑝(𝒚 𝑡| 𝒙 𝑡, 𝑚 𝑡
∗
, 𝜆∗)| 𝒚=𝑴 𝑦 𝒚 𝑠
 4. Vocoder により音声波形を生成

/4013
Common Structure: Two-Step Mapping
 HMM音声合成とGMM音声変換の共通点: 2段階のモデル化
– (1) 離散的な隠れ変数を用いた「入力 → クラスター」のマッピング
• HMM: 状態 𝑞𝑡
∗
, GMM: 混合成分 𝑚 𝑡
∗
– (2) Gaussian を用いた「クラスター → 音声特徴量」のマッピング
• HMM: 𝑝 𝒚 𝑡|𝑞𝑡
∗
, 𝜆∗ , GMM: 𝑝 𝒚 𝑡 𝒙 𝑡, 𝑚 𝑡
∗
, 𝜆∗
 Limitations
– 決定木に基づくコンテキストクラスタリング
• → コンテキストの複雑な依存関係 (XORなど) を表現できない
– Single Gaussian with diagonal covariance matrices の仮定
• 音声特徴量はフレーム毎に独立 (隠れ変数が given のとき)
• フレーム内の音声特徴量は独立
• → 音声特徴量の over-smoothing & 合成音声の品質劣化

/4014
Deep Learning Technique for Acoustic Modeling
 Motivations
– 従来手法よりも高い表現力
• 入力間, 出力間, さらに入出力間の対応関係
– 人間の音声生成に基づくモデリング
• 階層型のネットワーク構造を利用
 本稿では
– Restricted Boltzmann Machines (RBMs)
– Deep Belief Networks (DBNs)
– Deep Neural Networks (DNNs) → conditional modeling
 を紹介
Joint modeling

/4015
Restricted Boltzmann Machines (RBMs)
 可視素子と隠れ素子の関係を表す2層の無向グラフィカルモデル
– 𝒗 = 𝑣1, … , 𝑣 𝑉
⊤
: 可視素子 (素子数 𝑉)
– 𝒉 = ℎ1, … , ℎ 𝐻
⊤: 隠れ素子 (素子数 𝐻)
– 𝜆 = {𝒂, 𝒃, 𝑾}: モデルパラメータ
• 𝒂 = 𝑎1, … , 𝑎 𝑉
⊤: 可視素子のバイアス
• 𝒃 = 𝑏1, … , 𝑏 𝐻
⊤: 隠れ素子のバイアス
• 𝑾 = 𝑤𝑖𝑗 ∈ ℝ 𝑉×𝐻: 素子間の結合重み
 Joint PDF 𝑃 𝒗, 𝒉 𝜆 の表現 (可視素子, 隠れ素子ともに2値の場合)
– 𝑃 𝒗, 𝒉 𝜆 =
1
𝒵 𝜆
exp − 𝐸 𝒗, 𝒉; 𝜆 𝐶 𝑇 (𝐶 𝑇 は温度パラメータ, 本稿では1)
• 𝐸 𝒗, 𝒉; 𝜆 = − 𝑖=1
𝑉
𝑎𝑖 𝑣𝑖 − 𝑗=1
𝐻
𝑏𝑗ℎ𝑗 − 𝑖=1
𝑉
𝑗=1
𝐻
𝑤𝑖𝑗 𝑣𝑖ℎ𝑗
• → エネルギー関数
• 𝒵𝜆 = ∀𝒗 ∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
• → 分配関数

/4016
Training RBMs
 可視素子 𝒗 の marginal PDF
– 𝑃 𝒗 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
 確率的勾配降下法によるモデルパラメータのML推定 (𝑤𝑖𝑗)
–
𝜕 log 𝑃 𝒗 𝜆
𝜕𝑤 𝑖𝑗
= E 𝑃data
𝑣𝑖ℎ𝑗 − E 𝑃model
𝑣𝑖ℎ𝑗
• E 𝑃data
⋅ : 学習データの分布に関する期待値
• E 𝑃model
⋅ : 𝑃 𝒗 𝜆 に関する期待値
• → 計算が困難なので, Contrastive Divergence (CD) 法で近似

/4017
Gaussian-Bernoulli RBM:
RBM for Real-Valued Visible Units
 エネルギー関数
– 𝐸 𝒗, 𝒉; 𝜆 = 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖
2
2𝜎𝑖
2 − 𝑗=1
𝐻
𝑏𝑗ℎ𝑗 − 𝑖=1
𝑉
𝑗=1
𝐻
𝑤𝑖𝑗ℎ𝑗
𝑣 𝑖
𝜎 𝑖
 Conditional PDFs
– 𝑃 ℎ𝑗 = 1 𝒗, 𝜆 = 𝑔 𝑏𝑗 + 𝒗 𝑇
𝚺−
1
2 𝒘⋅𝑗
– 𝑝 𝒗 𝒉, 𝜆 = 𝒩 𝒗; 𝝁, 𝚺
• 𝑔 𝑥 = 1 (1 + exp −𝑥 ): sigmoid 関数
• 𝒘⋅𝑗: 𝑾 の 𝑗 番目の列ベクトル
• 𝝁 = 𝑾𝒉 + 𝒂: 平均
• 𝚺 = diag{𝜎1
2
, … , 𝜎 𝑉
2
}: 分散共分散行列
• 各成分は定数 (以降, 表記を簡単化するために全て1とする)

/4018
Marginal PDF of Gaussian-Bernoulli RBM
 𝑝 𝒗 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉; 𝜆
 =
1
𝒵 𝜆
∀𝒉 exp − 𝑖=1
2
2
+ 𝒃⊤ 𝒗 + 𝒗⊤ 𝑾𝒉
 =
1
𝒵 𝜆
exp − 𝑖=1
2
2 𝑗=1
𝐻
ℎ 𝑗∈{0,1} exp(𝑏𝑗ℎ𝑗 + 𝒗⊤
𝒘⋅𝑗ℎ𝑗)
 =
1
𝒵 𝜆
𝑖=1
𝑉
exp −
𝑣 𝑖−𝑎 𝑖
2
2 𝑗=1
𝐻
1 + exp(𝑏𝑗 + 𝒗⊤
𝒘⋅𝑗)
 この 𝑝 𝒗 𝜆 は
– Product of Experts (PoEs)
– GMM
 として解釈可能

/4019
Gaussian-Bernoulli RBM as Product of Experts (PoEs)
 PoE: 複数の単純な分布の積により1つの確率分布を表現
– 個々の分布よりも鋭い分布を生成可能
– 高次元空間における混合モデルよりも効率的
𝑝 𝒗 𝜆 =
1
𝒵 𝜆
𝑖=1
𝑉
exp −
𝑣 𝑖−𝑎 𝑖
2
2 𝑗=1
𝐻
1 + exp(𝑏𝑗 + 𝒗⊤
𝒘⋅𝑗)
 First products
– 可視素子間の相関は考慮せず, 単変量のみでのモデル化
 Second products
– 隠れ素子で結び付けられた可視素子同士の依存関係をモデル化

/4020
Gaussian-Bernoulli RBM as GMM
 Gaussian-Bernoulli RBM ≡ 混合成分数が 2 𝐻 のGMM
– 𝐻 = 0 のとき...
• 𝑝 𝒗 𝜆 =
1
𝒵 𝜆
exp − 𝑖=1
2
2
→ 平均 𝒂 の Gaussian
– 𝐻 = 1 のとき...
• 𝑝 𝒗 𝜆 =
1
𝒵 𝜆
exp − 𝑖=1
2
2
+
𝜅
𝒵 𝜆
exp − 𝑖=1
𝑉 𝑣 𝑖−𝑎 𝑖−𝑤 𝑖1
2
2
• 𝜅: モデルパラメータによって決まる定数
– 一般的に...
• 隠れ素子数の増加 → 混合成分数が2倍に
• Structured mean vectors & tied covariance matrices
• → robust towards data sparsity problem

/4021
Conditional RBM (CRBM)
 𝑝 𝒚 𝒙, 𝜆 をモデル化
– 𝒙 ∈ ℝ 𝐷 𝑋 と 𝒚 ∈ ℝ 𝐷 𝑌 が実数, 𝒉 が2値のとき
• 𝐸 𝒚, 𝒉, 𝒙; 𝜆 = 𝑖=1
𝐷 𝑌 𝑦 𝑖−𝑎 𝑖− 𝑘 𝐴 𝑘𝑖 𝑥 𝑘
2
2𝜎𝑖
2
• − 𝑗=1
𝐻
𝑏𝑗 + 𝑘 𝐵 𝑘𝑗 𝑥 𝑘 ℎ𝑗 − 𝑖=1
𝐷 𝑌
𝑗=1
𝐻
𝑤𝑖𝑗ℎ𝑗
𝑦 𝑖
𝜎 𝑖
• 𝑨 = 𝐴 𝑘𝑖 ∈ ℝ 𝐷 𝑋×𝐷 𝑌, 𝑩 = 𝐵 𝑘𝑗 ∈ ℝ 𝐷 𝑋×𝐻: モデルパラメータ
• 𝑝 𝒚 𝒙, 𝜆 =
1
𝒵 𝜆
∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆
• 𝒵𝜆 = ∀𝒉 exp −𝐸 𝒗, 𝒉, 𝒙; 𝜆 𝑑𝒚
 モデルパラメータの推定はRBMと同様 (CD法)

/4022
Deep Belief Networks (DBNs)
 隠れ素子を多層化 (𝐿層)
– 𝒉 𝑙 = ℎ1
𝑙
, … , ℎ 𝐻 𝑙
𝑙
⊤
: 𝑙番目の隠れ層 (素子数 𝐻𝑙)
– 𝜆 = 𝒂 1 , 𝑾 1 , … , 𝒂 𝐿 , 𝒃 𝐿 , 𝑾 𝐿 : モデルパラメータ
– 𝑝 𝒗, 𝒉 1 , … , 𝒉 𝐿 𝜆 = 𝑝 𝒗 𝒉 1 , 𝜆 𝑙=2
𝐿−1
𝑃 𝒉 𝑙−1 𝒉 𝑙 , 𝜆 𝑃(𝒉 𝐿−1 , 𝒉 𝐿 |𝜆)
• 𝑝 𝒗 𝒉 1 , 𝜆 = 𝒩 𝒗; 𝑾 1 𝒉 1 + 𝒂 1 , 𝑰
• 𝑃 ℎ𝑖
𝑙−1
= 1 𝒉 𝑙 , 𝜆 = 𝑔 𝑎𝑖
𝑙
+ 𝑗 𝑤𝑖𝑗
𝑙
ℎ𝑗
𝑙
 Marginal PDF
– 𝑝 𝒗 𝜆 = ∀𝒉 1 ⋯ ∀𝒉 𝐿 𝑝 𝒗, 𝒉 1
, … , 𝒉 𝐿
𝜆
• → 𝜆 の直接的な推定は困難

/4023
Greedy Layer-wise Training
Estimate 𝒂 1 , 𝒃(1), 𝑾 1
(train 1st RBM)
Estimate 𝒂 2 , 𝒃(2), 𝑾 2
(train 2nd RBM)
Estimate 𝒂 3
, 𝒃(3)
, 𝑾 3
(train 3rd RBM)

/4024
Deep Neural Networks (DNNs)
 教師あり学習に基づく 𝑝 𝒚 𝒙, 𝜆 のモデル化
– 𝜆 = 𝒃 1 , 𝑾 1 , … , 𝒃 𝐿+1 , 𝑾 𝐿+1 : モデルパラメータ
– ℎ𝑗
𝑙
= 𝑔 𝑏𝑗
𝑙
+ 𝑖 ℎ𝑖
𝑙−1
𝑤𝑖𝑗
𝑙
: 𝑙 番目の隠れ層の第 𝑗 成分
• ℎ𝑖
0
= 𝑥𝑖 (入力特徴量の第 𝑖 成分)
• 𝑏𝑗
(𝑙)
: バイアス成分，𝑤𝑖𝑗
𝑙
: 結合重み
 出力層の活性化関数はタスク依存
– Classification → softmax 関数
• 𝑦𝑗 =
exp 𝑏 𝑗
(𝐿+1)
+ 𝑖 ℎ 𝑖
(𝐿)
𝑤𝑖𝑗
𝐿+1
𝑘 exp 𝑏 𝑘
(𝐿+1)
+ 𝑖 ℎ 𝑖
(𝐿)
𝑤𝑖𝑘
𝐿+1
– Regression → linear 関数
• 𝑦𝑗 = 𝑏𝑗
(𝐿+1)
+ 𝑖 ℎ𝑖
(𝐿)
𝑤𝑖𝑗
(𝐿+1)

/4025
Loss Function for Training DNN
 Backpropagation アルゴリズムを用いた学習
– 出力層の損失関数 ℒ 𝒚, 𝒚; 𝜆 が小さくなるように 𝜆 を更新
• Classification → cross-entropy 関数
• ℒ 𝒚, 𝒚; 𝜆 = − 𝑗 𝑦𝑗 log( 𝑦)
• Regression → mean squared error
• ℒ 𝒚, 𝒚; 𝜆 = 𝑗 𝑦𝑗 − 𝑦𝑗
2
» → 𝑝 𝒚 𝒙, 𝜆 = 𝒩 𝒚; 𝒚, 𝑰 を仮定した 𝜆 のML推定と等価
 DNNの学習における問題
– 𝜆 の更新に必要な情報を低層まで伝播不可 (勾配消失問題)
– 表現力が非常に高いので over-fitting しやすい
• → DBNによる pre-training
• (1) 𝐿 層のDBNを教師なし学習
• (2) 出力層を追加して全体を fine-tuning

/4026
Another Way to Pre-train DNN:
AutoEncoders (AEs)
 入力 𝒙 を復元するための圧縮された中間表現 𝒉 を学習
– (1) 重み 𝑾 を用いて入力 𝒙 を 𝒉 に圧縮
– (2) 𝑾′ を用いて 𝒉 から 𝒙 を復元 (𝑾′ = 𝑾⊤ としてもよい)
– (3) 𝒙 と 𝒙 の誤差を最小化するようにモデルパラメータを学習
 Denoising AE (DAE): 入力にノイズを加えて復元
– RBMsの代わりにDAEsを多層化させてDNNを構築
• ニューラルネットワークの学習として
• DNNの pre-training が可能 ̃

/4027
Cluster-to-Feature Mapping Using
Deep Generative Models
 RBMsを用いたHMM音声合成
– MCCsなどの低次元特徴量ではなく, スペクトル包絡をモデル化
– HMM音声合成における Gaussian をRBMsで置換
 実験条件
– 音声特徴量 (MCCs，F0，スペクトル包絡) の抽出: STRAIGHT法
• MCCsとF0のモデル化: HMM音声合成 (全手法で共通)
予測特徴量生成分布
Baseline MCCs Gaussian
GMM スペクトル包絡 GMM (𝑀 = 8)
RBM スペクトル包絡 RBM (𝐻 = 50)

/4028
Experimental Results
 RBMによる品質改善を確認
 VCにおいても品質改善を確認 (Mean Opinion Score: MOS での評価)
– 目的話者との類似度: 2.83 → 3.13
– 合成音声の自然性: 2.90 → 3.45

/4029
Spectrograms of Synthetic Speech
RBM
Baseline

/4030
Input-to-Feature Mapping Using
Deep Joint Models
 MultiDistribution DBN (MD-DBN) によるモデリング
– 「入力特徴量 → 音声特徴量」の直接的なマッピングを実現
– 音節単位での複数フレームの音声特徴量をモデル化
• Mel-Generalized Cepstrums (MGCs), log-energy, logF0, U/V
• 異なる音声特徴量の相関もモデル化可能
– 連続変数 (U/V以外) のモデル化
• → Gaussian
– 2値変数 (U/V) のモデル化
• → Bernoulli

/4031
Training/Synthesis Using MD-DBN
 学習時
– (1) 𝒉 𝐿−1
までを教師なし学習 (通常のDBNの学習と同様)
– (2) 𝒙, 𝒉 𝐿 , 𝒉 𝐿−1 の相関を学習
 生成時
– (1) テキスト特徴量 𝒙 を決定
– (2) 𝒉 𝐿−1 の推定
– (3) 𝒉(1) までを再帰的に推定
– (4) 音声特徴量 𝒚 を推定
– (5) 波形生成

/4032
Comparison between HMM and MD-DBN
 生成分布の表現方法
– HMM: 複数の single Gaussian
– MD-DBN: 1つのネットワーク
 音声特徴量モデル化の単位
– HMM: 状態単位でのモデル化
– MD-DBN: 音節単位 (複数フレーム) でのモデル化
 同一フレーム内での音声特徴量のモデル化
– HMM: 異なる特徴量は互いに独立と仮定 (diagonal covariance)
– MD-DBN: 独立性の仮定なし

/4033
Experimental Results
 比較手法
– HMM: HMM音声合成
– DBN (MGCs): スペクトルのみをMD-DBNで予測
– DBN (MGCs + logF0): スペクトルとF0の両方をMD-DBNで予測
 結果
– スペクトル特徴量のみの予測では品質改善を確認
– F0も加えて予測すると有意差はなし → 特徴量の次元数の違いが問題？

/4034
Input-to-Feature Mapping Using
Deep Conditional Models
 𝑝 𝒚 𝒙, 𝜆 を表すDNNにより音声特徴量をモデル化
– DNN音声合成: テキスト特徴量を音声特徴量へフレーム毎に変換
• テキスト特徴量: 2値変数と実数変数の混合
• 音声特徴量: 各フレームのMCCs, logF0, excitation, U/V
– 学習後のDNNの出力層 → 生成分布 (Gaussian) の平均
• 分散は学習データを用いて別途推定
– 結果: HMM音声合成と比較して品質改善

/4035
Comparisons among Three Approaches
 Cluster-to-Feature w/ RBM
– 従来技術と類似した枠組み + 生成分布の表現方法を修正
 Input-to-Feature w/ MD-DBN or DNN
– 2段階のモデル化を統合 (クラスターへのマッピングが不要)
• 音声特徴量への複雑なマッピングをより効率的に表現可能
– MD-DBN: サンプリングベースの音声特徴量生成
– DNN: 入力特徴量から音声特徴量を straightforward に生成
• 生成分布の表現力は弱い (単位行列を仮定した Gaussian)
 タスクに応じてさまざまなアプローチが存在
– DNN + Gaussian Process を用いたlogF0の生成 (TTS)
– Mixture of RBMs を用いたVC
– DAEを用いた speech enhancement
– etc...

/4036
Performance of RBMs as Density Models
 HMM音声合成におけるスペクトル
特徴量のモデル化
– GMM: モデルが複雑になるほど
over-fitting しやすい
– RBM: モデルを複雑にしたときの
over-fitting の影響が比較的小さい
→ good generalization
 RBMを用いることにで, 生のスペク
トル包絡からの特徴抽出が可能に
– → 包絡モデリング時の誤差を軽減

/4037
Input and Target Features
 入力特徴量はタスク依存で決定
– TTS: rich linguistic context, 入力テキストのベクトル表現
– VC: 入力音声のスペクトル特徴量
– Enhancement: noisy speech のパワースペクトル
 出力特徴量 (音声) の表現方法も多数存在
– Deep generative models が持つ高い表現力を利用
• 生のスペクトル包絡，パワースペクトルからの特徴抽出
• 多数の音声特徴量を連結させた特徴量
– TTSでは, F0に関する特徴量の予測も重要
• これまで紹介した手法では, logF0の予測精度は今ひとつ...

/4038
Model Structures and Model Training
 音声生成のアプローチに応じたモデルの設定
– RBMs, DBNs: joint PDFs and input-to-feature, or input-to-feature
– DNNs, CRBMs, DAEs: conditional PDFs and input-to-feature
 モデルの深さも重要 (だが, 深ければよいというわけでもない)
– ASRに比べると学習データの数が少ないので，学習が困難
 モデルの初期化法も多数存在
– Random initialization (TTS)
– DBNsを用いた初期化 (VC)
– AEs, RBMs を用いた初期化 (enhancement)
 計算コスト削減にGPUを用いた高速化も有効

/4039
Comparison between Speech Synthesis and
Recognition both Using DNN-HMMs
 DNN-HMM: ASRにおいて主流となっている手法
– (1) DNNにより音声特徴量を決定木の葉ノードにマッピング
– (2) HMMにより言語特徴量を decoding
 SPSGでは，ASRに比べてモデルの構造が多様
– DNNを用いた conditional PDF のモデル化 → DNN-HMMに類似
• 主な違いは出力層の活性化関数
• ASR (classification): softmax 関数
• SPSG (regression): linear 関数
 音声特徴量の役割
– ASR: 発話内容の予測 (exicitation, power spectra は使わない)
– SPSG: 音声波形の生成 (spectra, excitation の両方が必要)

/4040
Conclusions
 概要: deep learning を用いたSPSGのための音響モデリング
– 入出力間の複雑な対応関係を表現可能
• Deep joint models (RBMs, DBNs)
• Deep conditional models (CRBMs, DNNs)
– 従来手法と比較して合成音声の品質改善
 将来展望
– F0の高精度な予測を実現するモデルが必要
• スペクトルの予測とは別途行うべき？
• 時系列単位での依存性を考慮したモデル

Deep learning for acoustic modeling in parametric speech generation

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Deep learning for acoustic modeling in parametric speech generation

Ähnlich wie Deep learning for acoustic modeling in parametric speech generation (20)

Mehr von Yuki Saito

Mehr von Yuki Saito (20)

Deep learning for acoustic modeling in parametric speech generation