Weitere ähnliche Inhalte
Ähnlich wie Parallel WaveNet: Fast High-Fidelity Speech Synthesis (20)
Parallel WaveNet: Fast High-Fidelity Speech Synthesis
- 2. Parallel WaveNet
• 3行でまとめると…
– WaveNetのarchitectureの詳細を公開した
– WaveNetの量子化bit数を8bitから16bitにした
– WaveNetの音声合成を1000倍高速化した
• http://proceedings.mlr.press/v80/oord18a.html
- 18. IAF Inverse Autoregressive Flow
• WaveNetやPixelCNNはAutoregressive(自己
回帰型)モデル
– 1サンプルにつき1回のDNNのフォワード計算をする必要
がある
– 計算を並列化できないので時間が掛かる
• 1回のDNNのフォワード計算で全サンプルを同時に
計算する手法
• http://papers.nips.cc/paper/6581-improved-
variational-inference-with-inverse-autoregressive-
flow
- 19. Parallel WaveNetの定式化
• WaveNetが近似する関数
– 𝑝 𝑥 𝑡 𝑥1, 𝑥2, … , 𝑥 𝑡−1, 𝒉 Teacher WaveNet
• Paralell WaveNetが近似する関数
– 𝑝 𝑥 𝑡 𝑧1, 𝑧2, … , 𝑧𝑡, 𝒉) Student WaveNet
– 𝑧は互いに独立なlogistic分布からサンプリング
– 𝑧~𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝜇 = 0, 𝑠 = 1)
- 22. −𝐻 𝑃𝑆 の追加
• 𝐻 𝑃𝑆, 𝑃 𝑇 − 𝐻 𝑃𝑆
– まさしくKLダイバージェンス
𝐻 𝑃𝑆
𝐷 𝐾𝐿
𝐻 𝑃𝑆, 𝑃 𝑇
- 23. 中間地点
• 𝐻 𝑃𝑆, 𝑃 𝑇 と𝐻 𝑃𝑆 を求める
– 求めやすいように、Student WaveNetに条件を加
える
– それぞれ具体的な算出方法を考える
- 25. Flowの計算
• 𝑧𝑡
0
~𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐 𝜇 = 0, 𝑠 = 1
• 𝑧𝑡
1
= 𝑧𝑡
0
∙ 𝑠𝑡
1
𝑧≤𝑡
0
+ 𝜇 𝑡
1
𝑧≤𝑡
0
– 𝑠𝑡
1
𝑧≤𝑡
0
と𝜇 𝑡
1
𝑧≤𝑡
0
は1つ目のDNNの出力
• 𝑧𝑡
𝑖
= 𝑧𝑡
𝑖−1
∙ 𝑠𝑡
𝑖
𝑧≤𝑡
𝑖−1
+ 𝜇 𝑡
𝑖
𝑧≤𝑡
𝑖−1
– 添え字を一般化
– スケール(整数倍)とシフト(定数項)
- 26. Nステージの場合
• 𝑧𝑡
𝑁
= 𝑧𝑡
0
∙ 𝑖
𝑁
[𝑠𝑡
𝑖
𝑧≤𝑡
𝑖−1
] +
𝑖
𝑁
[𝜇 𝑡
𝑖
∙ 𝑗>𝑖
𝑁
[𝑠𝑡
𝑗
(𝑧≤𝑡
𝑗−1
)]]
• 𝑧𝑡
0
(logistic分布のサンプル)をスケール/シフト
– 結局はただのlogistic分布
- 27. 中間地点
• 𝐻 𝑃𝑆, 𝑃 𝑇 と𝐻 𝑃𝑆 を求める
– 求めやすいように、Student WaveNetに条件を加
える
– それぞれ具体的な算出方法を考える
再掲
- 28. 𝐻 𝑃𝑆, 𝑃 𝑇 を求める
• logistic分布(𝑃𝑆)と混合logistic分布(𝑃 𝑇)の交
差エントロピーを求める
– 平均、スケール、混合比について
• DNNの出力
– 微分可能な形で
• 誤差逆伝播のため
– 解析的に求めることはできない
• つらい
• 複数回サンプリングすることで近似
- 30. 𝐻 𝑃𝑆 を求める
• ロジスティック分布のエントロピーは簡単に求めら
れる
• 𝐻 𝐿 𝜇, 𝑠 = log 𝑠 + 2
- 33. 3行でまとまらなかった
Parallel WaveNet
• Polyak averaging(exponential moving
average)
– 小ネタなので省略しました
• 𝑝 𝑥𝑡 𝑧1, 𝑧2, … , 𝑧 𝑇, 𝒉)でない理由
– IAFの範囲なので省略しました
– 本当はちょっと難しかったので…
• 損失関数の正則化項
– それほど目新しくもないので省略しました
– 読めば分かるようなところなので