More Related Content
Similar to Lispmeetup #45 Common Lispで音声合成 (7)
More from Satoshi imai (7)
Lispmeetup #45 Common Lispで音声合成
- 4. 色々なTTSシステム
●
波形接続型音声合成 (VOICEROID (結月ゆかり etc))
– 小さい音声の素片を連結して合成する
●
統計的音声合成
– HMM (CeVIO (さとうささら etc)、 Open JTalk)
● HMM(隠れマルコフモデル)を使うもの
– DNN
● 単純なFFNNを音声に適用 (簡単!)
– LSTM-RNN (Googleテキスト読み上げ)
●
再帰型ニューラルネット
– Wavenet (DeepMind) ← new!
- 5. 色々なTTSシステム
●
統計的音声合成
– HMM
– DNN
– LSTM-RNN
– Wavenet
●
ボコーダーを介さず直接音声を予測する
●
畳み込みニューラルネットで自己回帰(自分の予測を入力の一
部として与える)
●
ボコーダーを使う
生の音声ではなく、音声を少数のパラメータ
に変換してそれを予測する
再合成時に劣化する
- 20. MGLで回帰問題を解く
● build-fnnマクロでネットワークの構造を指定してオブジェクトを生成
– 入力層2次元、1200次元の隠れ層が3層、出力層1次元
– 隠れ層の活性化関数はReLU、出力層の活性化関数は恒等写像、誤差関数は
二乗誤差
(defparameter fnnregression
(buildfnn (:class 'regressionfnn :maxnstripes 100) ; バッチサイズ100
;; Input Layer 2次元
(inputs (>input :size 2))
(f1activations (>activation inputs :name 'f1 :size 1200))
(f1 (>relu f1activations))
(f2activations (>activation f1 :name 'f2 :size 1200))
(f2 (>relu f2activations))
(f3activations (>activation f2 :name 'f3 :size 1200))
(f3 (>relu f3activations))
(predictionactivations (>activation f3 :name 'prediction :size 1))
;; Output Lump: squareddifference 1→ 次元
(prediction (>loss (>squareddifference (activationsoutput predictionactivations)
(>input :name 'targets :size 1))
:name 'prediction))))