2. Learning Latent Representations for Style Control and
Transfer in End-to-end Speech Synthesis
• ICASSP(2019)
• Ya-Jie Zhang ; Shifeng Pan ; Lei He ; Zhen-Hua Ling
• 内容:end-to-endの⾳声合成モデルにVAEを導⼊し、発話スタイルの
潜在表現を教師なし学習する
• 貢献ポイント:Kullback-Leibler発散崩壊を回避するためにいくつか
の⼯夫をしている
• 被引⽤数:26
• 選定理由:Text-to-speechの先⾏研究を⾒ていて、⽐較的最近のもの
の中ではよく引⽤されていたため、変更点がシンプルに⾒えたため
2
14. Style transfer
• ⼊⼒テキストは同じ
– 図は”She went into the shop . It was
warm and smelled deliciously.”
• ⽣成された⾳声と参照⾳声のメルス
ペクトログラムはピッチの⾼さ、⼀
時停⽌時間、発話率、ピッチの変化
などのパターンの類似性を有してい
る
– (と書いてあるが、⾳声の結果は⾒つ
からなかった)
14
1 行目:スタイルの異なる 3 つの録音のメロ・スペクトロ
グラム
2 行目は:録音で参照された合成音声