[DL輪読会]DurIAN: Duration Informed Attention Multimodal Synthesis

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DurIAN: Duration Informed Attention Multimodal Synthesis
Yoshine Hayashi, AlgoAge

Agenda
• 書誌情報
• 概要
• 提案手法
• 実験結果
• デモ
• 考察

書誌情報
• 論文名：DurIAN: Duration Attention Multimodal Synthesis
• 著者：Chengzhu Yu, Heng Lu, Na Hu, Meng Yu, Chao Weng, Kun Xu,
Peng Liu, Deyi Tuo, Shiyin Kang, Guangzhi Lei, Dan Su, Dong Yu
• 所属：Tencent AI Lab
• 公開日：4 Sept. 2019
• デモ：Sound and Video demo
※ 特に明記していない場合は上記論文、デモから引用。

概要
表情と声を同時に生成するマルチモーダルの自己回帰モデル

概要
従来手法の問題点
• TTSのモデルについて
- NNを用いない手法はロバストだが音声の自然さに欠ける
- NNを用いたend-to-endの手法は音声は自然だがロバスト性に欠ける
→調査した結果end-to-endのAttention機構が原因だった
• 顔と表情の同期について
- 音声と表情がペアのデータを用意するのが大変

概要
何をしたか
• Tacotron2のAttention機構をalignment modelで置き換える
→従来のTacotron2と同時間で、より自然な音声を生成可能
• 音素と韻律構造のエンコードにSkip encoderを使用
→ Out-of-domainのテキストにもロバストに対応可能

概要
何をしたか
• Style-control手法の提案
→教師ありのスタイル変換で細かな表現の調節が可能
• Multi-band synchronized WaveRNNの提案（今回は割愛）
→WaveRNNの計算コスト削減、単一CPUで実時間の6倍で生成

提案手法
① Skip encoderで音素と韻律構造をエンコード
② Alignment modelで入力の音素とラベル音声の対応づけをする
③自己回帰モデルで音声と表情を生成
④ Post-netで③でとらえきれなかった部分を予測

提案手法
Skip Encoder
ー Tacotron1のエンコーダがベース
役割：音素と韻律構造を隠れ状態にエンコードする
out-of-domainのテキストにもロバストにする
より自然な音声を生成する

提案手法
Skip Encoder
①入力されたテキストを音素に変換
• 韻律構造に合わせて境界を追加
• #Sが音節、#1が韻律語(?)など
② 音素と韻律をベクトルにembedding

提案手法
Skip Encoder
③ Pre-netでエンコード（全結合層*2）
学習時、確率0.5でDropout
④ CBHGモジュールでエンコード
（Conv1D + highway network + bidirectional GRU）

提案手法
Alignment Model
ー従来のAttention機構の代わり
役割：音素とラベル音声間の対応づけをする
ロバスト性を高める
（skipやrepeatの問題を解消する）

提案手法
Alignment Model
① 音素の間隔を予測するモデルで対応関係を取得
学習時：音声認識でよく使われるforced alignmentという手法を使い取得
予測時：別のモデル（図右下）で対応を取得
↑pre-trained（forced alignmentから得られたものとMSE）
② 隠れ状態を複製し長さを合わせる
③ 各音素の音声との対応位置を取得

提案手法
Decoder
ーTacotron1のDecoderがベース
役割：音声と表情を同時に出力する

提案手法
Decoder
• Post-netの前後のMel-spectrogramそれぞれについてL1Lossをとる
• 表情の同時生成の手法は以下の2つがある
① マルチタスクのモデルとして学習する
→音声と顔のペアのデータが必要で大変
② duration-modelを使い、音声と顔を独立に学習させる
（詳しくは記載なし）
→提案手法はこちらを使用

提案手法
Decoder
• 表情の生成については以下がベース
• face warehouse
• Deep Video Portraits
• Text-based editing of talking-head video

提案手法
Style Control
役割：声と表情に感情をつける
• 教師なし学習だと調節が大変
ー潜在空間のどこが何に対応するか分からないので
• 教師あり学習で、Angry, Happyといった具体的なラベルを渡す
→ しかしこれだと微調整は難しい

提案手法
Style Control
• style embeddingが潜在空間上のベクトルに対応すると仮定
→Control Scaleを調節することで細かなスタイル変換を実現
（学習時は1.0で固定、推論時に変更可能）

提案手法
Style Control
• 音素の間隔はstyleに影響しそう
→① Skip encoder後の隠れ層にconcat
② 音素をembeddingした後にconcat

提案手法
Style Control
• 音声のデータセット
• ゲーム実況者風音声合成用の男性話者の4時間分の音声データ
• 内0.5時間にexcitingのラベルをつける
• 内1時間に実況者のラベルをつける
• 残り2.5時間はnormalとして扱う
• 表情のデータセット
• face warehouse

実験
音声の自然さの検証
• Male: プロの中国語話者の18hのデータを学習（16KHz）
学習データに含まれない40文の生成結果を実験に使用
• Female: プロの中国語話者の7hのデータを学習（16kHz）
比較的長い、out-of-domainの20文の生成結果を使用
• それぞれ20人の中国語話者に評価してもらう

実験結果
• Male, FemaleともTacotron2とほぼ同じ精度
評価指標：Mean Opinion Score（MOS）と呼ばれる、人間に自然さを1~5で評価させ平均したもの
高いほど良く、最低1で最高5

実験結果
音声のロバスト性の検証
• 1000発話中skipとrepeatが何%で起きたか
• 実験内ではerrorがなく、提案手法の方がロバストだという主張

デモ
スタイルコントロールと表情生成の結果のデモ
• 左からNeutral, Joyful

デモ
スタイルコントロールと表情生成の結果のデモ
• 左からAngry, Sad

デモ
スタイルコントロールでscaleを調節した音声のデモ
（表情のデモはなかった）
• ラベルはexcitingで、左から*0.5, *1.0, *1.5, *2.0
• 声の高さと話す勢いに顕著に違いあり
• W杯の実況者風

考察
• デモを見る限りスタイル変換はかなり良くできている
• Exciting以外のstyleラベルのデータについての記述は見当たらなかった
• スタイル変換の評価指標がないのでどれだけ良いか分かりづらい
→既存の教師あり・なしスタイル変換について近日中にまとめたい
• 声と表情の同期については社外秘だったのが残念
• 表情生成のモデルも詳しくは見当たらなかった
• なぜパラレルデータなしで同期できるのか知りたかった

[DL輪読会]DurIAN: Duration Informed Attention Multimodal Synthesis

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

[DL輪読会]DurIAN: Duration Informed Attention Multimodal Synthesis