SlideShare ist ein Scribd-Unternehmen logo
1 von 28
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DurIAN: Duration Informed Attention Multimodal Synthesis
Yoshine Hayashi, AlgoAge
Agenda
• 書誌情報
• 概要
• 提案手法
• 実験結果
• デモ
• 考察
書誌情報
• 論文名:DurIAN: Duration Attention Multimodal Synthesis
• 著者:Chengzhu Yu, Heng Lu, Na Hu, Meng Yu, Chao Weng, Kun Xu,
Peng Liu, Deyi Tuo, Shiyin Kang, Guangzhi Lei, Dan Su, Dong Yu
• 所属:Tencent AI Lab
• 公開日:4 Sept. 2019
• デモ:Sound and Video demo
※ 特に明記していない場合は上記論文、デモから引用。
概要
表情と声を同時に生成するマルチモーダルの自己回帰モデル
概要
従来手法の問題点
• TTSのモデルについて
- NNを用いない手法はロバストだが音声の自然さに欠ける
- NNを用いたend-to-endの手法は音声は自然だがロバスト性に欠ける
→調査した結果end-to-endのAttention機構が原因だった
• 顔と表情の同期について
- 音声と表情がペアのデータを用意するのが大変
概要
何をしたか
• Tacotron2のAttention機構をalignment modelで置き換える
→従来のTacotron2と同時間で、より自然な音声を生成可能
• 音素と韻律構造のエンコードにSkip encoderを使用
→ Out-of-domainのテキストにもロバストに対応可能
概要
何をしたか
• Style-control手法の提案
→教師ありのスタイル変換で細かな表現の調節が可能
• Multi-band synchronized WaveRNNの提案(今回は割愛)
→WaveRNNの計算コスト削減、単一CPUで実時間の6倍で生成
提案手法
全体図
提案手法
① Skip encoderで音素と韻律構造をエンコード
② Alignment modelで入力の音素とラベル音声の対応づけをする
③自己回帰モデルで音声と表情を生成
④ Post-netで③でとらえきれなかった部分を予測
提案手法
Skip Encoder
ー Tacotron1のエンコーダがベース
役割:音素と韻律構造を隠れ状態にエンコードする
out-of-domainのテキストにもロバストにする
より自然な音声を生成する
提案手法
Skip Encoder
①入力されたテキストを音素に変換
• 韻律構造に合わせて境界を追加
• #Sが音節、#1が韻律語(?)など
② 音素と韻律をベクトルにembedding
提案手法
Skip Encoder
③ Pre-netでエンコード(全結合層*2)
学習時、確率0.5でDropout
④ CBHGモジュールでエンコード
(Conv1D + highway network + bidirectional GRU)
提案手法
Alignment Model
ー従来のAttention機構の代わり
役割:音素とラベル音声間の対応づけをする
ロバスト性を高める
(skipやrepeatの問題を解消する)
提案手法
Alignment Model
① 音素の間隔を予測するモデルで対応関係を取得
学習時:音声認識でよく使われるforced alignmentという手法を使い取得
予測時:別のモデル(図右下)で対応を取得
↑pre-trained(forced alignmentから得られたものとMSE)
② 隠れ状態を複製し長さを合わせる
③ 各音素の音声との対応位置を取得
提案手法
Decoder
ーTacotron1のDecoderがベース
役割:音声と表情を同時に出力する
提案手法
Decoder
• Post-netの前後のMel-spectrogramそれぞれについてL1Lossをとる
• 表情の同時生成の手法は以下の2つがある
① マルチタスクのモデルとして学習する
→音声と顔のペアのデータが必要で大変
② duration-modelを使い、音声と顔を独立に学習させる
(詳しくは記載なし)
→提案手法はこちらを使用
提案手法
Decoder
• 表情の生成については以下がベース
• face warehouse
• Deep Video Portraits
• Text-based editing of talking-head video
提案手法
Style Control
役割:声と表情に感情をつける
• 教師なし学習だと調節が大変
ー 潜在空間のどこが何に対応するか分からないので
• 教師あり学習で、Angry, Happyといった具体的なラベルを渡す
→ しかしこれだと微調整は難しい
提案手法
Style Control
• style embeddingが潜在空間上のベクトルに対応すると仮定
→Control Scaleを調節することで細かなスタイル変換を実現
(学習時は1.0で固定、推論時に変更可能)
提案手法
Style Control
• 音素の間隔はstyleに影響しそう
→① Skip encoder後の隠れ層にconcat
② 音素をembeddingした後にconcat
提案手法
Style Control
• 音声のデータセット
• ゲーム実況者風音声合成用の男性話者の4時間分の音声データ
• 内0.5時間にexcitingのラベルをつける
• 内1時間に実況者のラベルをつける
• 残り2.5時間はnormalとして扱う
• 表情のデータセット
• face warehouse
実験
音声の自然さの検証
• Male: プロの中国語話者の18hのデータを学習(16KHz)
学習データに含まれない40文の生成結果を実験に使用
• Female: プロの中国語話者の7hのデータを学習(16kHz)
比較的長い、out-of-domainの20文の生成結果を使用
• それぞれ20人の中国語話者に評価してもらう
実験結果
• Male, FemaleともTacotron2とほぼ同じ精度
評価指標:Mean Opinion Score(MOS)と呼ばれる、人間に自然さを1~5で評価させ平均したもの
高いほど良く、最低1で最高5
実験結果
音声のロバスト性の検証
• 1000発話中skipとrepeatが何%で起きたか
• 実験内ではerrorがなく、提案手法の方がロバストだという主張
デモ
スタイルコントロールと表情生成の結果のデモ
• 左からNeutral, Joyful
デモ
スタイルコントロールと表情生成の結果のデモ
• 左からAngry, Sad
デモ
スタイルコントロールでscaleを調節した音声のデモ
(表情のデモはなかった)
• ラベルはexcitingで、左から*0.5, *1.0, *1.5, *2.0
• 声の高さと話す勢いに顕著に違いあり
• W杯の実況者風
考察
• デモを見る限りスタイル変換はかなり良くできている
• Exciting以外のstyleラベルのデータについての記述は見当たらなかった
• スタイル変換の評価指標がないのでどれだけ良いか分かりづらい
→既存の教師あり・なしスタイル変換について近日中にまとめたい
• 声と表情の同期については社外秘だったのが残念
• 表情生成のモデルも詳しくは見当たらなかった
• なぜパラレルデータなしで同期できるのか知りたかった

Weitere ähnliche Inhalte

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

[DL輪読会]DurIAN: Duration Informed Attention Multimodal Synthesis