SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Parallel WaveNet: Fast High-Fidelity Speech Synthesis",
Google
Kei	Akuzawa,	Matsuo	Lab	M1
Agenda
1. 書誌情報
2. アブストラクト
3. (DLを使った)⾳声合成の概要
4. Parallel	WaveNet
1. イントロ
2. WaveNet
3. ParallelWaveNet
4. Probability	Density	Distillation
5. 実験
5. 感想
ØDLを使った⾳声合成の概要とWaveNetの位置付けについても話します
ØIAFおよびParallelWaveNetについて、書かれていない部分を妄想で補っているので、
間違いがありましたらご容赦ください
書誌情報
• タイトル:	Parallel	WaveNet:	Fast	High-Fidelity	Speech	Synthesis	
• 著者:	Aaron	van	den	Oord	+	(Google)
• 投稿先:	arxiv 2017/11 (https://arxiv.org/abs/1711.10433)
• 選定理由
• ⾳声合成に興味があった
• GoogleAssistantに使われている技術
• 「⾃⼰回帰NNを順伝播型NNに蒸留」が気になった
アブストラクト
• "WaveNet"はSOTAな⾳声合成⼿法である
• しかし、⾃⼰回帰⽣成モデルなので、⽣成が遅い
• ⾳声データだと、1秒の⾳声を⽣成するために16000回サンプリングが必要
• 提案⼿法"Probability	Density	Distillation":
• ParallelWavenet(順伝播型)の確率密度を、Wavenet(⾃⼰回帰型)の確率密度に近づける
• ParallelWaveNetは、旧WaveNetからほぼ精度を落とさずにreal-timeの20倍(旧
WaveNetの1000倍)早い⽣成が可能になる
⾳声合成の概要
• ⾳声合成とは? => テキスト系列から⾳声系列へのseq2seq
• 伝統的な統計的⾳声合成では、機械学習モデルはテキストから⾳響特徴量の予測
のみを⾏う
逆フーリエ変換スペクトル
⾳声波形
今⽇は寒いですね
テキスト + ⾔語特徴量
機械学習モデル
による予測
⾳響特徴量
MGC, F0, etc
再構成
機械学習モデル Vocoder
⾳声合成の概要 ⾳響特徴量について
• 抽出⼿順:	
• 短時間(TTSでは5ms程度)の⾳声波形をフーリエ変
換することでスペクトルを得る
• 5msなど、分析の対象となる時間幅をフレームと呼ぶ
• スペクトルから⾳響特徴量を抽出する
• 役割:
• MFCC:	声道、⿐腔の形状の情報を持ち、声質、⾳
素の分類に有⽤
• F0(基本周波数):	声の⾼さ、イントネーション、ア
クセントなど
• etc.
フーリエ変換&特徴量抽出
⾳響特徴量
⾳声波形
5ms
⾳声合成の概要 DNN初期
• STATISTICAL	PARAMETRIC	SPEECH	SYNTHESIS	
USING	DEEP	NEURAL	NETWORKS	(Zen+(Google),	
ICASSP2013	)	
• ⾳響特徴量フレーム⼀つ⼀つを順伝播型NNで
予測
• ⼊⼒(⾔語特徴量)と出⼒(⾳響特徴量)の系列⻑
が揃わない
• 「⼀つの⾳素が何フレーム続くか」とい
う情報を使って、⾔語特徴量を引き延ば
す必要があった
• 「⼀つの⾳素が何フレーム続くか」を別
のモデルで予測する必要があった
⾳声合成の概要 towards	End-to-End	[Encoder-Decoder]
• DNN初期の⼿法は、⼊⼒(⾔語特徴量)と出
⼒(⾳響特徴量)の系列⻑を合わせるために
頑張る必要があった
• 最近の⼿法では、機械翻訳と同様の
EncoderDecoder(with	attention)構造によって、
⼊⼒と出⼒の系列⻑が異なってもそのまま訓
練できるようになった
• Char2Wav(Sotelo+	2017)
• Tacotron(Wang+	2017)
• VoiceLoop(Taigman+	2017)
• DeepVoice3(Ping+	2017)
• Tacotron2(Shen+	2017)
(Tacotron2)
⾳声合成の概要 towards	End-to-End	[波形⽣成]
• 伝統的な⾳声合成モデルでは、機械学習モデルは⾳響特徴量の予測までを担い、
「⾳響特徴量から⾳声波形の予測」は"Vocoder"と呼ばれるツールに任せていた
• Vocoderの例:	WORLD,	STRAIGHT
• "Vocoder"によって⾳声合成の質が左右されたくない =>	⾳声波形を直接⽣成すれ
ばいいのでは?
• WaveNet(Aaron+	2016)
• SampleRNN (Mehri+	2017)
• ただし、WaveNet⾃体は前述のEncoder-Decoder構造を持たないので、DNN初期の
ような⼿法で⼊⼒と出⼒の系列⻑を合わせる必要がある
• WaveNetとEncoder-Decoder構造組み合わせたらよくね? =>	Tacotron2
⾳声合成の概要 towards	End-to-End	[波形⽣成]
• WaveNetによる⽣成のイメージ
⾳声波形
今⽇は寒いですね
テキスト
⾳響特徴量
F0
外部モデル WaveNet
⾔語特徴量
⾳素
継続⻑
Agenda
1. 書誌情報
2. アブストラクト
3. (DLによる)⾳声合成の概要
4. Parallel	WaveNet
1. イントロ
2. WaveNet
3. ParallelWaveNet
4. Probability	Density	Distillation
5. 実験
5. 感想
Parallel	WaveNet:	イントロ
• やること:
1. 既存⼿法WaveNetは訓練が⾼速
2. 提案⼿法ParallelWaveNetはサンプリングが⾼速
3. 訓練済みWaveNetを教師として、ParallelWaveNetを蒸留により効率的に訓練する
4. そうして得たParallelWaveNetより⾼速なサンプリングが可能となる
構造 訓練 サンプリング
WaveNet ⾃⼰回帰⽣成モデル 早い 遅い
Parallel WaveNet ⾃⼰回帰⽣成モデル
の双対表現(Inverse	
Autoregressive Flows)
遅い 早い
Parallel	Wavenet:	WaveNet
• 詳細:	https://www.slideshare.net/DeepLearningJP2016/dlwavenet-a-generative-model-
for-raw-audio
• WaveNetは⾃⼰回帰⽣成モデル
=>	⾼次元のデータの同時分布を条件付き分布の積に変形
𝑝 𝑥#, … , 𝑥& =	∏ 𝑝&
*+# 𝑥* 𝑥,*, ; 𝜽 , 		 𝑥*:	時刻tでの⾳声波形の値,	𝜃:	パラメータ
Parallel	Wavenet:	WaveNet
• 構造:
• Causal	Convolution:	未来の情報を⾒ない
• Dilated	Convolution:	遠くを⾒る
• Gated	Activation:	
• 学習可能な⾮線形活性化関数
• 𝒛 = tanh(𝑊8,9 ∗ 𝒙) ⨀	𝜎(𝑊?,9 ∗ 𝒙)
• Conditioning:
• テキスト、話者などの追加情報(𝒉)で条件付け
• 𝒛 = tanh(𝑊8,9 ∗ 𝒙 + 𝑉8,9 ∗ 𝒉) ⨀	𝜎(𝑊?,9 ∗ 𝒙 + 𝑉8,9 ∗ 𝒉)
• オリジナルのWaveNetと、この論⽂での教師WaveNetの変更点:	⾼解像度化
• ⾳声のビット深度を8-bitから16-bitへ(65536クラス)
Øモデルの出⼒𝑝 𝑥* 𝑥,*, ; 𝜽 を、多項分布からdiscretized	mixture	of	loistics distributionへ
• ⾳声を16kHzから24kHzへ(サンプリングレートを3/2倍)
Ødilated	convolutionのfilter	sizeを2から3へ
Parallel	Wavenet:	Parallel	WaveNet
• Parallel	WaveNetの前に、前提知識として以下2つを話します
• Normalizing	Flows:	
• 変分推論において、真の事後分布を近似するための、柔軟な事後分布を記述する⼿法
• Inverse	Autoregressive	Flows	(IAF)
• Normalizing	Flowsの⼀種
• Parallel	WaveNetはIAFを使⽤
Parallel	Wavenet:	Parallel	WaveNet [Normalizing	Flows]
• Normalizing	Flows	(Rezende+,	2015):
• 単純な多変量分布𝑝C(𝒛)を出発点とする(例えば、分散が単位⾏列のロジスティック分布)
• 確率変数に対し以下の変換を⾏う:	
• 𝒙 = 𝑓(𝒛) ,	ただし𝑓は⾮線形でinvertibleな変換
• このときの確率密度関数:
• log𝑝H 𝒙 = log𝑝C 𝒛 	− log|
K𝒙
K𝒛
|
• よって、 𝑝C 𝒁 を介して複雑な多変量分布𝑝H 𝒙 からサンプリングを⾏なったり、尤度を計算
することができる
• 変換を複数回⾏うと、さらに柔軟な分布を得ることが期待できる
• 𝐳 𝐊 = 𝑓O 	∘ ⋯ ∘ 𝑓R 	∘ 𝑓# 	∘ (𝒛 𝟎)
• ただし、|
K𝒙
K𝒛
|(⾏列式)の計算量は普通𝑂(𝑛V) =>	効率的でない
• |
K𝒙
K𝒛
|の計算が効率的になるような𝑓を設計する必要がある =>	IAFへ
Parallel	Wavenet:	Parallel	WaveNet [IAF]
• Inverse	Autoregressive	Flows(Kingma+,	2017):
• 𝒙 = 𝑓(𝒛)を以下のように設計する
𝑥* = 𝑧* X 𝑠 𝒛,*, 𝜽 + 𝜇 𝒛,*, 𝜽 ,		ただし𝒙 = 𝑥#, … , 𝑥& , 𝒛 = [𝑧#, … , 𝑧]
• このとき,
K^_
K`a
=
𝑧* X
Kb 𝒛cd,𝜽
K`a
, 	𝑖𝑓	𝑖 > 𝑗
𝑠 𝒛,*, 𝜽 , 						𝑖𝑓	𝑖 = 𝑗
0, 																			𝑖𝑓	𝑖 < 𝑗
• よって
K𝒙
K𝒛
は下三⾓⾏列となり、効率的に計算できる
log
K𝒙
K𝒛
= ∑ log
K^d
K`d
&
*+#
= ∑ log&
*+# 𝑠 𝒛,*, 𝜽
Parallel	Wavenet:	Parallel	WaveNet [Normalizing	Flows	+	VAE]
• Normalizing	Flows	の使⽤例:	VAE
• 通常VAEでは、事後分布を 𝑞l 𝒛 𝟎 𝒙 ~	𝑁(𝜇 𝒙 , 𝜎 𝒙 ) と仮定する
• これにNormalizin Flowsによる変換をK回ほどこすと、柔軟な分布𝑞Oが得られる
• 𝐳 𝐊 = 𝑓O 	∘ ⋯ ∘ 𝑓R 	∘ 𝑓# 	∘ (𝒛 𝟎)
• log𝑞O 𝒛 𝑲 𝒙 = log𝑞l 𝒛 𝟎 𝒙 	− ∑ logO
9 |
K𝒛 𝒌
K𝒛 𝒌q𝟏
|
• 事後分布𝑞が柔軟であるほど,	変分下限が最⼤化できる!!
• 𝐿 𝒙; 	𝜽 = 	log𝑝t 𝒙 − 𝐷Ov[𝑞 𝒛 𝒙 	||	𝑝 𝒛 𝒙 ]
• VAE+IAFはPixelCNNと尤度評価でいい勝負(すごい)
inverse	autoregressive	flow
Parallel	Wavenet:	Parallel	WaveNet [Normalizing	Flows	+	⽣成モデル]
• Normalizing	Flowsは単体で⽣成モデルとして使うこともできる
• 以下の設定を考える
• 𝒛~𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐(0, 𝑰)
• 𝑥* = 𝑧* X 𝑠 𝒛,*, 𝜽 + 𝜇 𝒛,*, 𝜽 … ①,		ただし𝒙 = 𝑥#, … , 𝑥& , 𝒛 = [𝑧#, … , 𝑧]
• このとき、𝑥*~𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐(𝜇 𝒛,*, 𝜽 , 𝑠 𝒛,*, 𝜽 )
• サンプリング:	早い
• 𝒛~𝐿𝑜𝑔𝑖𝑠𝑡𝑖𝑐(0, 𝑰)から適当に𝒛をサンプリング
• すべてのtについて、𝑥* = 𝑧* X 𝑠 𝒛,*, 𝜽 + 𝜇 𝒛,*, 𝜽 を並列計算できる
• 訓練:	遅い
• 𝒙が観測されたもとで、𝑥*の尤度を計算したい =>	 𝜇 𝒛,*, 𝜽 , 𝑠 𝒛,*, 𝜽 が欲しい =>𝒛,*が欲しい
• ①を変形すると、𝑧* =
^d}~ 𝒛cd,𝜽
b 𝒛cd,𝜽
=>	これを𝑧#から逐次的に解けば𝒛,*が得られる
• この計算は𝒛に関する⾃⼰回帰モデルなので、遅い
Parallel	Wavenet:	Parallel	WaveNet [構造]
• WaveNetと同様のCausal	+	Dilated	Convolution
• ⼊⼒:	𝐳~𝕃(0, 𝑰)	
• 出⼒:	𝜇 𝒛,𝒕, 𝜽 , 𝑠 𝒛,𝒕, 𝜽
• 出⼒分布:	𝑥*~𝕃 𝜇 𝒛,𝒕, 𝜽 , 𝑠 𝒛,𝒕, 𝜽 , 𝑤ℎ𝑒𝑟𝑒	𝑥* = 𝑧* ⋅ 𝑠 𝒛,𝒕, 𝜽 + 𝜇 𝒛,𝒕, 𝜽
𝜇 𝒛,𝒊, 𝜽 , 𝑠 𝒛,𝒊, 𝜽
Parallel	Wavenet:	Probability	Density	Distillation
• Parallel	WaveNetで直接尤度最⼤化をすると遅い(前述)
• そこで、提案⼿法Probability	Density	Distillationは、以下のKL距離を最⼩化する
𝐷Ov(𝑝b 𝒙 | 𝑝& 𝒙 , 𝑤ℎ𝑒𝑟𝑒	𝑝b 𝒙 = Parallel	WaveNet,		𝑝& 𝒙 = WaveNet
• IAFの使い⽅をVAEとParallelWaveNetで⽐較:
• VAEでは未知の分布𝑝 𝒛 𝒙 とのKL距離を暗黙的に最⼩化
• ここでは既知の分布𝑝& 𝒙 とのKL距離を直接最⼩化
Parallel	Wavenet:	Probability	Density	Distillation
並列化可能
並列化可能
Parallel	Wavenet:	Probability	Density	Distillation
• 𝐻 𝑃•, 𝑃& = ∑ 𝔼‘’ 𝒙cd
&
*+# 𝐻(𝑝• 𝑥*|𝒙,* , 𝑝& 𝑥*|𝒙,* )のイメージ
• ⽣徒(Parallel	WaveNent)から𝒙のサンプリングを⾏い、それを教師(WaveNet)への⼊⼒として
𝑝& 𝑥*|𝒙,* を(すべてのtについて並列に)計算
Parallel	Wavenet:	Probability	Density	Distillation	[追加的なloss]
• Probability	Density	Distillation	にいくつかのLossを追加
• Power	Loss:	 𝜙 𝑔 𝒛, 𝒄 − 𝜙 𝒚
R
, 𝑤ℎ𝑒𝑟𝑒	𝜙 𝒙 = 𝑺𝑻𝑭𝑻 𝒙 R
• 合成⾳声のpowerを全ての周波数帯で本物に近づける
• Perceptual	Loss:	⾳素識別器に真の⾳声、合成⾳声を与えてFeature	Matching
• Contrastive	Loss:	−𝛾𝐷Ov(𝑝b 𝒄𝒊 ||𝑝& 𝒄𝒋›𝒊 )
• 話者、テキストによる条件付け𝒄𝒊が異なる時のKL距離を最⼤化する
Parallel	Wavenet:	実験
• 教師WaveNetの設定:
• ⾳声データは7680timesteps(約320ms)に揃える
• 10	x	3	=	30層のDilated	CNN
• ⽣徒ParallelWaveNetの設定
• IAFを4回適⽤する
• 10	+	10	+	10	+	30	=	60層
Parallel	Wavenet:	実験
• 伝統的⼿法よりMOSが向上
• 蒸留してもMOSは落ちない
• ⾳声を16->24kHz,	8->16bit	に変えたことによる効果もあると思われる
Parallel	Wavenet:	実験
• Multi-Speaker(⼀つのモデルで、複数⼈の話者の⾳声を再現)でもよい精度
• ただ、⼀⼈当たりの訓練データ量が多いので、パラメータ共有のメリットを⾔え
ていない気が個⼈的にしている
Parallel	Wavenet:	実験
• 追加的なLossを使うことによりMOSが向上
• KL(Probability	Density	Distillation)単体だと⾃然な⾳声が⽣成されず、最低でも
Power	Lossと組み合わせる必要がある
感想
• IAF⾃体は昔からある⼿法ですが、「⾃⼰回帰モデルの弱点を補うために、⾃⼰
回帰モデルの双対表現であるIAFを使う」という発想はおそらくこの論⽂が初出
で、かっこいいです
• KL単体の最⼩化ではうまくいかず、いろいなLossを追加したりしていて実験が⼤
変そう
References
• Zen,	Heiga,	Senior,	Andrew,	and	Schuster,	Mike.	Statistical	parametric	speech	synthesis	using	deep	neural	networks.	In	
Proceedings	of	the	IEEE	International	Conference	on	Acoustics,	Speech,	and	Signal	Processing	(ICASSP),	pp.	7962–7966,	2013.	
• Jose	Sotelo,	Soroush	Mehri,	Kundan	Kumar,	Joao	Felipe	Santos,	Kyle	Kastner,	Aaron	Courville,	and	Yoshua	Bengio.	Char2wav:	
End-to-end	speech	synthesis.	In	ICLR	workshop,	2017.	
• Y.	Wang,	R.	Skerry-Ryan,	D.	Stanton,	Y.	Wu,	R.	J.	Weiss,	N.	Jaitly,	Z.	Yang,	Y.	Xiao,	Z.	Chen,	S.	Bengio,	Q.	Le,	Y.	
Agiomyrgiannakis,	R.	Clark,	and	R.	A.	Saurous,	“Tacotron:	Towards	end-to-end	speech	synthesis,”	in	Proceedings	of	Inter-	
speech,	Aug.	2017.	
• Taigman, Yaniv; Wolf, Lior; Polyak, Adam; Nachmani, Eliya,	VoiceLoop:	Voice	Fitting	and	Synthesis	via	a	Phonological	Loop.	
arXiv	preprint	arXiv:1707.06588,	2017
• W.Ping,K.Peng,A.Gibiansky,S.O	̈.Arik,A.Kannan,	S.	Narang,	J.	Raiman,	and	J.	Miller,	Deep	voice	3:	2000-	speaker	neural	text-to-
speech.	arXiv	preprint	arXiv:1710.07654,	2017.	
• Jonathan	Shen, Ruoming	Pang, Ron	J.	Weiss, Mike	Schuster, Navdeep	Jaitly, Zongheng	Yang, Zhifeng	Chen, Yu	Zhang, Yuxuan	
Wang, RJ	Skerry-Ryan, Rif	A.	Saurous, Yannis	Agiomyrgiannakis, Yonghui	Wu,	Natural	TTS	Synthesis	by	Conditioning	WaveNet	
on	Mel	Spectrogram	Predictions.	arXiv	preprint	arXiv:1712.05884,	2017.
• Aaron	van	den	Oord,	Sander	Dieleman,	Heiga	Zen,	Karen	Simonyan,	Oriol	Vinyals,	Alex	Graves,	Nal	Kalchbrenner,	Andrew	
Senior,	and	Koray	Kavukcuoglu.	Wavenet:	A	generative	model	for	raw	audio.	arXiv	preprint	arXiv:1609.03499,	2016.	
• Soroush	Mehri,	Kundan	Kumar,	Ishaan	Gulrajani,	Rithesh	Kumar,	Shubham	Jain,	Jose	Sotelo,	Aaron	Courville,	and	Yoshua	
Bengio.	SampleRNN:	An	unconditional	end-to-end	neural	audio	generation	model.	arXiv	preprint	arXiv:1612.07837,	2016.	
• Danilo	Jimenez	Rezende	and	Shakir	Mohamed.	Variational	inference	with	normalizing	flows.	arXiv	preprint	arXiv:1505.05770,	
2015.	
• Diederik	P	Kingma,	Tim	Salimans,	and	Max	Welling.	Improving	variational	inference	with	inverse	autoregressive	flow.	arXiv	
preprint	arXiv:1606.04934,	2016.

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 

Ähnlich wie [DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis

Parallel WaveNet: Fast High-Fidelity Speech Synthesis
Parallel WaveNet: Fast High-Fidelity Speech SynthesisParallel WaveNet: Fast High-Fidelity Speech Synthesis
Parallel WaveNet: Fast High-Fidelity Speech Synthesis
dhigurashi
 

Ähnlich wie [DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis (20)

Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
 
暗号技術の実装と数学
暗号技術の実装と数学暗号技術の実装と数学
暗号技術の実装と数学
 
Parallel WaveNet: Fast High-Fidelity Speech Synthesis
Parallel WaveNet: Fast High-Fidelity Speech SynthesisParallel WaveNet: Fast High-Fidelity Speech Synthesis
Parallel WaveNet: Fast High-Fidelity Speech Synthesis
 
The review of 'Explaining nonlinear classification decisions with deep Taylor...
The review of 'Explaining nonlinear classification decisions with deep Taylor...The review of 'Explaining nonlinear classification decisions with deep Taylor...
The review of 'Explaining nonlinear classification decisions with deep Taylor...
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
楕円曲線と暗号
楕円曲線と暗号楕円曲線と暗号
楕円曲線と暗号
 
Dynamic Routing Between Capsules
Dynamic Routing Between CapsulesDynamic Routing Between Capsules
Dynamic Routing Between Capsules
 
論文紹介:The wavelet matrix
論文紹介:The wavelet matrix論文紹介:The wavelet matrix
論文紹介:The wavelet matrix
 
Computing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner BasisComputing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner Basis
 
レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
楕円曲線入門 トーラスと楕円曲線のつながり
楕円曲線入門トーラスと楕円曲線のつながり楕円曲線入門トーラスと楕円曲線のつながり
楕円曲線入門 トーラスと楕円曲線のつながり
 
バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係
 
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
 
行列計算アルゴリズム
行列計算アルゴリズム行列計算アルゴリズム
行列計算アルゴリズム
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
 
暗認本読書会13 advanced
暗認本読書会13 advanced暗認本読書会13 advanced
暗認本読書会13 advanced
 

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis