SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Adversarial Training (GAN)
サーベイ
D3 岩澤有祐
概要
• Adversarial Training (GAN)系の最近の成果について
まとめました
– 主にICLR2016,NIPS2016
– 合計16本
• ちなみにGAN論文(2014, Jun)の引用は約200
– 初出2013年のVAEは約300なのでペース的には同じくらい
• NIPS2016で発表に含められてないものもあり
– “Coupled Generative Adversarial Networks”
(面白そう)
– “Disentangling factors of variation in deep representation
using adversarial training”(まだ上がってない?)
まとめと感想
• Adversarial Trainingの肝は分布を近づけること
– 例えば入力の分布q(x)だけでなく潜在変数の分布q(z)を近づけることも
できる
– 近づけたい分布がランダムなノイズから生成した分布である必要もな
い (ex. Censoring representation)
• GANはちょっとずつ使いやすくなってる
&色んな所で利用されている
• 半教師ありでもSOTA
• 研究はなんかVAEと似てるの多い
– DRAW vs. VRAN
– Censoring vs. Variational Fair Auto Encoder
– Info-GANも似たのあったはず
– 動画生成はあんまVAE見たことない
目次
• GANの基本
• GANの問題点とその対策に関する研究
• GANに関する応用研究
Generative Adversarial Nets
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron
Courville, Yoshua Bengio
概要
MinMaxゲームで生成モデル
先行研究と比べてどこがすごい?
結果
生成された画像もきれいかつ訓練を覚えてる
わけでもない(左図)
尤度で当時良かった?DBNや Generative
stochastic networksを上回る (右表)
生成モデルの新しい形,VAEみたいに分布を
仮定しないので画像がきれい(上図参照)
SGDで解ける
イメージは貨幣偽造者vs.警察
NIPS2015
Conditional Generative Adversarial Nets
Mehdi Mirza, Simon Osindero
概要
何らかの情報yで条件付けた画像を表示するた
めの方法を提案
Gが生成する画像をyで条件付ける以外は基本
GANと同じ(左図)
結果
条件付けた画像が生成できる(右図)
たぶん各行がラベルyを固定したもので
各列が潜在変数zを固定したもの
ちゃんと条件付けたものが生成できてる
(zでの条件付けは微妙な気がする)
ちなみに尤度は論文中でGANに負けてる
Arxiv
GANの問題点とその対策に関する研究
GANの問題点とその対策手法の個人的対応
1. 学習が難しい
– GMMN (ICML2015), CGMMN (NIPS2016)
– DCGAN (ICLR2016)
– GRAN (Arxiv)
– f-GAN (NIPS2016)
– Improved Techniques for GAN (NIPS2016)
2. zが解釈できない
– Adversarial Autoencoder (ICLR2016, Workshop)
– Info-GAN (NIPS2016)
3. 評価が難しい
– いろんな研究がいろんなことしてる
Generative Moment Matching Networks (GMMN)
Yujia Li, Kevin Swersky, Richard Zemel
概要
- GANのDをMMD で代替
- MMD (Maximum Mean Discrepancy) は,カー
ネルを使って積率の一致度を測る方法
- カーネルが微分可能なら微分可能
- MMDを使うと目的関数が単純になる
- Con: MMDの正確さはカーネルや
そのパラメタの選び方に依存
- AutoEncoderと組み合わせること(xじゃな
くてzでマッチングする)でGANを上回る
結果
GMM+AEで尤度がGANを上回る(右2表)
GMMだけだと画像が荒い印象(個人的見解)
ICML2015
MMDは計算重いのでNNで使う場合普通は
近似する(と思う)cf. ”VFAE [Louizos, 2016]”
この論文がやってるかは知らない
補足
Conditional Generative Moment-Matching Networks (CGMMN)
Yong Ren, Jialian Li, Yucen Luo, Jun Zhu
※まだちゃんと読んでないのでざっくり
概要
GMMNを条件付けられるようにしたCGMMNを
(Conditional Generative Moment Matching
Networks) を提案
そのために,MMDを拡張したConditional MMD
を提案
結果
クラス分類,画像生成,Bayesian Dark
Knowledge (BDK) で評価
クラス分類タスクで普通のVAEとかより良い
精度(左表),純粋な教師ありには負ける
条件付けてちゃんと生成できてる(右図)
BDKにも使える(論文中表3)
NIPS2016
DCGAN
Alec Radford, Luke Metz, Soumith Chintala
概要
GANが安定しない問題を解決するために種々
の経験則を入れたもの
- プーリングの代わりに畳み込み
- GにはReLUを,DにはLeakyReLU
- BNをGとDどちらにも使う
- 全結合は使わない
結果
LSUNデータセットを使い寝室画像を生成
(きれい!中央図)
意味の演算っぽい事もできる(右図)
Dの特徴は教師あり学習にも使える
ICLR2016
Generating Images with Recurrent Adversarial Networks (GRAN)
Daniel Jiwoong Im, Chris Dongjoo Kim, Hui Jiang, Roland Memisevic
Arxiv
※まだちゃんと読んでないのでざっくり
概要
GANの生成を系列的に行う(1度にすべて書
く代わり複数回分けて書く)
LAP-GANが粗い画像から徐々に細かい部分を
生成するのに対してGRANはRNNが勝手に
生成する点が違う
結果
かなりきれいな画像が生成できる(中央図)
右図は徐々に生成されている様子
f-GAN: Training Generative Neural Samplers
using Variational Divergence Minimization
Sebastian Nowozin, Botond Cseke, Ryota Tomioka
概要
GANの目的関数 (JS Divergence)を一般化した
f-divergenceを利用するf-GANを提案
それぞれのdivergenceについてGANにどれが良
いか検証
結果
GAN:
f-GAN:
尤度を調べると,JSよりKLのほうが高い
その他諸々+理論的考察
“Note that the difference in the learned distribution
Qθ arise only when the generator model is not rich
enough.”
<-この辺はよくわかってないです
KL
R-KL
Hei
JS
NIPS2016
Improved Techniques for Training GANs
Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen
NIPS2016
概要
GANをうまく学習させるための経験則を5つ
提案
1. Feature matching
2. Minibatch discrimination
3. Historical averaging
4. One-side label smoothing
5. Virtual batch normalization
半教師あり学習でState-of-the-art
画像を評価する仕組みも提案
結果(一部)
- MNISTでラベル20枚で誤差1%くらい
- ラベル20枚ということはほぼOne-Shot
- SVHNだとラベル1000枚でエラー率今まで
の約半分(左表)
- 生成事例もキレイ(中央図)
- 左の経験則のどれが重要かをの検証(右
図)
Adversarial Autoencoders
Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly, Ian Goodfellow, Brendan Frey
概要
AutoEncoderが学習するzの分布q(z)が任意の分
布p(z)に近づくように訓練する
例えば,p(z)としてガウス分布を選べばガウス
分布に押し込むようにq(z)を制限することがで
きる
VAEよりもうまく押し込める(中央図)
ICLR2016
Workshop
結果
MNISTを使った例でVAEよりガウス分布に一致
できることを確認(図中央)
尤度もGAN系の中では良い
その他半教師あり学習,クラスタリング,次
元圧縮などで評価実験
InfoGAN: Interpretable Representation Learning
by Information Maximizing Generative Adversarial Nets
Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel
NIPS2016
概要
Disentangleな表現を学習するようにGANを
拡張
Disentangleな表現
=各次元が何らかの属性に対応するようなもの
手法の詳細
- ランダムなノイズの他に,構造を仮定したノ
イズcを入力して画像を生成 (G(z) -> G(z, c) )
構造を仮定:カテゴリを仮定するならCat,連
続値ならUniform
普通にやるとGANはcを無視して生成する可能
性があるので,cとG(z, c)の間の相互情報量を
最大化する制約を付け加える
結果
上図の通り,例えばMNISTなら数値,椅子な
ら回転,顔なら感情に対応する表現を獲得
GANの評価について
いろんな研究がいろんなことしてる
1. 尤度 2. 人間評価
3. Inception 4. 異なるDとの対戦
- カーネル密度推定とかで尤度を測る
- Con: 正確な推定には大量のデータが必要
(特にデータが増えた場合)
- Con: GANに不利(ぼやけた画像の方が尤度
は高くなる)
URL
See, “ImprovedTechniques forTraining GANs”, NIPS2016
- Inceptionモデルにサンプルxを入力して
p(y|x)を得る
- この時,exp(E[KL(p(y|x)||p(y)))と人間評価に
は強い相関があるらしい
- Again, see “ImprovedTechniques forTraining
GANs”
GANに関する応用研究
まずまとめ - 今回含むものを大別すると -
1. 条件付けの工夫によるタスクに適した画像生成
– 文章から画像生成 (ICLR2016)
– 別ドメインの画像から生成 (Arxiv)
2. 動画生成
– “Deep Multi-scale Video Prediction Beyond Mean Square Error”
(ICLR2016)
– VGAN (NIPS2016)
3. 入力XとG(z)以外を近づけるもの
– Fair Representation (ICLR2016)
– Imitation Learning (NIPS2016)
Generative Adversarial Text to Image Synthesis
Scott Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, Honglak Lee
ICLR2016
概要
文章で条件付けた画像を生成
GANとの違いは,
1. Gを文章で条件付け(左図)
2. 生成された画像のR/Fだけでなく,文章と
画像のペアが正しいかどうかも考慮
3. 補完によりデータ追加
結果
見たことない記述でも尤もらしく生成
(右2図)
“Blue bird with black beak” ->
“Red bird with black beak”
など2つの文の間を保管すると妥当そうな結果
Pixel-Level Domain Transfer
Donggeun Yoo, Namil Kim, Sunggyun Park, Anthony S. Paek, In So Kweon
Arxiv
概要
異なるドメインの画像を生成するGANモデル
違いは
1. ランダムノイズからではなくソース画像
からターゲット画像を生成
2. ターゲット画像のR/Fだけでなく,ター
ゲット画像とソース画像のペアの妥当性も
考慮
Deep Multi-scale Video Prediction Beyond Mean Square Error
Michael Mathieu, Camille Couprie, Yann LeCun
概要
動画のフレーム予測にATを利用
Optical Flowとかと比べてかなりきれいに生成
できる(右図)+
http://cs.nyu.edu/~mathieu/iclr2016extra.html
http://cs.nyu.edu/~mathieu/iclr2016.html
モデルの詳細(左図)
動画を生成するネットワークGとG(z)と本物の
動画を区別するDを訓練
G部分が変わっただけであとは普通のGAN
※GAN以外にも工夫しているがここでは飛ば
します
結果
既存手法よりきれいな画像が生成できる
定性評価+類似度+シャープさで比較
ICLR2016
Generating Videos with Scene Dynamics (VGAN)
Carl Vondrick Hamed Pirsiavash Antonio Torralba
概要
動画のフレーム予測にATを利用
前頁と比べるとよりATに特化+モデル構造を
工夫
フレーム予測以外でも評価して良い精度
モデル詳細(左図)
BackgroundとForegroundおよびにそのMask
により生成
時間方向含む3次元の畳み込みで生成
ATのやり方は前頁と同じ
結果
- 動き方などは自然な動画を生成できる
(ex. 波,左2図)
- 画像として不自然,解像度が低い等課題も
- 学習された表現は事前学習としても優秀
(右2表,行動認識結果)
- Gを静止画で条件付けることで静止画を動
かすことも可能(右図)
- 未来は不確定なので一致はしないが自然な
動きをする
- http://web.mit.edu/vondrick/tinyvideo/
NIPS2016
Censoring Representation with Adversary
Harrison Edwards, Amos Storkey
ICLR2016
概要
利用する特徴量が何らかの情報を含んでほし
くない場合がある
例1: Fairness
黒人か白人かで推薦結果を変えたくない
例2: Image Anonymization
画像中に氏名や住所を含みたくない
再構築誤差 Fairness/Privacy
ク ラ ス分類誤差
結果
画像中から顔は再構築しながら氏名は消すよ
うなことができる(右図)
Fairnessについても既存手法を上回る
難しさ
FairnessやAnonymizationとデータの価値がト
レードオフになりうる
Generative Adversarial Imitation Learning
Jonathan Ho, Stefano Ermon
概要
問題設定として,専門家の行動を真似する
エージェントを作成することを考える
(例:プロ棋士の手を打つエージェント)
これを実現する方法としては逆強化学習が有
名だが,どう行動するか(ポリシー)ではな
く行動の良さの評価関数をまず推定するので,
遅い
逆強化学習から出発して,評価関数の学習を
経ずに直接ポリシーを作ろうとしたらGANと
接続した的な話
NIPS2016
※細かいことはよくわかってない
結果
複数のタスク(Open AI Gym)で比較手法を
上回る
学習したポリシーの事例
https://openai.com/assets/research/generative
-models/gail-ant_ga_25_short-
1f31274a548f6fda15396d607f74c323e1de2eb
53ad9b3d9855d5f5c99600d25.gif
まとめと感想
• Adversarial Trainingの肝は分布を近づけること
– 例えば入力の分布q(x)だけでなく潜在変数の分布q(z)を近づけることも
できる
– 近づけたい分布がランダムなノイズから生成した分布である必要もな
い (ex. Censoring representation)
• GANはちょっとずつ使いやすくなってる
&色んな所で利用されている
• 半教師ありでもSOTA
• 研究はなんかVAEと似てるの多い
– DRAW vs. VRAN
– Censoring vs. Variational Fair Auto Encoder
– Info-GANも似たのあったはず
– 動画生成はあんまVAE見たことない

Weitere ähnliche Inhalte

Was ist angesagt?

最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsTakao Yamanaka
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN ImageryDeep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Yosuke Shinya
 
[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoderMasanari Kimura
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf幸太朗 岩澤
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII
 

Was ist angesagt? (20)

最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
 
[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder[Ridge-i 論文よみかい] Wasserstein auto encoder
[Ridge-i 論文よみかい] Wasserstein auto encoder
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
 

Andere mochten auch

[DL輪読会] Semi-Supervised Knowledge Transfer For Deep Learning From Private Tra...
[DL輪読会] Semi-Supervised Knowledge Transfer For Deep Learning From Private Tra...[DL輪読会] Semi-Supervised Knowledge Transfer For Deep Learning From Private Tra...
[DL輪読会] Semi-Supervised Knowledge Transfer For Deep Learning From Private Tra...Yusuke Iwasawa
 
[ICLR2016] 採録論文の個人的まとめ
[ICLR2016] 採録論文の個人的まとめ[ICLR2016] 採録論文の個人的まとめ
[ICLR2016] 採録論文の個人的まとめYusuke Iwasawa
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...Yusuke Iwasawa
 
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習Yusuke Iwasawa
 
Paper Reading, "On Causal and Anticausal Learning", ICML-12
Paper Reading, "On Causal and Anticausal Learning", ICML-12Paper Reading, "On Causal and Anticausal Learning", ICML-12
Paper Reading, "On Causal and Anticausal Learning", ICML-12Yusuke Iwasawa
 
008 20151221 Return of Frustrating Easy Domain Adaptation
008 20151221 Return of Frustrating Easy Domain Adaptation008 20151221 Return of Frustrating Easy Domain Adaptation
008 20151221 Return of Frustrating Easy Domain AdaptationHa Phuong
 
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous ComputingYusuke Iwasawa
 
研究室輪読 Recommending Investors
for Crowdfunding Projects
研究室輪読 Recommending Investors
for Crowdfunding Projects研究室輪読 Recommending Investors
for Crowdfunding Projects
研究室輪読 Recommending Investors
for Crowdfunding ProjectsYusuke Iwasawa
 
Dl hacks輪読: "Unifying distillation and privileged information"
Dl hacks輪読: "Unifying distillation and privileged information"Dl hacks輪読: "Unifying distillation and privileged information"
Dl hacks輪読: "Unifying distillation and privileged information"Yusuke Iwasawa
 
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)Yusuke Iwasawa
 
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換Koichi Hamada
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界Preferred Networks
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
エキスパートGo
エキスパートGoエキスパートGo
エキスパートGoTakuya Ueda
 
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15Yoichi Ochiai
 

Andere mochten auch (16)

[DL輪読会] Semi-Supervised Knowledge Transfer For Deep Learning From Private Tra...
[DL輪読会] Semi-Supervised Knowledge Transfer For Deep Learning From Private Tra...[DL輪読会] Semi-Supervised Knowledge Transfer For Deep Learning From Private Tra...
[DL輪読会] Semi-Supervised Knowledge Transfer For Deep Learning From Private Tra...
 
[ICLR2016] 採録論文の個人的まとめ
[ICLR2016] 採録論文の個人的まとめ[ICLR2016] 採録論文の個人的まとめ
[ICLR2016] 採録論文の個人的まとめ
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
 
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
 
Paper Reading, "On Causal and Anticausal Learning", ICML-12
Paper Reading, "On Causal and Anticausal Learning", ICML-12Paper Reading, "On Causal and Anticausal Learning", ICML-12
Paper Reading, "On Causal and Anticausal Learning", ICML-12
 
008 20151221 Return of Frustrating Easy Domain Adaptation
008 20151221 Return of Frustrating Easy Domain Adaptation008 20151221 Return of Frustrating Easy Domain Adaptation
008 20151221 Return of Frustrating Easy Domain Adaptation
 
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
 
研究室輪読 Recommending Investors
for Crowdfunding Projects
研究室輪読 Recommending Investors
for Crowdfunding Projects研究室輪読 Recommending Investors
for Crowdfunding Projects
研究室輪読 Recommending Investors
for Crowdfunding Projects
 
Dl hacks輪読: "Unifying distillation and privileged information"
Dl hacks輪読: "Unifying distillation and privileged information"Dl hacks輪読: "Unifying distillation and privileged information"
Dl hacks輪読: "Unifying distillation and privileged information"
 
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
 
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
 
ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生ICML2017 参加報告会 山本康生
ICML2017 参加報告会 山本康生
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
エキスパートGo
エキスパートGoエキスパートGo
エキスパートGo
 
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
 

Mehr von Yusuke Iwasawa

JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲
JSAI2018 類似度学習を用いた敵対的訓練による特徴表現の検閲JSAI2018 類似度学習を用いた敵対的訓練による特徴表現の検閲
JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲Yusuke Iwasawa
 
"Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes""Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes"Yusuke Iwasawa
 
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)Yusuke Iwasawa
 
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
[DL輪読会] Hybrid computing using a neural network with dynamic external memory[DL輪読会] Hybrid computing using a neural network with dynamic external memory
[DL輪読会] Hybrid computing using a neural network with dynamic external memoryYusuke Iwasawa
 
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation NetworksYusuke Iwasawa
 
[Paper Reading] Learning Distributed Representations for Structured Output Pr...
[Paper Reading] Learning Distributed Representations for Structured Output Pr...[Paper Reading] Learning Distributed Representations for Structured Output Pr...
[Paper Reading] Learning Distributed Representations for Structured Output Pr...Yusuke Iwasawa
 
[DL Hacks] Self Paced Learning with Diversity
[DL Hacks] Self Paced Learning with Diversity[DL Hacks] Self Paced Learning with Diversity
[DL Hacks] Self Paced Learning with DiversityYusuke Iwasawa
 
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative ModelsDL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative ModelsYusuke Iwasawa
 

Mehr von Yusuke Iwasawa (9)

JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲
JSAI2018 類似度学習を用いた敵対的訓練による特徴表現の検閲JSAI2018 類似度学習を用いた敵対的訓練による特徴表現の検閲
JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲
 
"Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes""Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes"
 
ICLR2018参加報告
ICLR2018参加報告ICLR2018参加報告
ICLR2018参加報告
 
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
 
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
[DL輪読会] Hybrid computing using a neural network with dynamic external memory[DL輪読会] Hybrid computing using a neural network with dynamic external memory
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
 
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
 
[Paper Reading] Learning Distributed Representations for Structured Output Pr...
[Paper Reading] Learning Distributed Representations for Structured Output Pr...[Paper Reading] Learning Distributed Representations for Structured Output Pr...
[Paper Reading] Learning Distributed Representations for Structured Output Pr...
 
[DL Hacks] Self Paced Learning with Diversity
[DL Hacks] Self Paced Learning with Diversity[DL Hacks] Self Paced Learning with Diversity
[DL Hacks] Self Paced Learning with Diversity
 
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative ModelsDL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
 

[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)

  • 2. 概要 • Adversarial Training (GAN)系の最近の成果について まとめました – 主にICLR2016,NIPS2016 – 合計16本 • ちなみにGAN論文(2014, Jun)の引用は約200 – 初出2013年のVAEは約300なのでペース的には同じくらい • NIPS2016で発表に含められてないものもあり – “Coupled Generative Adversarial Networks” (面白そう) – “Disentangling factors of variation in deep representation using adversarial training”(まだ上がってない?)
  • 3. まとめと感想 • Adversarial Trainingの肝は分布を近づけること – 例えば入力の分布q(x)だけでなく潜在変数の分布q(z)を近づけることも できる – 近づけたい分布がランダムなノイズから生成した分布である必要もな い (ex. Censoring representation) • GANはちょっとずつ使いやすくなってる &色んな所で利用されている • 半教師ありでもSOTA • 研究はなんかVAEと似てるの多い – DRAW vs. VRAN – Censoring vs. Variational Fair Auto Encoder – Info-GANも似たのあったはず – 動画生成はあんまVAE見たことない
  • 5. Generative Adversarial Nets Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio 概要 MinMaxゲームで生成モデル 先行研究と比べてどこがすごい? 結果 生成された画像もきれいかつ訓練を覚えてる わけでもない(左図) 尤度で当時良かった?DBNや Generative stochastic networksを上回る (右表) 生成モデルの新しい形,VAEみたいに分布を 仮定しないので画像がきれい(上図参照) SGDで解ける イメージは貨幣偽造者vs.警察 NIPS2015
  • 6. Conditional Generative Adversarial Nets Mehdi Mirza, Simon Osindero 概要 何らかの情報yで条件付けた画像を表示するた めの方法を提案 Gが生成する画像をyで条件付ける以外は基本 GANと同じ(左図) 結果 条件付けた画像が生成できる(右図) たぶん各行がラベルyを固定したもので 各列が潜在変数zを固定したもの ちゃんと条件付けたものが生成できてる (zでの条件付けは微妙な気がする) ちなみに尤度は論文中でGANに負けてる Arxiv
  • 8. GANの問題点とその対策手法の個人的対応 1. 学習が難しい – GMMN (ICML2015), CGMMN (NIPS2016) – DCGAN (ICLR2016) – GRAN (Arxiv) – f-GAN (NIPS2016) – Improved Techniques for GAN (NIPS2016) 2. zが解釈できない – Adversarial Autoencoder (ICLR2016, Workshop) – Info-GAN (NIPS2016) 3. 評価が難しい – いろんな研究がいろんなことしてる
  • 9. Generative Moment Matching Networks (GMMN) Yujia Li, Kevin Swersky, Richard Zemel 概要 - GANのDをMMD で代替 - MMD (Maximum Mean Discrepancy) は,カー ネルを使って積率の一致度を測る方法 - カーネルが微分可能なら微分可能 - MMDを使うと目的関数が単純になる - Con: MMDの正確さはカーネルや そのパラメタの選び方に依存 - AutoEncoderと組み合わせること(xじゃな くてzでマッチングする)でGANを上回る 結果 GMM+AEで尤度がGANを上回る(右2表) GMMだけだと画像が荒い印象(個人的見解) ICML2015 MMDは計算重いのでNNで使う場合普通は 近似する(と思う)cf. ”VFAE [Louizos, 2016]” この論文がやってるかは知らない 補足
  • 10. Conditional Generative Moment-Matching Networks (CGMMN) Yong Ren, Jialian Li, Yucen Luo, Jun Zhu ※まだちゃんと読んでないのでざっくり 概要 GMMNを条件付けられるようにしたCGMMNを (Conditional Generative Moment Matching Networks) を提案 そのために,MMDを拡張したConditional MMD を提案 結果 クラス分類,画像生成,Bayesian Dark Knowledge (BDK) で評価 クラス分類タスクで普通のVAEとかより良い 精度(左表),純粋な教師ありには負ける 条件付けてちゃんと生成できてる(右図) BDKにも使える(論文中表3) NIPS2016
  • 11. DCGAN Alec Radford, Luke Metz, Soumith Chintala 概要 GANが安定しない問題を解決するために種々 の経験則を入れたもの - プーリングの代わりに畳み込み - GにはReLUを,DにはLeakyReLU - BNをGとDどちらにも使う - 全結合は使わない 結果 LSUNデータセットを使い寝室画像を生成 (きれい!中央図) 意味の演算っぽい事もできる(右図) Dの特徴は教師あり学習にも使える ICLR2016
  • 12. Generating Images with Recurrent Adversarial Networks (GRAN) Daniel Jiwoong Im, Chris Dongjoo Kim, Hui Jiang, Roland Memisevic Arxiv ※まだちゃんと読んでないのでざっくり 概要 GANの生成を系列的に行う(1度にすべて書 く代わり複数回分けて書く) LAP-GANが粗い画像から徐々に細かい部分を 生成するのに対してGRANはRNNが勝手に 生成する点が違う 結果 かなりきれいな画像が生成できる(中央図) 右図は徐々に生成されている様子
  • 13. f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization Sebastian Nowozin, Botond Cseke, Ryota Tomioka 概要 GANの目的関数 (JS Divergence)を一般化した f-divergenceを利用するf-GANを提案 それぞれのdivergenceについてGANにどれが良 いか検証 結果 GAN: f-GAN: 尤度を調べると,JSよりKLのほうが高い その他諸々+理論的考察 “Note that the difference in the learned distribution Qθ arise only when the generator model is not rich enough.” <-この辺はよくわかってないです KL R-KL Hei JS NIPS2016
  • 14. Improved Techniques for Training GANs Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen NIPS2016 概要 GANをうまく学習させるための経験則を5つ 提案 1. Feature matching 2. Minibatch discrimination 3. Historical averaging 4. One-side label smoothing 5. Virtual batch normalization 半教師あり学習でState-of-the-art 画像を評価する仕組みも提案 結果(一部) - MNISTでラベル20枚で誤差1%くらい - ラベル20枚ということはほぼOne-Shot - SVHNだとラベル1000枚でエラー率今まで の約半分(左表) - 生成事例もキレイ(中央図) - 左の経験則のどれが重要かをの検証(右 図)
  • 15. Adversarial Autoencoders Alireza Makhzani, Jonathon Shlens, Navdeep Jaitly, Ian Goodfellow, Brendan Frey 概要 AutoEncoderが学習するzの分布q(z)が任意の分 布p(z)に近づくように訓練する 例えば,p(z)としてガウス分布を選べばガウス 分布に押し込むようにq(z)を制限することがで きる VAEよりもうまく押し込める(中央図) ICLR2016 Workshop 結果 MNISTを使った例でVAEよりガウス分布に一致 できることを確認(図中央) 尤度もGAN系の中では良い その他半教師あり学習,クラスタリング,次 元圧縮などで評価実験
  • 16. InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, Pieter Abbeel NIPS2016 概要 Disentangleな表現を学習するようにGANを 拡張 Disentangleな表現 =各次元が何らかの属性に対応するようなもの 手法の詳細 - ランダムなノイズの他に,構造を仮定したノ イズcを入力して画像を生成 (G(z) -> G(z, c) ) 構造を仮定:カテゴリを仮定するならCat,連 続値ならUniform 普通にやるとGANはcを無視して生成する可能 性があるので,cとG(z, c)の間の相互情報量を 最大化する制約を付け加える 結果 上図の通り,例えばMNISTなら数値,椅子な ら回転,顔なら感情に対応する表現を獲得
  • 17. GANの評価について いろんな研究がいろんなことしてる 1. 尤度 2. 人間評価 3. Inception 4. 異なるDとの対戦 - カーネル密度推定とかで尤度を測る - Con: 正確な推定には大量のデータが必要 (特にデータが増えた場合) - Con: GANに不利(ぼやけた画像の方が尤度 は高くなる) URL See, “ImprovedTechniques forTraining GANs”, NIPS2016 - Inceptionモデルにサンプルxを入力して p(y|x)を得る - この時,exp(E[KL(p(y|x)||p(y)))と人間評価に は強い相関があるらしい - Again, see “ImprovedTechniques forTraining GANs”
  • 19. まずまとめ - 今回含むものを大別すると - 1. 条件付けの工夫によるタスクに適した画像生成 – 文章から画像生成 (ICLR2016) – 別ドメインの画像から生成 (Arxiv) 2. 動画生成 – “Deep Multi-scale Video Prediction Beyond Mean Square Error” (ICLR2016) – VGAN (NIPS2016) 3. 入力XとG(z)以外を近づけるもの – Fair Representation (ICLR2016) – Imitation Learning (NIPS2016)
  • 20. Generative Adversarial Text to Image Synthesis Scott Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, Honglak Lee ICLR2016 概要 文章で条件付けた画像を生成 GANとの違いは, 1. Gを文章で条件付け(左図) 2. 生成された画像のR/Fだけでなく,文章と 画像のペアが正しいかどうかも考慮 3. 補完によりデータ追加 結果 見たことない記述でも尤もらしく生成 (右2図) “Blue bird with black beak” -> “Red bird with black beak” など2つの文の間を保管すると妥当そうな結果
  • 21. Pixel-Level Domain Transfer Donggeun Yoo, Namil Kim, Sunggyun Park, Anthony S. Paek, In So Kweon Arxiv 概要 異なるドメインの画像を生成するGANモデル 違いは 1. ランダムノイズからではなくソース画像 からターゲット画像を生成 2. ターゲット画像のR/Fだけでなく,ター ゲット画像とソース画像のペアの妥当性も 考慮
  • 22. Deep Multi-scale Video Prediction Beyond Mean Square Error Michael Mathieu, Camille Couprie, Yann LeCun 概要 動画のフレーム予測にATを利用 Optical Flowとかと比べてかなりきれいに生成 できる(右図)+ http://cs.nyu.edu/~mathieu/iclr2016extra.html http://cs.nyu.edu/~mathieu/iclr2016.html モデルの詳細(左図) 動画を生成するネットワークGとG(z)と本物の 動画を区別するDを訓練 G部分が変わっただけであとは普通のGAN ※GAN以外にも工夫しているがここでは飛ば します 結果 既存手法よりきれいな画像が生成できる 定性評価+類似度+シャープさで比較 ICLR2016
  • 23. Generating Videos with Scene Dynamics (VGAN) Carl Vondrick Hamed Pirsiavash Antonio Torralba 概要 動画のフレーム予測にATを利用 前頁と比べるとよりATに特化+モデル構造を 工夫 フレーム予測以外でも評価して良い精度 モデル詳細(左図) BackgroundとForegroundおよびにそのMask により生成 時間方向含む3次元の畳み込みで生成 ATのやり方は前頁と同じ 結果 - 動き方などは自然な動画を生成できる (ex. 波,左2図) - 画像として不自然,解像度が低い等課題も - 学習された表現は事前学習としても優秀 (右2表,行動認識結果) - Gを静止画で条件付けることで静止画を動 かすことも可能(右図) - 未来は不確定なので一致はしないが自然な 動きをする - http://web.mit.edu/vondrick/tinyvideo/ NIPS2016
  • 24. Censoring Representation with Adversary Harrison Edwards, Amos Storkey ICLR2016 概要 利用する特徴量が何らかの情報を含んでほし くない場合がある 例1: Fairness 黒人か白人かで推薦結果を変えたくない 例2: Image Anonymization 画像中に氏名や住所を含みたくない 再構築誤差 Fairness/Privacy ク ラ ス分類誤差 結果 画像中から顔は再構築しながら氏名は消すよ うなことができる(右図) Fairnessについても既存手法を上回る 難しさ FairnessやAnonymizationとデータの価値がト レードオフになりうる
  • 25. Generative Adversarial Imitation Learning Jonathan Ho, Stefano Ermon 概要 問題設定として,専門家の行動を真似する エージェントを作成することを考える (例:プロ棋士の手を打つエージェント) これを実現する方法としては逆強化学習が有 名だが,どう行動するか(ポリシー)ではな く行動の良さの評価関数をまず推定するので, 遅い 逆強化学習から出発して,評価関数の学習を 経ずに直接ポリシーを作ろうとしたらGANと 接続した的な話 NIPS2016 ※細かいことはよくわかってない 結果 複数のタスク(Open AI Gym)で比較手法を 上回る 学習したポリシーの事例 https://openai.com/assets/research/generative -models/gail-ant_ga_25_short- 1f31274a548f6fda15396d607f74c323e1de2eb 53ad9b3d9855d5f5c99600d25.gif
  • 26. まとめと感想 • Adversarial Trainingの肝は分布を近づけること – 例えば入力の分布q(x)だけでなく潜在変数の分布q(z)を近づけることも できる – 近づけたい分布がランダムなノイズから生成した分布である必要もな い (ex. Censoring representation) • GANはちょっとずつ使いやすくなってる &色んな所で利用されている • 半教師ありでもSOTA • 研究はなんかVAEと似てるの多い – DRAW vs. VRAN – Censoring vs. Variational Fair Auto Encoder – Info-GANも似たのあったはず – 動画生成はあんまVAE見たことない