SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
DEEP LEARNING JP
[DL Papers]
Glow: Generative Flow with Invertible 1⨯1 Convolutions
Makoto Kawano, Keio Univ.
http://deeplearning.jp/
1
書誌情報
タイトル:Glow: Generative Flow with Invertible 1x1 Convolutions
著者:Diederik P. Kingma, Prafulla Dhariwal
OpenAI, San Francisco ->
投稿日:2018/7/9
選定理由:VAE・Adamの提案者であるD.P.Kingmaの論文
Flow-basedの生成モデルは読んだことがなかった
• 一応NICE,realNVPも読んだので紹介します
画像生成することを合成って呼びます
※某ars-pytorchで実装され始めてるのを見てやる気無くした
※間違ってたら指摘よろしくお願いします
2
概要
厳密な潜在空間の推論および尤度評価が可能な
可逆変換を持つ生成モデルを提案
従来のRealNVPに1x1の畳み込みとactnormを導入
高解像度で鮮明な画像生成が可能
3
はじめに
機械学習分野における2つの課題
データ効率性:人間のように少ないデータで学習が可能
汎化:タスクかそのコンテクストの変化に強い
生成モデルはこれらの課題に強い
現実世界モデルを学習可能
• エージェントが実際に行動する前に世界の変化を予見できる
入力の重要な特徴を学習可能
• 人間による教師やラベルがほぼなくても可能
様々な中間アプリケーションに応用可能
音声合成,テキスト分析,半教師あり学習,モデルベース制御?
4
生成モデル
多くの生成モデルは,尤度ベースかGANで提案されている
GAN:大きく,realisticな画像の合成が可能
潜在空間へのエンコーダがない
最適化が難しい
過剰適合なのか汎化なのか判断できない
尤度ベース:3種類に分類可能
自己回帰モデル:PixelCNN・PixelRNNなど
変分オートエンコーダ (VAE)
FFllooww--bbaasseedd生生成成モモデデルル((ここのの論論文文))
5
自己回帰モデル
RNNが一般的に使われる
PixelRNN,Parallel wavenetなど
Pros.
単純であること
今まで生成したピクセルをもとに次のピクセルを合成
Cons.
合成の並列化ができない
データの次元に比例して合成するデータの長さが増える
大きい画像や映像に対応するのが難しい
6
変分オートエンコーダ
Variational Autoencoder, VAE
対数尤度の変分下界を最適化する
Pros:
学習と生成を並列化できる
Cons:
最適化が難しい(Kingma本人曰く)
7
Flow-based生成モデル
厳密な潜在変数の推論と対数尤度評価が可能
VAE:データ点に対応する潜在変数のみを近似的に推論
GAN:エンコーダがないため,推論不可能
効率の良い推論と合成が可能
自己回帰モデル:逆関数化は可能だが,並列化はできない
使いやすい潜在空間
自己回帰モデル:隠れ層が不明な周辺分布であるため,データ操作が困難
GAN:データ点を直接潜在空間で表現できず,分布全てを網羅できない
メモリ使用量を抑えられる
Glowモデル:勾配計算に必要なメモリは層の深さに対して線形ではなく一定
8
変数変換(change of variables)
生成モデルに対して,変数変換を適用する
g:可逆変換な関数(全単射,bijective)
最尤推定にも適用
9
(Normalizing) flow|NICE
関数fの分解:
対数尤度
Non-linear Independent Components Estimation criterion
NICE, realNVP, Glowいずれも尤度最大化によるfの最適化を行う
fが可逆関数であるためには,ヤヤココビビ行行列列式式がが存存在在すするるようにする
10
ヤコビ行列式の計算
hiの次元数が大きいと,ヤコビ行列式の計算が大変
ヤコビ行列=対角行列や三角行列
行列式の計算が対角成分の和になる
多くの正方行列は,LU分解が可能|
• P:置換行列,L:対角成分1の下三角行列,U:対角成分0の上三角行列,s:ベクトル
11
General Coupling Layer
General coupling layer
入力xをチャンネル方向で2つに分ける:x = [x1:d; xd+1:D]=[xI1; xI2]
ニューラルネットワーク
可逆可能写像
この関数のヤコビ行列
12
Coupling Layerの亜種
Additive coupling layer:
Affine coupling layer(realNNVVPP, Glow)
Volume preserving
NNoonnee--VVoolluummee PPrreesseerrvviinngg
13
複数のcoupling layer
単純にcoupling layerを繰り返してもdimensionが変わらない
並び替え(permutation)が必要
NICE, realNVP:チャンネルの順番を逆転させる
Glow: 1x1畳み込み(入出力チャンネルは一緒)
• 入力:
• 重み:
14
Actnorm
realRVP:BatchNormalizationを使っている
ミニバッチ数に反比例して,ノイズバリアンスが増えて性能悪化
入力画像が大きいと必然的にバッチサイズは1になってしまう
Glow: AAccttiivvaattiioonn NNoorrmmaalliizzaattiioonnを提案
基本的にはBatchNormと一緒
初期値が,データ依存初期化で決定される
• 最初のミニバッチがactnorm後に平均ゼロ,分散1になるようにする
初期化後は,パラメータが学習される
15
1flowステップ
Actnorm -> 1x1畳み込み -> affine coupling layer
16
Multi-scaleアーキテクチャ
realNVPで提案された構造
Squeeze:2x2xc -> 1x1x4c
K:Flowの繰返回数
L:階層
L=3
17
定量的評価
GlowとrealNVPの比較
ベンチマークデータセットをGlowに適用して,対数尤度比較
NN:畳み込み3つ,チャンネル512
Adam(lr: 0.001)
18
定量的評価
各Coupling layerにおける各並び替えの効果検証
複数ベンチマークにおけるNLL比較
19
定性的評価
CelebA-HQデータセットを使った顔合成
30000の高解像度(256x256)画像→K=32, L=6
ミニバッチサイズ:1
画像の色を忠実にするため,5-bit画像で学習(わからない)
高品質画像合成のため,換算温度モデル?からサンプリング
温度がTの時, からサンプル
20
顔合成 21
内挿 22
セマンティックな合成 23
温度変化
0, 0.25, 0.6, 0.7, 0.8, 0.9, 1.0
24
まとめ
新しいFlow-based生成モデルGlowを提案
可逆変換なモデルを構築
複数のベンチマークにおいて対数尤度で性能を発揮
尤度ベースモデルにおいて,最も効率的で高解像度な自然画像を合成
※残りの合成画像は,論文を見てください
※某ars-pytorchで実装され始めてるのを見てやる気無くした
25
!!!!!! 26

Weitere ähnliche Inhalte

Was ist angesagt?

変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 

Was ist angesagt? (20)

[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 

[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions