SlideShare ist ein Scribd-Unternehmen logo
1 von 22
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
GENESIS: Generative Scene Inference and Sampling with
Object-Centric Latent Representations
Kento Doi, Matsuo lab
書誌情報
• 著者
– Oxford Universityの研究グループ
• ICLR2020 under review
– スコアが6-6-8なので多分通る??
• 選定理由
– シーン認識において、その構造を理解することは大切
– 特に、潜在表現をシーンを構成する物体ごとに分離したいというモチベーショ
ンに共感した
※画像は特に記述のない場合は本論文からの引用
2
論文概要
• モチベーション
– シーンの構造を明示的に捉えることのできる潜在変数モデルを作りたい
– このとき、物体同士の相互関係も考慮したい
• 本論文の貢献
– 物体同士の相互関係を捉えることで, シーンの分解と生成が可能な物体指向の
生成モデルを初めて提案
• シーンの潜在表現を構成要素ごとに分解
• 自己回帰モデルで潜在表現を計算 (物体同士の相互関係をモデリング)
• 各潜在表現をdecodeして得られるspatial GMMで画像を表現
– 3D環境をレンダリングした画像データセットで実験
• シーンを構成要素ごとに分解しつつ, 一貫性のあるシーンを生成できた
• 学習した潜在表現を用いて積み木が不安定化どうか分類することができた
– PyTorch実装を公開 (ありがたい)
3
先行研究
• 確率的生成モデル
– エビデンス 𝑝 𝜃 𝑥 を最適化
– 例) VAE … 潜在変数zを仮定しエビデンスの下限 (ELBO) を最大化して学習
• シーンの構成を考慮した確率的生成モデル
• 潜在変数を構成要素ごとに分解することで, 𝑝 𝜃(𝑥)にシーンの構成的な性質を捉
えさせたい
• MONET [Curgess+ 2019], IODINE [Greff+ 2019]が同じモチベーション
• これらの手法には以下の課題が
× 潜在表現が独立しているため, 物体の相互関係をモデリングできない
× CNNによる演算を繰り返すので複雑なシーンにスケールしない
GENESISはこれらの問題を解決
物体間の相互関係を自己回帰モデルにより考慮
潜在空間は低次元 (CNNの重い計算を繰り返さないので計算効率が良い)
4
先行研究: MONet
• マスクの生成→VAEでマスク領
域を再構成 という処理を再帰的
に繰り返し行う
• マスクの生成の際にCNNの計算
をマスク数分だけ行うため計算
効率が悪い (GENESIS比)
• GENESISとモデル自体はそこま
で変わらない
5
C. Burgess et al. “MONet: Unsupervised Scene Decomposition and Representation”, 2019.
先行研究: IODINE
• 複数物体があるシーンについて, 物体の領域と
その見え方をモデリングする
– 領域ごとに潜在変数を分離する考え方はGENESISと
同じ
• iterative refinementという手法を用いて潜在
変数を段階的にアップデート
– 計算コスト高
• 物体ごとの相互関係をモデリングできない
6
K. Greff et al. “Multi-Object Representation Learning
with Iterative Variational Inference”, ICML, 2019.
提案手法: 生成モデル
• Spatial Gaussian mixture model (GMM)
– 画像生成を画像と同じ次元のGMMで定式化
– 画像 :
– 構成要素:
– 混合比 :
– 混合比は対応する構成要素の存在を表す”マスク”のような扱い
– 混合比の各ピクセル位置での和は1
7
提案手法: 生成モデル
• 混合比𝜋 𝑘は対応する潜在変数𝑧 𝑘
𝑚
により定まる
– 添字のmはマスクの意味
• K個のマスクの潜在変数𝑧1:𝐾
𝑚
は, 物体同士の相互関係を考慮するために
自己回帰モデルで計算する
– 𝑢 𝑘はRNNの隠れ状態
– 自己回帰モデルの出力は前の時刻の出力に依存するので, 潜在変数の依存関係
をモデルかできる
8
提案手法: 生成モデル
• シーンの構成要素𝑥 𝑘はその位置𝑧 𝑘
𝑚
が与えられたもとで条件付き独立
• 各構成要素𝑥 𝑘に対応する潜在表現𝑧 𝑘
𝑐
は以下のように与えられる
• 画像の尤度は𝑧1:𝐾
𝑚
, 𝑧1:𝐾
𝑐
から次のように計算される
– ただし, 混合比 (マスク) 𝜋 𝑘は以下のようにstick-breaking process [Burgess+ 2019] で𝑧 𝑘
𝑚
から
デコードされる
9
提案手法: 生成モデル
• GENESISの生成モデルは結局以下の式で書ける
– 確率分布は全てガウシアン
– マスクと各構成要素の潜在表現を分けているところがポイント
– 実験では潜在表現を分けない確率モデル (GENESIS-S) と比較
10
提案手法: Approximate posterior
• ここまではpriorから画像を生成する話
• 画像が与えられた時のposteriorはamortise inferenceで推論する
– Amortized Inference…潜在変数を1つ1つ最適化するのではなく関数で推論するhouhou
11
提案手法: Learning
• VAEなどど同様, ELBOの最大化で学習
• ここで, 推定した潜在変数𝑞 𝜃 = 𝔼 𝑝 𝑑𝑎𝑡𝑎(𝑥)[𝑞∅ 𝑧 𝑥 ]がpriorのガウス分布から乖離す
ることで, priorから潜在変数をサンプルして生成した画像の質が大きく低下する
ことがある
 代わりにGeneralised ELBO with Constrained Optimisation (GECO)を最適化
• 次のように問題を緩和 (KL項がちゃんと小さくなるように学習)
12
提案手法: 全体図
13
concat
提案手法: 既存手法と比較
• GENESISのポイント
– 自己回帰モデル (実験ではLSTM) などで潜在変数を計算
– GMMの混合比 (物体領域のマスク) と各構成要素の潜在変数を分ける
14
実験: Dataset
• coloured Multi-dSprites dataset
• GQN “rooms-ring-camera” datast
• ShapeStacks dataset
– 積み木のデータセット. 安定・不安定のラベルが付いている (後で使う)
15
https://github.com/deepmind/ dsprites-dataset https://shapestacks.robots.ox.ac.uk/https://github.com/musyoku/gqn-dataset-renderer
実験: Baseline
• GENESIS-S
• MONET
• VAE (BD-VAE, DC-VAE)
– 普通のVAE, decoder部分のアーキテクチャの違い
16
実験: シーン生成
• GQN datasetで学習したモデルを用い
てpriorからシーンを生成
• GENESISはシーンの構造を捉えた画
像生成ができている
• priorからの生成なのでGECOで学習し
ているGENESISが有利なのでは? 
– GECOで学習しているので, KL項の制約が
大きく, priorからの生成がうまくいきや
すいはず
– MONETはELBOで学習…
17
実験: シーン再構成
18
• 定性的な傾向は同じ
– 背景, 物体がそれぞれ分解されている
– 定量評価ではGENESISが勝っていた
• segmentation covering (SC) [Arbelaez+ 2010]:
• Shape Stack (積み木) のデータセットで GENESIS (SC: 0.64 ± 0.08, mSC: 0.60 ± 0.09)
に対してMONet (SC: 0.52 ± 0.09, mSC: 0.49 ± 0.09)
• mSCはSCを物体ごとの領域の大きさで正規化したスコア
実験: シーン表現の有用性
• シーン表現が他のタスクに使えるか検証
• 3つの分類タスクで評価
– 積み木の安定性 (stable or unstable)
– 積み木の高さ (ブロックの数)
– カメラ位置の推定 (16通り)
• ベースラインの手法
– GENESIS-S
– MONET
– VAE (+BD-VAE and DC-VAE)
• ベースラインにそこまで勝ってない
– Heightのタスクは実質ブロックの数を数えるタスクなので, 提案手法のようにシーンを構成要
素に分解する手法は有効そう 19
実験: 生成画像の質
• priorから生成した画像の質を評価
• FIDスコアにより評価
– 正解データセットとの”分布の差”を調べる評価指標
– 前述のように, MONetは生成のタスクが得意でないのでunfairな比較では??
– “It is not surprising that the FIDs for MONet are relatively large given that it
was not designed for generating scenes.”
– VAEに勝っているのでシーン表現を分解する手法は有効であることがわかる
20
まとめ
• シーンを構成要素ごとに分解するGENESISというモデルを提案
– 出力する画像をspatial GMMでモデリング
– GMMの混合比を担当する表現と各構成要素の見た目を表現する表現を分離
– 物体同士の相互関係を表現するため自己回帰モデルで潜在表現を計算
• 実験によりシーンが構成要素ごとに分解されることを確認
– 全体的に, 実験結果が提案手法の良さをそこまで示す結果ではないのが残念
• 感想
– シーンを教師なしで構成要素に分解するという動機は正しそう
– 同じ色の領域をまとめているだけでは?という疑問はある
– ただ, 構成要素の概念を教示なしで獲得したという事実は大きい
• シーンの構成要素をどのように・どの程度分解するかは人間にも難しいので
21
参考文献
• M. Engelcke et al. “GENESIS: Generative Scene Inference and Sampling with Object-Centric
Latent Representations”, 2019.
• C. Burgess et al. “MONet: Unsupervised Scene Decomposition and Representation”, 2019.
• K. Greff et al. “Multi-Object Representation Learning with Iterative Variational Inference”,
ICML, 2019.
• P. Arbelaez et al. “Contour Detection and Hierarchical Image Segmentation”, IEEE
Transactions on Pattern Analysis and Machine Intelligence, 2010.
22

Weitere ähnliche Inhalte

Was ist angesagt?

【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World ModelsDeep Learning JP
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況Deep Learning JP
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−Deep Learning JP
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...Deep Learning JP
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language ModelsDeep Learning JP
 

Was ist angesagt? (20)

【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
 

Ähnlich wie [DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations

GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...Kento Doi
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
Introduction of featuretweakR package
Introduction of featuretweakR packageIntroduction of featuretweakR package
Introduction of featuretweakR packageSatoshi Kato
 
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステムn-yuki
 
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data ObjectsMitsuo Yamamoto
 
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image SegmentationToru Tamaki
 
Generative adversarial nets
Generative adversarial netsGenerative adversarial nets
Generative adversarial netsKeisuke Hosaka
 
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3Toshinori Hanya
 
[DL輪読会]Freehand-Sketch to Image Synthesis 2018
[DL輪読会]Freehand-Sketch to Image Synthesis 2018[DL輪読会]Freehand-Sketch to Image Synthesis 2018
[DL輪読会]Freehand-Sketch to Image Synthesis 2018Deep Learning JP
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
Cedec2012 ai-contest-design-patterns-principles
Cedec2012 ai-contest-design-patterns-principlesCedec2012 ai-contest-design-patterns-principles
Cedec2012 ai-contest-design-patterns-principlesHironori Washizaki
 
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜DeNA
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the FutureDeep Learning JP
 
【ICLR2023】論文紹介: Image as Set of Points
【ICLR2023】論文紹介: Image as Set of Points【ICLR2023】論文紹介: Image as Set of Points
【ICLR2023】論文紹介: Image as Set of PointsShoki Miyagawa
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mappingAkira Taniguchi
 
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...harmonylab
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Modelscvpaper. challenge
 

Ähnlich wie [DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations (20)

GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
Introduction of featuretweakR package
Introduction of featuretweakR packageIntroduction of featuretweakR package
Introduction of featuretweakR package
 
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム
1997 情報処理学会論文誌-自然言語要求仕様からオブジェクト指向設計図を自動生成するシステム
 
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data Objects
 
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
 
Generative adversarial nets
Generative adversarial netsGenerative adversarial nets
Generative adversarial nets
 
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
 
[DL輪読会]Freehand-Sketch to Image Synthesis 2018
[DL輪読会]Freehand-Sketch to Image Synthesis 2018[DL輪読会]Freehand-Sketch to Image Synthesis 2018
[DL輪読会]Freehand-Sketch to Image Synthesis 2018
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
Cedec2012 ai-contest-design-patterns-principles
Cedec2012 ai-contest-design-patterns-principlesCedec2012 ai-contest-design-patterns-principles
Cedec2012 ai-contest-design-patterns-principles
 
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
【ICLR2023】論文紹介: Image as Set of Points
【ICLR2023】論文紹介: Image as Set of Points【ICLR2023】論文紹介: Image as Set of Points
【ICLR2023】論文紹介: Image as Set of Points
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
 
Scrum alliance regional gathering tokyo 2013 pub
Scrum alliance regional gathering tokyo 2013 pubScrum alliance regional gathering tokyo 2013 pub
Scrum alliance regional gathering tokyo 2013 pub
 
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 

Mehr von Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Kürzlich hochgeladen (9)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations Kento Doi, Matsuo lab
  • 2. 書誌情報 • 著者 – Oxford Universityの研究グループ • ICLR2020 under review – スコアが6-6-8なので多分通る?? • 選定理由 – シーン認識において、その構造を理解することは大切 – 特に、潜在表現をシーンを構成する物体ごとに分離したいというモチベーショ ンに共感した ※画像は特に記述のない場合は本論文からの引用 2
  • 3. 論文概要 • モチベーション – シーンの構造を明示的に捉えることのできる潜在変数モデルを作りたい – このとき、物体同士の相互関係も考慮したい • 本論文の貢献 – 物体同士の相互関係を捉えることで, シーンの分解と生成が可能な物体指向の 生成モデルを初めて提案 • シーンの潜在表現を構成要素ごとに分解 • 自己回帰モデルで潜在表現を計算 (物体同士の相互関係をモデリング) • 各潜在表現をdecodeして得られるspatial GMMで画像を表現 – 3D環境をレンダリングした画像データセットで実験 • シーンを構成要素ごとに分解しつつ, 一貫性のあるシーンを生成できた • 学習した潜在表現を用いて積み木が不安定化どうか分類することができた – PyTorch実装を公開 (ありがたい) 3
  • 4. 先行研究 • 確率的生成モデル – エビデンス 𝑝 𝜃 𝑥 を最適化 – 例) VAE … 潜在変数zを仮定しエビデンスの下限 (ELBO) を最大化して学習 • シーンの構成を考慮した確率的生成モデル • 潜在変数を構成要素ごとに分解することで, 𝑝 𝜃(𝑥)にシーンの構成的な性質を捉 えさせたい • MONET [Curgess+ 2019], IODINE [Greff+ 2019]が同じモチベーション • これらの手法には以下の課題が × 潜在表現が独立しているため, 物体の相互関係をモデリングできない × CNNによる演算を繰り返すので複雑なシーンにスケールしない GENESISはこれらの問題を解決 物体間の相互関係を自己回帰モデルにより考慮 潜在空間は低次元 (CNNの重い計算を繰り返さないので計算効率が良い) 4
  • 5. 先行研究: MONet • マスクの生成→VAEでマスク領 域を再構成 という処理を再帰的 に繰り返し行う • マスクの生成の際にCNNの計算 をマスク数分だけ行うため計算 効率が悪い (GENESIS比) • GENESISとモデル自体はそこま で変わらない 5 C. Burgess et al. “MONet: Unsupervised Scene Decomposition and Representation”, 2019.
  • 6. 先行研究: IODINE • 複数物体があるシーンについて, 物体の領域と その見え方をモデリングする – 領域ごとに潜在変数を分離する考え方はGENESISと 同じ • iterative refinementという手法を用いて潜在 変数を段階的にアップデート – 計算コスト高 • 物体ごとの相互関係をモデリングできない 6 K. Greff et al. “Multi-Object Representation Learning with Iterative Variational Inference”, ICML, 2019.
  • 7. 提案手法: 生成モデル • Spatial Gaussian mixture model (GMM) – 画像生成を画像と同じ次元のGMMで定式化 – 画像 : – 構成要素: – 混合比 : – 混合比は対応する構成要素の存在を表す”マスク”のような扱い – 混合比の各ピクセル位置での和は1 7
  • 8. 提案手法: 生成モデル • 混合比𝜋 𝑘は対応する潜在変数𝑧 𝑘 𝑚 により定まる – 添字のmはマスクの意味 • K個のマスクの潜在変数𝑧1:𝐾 𝑚 は, 物体同士の相互関係を考慮するために 自己回帰モデルで計算する – 𝑢 𝑘はRNNの隠れ状態 – 自己回帰モデルの出力は前の時刻の出力に依存するので, 潜在変数の依存関係 をモデルかできる 8
  • 9. 提案手法: 生成モデル • シーンの構成要素𝑥 𝑘はその位置𝑧 𝑘 𝑚 が与えられたもとで条件付き独立 • 各構成要素𝑥 𝑘に対応する潜在表現𝑧 𝑘 𝑐 は以下のように与えられる • 画像の尤度は𝑧1:𝐾 𝑚 , 𝑧1:𝐾 𝑐 から次のように計算される – ただし, 混合比 (マスク) 𝜋 𝑘は以下のようにstick-breaking process [Burgess+ 2019] で𝑧 𝑘 𝑚 から デコードされる 9
  • 10. 提案手法: 生成モデル • GENESISの生成モデルは結局以下の式で書ける – 確率分布は全てガウシアン – マスクと各構成要素の潜在表現を分けているところがポイント – 実験では潜在表現を分けない確率モデル (GENESIS-S) と比較 10
  • 11. 提案手法: Approximate posterior • ここまではpriorから画像を生成する話 • 画像が与えられた時のposteriorはamortise inferenceで推論する – Amortized Inference…潜在変数を1つ1つ最適化するのではなく関数で推論するhouhou 11
  • 12. 提案手法: Learning • VAEなどど同様, ELBOの最大化で学習 • ここで, 推定した潜在変数𝑞 𝜃 = 𝔼 𝑝 𝑑𝑎𝑡𝑎(𝑥)[𝑞∅ 𝑧 𝑥 ]がpriorのガウス分布から乖離す ることで, priorから潜在変数をサンプルして生成した画像の質が大きく低下する ことがある  代わりにGeneralised ELBO with Constrained Optimisation (GECO)を最適化 • 次のように問題を緩和 (KL項がちゃんと小さくなるように学習) 12
  • 14. 提案手法: 既存手法と比較 • GENESISのポイント – 自己回帰モデル (実験ではLSTM) などで潜在変数を計算 – GMMの混合比 (物体領域のマスク) と各構成要素の潜在変数を分ける 14
  • 15. 実験: Dataset • coloured Multi-dSprites dataset • GQN “rooms-ring-camera” datast • ShapeStacks dataset – 積み木のデータセット. 安定・不安定のラベルが付いている (後で使う) 15 https://github.com/deepmind/ dsprites-dataset https://shapestacks.robots.ox.ac.uk/https://github.com/musyoku/gqn-dataset-renderer
  • 16. 実験: Baseline • GENESIS-S • MONET • VAE (BD-VAE, DC-VAE) – 普通のVAE, decoder部分のアーキテクチャの違い 16
  • 17. 実験: シーン生成 • GQN datasetで学習したモデルを用い てpriorからシーンを生成 • GENESISはシーンの構造を捉えた画 像生成ができている • priorからの生成なのでGECOで学習し ているGENESISが有利なのでは?  – GECOで学習しているので, KL項の制約が 大きく, priorからの生成がうまくいきや すいはず – MONETはELBOで学習… 17
  • 18. 実験: シーン再構成 18 • 定性的な傾向は同じ – 背景, 物体がそれぞれ分解されている – 定量評価ではGENESISが勝っていた • segmentation covering (SC) [Arbelaez+ 2010]: • Shape Stack (積み木) のデータセットで GENESIS (SC: 0.64 ± 0.08, mSC: 0.60 ± 0.09) に対してMONet (SC: 0.52 ± 0.09, mSC: 0.49 ± 0.09) • mSCはSCを物体ごとの領域の大きさで正規化したスコア
  • 19. 実験: シーン表現の有用性 • シーン表現が他のタスクに使えるか検証 • 3つの分類タスクで評価 – 積み木の安定性 (stable or unstable) – 積み木の高さ (ブロックの数) – カメラ位置の推定 (16通り) • ベースラインの手法 – GENESIS-S – MONET – VAE (+BD-VAE and DC-VAE) • ベースラインにそこまで勝ってない – Heightのタスクは実質ブロックの数を数えるタスクなので, 提案手法のようにシーンを構成要 素に分解する手法は有効そう 19
  • 20. 実験: 生成画像の質 • priorから生成した画像の質を評価 • FIDスコアにより評価 – 正解データセットとの”分布の差”を調べる評価指標 – 前述のように, MONetは生成のタスクが得意でないのでunfairな比較では?? – “It is not surprising that the FIDs for MONet are relatively large given that it was not designed for generating scenes.” – VAEに勝っているのでシーン表現を分解する手法は有効であることがわかる 20
  • 21. まとめ • シーンを構成要素ごとに分解するGENESISというモデルを提案 – 出力する画像をspatial GMMでモデリング – GMMの混合比を担当する表現と各構成要素の見た目を表現する表現を分離 – 物体同士の相互関係を表現するため自己回帰モデルで潜在表現を計算 • 実験によりシーンが構成要素ごとに分解されることを確認 – 全体的に, 実験結果が提案手法の良さをそこまで示す結果ではないのが残念 • 感想 – シーンを教師なしで構成要素に分解するという動機は正しそう – 同じ色の領域をまとめているだけでは?という疑問はある – ただ, 構成要素の概念を教示なしで獲得したという事実は大きい • シーンの構成要素をどのように・どの程度分解するかは人間にも難しいので 21
  • 22. 参考文献 • M. Engelcke et al. “GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent Representations”, 2019. • C. Burgess et al. “MONet: Unsupervised Scene Decomposition and Representation”, 2019. • K. Greff et al. “Multi-Object Representation Learning with Iterative Variational Inference”, ICML, 2019. • P. Arbelaez et al. “Contour Detection and Hierarchical Image Segmentation”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010. 22