SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
DL輪読会:
Unsupervised Learning of 3D
Structure from Images
東京大学工学系研究科
システム創成学専攻 修士1年
杉原 祥太
書誌情報
• Title:
• Unsupervised Learning of 3D Structure from Images
• Authors:
• Danilo Jimenez Rezende, S. M. Ali Eslami, Shakir Mohamed,
Peter Battaglia, Max Jaderberg, Nicolas Heess (Google DeepMind)
• NIPS 2016
• https://arxiv.org/abs/1607.00662
2
概要
• 3D構造の生成モデルを作成した.
• Ground-truthな3Dデータを学習させた場合,高品質なものが生成
• 2D画像から3D構造を推定
• 微分可能なレンダラを使って学習可能
• 純粋な教師なし学習で3D構造が推定可能なことを示した.
3
背景
• 我々の生活する空間は三次元である.
• しかし,観測は一般的に二次元に投影した(眼,カメラ)画像を扱う.
• 目標:二次元画像から本来の三次元物体に復元したい.
• 難しい!
• 不良設定問題
• 統計的モデルでは手に負えない
• 最適な3D表現が不明
• Ground-truthなデータセットを集めにくい
4
先行研究
• Traditional approaches
• Inverse graphics
• Analysis-by-synthesis
• Heavily engineered visual featuresに頼る手法
• EncoderとDecoderに分離した学習において限界がある.
5
提案手法
• x: 訓練データ
• c: コンテクスト
• (なし/クラス/一箇所以上のカメラからの
画像)
• h: 推測したい3D表現
• z: 潜在変数
6
提案手法
• K次元の潜在変数: 𝐳 𝑡~𝑁 ⋅ |𝟎, 𝟏
• Encoding(タスク依存):𝐞 𝑡 = 𝑓𝑟𝑒𝑎𝑑 𝐜, 𝐬 𝑡−1; 𝜃𝑟
• Hidden state (LSTM): 𝐬 𝑡−1 = 𝑓𝑠𝑡𝑎𝑡𝑒 𝐬 𝑡−1, 𝐳 𝑡, 𝐞 𝑡; 𝜃𝑠
• 3D representation : 𝐡 𝑡 = 𝑓𝑤𝑟𝑖𝑡𝑒 𝐬 𝑡, 𝐡 𝑡−1; 𝜃 𝑤
7
提案手法
• 𝑓𝑤𝑟𝑖𝑡𝑒 𝐬 𝑡, 𝐡 𝑡−1; 𝜃 𝑤 = VST 𝑔1 𝐬 𝑡 , 𝑔2 𝐬 𝑡
• 𝑔1, 𝑔2はMLP
• 2D projection(レンダラ): ො𝐱 = Proj 𝐡 𝑇, 𝐬 𝑇; 𝜃 𝑝
• Observation : 𝐱~𝑝 𝐱 ො𝐱
8
提案手法
• 2D projection(レンダラ): ො𝐱 = Proj 𝐡 𝑇, 𝐬 𝑇; 𝜃 𝑝
• 3D→3D
• ො𝐱 = 𝐡 𝑇
• 3D→2D
• VSTと3D conv.を用いて写像する.
• 3D(mesh)→2D
• OpenGLのレンダラを用いて,ブラックボックスとみなす.
9
Volumetric Spatial Transformers
• Spatial transformers:空間的な変換のパラメータも学習
• ST 𝐱, 𝐡 = 𝜅ℎ 𝐡 ⊗𝜅 𝑤 𝐡 ∗ 𝐱
• 3次元に拡張させる
• VST 𝐱, 𝐡 = 𝜅 𝑑 𝐡 ⊗𝜅ℎ 𝐡 ⊗𝜅 𝑤 𝐡 ∗ 𝐱
• 𝜅 𝑑, 𝜅ℎ, 𝜅 𝑤は1次元のカーネル, ⊗は3個のカーネルのテンソル積,
∗は畳み込みを表す.
10
データセット
• Necker cubes: 40^3の空間中央に10^3のワイヤフレーム立方体
をランダムな向きで置く
• Primitives: 30^3,基本的な立体(立方体,球,四角錐,円筒,
カプセル,楕円体),位置と向きはランダム
• MNIST3D: 30^3,手書き文字MNISTを押し出して立体にした
もの
• ShapeNet: 3Dmeshのデータセット.30^3の2値データでレン
ダリングする.
11
実験
• 生成時LSTMの隠れ層のニューロン300個,潜在変数10個
• Encoderはタスク毎に変えた.
• 入力が
• 画像:ConvolutionとST
• 立体:Volumetric Conv.とVST
• メッシュは次元が圧倒的に小さい→T=1に
12
実験
1. Generating volumes
2. Probabilistic volume completion and denoising
3. Conditional volume generation
4. Performance benchmarking
5. Multi-view training
6. Single-view training
13
1. Generating volumes
• Ground-truthな立体が利用できる場合
• 単純なデータセット (primitive, MNIST3D) の場合,鮮明な立体
が生成された
• 複雑なデータ (ShapeNet)でも,細部まではっきりした結果
14
2. Probabilistic volume completion and
denoising
• マルコフ連鎖モンテカルロ法で立体の欠損部分を推定
15
3. Conditional volume generation
• 𝐜にクラスのone-hot表現を与え,ShapeNetで学習
16
3. Conditional volume generation
• 一方向から見たときの画像をコンテクスト𝐜として与える.
17
4. Performance benchmarking
• Generation step数がパフォーマンスに大きく影響する.
• コンテクスト追加の影響は少ない.
18
5. Multi-view training
• 3個の定点カメラの画像をコンテクストにして学習させ,10個
の別々の方向からの画像を生成.
19
6. Single-view training
• 標準のブラックボックスなレンダラで学習する.
• 2D画像から3Dメッシュとその向きを推測する.
• メッシュは162個のベクトルで構成される.
20
議論
• 3D構造の表現
• Volumes: 様々な物体を表現しやすいが,高次元だと計算的に高コスト
• Meshes: 低次元で計算がしやすいが,生成可能な物体は限定的
• 他の表現方法を考える
• NURBS
• 学習にvolume-to-mesh conversion algorithmを導入する.
21

Weitere ähnliche Inhalte

Ähnlich wie [DL輪読会]Unsupervised Learning of 3D Structure from Images

大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム
Takuya Akiba
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
 
CVPR2011 Festival PDF
CVPR2011 Festival PDFCVPR2011 Festival PDF
CVPR2011 Festival PDF
Masafumi Noda
 

Ähnlich wie [DL輪読会]Unsupervised Learning of 3D Structure from Images (15)

点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
 
SSII2020 [O3-01] Extreme 3D センシング
SSII2020 [O3-01]  Extreme 3D センシングSSII2020 [O3-01]  Extreme 3D センシング
SSII2020 [O3-01] Extreme 3D センシング
 
都市3Dメッシュを使ってみる
都市3Dメッシュを使ってみる都市3Dメッシュを使ってみる
都市3Dメッシュを使ってみる
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~中級グラフィックス入門~シャドウマッピング総まとめ~
中級グラフィックス入門~シャドウマッピング総まとめ~
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
都市工学調査資料
都市工学調査資料都市工学調査資料
都市工学調査資料
 
CVPR2011 Festival PDF
CVPR2011 Festival PDFCVPR2011 Festival PDF
CVPR2011 Festival PDF
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
KDD2014 勉強会
KDD2014 勉強会KDD2014 勉強会
KDD2014 勉強会
 

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 

[DL輪読会]Unsupervised Learning of 3D Structure from Images