Weitere ähnliche Inhalte Ähnlich wie [DL輪読会]Unsupervised Learning of 3D Structure from Images (15) Mehr von Deep Learning JP (20) Kürzlich hochgeladen (11) [DL輪読会]Unsupervised Learning of 3D Structure from Images2. 書誌情報
• Title:
• Unsupervised Learning of 3D Structure from Images
• Authors:
• Danilo Jimenez Rezende, S. M. Ali Eslami, Shakir Mohamed,
Peter Battaglia, Max Jaderberg, Nicolas Heess (Google DeepMind)
• NIPS 2016
• https://arxiv.org/abs/1607.00662
2
7. 提案手法
• K次元の潜在変数: 𝐳 𝑡~𝑁 ⋅ |𝟎, 𝟏
• Encoding(タスク依存):𝐞 𝑡 = 𝑓𝑟𝑒𝑎𝑑 𝐜, 𝐬 𝑡−1; 𝜃𝑟
• Hidden state (LSTM): 𝐬 𝑡−1 = 𝑓𝑠𝑡𝑎𝑡𝑒 𝐬 𝑡−1, 𝐳 𝑡, 𝐞 𝑡; 𝜃𝑠
• 3D representation : 𝐡 𝑡 = 𝑓𝑤𝑟𝑖𝑡𝑒 𝐬 𝑡, 𝐡 𝑡−1; 𝜃 𝑤
7
8. 提案手法
• 𝑓𝑤𝑟𝑖𝑡𝑒 𝐬 𝑡, 𝐡 𝑡−1; 𝜃 𝑤 = VST 𝑔1 𝐬 𝑡 , 𝑔2 𝐬 𝑡
• 𝑔1, 𝑔2はMLP
• 2D projection(レンダラ): ො𝐱 = Proj 𝐡 𝑇, 𝐬 𝑇; 𝜃 𝑝
• Observation : 𝐱~𝑝 𝐱 ො𝐱
8
9. 提案手法
• 2D projection(レンダラ): ො𝐱 = Proj 𝐡 𝑇, 𝐬 𝑇; 𝜃 𝑝
• 3D→3D
• ො𝐱 = 𝐡 𝑇
• 3D→2D
• VSTと3D conv.を用いて写像する.
• 3D(mesh)→2D
• OpenGLのレンダラを用いて,ブラックボックスとみなす.
9
10. Volumetric Spatial Transformers
• Spatial transformers:空間的な変換のパラメータも学習
• ST 𝐱, 𝐡 = 𝜅ℎ 𝐡 ⊗𝜅 𝑤 𝐡 ∗ 𝐱
• 3次元に拡張させる
• VST 𝐱, 𝐡 = 𝜅 𝑑 𝐡 ⊗𝜅ℎ 𝐡 ⊗𝜅 𝑤 𝐡 ∗ 𝐱
• 𝜅 𝑑, 𝜅ℎ, 𝜅 𝑤は1次元のカーネル, ⊗は3個のカーネルのテンソル積,
∗は畳み込みを表す.
10
11. データセット
• Necker cubes: 40^3の空間中央に10^3のワイヤフレーム立方体
をランダムな向きで置く
• Primitives: 30^3,基本的な立体(立方体,球,四角錐,円筒,
カプセル,楕円体),位置と向きはランダム
• MNIST3D: 30^3,手書き文字MNISTを押し出して立体にした
もの
• ShapeNet: 3Dmeshのデータセット.30^3の2値データでレン
ダリングする.
11
13. 実験
1. Generating volumes
2. Probabilistic volume completion and denoising
3. Conditional volume generation
4. Performance benchmarking
5. Multi-view training
6. Single-view training
13
14. 1. Generating volumes
• Ground-truthな立体が利用できる場合
• 単純なデータセット (primitive, MNIST3D) の場合,鮮明な立体
が生成された
• 複雑なデータ (ShapeNet)でも,細部まではっきりした結果
14
21. 議論
• 3D構造の表現
• Volumes: 様々な物体を表現しやすいが,高次元だと計算的に高コスト
• Meshes: 低次元で計算がしやすいが,生成可能な物体は限定的
• 他の表現方法を考える
• NURBS
• 学習にvolume-to-mesh conversion algorithmを導入する.
21