Weitere ähnliche Inhalte
Kürzlich hochgeladen (12)
SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition
- 2. 自己紹介
2
綱島 秀樹 (@maguroIsland )
◆所属
早稲田大学 博士1年-森島繁生研究室
産総研 (AIST) Research Assistant
◆研究テーマ
修士課程:深層画像生成モデルの計算量・パラメータ削減
博士課程:深層画像生成モデルを用いた画像編集
◆趣味
筋トレ、アメフト、読書、音楽ゲーム (弐寺)
(音楽ゲームの知り合いが全然いないので、誰かお話しましょう、、、)
- 25. ρ
Spatial Attention
25
𝑥 μ 𝑑𝑒𝑝𝑡ℎ
, σ 𝑑𝑒𝑝𝑡ℎ
μ 𝑤ℎ𝑒𝑟𝑒
, σ 𝑤ℎ𝑒𝑟𝑒
𝑧 𝑝𝑟𝑒𝑠
𝑧 𝑑𝑒𝑝𝑡ℎ
𝑧 𝑤ℎ𝑒𝑟𝑒
※ 𝑧 𝑤ℎ𝑒𝑟𝑒
はさらに2つの潜在変数から構成
されているが、簡略化のためこのように表記
- 26. ρ
Spatial Attention
26
𝑥 μ 𝑑𝑒𝑝𝑡ℎ
, σ 𝑑𝑒𝑝𝑡ℎ
μ 𝑤ℎ𝑒𝑟𝑒
, σ 𝑤ℎ𝑒𝑟𝑒
𝑧 𝑝𝑟𝑒𝑠
𝑧 𝑑𝑒𝑝𝑡ℎ
𝑧 𝑤ℎ𝑒𝑟𝑒
※ 𝑧 𝑤ℎ𝑒𝑟𝑒
はさらに2つの潜在変数から構成
されているが、簡略化のためこのように表記
- 29. Spatial Attention
29
<Notation>
𝑖, 𝑗 :セルの番号
𝑐 :セルのサイズ
෨𝑏 :セルの端から対象物の中心
までの距離
𝑏 :画像の端から対象物の中心
までの距離
𝑏ℎ𝑤:対象物を中心としたb-box
の大きさ
先行研究 (SPAIR)
Spatially Invariant Unsupervised Object Detection
with Convolutional Neural Networks
- 30. Spatial Attention
30
<Notation>
𝑖, 𝑗 :セルの番号
𝑐 :セルのサイズ
෨𝑏 :セルの端から対象物の中心
までの距離
𝑏 :画像の端から対象物の中心
までの距離
𝑏ℎ𝑤:対象物を中心としたb-box
の大きさ
先行研究 (SPAIR)
Spatially Invariant Unsupervised Object Detection
with Convolutional Neural Networks
- 31. Spatial Attention
31
<Notation>
𝑖, 𝑗 :セルの番号
𝑐 :セルのサイズ
෨𝑏 :セルの端から対象物の中心
までの距離
𝑏 :画像の端から対象物の中心
までの距離
𝑏ℎ𝑤:対象物を中心としたb-box
の大きさ
先行研究 (SPAIR)
Spatially Invariant Unsupervised Object Detection
with Convolutional Neural Networks
- 32. Spatial Attention
32
<Notation>
𝑖, 𝑗 :セルの番号
𝑐 :セルのサイズ
෨𝑏 :セルの端から対象物の中心
までの距離
𝑏 :画像の端から対象物の中心
までの距離
𝑏ℎ𝑤:対象物を中心としたb-box
の大きさ
先行研究 (SPAIR)
Spatially Invariant Unsupervised Object Detection
with Convolutional Neural Networks
- 33. Spatial Attention
33
<Notation>
𝑖, 𝑗 :セルの番号
𝑐 :セルのサイズ
෨𝑏 :セルの端から対象物の中心
までの距離
𝑏 :画像の端から対象物の中心
までの距離
𝑏ℎ𝑤:対象物を中心としたb-box
の大きさ
先行研究 (SPAIR)
Spatially Invariant Unsupervised Object Detection
with Convolutional Neural Networks
- 41. Scene Decomposition
41
先行研究 (MONet)
MONet: Unsupervised Scene Decomposition and Representation
1. 画像をscope を使いマスク生成
大きな領域からマスク生成する
2. マスクごとの画像をVAEで
エンコード、デコード
3. 全ての画像をconcatしてELBO※
を計算
※ELBOはEvidence Lower Boundの
略で、変分下界とも呼ばれます
再構成誤差 (MSEやBinary Cross
Entropy)とKL Divergenceで構成