[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency

Unsupervised Monocular Depth
Estimation
with Left-Right Consistency
arXivTimes勉強会
2017/08/09
山内隆太郎

Motivation
• CNNで単眼深度推定を行いたい
• 教師データを集めるのが大変
• →ステレオ画像から単眼深度推定を学習させられないか？

Idea
• Depth mapを直接推定するのではなく、Disparity map(視差)を
推定する
• Disparity map：左(右)画像のあるピクセルをどのくらい右(左)
に動かせば右(左)画像の対応するピクセルに一致するか？
• 平行な二台のカメラで撮られた画像において、カメラの近くに
ある物体ほど左右で位置のずれが大きい（無限遠ではズレ０）
• 実際の深度=Scale factor / Disparity

Processing flow
• 左画像から、左右のDisparity mapを生成する
• オリジナル画像とDisparity mapをもとに、反対側
の画像を合成する
• オリジナル画像と合成画像の差をlossとして学習

How to make opposite Image.
• 右(左)画像と左(右)dispマップから左(右)画像をつくりたい
• この操作は微分可能でなくてはならない
• →Bilinear Samplerを使う
• Spatial Transformer Networks
[https://arxiv.org/abs/1506.02025]参照

Bilinear Sampler
Right Image
Left disp map
Generated Left Image

Bilinear Sampler (2)
• 左画像のピクセルL[x, y]に対応するのはR[x+disp_L[x, y], y]
• この座標は
R[floor(x+disp_L[x, y]), y], R[ceil(x+disp_L[x, y]), y]
の内分点
• したがって上の二点のピクセル値に内分比をかけて足し合わせ
た点をL[x, y]の予測値とする
内分比は
disp_L[x, y]-floor(disp_L[x, y]) : ceil(disp_L[x, y])- disp_L[x, y]
→この操作は微分可能
• 問題点：隣接するピクセル間の値の差が大きいところばかり学
習する→ Disparity Smoothness Loss（後述）を導入

Loss
• Appearance Matching Loss
合成された画像とオリジナルの差
• Disparity Smoothness Loss
近い点は距離が近いという仮定
• Left-Right Disparity Consistency Loss
左右のDisparity mapはある程度似ているという仮定

Appearance Matching Loss
𝐶 𝑎𝑝
𝑙 =
1
𝑁
𝑖,𝑗
𝛼 1 − 𝑆𝑆𝐼𝑀 𝐼𝑖𝑗
𝑙
, 𝐼𝑖𝑗
𝑙
2
+ 1 − 𝛼 ‖𝐼𝑖𝑗
𝑙
− 𝐼𝑖𝑗
𝑙
‖
• SSIMは画像の質を評価する関数
Image Quality Assessment: From Error Visibility to Structural Similarity
[http://www.cns.nyu.edu/pub/lcv/wang03-preprint.pdf]参照
• 𝑆𝑆𝐼𝑀 𝑥, 𝑦 ≔
2𝜇 𝑥 𝜇 𝑦+𝐶1 2𝜎 𝑥𝑦+𝐶2
(𝜇 𝑥
2+𝜇 𝑦
2+𝐶1)(𝜎 𝑥+𝜎 𝑦+𝐶2)
μやσはk×kのカーネルごとに計算される

Disparity Smoothness Loss
𝐶 𝑑𝑠
𝑙
=
1
𝑁
𝑖,𝑗
𝜕 𝑥 𝑑𝑖𝑗
𝑙
𝑒−‖𝜕 𝑥 𝐼𝑖𝑗
𝑙
‖
+ 𝜕 𝑦 𝑑𝑖𝑗
𝑙
𝑒−‖𝜕 𝑦 𝐼𝑖𝑗
𝑙
‖
• あるピクセルに対応するdisparityが上下左右のピクセルの
disparityとあまり離れないようにする
• ピクセルの画素値の勾配で重み付け

Left-Right Disparity Consistency Loss
𝐶𝑙𝑟
𝑙
=
1
𝑁
𝑖,𝑗
|𝑑𝑖𝑗
𝑙
− 𝑑𝑖𝑗+𝑑 𝑖𝑗
𝑙
𝑟
|
• Bilinear Samplerによって左(右)disparity mapから右
(左)disparity mapを合成し、互いに一致するようにする

Loss
𝐶𝑠 = 𝛼 𝑎𝑝 𝐶 𝑎𝑝
𝑙 + 𝐶 𝑎𝑝
𝑟 + 𝛼 𝑑𝑠 𝐶 𝑑𝑠
𝑙
+ 𝐶 𝑑𝑠
𝑟
+ 𝛼𝑙𝑟 𝐶𝑙𝑟
𝑙
+ 𝐶𝑙𝑟
𝑟

Model
• VGG or ResNet
• 各スケールでdisparity mapを生成する
• Batch Normalizationはとくに効果なし

Result
• KITTI, Cityspacesで実験

実装してみた
• Chainerで実装
• VGG版
• KITTIで学習
• 学習4日くらい
上：オリジナル（左）
中：disparity map
下：合成された右画像

[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency