SlideShare ist ein Scribd-Unternehmen logo
1 von 18
Downloaden Sie, um offline zu lesen
Unsupervised Monocular Depth
Estimation
with Left-Right Consistency
arXivTimes勉強会
2017/08/09
山内隆太郎
Motivation
• CNNで単眼深度推定を行いたい
• 教師データを集めるのが大変
• →ステレオ画像から単眼深度推定を学習させられないか?
Idea
• Depth mapを直接推定するのではなく、Disparity map(視差)を
推定する
• Disparity map:左(右)画像のあるピクセルをどのくらい右(左)
に動かせば右(左)画像の対応するピクセルに一致するか?
• 平行な二台のカメラで撮られた画像において、カメラの近くに
ある物体ほど左右で位置のずれが大きい(無限遠ではズレ0)
• 実際の深度=Scale factor / Disparity
Disparity
Processing flow
• 左画像から、左右のDisparity mapを生成する
• オリジナル画像とDisparity mapをもとに、反対側
の画像を合成する
• オリジナル画像と合成画像の差をlossとして学習
How to make opposite Image.
• 右(左)画像と左(右)dispマップから左(右)画像をつくりたい
• この操作は微分可能でなくてはならない
• →Bilinear Samplerを使う
• Spatial Transformer Networks
[https://arxiv.org/abs/1506.02025]参照
Bilinear Sampler
Right Image
Left disp map
Generated Left Image
Bilinear Sampler (2)
• 左画像のピクセルL[x, y]に対応するのはR[x+disp_L[x, y], y]
• この座標は
R[floor(x+disp_L[x, y]), y], R[ceil(x+disp_L[x, y]), y]
の内分点
• したがって上の二点のピクセル値に内分比をかけて足し合わせ
た点をL[x, y]の予測値とする
内分比は
disp_L[x, y]-floor(disp_L[x, y]) : ceil(disp_L[x, y])- disp_L[x, y]
→この操作は微分可能
• 問題点:隣接するピクセル間の値の差が大きいところばかり学
習する→ Disparity Smoothness Loss(後述)を導入
Loss
• Appearance Matching Loss
合成された画像とオリジナルの差
• Disparity Smoothness Loss
近い点は距離が近いという仮定
• Left-Right Disparity Consistency Loss
左右のDisparity mapはある程度似ているという仮定
Appearance Matching Loss
𝐶 𝑎𝑝
𝑙 =
1
𝑁
𝑖,𝑗
𝛼 1 − 𝑆𝑆𝐼𝑀 𝐼𝑖𝑗
𝑙
, 𝐼𝑖𝑗
𝑙
2
+ 1 − 𝛼 ‖𝐼𝑖𝑗
𝑙
− 𝐼𝑖𝑗
𝑙
‖
• SSIMは画像の質を評価する関数
Image Quality Assessment: From Error Visibility to Structural Similarity
[http://www.cns.nyu.edu/pub/lcv/wang03-preprint.pdf]参照
• 𝑆𝑆𝐼𝑀 𝑥, 𝑦 ≔
2𝜇 𝑥 𝜇 𝑦+𝐶1 2𝜎 𝑥𝑦+𝐶2
(𝜇 𝑥
2+𝜇 𝑦
2+𝐶1)(𝜎 𝑥+𝜎 𝑦+𝐶2)
μやσはk×kのカーネルごとに計算される
Disparity Smoothness Loss
𝐶 𝑑𝑠
𝑙
=
1
𝑁
𝑖,𝑗
𝜕 𝑥 𝑑𝑖𝑗
𝑙
𝑒−‖𝜕 𝑥 𝐼𝑖𝑗
𝑙
‖
+ 𝜕 𝑦 𝑑𝑖𝑗
𝑙
𝑒−‖𝜕 𝑦 𝐼𝑖𝑗
𝑙
‖
• あるピクセルに対応するdisparityが上下左右のピクセルの
disparityとあまり離れないようにする
• ピクセルの画素値の勾配で重み付け
Left-Right Disparity Consistency Loss
𝐶𝑙𝑟
𝑙
=
1
𝑁
𝑖,𝑗
|𝑑𝑖𝑗
𝑙
− 𝑑𝑖𝑗+𝑑 𝑖𝑗
𝑙
𝑟
|
• Bilinear Samplerによって左(右)disparity mapから右
(左)disparity mapを合成し、互いに一致するようにする
Loss
𝐶𝑠 = 𝛼 𝑎𝑝 𝐶 𝑎𝑝
𝑙 + 𝐶 𝑎𝑝
𝑟 + 𝛼 𝑑𝑠 𝐶 𝑑𝑠
𝑙
+ 𝐶 𝑑𝑠
𝑟
+ 𝛼𝑙𝑟 𝐶𝑙𝑟
𝑙
+ 𝐶𝑙𝑟
𝑟
Model
• VGG or ResNet
• 各スケールでdisparity mapを生成する
• Batch Normalizationはとくに効果なし
Model (2)
Result
• KITTI, Cityspacesで実験
Result (2)
実装してみた
• Chainerで実装
• VGG版
• KITTIで学習
• 学習4日くらい
上:オリジナル(左)
中:disparity map
下:合成された右画像

Más contenido relacionado

Was ist angesagt?

SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNNTakashi Abe
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone ScanDeep Learning JP
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII
 
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類Tsubasa Hirakawa
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Ohnishi Katsunori
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
Cvpr 2021 manydepth
Cvpr 2021 manydepthCvpr 2021 manydepth
Cvpr 2021 manydepthKenta Tanaka
 
CNN-SLAMざっくり
CNN-SLAMざっくりCNN-SLAMざっくり
CNN-SLAMざっくりEndoYuuki
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Masaya Kaneko
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 

Was ist angesagt? (20)

Depth Estimation論文紹介
Depth Estimation論文紹介Depth Estimation論文紹介
Depth Estimation論文紹介
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
 
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
Cvpr 2021 manydepth
Cvpr 2021 manydepthCvpr 2021 manydepth
Cvpr 2021 manydepth
 
CNN-SLAMざっくり
CNN-SLAMざっくりCNN-SLAMざっくり
CNN-SLAMざっくり
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 

Último

AWS Lambdaと AWS API Gatewayを使ったREST API作り
AWS Lambdaと AWS API Gatewayを使ったREST API作りAWS Lambdaと AWS API Gatewayを使ったREST API作り
AWS Lambdaと AWS API Gatewayを使ったREST API作りiPride Co., Ltd.
 
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdfIGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdfIGDA Japan SIG-Audio
 
00001_test_automation_portfolio_20240313
00001_test_automation_portfolio_2024031300001_test_automation_portfolio_20240313
00001_test_automation_portfolio_20240313ssuserf8ea02
 
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版Takayuki Nakayama
 
チームで開発するための環境を整える
チームで開発するための環境を整えるチームで開発するための環境を整える
チームで開発するための環境を整えるonozaty
 
バイオリンの運弓動作計測による初心者と経験者の差異分析
バイオリンの運弓動作計測による初心者と経験者の差異分析バイオリンの運弓動作計測による初心者と経験者の差異分析
バイオリンの運弓動作計測による初心者と経験者の差異分析sugiuralab
 
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜Naomi Yamasaki
 
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」IGDA Japan SIG-Audio
 
これからはじめるAnsible - Ansible Night Tokyo 2024
これからはじめるAnsible - Ansible Night Tokyo 2024これからはじめるAnsible - Ansible Night Tokyo 2024
これからはじめるAnsible - Ansible Night Tokyo 2024Hideki Saito
 
The 86th National Convention of IPSJ (Student Encouragement Award))
The 86th National Convention of IPSJ (Student Encouragement Award))The 86th National Convention of IPSJ (Student Encouragement Award))
The 86th National Convention of IPSJ (Student Encouragement Award))yoshidakids7
 
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。iPride Co., Ltd.
 
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~honeshabri
 

Último (12)

AWS Lambdaと AWS API Gatewayを使ったREST API作り
AWS Lambdaと AWS API Gatewayを使ったREST API作りAWS Lambdaと AWS API Gatewayを使ったREST API作り
AWS Lambdaと AWS API Gatewayを使ったREST API作り
 
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdfIGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
IGDA Japan SIG Audio #22 オンラインセミナー VRの知る.pdf
 
00001_test_automation_portfolio_20240313
00001_test_automation_portfolio_2024031300001_test_automation_portfolio_20240313
00001_test_automation_portfolio_20240313
 
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
キンドリル_ネットワーク自動化成熟度診断サービス ご紹介資料 2024年3月版
 
チームで開発するための環境を整える
チームで開発するための環境を整えるチームで開発するための環境を整える
チームで開発するための環境を整える
 
バイオリンの運弓動作計測による初心者と経験者の差異分析
バイオリンの運弓動作計測による初心者と経験者の差異分析バイオリンの運弓動作計測による初心者と経験者の差異分析
バイオリンの運弓動作計測による初心者と経験者の差異分析
 
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
JAWS DAYS 2024 E-3 ランチにまつわるちょっといい話 〜給食がない町の小中学生に温かい昼食を〜
 
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
SIG-AUDIO 2024 Vol.02 オンラインセミナー 「必殺使音人(ひっさつしおとにん)カットシーンを成敗せよ」
 
これからはじめるAnsible - Ansible Night Tokyo 2024
これからはじめるAnsible - Ansible Night Tokyo 2024これからはじめるAnsible - Ansible Night Tokyo 2024
これからはじめるAnsible - Ansible Night Tokyo 2024
 
The 86th National Convention of IPSJ (Student Encouragement Award))
The 86th National Convention of IPSJ (Student Encouragement Award))The 86th National Convention of IPSJ (Student Encouragement Award))
The 86th National Convention of IPSJ (Student Encouragement Award))
 
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
AWS_Bedrock入門 このスライドは2024/03/08の勉強会で発表されたものです。
 
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
キャラで動かすGPT ~GPTsでどんな感じに作っているとか考えていることとか~
 

[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency

  • 1. Unsupervised Monocular Depth Estimation with Left-Right Consistency arXivTimes勉強会 2017/08/09 山内隆太郎
  • 2. Motivation • CNNで単眼深度推定を行いたい • 教師データを集めるのが大変 • →ステレオ画像から単眼深度推定を学習させられないか?
  • 3. Idea • Depth mapを直接推定するのではなく、Disparity map(視差)を 推定する • Disparity map:左(右)画像のあるピクセルをどのくらい右(左) に動かせば右(左)画像の対応するピクセルに一致するか? • 平行な二台のカメラで撮られた画像において、カメラの近くに ある物体ほど左右で位置のずれが大きい(無限遠ではズレ0) • 実際の深度=Scale factor / Disparity
  • 5. Processing flow • 左画像から、左右のDisparity mapを生成する • オリジナル画像とDisparity mapをもとに、反対側 の画像を合成する • オリジナル画像と合成画像の差をlossとして学習
  • 6. How to make opposite Image. • 右(左)画像と左(右)dispマップから左(右)画像をつくりたい • この操作は微分可能でなくてはならない • →Bilinear Samplerを使う • Spatial Transformer Networks [https://arxiv.org/abs/1506.02025]参照
  • 7. Bilinear Sampler Right Image Left disp map Generated Left Image
  • 8. Bilinear Sampler (2) • 左画像のピクセルL[x, y]に対応するのはR[x+disp_L[x, y], y] • この座標は R[floor(x+disp_L[x, y]), y], R[ceil(x+disp_L[x, y]), y] の内分点 • したがって上の二点のピクセル値に内分比をかけて足し合わせ た点をL[x, y]の予測値とする 内分比は disp_L[x, y]-floor(disp_L[x, y]) : ceil(disp_L[x, y])- disp_L[x, y] →この操作は微分可能 • 問題点:隣接するピクセル間の値の差が大きいところばかり学 習する→ Disparity Smoothness Loss(後述)を導入
  • 9. Loss • Appearance Matching Loss 合成された画像とオリジナルの差 • Disparity Smoothness Loss 近い点は距離が近いという仮定 • Left-Right Disparity Consistency Loss 左右のDisparity mapはある程度似ているという仮定
  • 10. Appearance Matching Loss 𝐶 𝑎𝑝 𝑙 = 1 𝑁 𝑖,𝑗 𝛼 1 − 𝑆𝑆𝐼𝑀 𝐼𝑖𝑗 𝑙 , 𝐼𝑖𝑗 𝑙 2 + 1 − 𝛼 ‖𝐼𝑖𝑗 𝑙 − 𝐼𝑖𝑗 𝑙 ‖ • SSIMは画像の質を評価する関数 Image Quality Assessment: From Error Visibility to Structural Similarity [http://www.cns.nyu.edu/pub/lcv/wang03-preprint.pdf]参照 • 𝑆𝑆𝐼𝑀 𝑥, 𝑦 ≔ 2𝜇 𝑥 𝜇 𝑦+𝐶1 2𝜎 𝑥𝑦+𝐶2 (𝜇 𝑥 2+𝜇 𝑦 2+𝐶1)(𝜎 𝑥+𝜎 𝑦+𝐶2) μやσはk×kのカーネルごとに計算される
  • 11. Disparity Smoothness Loss 𝐶 𝑑𝑠 𝑙 = 1 𝑁 𝑖,𝑗 𝜕 𝑥 𝑑𝑖𝑗 𝑙 𝑒−‖𝜕 𝑥 𝐼𝑖𝑗 𝑙 ‖ + 𝜕 𝑦 𝑑𝑖𝑗 𝑙 𝑒−‖𝜕 𝑦 𝐼𝑖𝑗 𝑙 ‖ • あるピクセルに対応するdisparityが上下左右のピクセルの disparityとあまり離れないようにする • ピクセルの画素値の勾配で重み付け
  • 12. Left-Right Disparity Consistency Loss 𝐶𝑙𝑟 𝑙 = 1 𝑁 𝑖,𝑗 |𝑑𝑖𝑗 𝑙 − 𝑑𝑖𝑗+𝑑 𝑖𝑗 𝑙 𝑟 | • Bilinear Samplerによって左(右)disparity mapから右 (左)disparity mapを合成し、互いに一致するようにする
  • 13. Loss 𝐶𝑠 = 𝛼 𝑎𝑝 𝐶 𝑎𝑝 𝑙 + 𝐶 𝑎𝑝 𝑟 + 𝛼 𝑑𝑠 𝐶 𝑑𝑠 𝑙 + 𝐶 𝑑𝑠 𝑟 + 𝛼𝑙𝑟 𝐶𝑙𝑟 𝑙 + 𝐶𝑙𝑟 𝑟
  • 14. Model • VGG or ResNet • 各スケールでdisparity mapを生成する • Batch Normalizationはとくに効果なし
  • 18. 実装してみた • Chainerで実装 • VGG版 • KITTIで学習 • 学習4日くらい 上:オリジナル(左) 中:disparity map 下:合成された右画像