SlideShare ist ein Scribd-Unternehmen logo
1 von 46
CNNSLAM
Real-time dense monocular SLAM with
learned depth prediction
横浜国立大学
遠藤勇樹
Tateno. K, Tombari F, Laina I, Navab N
1
文献情報
K. Tateno, F. Tombari, I. Laina, N. Navab,
"CNN-SLAM: Real-time dense monocular SLAM
with learned depth prediction,“
IEEE Computer Society Conference on
Computer Vision and Pattern Recognition
(CVPR), 2017.
2
この論文を選んだ理由
• 昨年に話題となった新しいSLAM手法に興味がある
• SLAM 手法への Deep Learning適応方法 の調査
• 卒業研究テーマの決定
3
概要
• CNNを用いるMonocular SLAM手法
単眼カメラで地図と位置を推定する手法
• 現存のMonocular SLAM手法より高い正確性
• 純回転やテクスチャレス環境での動作を実現
• 3Dオブジェクトへのラベル付けも可能
4
SLAM (Simultaneous Localization And Mapping)
5
Introduction (SLAMについて)
未知環境 における
位置(経路) と 地図(3D情報) の同時推定
SLAM (Simultaneous Localization And Mapping)
J.Engel, et.al, “LSD-SLAM: Large-Scale Direct Monocular SLAM” Raul Mur-Artal, et.al, “ORB-SLAM2”
6
Introduction (SLAMについて)
距離センサなど 3次元物体
姿勢の履歴 3D環境情報
7
Introduction (SLAM手法について)
𝑫 𝒖 ∶ ℝ 𝟐 → ℝ
𝑤𝑖𝑡ℎ 𝐑 𝑖𝒋 ∈ 𝐒𝐎 𝟑 , 𝐭 𝑖𝑗 ∈ ℝ3
地点間の移動量
各地点での深度画像
𝐆 𝟏𝟐
𝐆 𝟐𝟑
剛体変換行列
回転 平行移動
𝐆23 =
𝐑23 𝐭23
𝟎 1
J.Engel, et.al, “LSD-SLAM: Large-Scale Direct Monocular SLAM”
8
Introduction Keyframe Based SLAM手法 [J. Engel, et al., 2014]
1.キーフレームを設定 2.現時刻の深度画像でキーフレームを補正
𝐆1 𝐆2 𝐆3
𝐆4 閾値
3.新たなキーフレームをつくる New
9
経路推定の中間地点のようなもの
Introduction (Keyframe Based SLAM手法)
J.Engel, et.al, “LSD-SLAM: Large-Scale Direct Monocular SLAM”
𝐆 =
𝐑 𝐭
𝟎 1
地図の表現方法→ グラフ構造
キーフレーム頂点
剛体変換(の合成)辺
10
Monocular SLAM
11
Introduction (Monocular SLAMについて)
• ドローンや自律ロボットへの応用
・深度推定
カメラで深度画像を生成
環境光耐性
認識範囲 に 限界→ デプスセンサ
12
Introduction (ステレオマッチング)
• ステレオマッチング
一定距離
視差を利用して距離画像を生成
ステレオカメラ
13
Introduction (擬似ステレオマッチング)
一定距離
の移動
1時刻前のカメラ
現時点のカメラ
・擬似ステレオマッチング (単眼カメラ)
移動量 深度画像
14
Introduction (Monocular SLAM アルゴリズム)
J.Engel, et.al, “LSD-SLAM: Large-Scale Direct Monocular SLAM”
擬似ステレオマッチング
Keyframe 作成
Keyframe 補正
15
Introduction (Monocular SLAMの種類)
• Key-point Based
• Semi-Dense Based
• Dense Based
特徴点
勾配の大きな領域
画像全体
16
Introduction (Monocular SLAM の問題点)
絶対的な距離推定が不可
K. Tateno, et.al, "CNN-SLAM: Real-time dense monocular SLAM
with learned depth prediction,“
オブジェクトを認識する手法
移動量計算が相対的
初期値に依存
既知オブジェクトの認識
既知の大きさを参照
Dorian Galvez-Lopez, et.al, “Real-time Monocular
Object SLAM”
17
Introduction (Monocular SLAM の制限)
オブジェクトが存在していること
純回転が起こらないこと
テクスチャレス(表面が平坦,繰り返し)でないこと
キーフレームからの移動が
トラックできなくなる
移動情報があいまいになる
18
Introduction
• 絶対的なスケールで深度画像推定
• テクスチャレスでも高精度
CNN-SLAM
CNN depth estimationLSD-SLAM
・Semi-Dense
・Monocular SLAM
・CNNを使った深度推定
・オンライン処理が可能
Iro Laina, et.al, “Deeper Depth Prediction with Fully
Convolutional Residual Networks”
19
Introduction
CNNの出力
Iro Laina, et.al, “Deeper Depth Prediction with
Fully Convolutional Residual Networks”
端がぼやける
トラッキングミス
Keyframeとしてのみの利用にとどめる
20
Related work
Monocular SLAM手法
• DTAM(Dense SLAM)
• LSD-SLAM(Semi-Dense SLAM)
特徴量を利用する手法 画像直接を利用する手法
• ORB-SLAM
ORB特徴量を利用して
疎なSLAMを行う
Raul Mur-Artal, et al., “ORB-SLAM: a Versatile
and Accurate Monocular SLAM System”
Richard A. N., et al., “DTAM:
Dense Tracking and Mapping
in Real-Time”
J.Engel, et.al, “LSD-SLAM:
Large-Scale Direct
Monocular SLAM”
21
Related work
画像から深度を推定する手法
ヒューリスティックな特徴 / 統計的モデル ベース
(幾何的な強い仮定を置く)
畳み込みニューラルネットワーク ベース
22
提案手法
23
Proposed Monocular Semantic SLAM
LSD-SLAM
CNN Depth Estimation
24
Proposed Monocular Semantic SLAM
𝜎2
深度画像 不確実度
𝐆 =
𝐑 𝐭
𝟎 1
𝜎2
深度画像 不確実度
𝜎2
深度画像 不確実度
更新CNNが生成
姿勢推定
25
事前準備
26
• 以下の目的関数(正規化した)を最小化
(なぜこの設計なのかはわからない..LSD-SLAMを読むべき)
カメラ姿勢の推定
現フレーム t と それに 最も近い
キーフレーム 𝑘𝑖 との 剛体変換
, ,
画像の座標
測光誤差関数
測光誤差の分散
27
カメラ姿勢の推定
• Gauss-Newton法
• 更新式
で移動させた場合の に関する Jacobian
28
CNNベースの深度推定と意味付け
Iro Laina, et al.,
“Deeper Depth Prediction with Fully Convolutional Residual Networks”
深度推定
入力:304×228
→
出力:160×128
ResNet-50をImageNetで事前学習したもの
Up Sampling の改良としての Up Projection Layer
29
Keisuke Tateno, et.al, “Real-Time and Scalable Incremental
Segmentation on Dense SLAM”
CNNベースの深度推定と意味付け
A. Uckermann, et.al,
“3D scene segmentation for autonomous robot grasping”
を利用した,SLAM用のSegmentationフレームワーク
30
提案手法での改良点
31
キーフレーム生成と姿勢グラフ最適化
• 距離関数の補正
SLAM実行時のセンサCNN学習時のセンサ
パラメータ差異による誤差
:SLAM実行時カメラの焦点距離
:学習時カメラの焦点距離
キーフレームに対する
CNN直接の出力
補正後の距離
32
キーフレーム生成と姿勢グラフ最適化
キーフレーム 間の不確実度初期化
キーフレーム
における深度画像
における深度画像を剛体変換によって
へ投射したもの
キーフレーム の
不確実度
不確実度の初期値が固定値 (RGB-Dを仮定)
CNNで得られた深度画像の不確実性
33
キーフレーム生成と姿勢グラフ最適化
深度が確定したあと、前キーフレームの不確実度を修正
修正後の
前キーフレームの
不確実度
修正前の
前キーフレームの
不確実度
ガウシアンノイズ
不確実度で重み付け
34
評価
35
評価
• CPU -> Intel Xeon
• RAM -> 16GB
• GPU -> Nvidia Quadro K5200 (8GB VRAM)
最新SLAM手法との比較 (ベンチマーク2つ)
純回転を行った時のロバスト性
意味ラベルの正確性
36
評価
• 評価データセット
カメラ動画像,深度マップ,姿勢グラフ
• CNNの学習データセット
カメラ画像,深度画像,意味ラベル
ICL-NUIM TUM RGB-D SLAM
人の手でラベル付けされた Kinect センサーで取得
NYU Depth v2
Kinect センサーで取得
floor vertical
large small
意味ラベル
37
評価
• LSD-SLAM
Semi-Dense SLAM
• ORB-SLAM
Feature-Based SLAM
• REMODE
Dense SLAM
• Laina’s
CNNをRGB-D SLAMに適応した
最新SLAM手法との比較 (ベンチマーク2つ)
38
評価
Abs : 各姿勢についての正解との二乗誤差
Perc : 正解との差が10%以内に入る割合
39
評価
• TUM データセット (fr1/rpy)
(回転の動きのみをするデータセット)
• LSD-SLAM
• ORB-SLAM
純回転を行った時のロバスト性
40
評価
• NYU Depth V2
• ICL-NUIM
意味ラベルの正確性
41
結論
純回転やテクスチャレスの環境に対して堅牢
CNNベースで高い性能のMonocular SLAMを提案
意味ラベルをグローバル地図へ適応
グラフ構造最適化へ深度修正を適応
42
感想
• 純回転へのロバスト性は革新的
• なぜSemi-Dense LSD-SLAMをベースとすると
よい結果が得られるの
• 不確かさ伝搬あたりが理解できなかった
• カメラパラメータの調節が雑ではないか
• この論文で示されているCNNを使った場合の
不確実性の訂正が重み付けで示されている理由
がわからない
43
参考文献
• [J. Engel, et al., 2014] J. Engel, T. Schps, and D. Cremers,
“LSD-SLAM: Large-Scale Direct Monocular SLAM.” In European Conference on
Computer Vision (ECCV), 2014.
• [I. Laina, et al., 2016]
I. Laina, C. Rupprecht, V. Belagiannis, F. Tombari, and N. Navab.
“Deeper depth prediction with fully convolutional residual networks.” In IEEE
International Conference on 3D Vision (3DV) (arXiv:1606.00373), October 2016.
• [K. Tateno, et al., 2015]
K. Tateno, F. Tombari, N. Navab, “Real-Time and Scalable Incremental
Segmentation on Dense SLAM”, In IROS. IEEE, 2015.
• [J. Engel, et al., 2013]
J. Engel, J. Sturm, D. Cremers, “Semi-dense visual odometry for a monocular
camera”, In IEEE International Conference on Computer Vision (ICCV), 2013.
44
付録
• 測光誤差関数
• 不確かさの伝搬
は に対するJacobian𝑓
45
付録
• 不確実度の伝搬
• 地図全体のLoss
46

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

ORB-SLAMを動かしてみた
ORB-SLAMを動かしてみたORB-SLAMを動かしてみた
ORB-SLAMを動かしてみた
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAM
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
Structure from Motion
Structure from MotionStructure from Motion
Structure from Motion
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
G2o
G2oG2o
G2o
 
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
SLAM入門 第2章 SLAMの基礎
SLAM入門 第2章 SLAMの基礎SLAM入門 第2章 SLAMの基礎
SLAM入門 第2章 SLAMの基礎
 
LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料LiDAR-SLAM チュートリアル資料
LiDAR-SLAM チュートリアル資料
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
 
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
 
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 

Ähnlich wie CNN-SLAMざっくり

Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtraction
Daichi Suzuo
 
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
YasuakiMori2
 

Ähnlich wie CNN-SLAMざっくり (20)

論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)論文読み会(DeMoN;CVPR2017)
論文読み会(DeMoN;CVPR2017)
 
Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtraction
 
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAMLSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAM
 
第41回関東CV勉強会 CNN-SLAM
第41回関東CV勉強会 CNN-SLAM第41回関東CV勉強会 CNN-SLAM
第41回関東CV勉強会 CNN-SLAM
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
 
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
 
DeepLearningDay2016Summer
DeepLearningDay2016SummerDeepLearningDay2016Summer
DeepLearningDay2016Summer
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.320150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
論文読み会2018 (CodeSLAM)
論文読み会2018 (CodeSLAM)論文読み会2018 (CodeSLAM)
論文読み会2018 (CodeSLAM)
 
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
End-to-end learning of keypoint detector and descriptor for pose invariant 3D...
 
IEEE ITSS Nagoya Chapter
IEEE ITSS Nagoya ChapterIEEE ITSS Nagoya Chapter
IEEE ITSS Nagoya Chapter
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 

CNN-SLAMざっくり