CNN-SLAMざっくり

CNNSLAM
Real-time dense monocular SLAM with
learned depth prediction
横浜国立大学
遠藤勇樹
Tateno. K, Tombari F, Laina I, Navab N
1

文献情報
K. Tateno, F. Tombari, I. Laina, N. Navab,
"CNN-SLAM: Real-time dense monocular SLAM
with learned depth prediction,“
IEEE Computer Society Conference on
Computer Vision and Pattern Recognition
(CVPR), 2017.
2

この論文を選んだ理由
• 昨年に話題となった新しいSLAM手法に興味がある
• SLAM 手法への Deep Learning適応方法の調査
• 卒業研究テーマの決定
3

概要
• CNNを用いるMonocular SLAM手法
単眼カメラで地図と位置を推定する手法
• 現存のMonocular SLAM手法より高い正確性
• 純回転やテクスチャレス環境での動作を実現
• 3Dオブジェクトへのラベル付けも可能
4

SLAM (Simultaneous Localization And Mapping)
5

Introduction (SLAMについて)
未知環境における
位置(経路) と地図(3D情報) の同時推定
SLAM (Simultaneous Localization And Mapping)
J.Engel, et.al, “LSD-SLAM: Large-Scale Direct Monocular SLAM” Raul Mur-Artal, et.al, “ORB-SLAM2”
6

Introduction (SLAMについて)
距離センサなど 3次元物体
姿勢の履歴 3D環境情報
7

Introduction (SLAM手法について)
𝑫 𝒖 ∶ ℝ 𝟐 → ℝ
𝑤𝑖𝑡ℎ 𝐑 𝑖𝒋 ∈ 𝐒𝐎 𝟑 , 𝐭 𝑖𝑗 ∈ ℝ3
地点間の移動量
各地点での深度画像
𝐆 𝟏𝟐
𝐆 𝟐𝟑
剛体変換行列
回転平行移動
𝐆23 =
𝐑23 𝐭23
𝟎 1
J.Engel, et.al, “LSD-SLAM: Large-Scale Direct Monocular SLAM”
8

Introduction Keyframe Based SLAM手法 [J. Engel, et al., 2014]
1．キーフレームを設定 2．現時刻の深度画像でキーフレームを補正
𝐆1 𝐆2 𝐆3
𝐆4 閾値
3．新たなキーフレームをつくる New
9
経路推定の中間地点のようなもの

Introduction (Keyframe Based SLAM手法)
𝐆 =
𝐑 𝐭
𝟎 1
地図の表現方法→ グラフ構造
キーフレーム頂点
剛体変換(の合成)辺
10

Introduction (Monocular SLAMについて)
• ドローンや自律ロボットへの応用
・深度推定
カメラで深度画像を生成
環境光耐性
認識範囲に限界→ デプスセンサ
12

Introduction (ステレオマッチング)
• ステレオマッチング
一定距離
視差を利用して距離画像を生成
ステレオカメラ
13

Introduction (擬似ステレオマッチング)
一定距離
の移動
1時刻前のカメラ
現時点のカメラ
・擬似ステレオマッチング（単眼カメラ）
移動量深度画像
14

Introduction (Monocular SLAM アルゴリズム)
擬似ステレオマッチング
Keyframe 作成
Keyframe 補正
15

Introduction (Monocular SLAMの種類)
• Key-point Based
• Semi-Dense Based
• Dense Based
特徴点
勾配の大きな領域
画像全体
16

Introduction (Monocular SLAM の問題点)
絶対的な距離推定が不可
K. Tateno, et.al, "CNN-SLAM: Real-time dense monocular SLAM
with learned depth prediction,“
オブジェクトを認識する手法
移動量計算が相対的
初期値に依存
既知オブジェクトの認識
既知の大きさを参照
Dorian Galvez-Lopez, et.al, “Real-time Monocular
Object SLAM”
17

Introduction (Monocular SLAM の制限)
オブジェクトが存在していること
純回転が起こらないこと
テクスチャレス（表面が平坦，繰り返し）でないこと
キーフレームからの移動が
トラックできなくなる
移動情報があいまいになる
18

Introduction
• 絶対的なスケールで深度画像推定
• テクスチャレスでも高精度
CNN-SLAM
CNN depth estimationLSD-SLAM
・Semi-Dense
・Monocular SLAM
・CNNを使った深度推定
・オンライン処理が可能
Iro Laina, et.al, “Deeper Depth Prediction with Fully
Convolutional Residual Networks”
19

Introduction
CNNの出力
Iro Laina, et.al, “Deeper Depth Prediction with
Fully Convolutional Residual Networks”
端がぼやける
トラッキングミス
Keyframeとしてのみの利用にとどめる
20

Related work
Monocular SLAM手法
• DTAM（Dense SLAM）
• LSD-SLAM（Semi-Dense SLAM）
特徴量を利用する手法画像直接を利用する手法
• ORB-SLAM
ORB特徴量を利用して
疎なSLAMを行う
Raul Mur-Artal, et al., “ORB-SLAM: a Versatile
and Accurate Monocular SLAM System”
Richard A. N., et al., “DTAM:
Dense Tracking and Mapping
in Real-Time”
J.Engel, et.al, “LSD-SLAM:
Large-Scale Direct
Monocular SLAM”
21

Related work
画像から深度を推定する手法
ヒューリスティックな特徴 / 統計的モデルベース
(幾何的な強い仮定を置く）
畳み込みニューラルネットワークベース
22

Proposed Monocular Semantic SLAM
LSD-SLAM
CNN Depth Estimation
24

Proposed Monocular Semantic SLAM
𝜎2
深度画像不確実度
𝐆 =
𝐑 𝐭
𝟎 1
𝜎2
𝜎2
更新CNNが生成
姿勢推定
25

• 以下の目的関数（正規化した）を最小化
（なぜこの設計なのかはわからない．．LSD-SLAMを読むべき）
カメラ姿勢の推定
現フレーム t とそれに最も近い
キーフレーム 𝑘𝑖 との剛体変換
, ,
画像の座標
測光誤差関数
測光誤差の分散
27

カメラ姿勢の推定
• Gauss-Newton法
• 更新式
で移動させた場合のに関する Jacobian
28

CNNベースの深度推定と意味付け
Iro Laina, et al.,
“Deeper Depth Prediction with Fully Convolutional Residual Networks”
深度推定
入力：304×228
→
出力：160×128
ResNet-50をImageNetで事前学習したもの
Up Sampling の改良としての Up Projection Layer
29

Keisuke Tateno, et.al, “Real-Time and Scalable Incremental
Segmentation on Dense SLAM”
CNNベースの深度推定と意味付け
A. Uckermann, et.al,
“3D scene segmentation for autonomous robot grasping”
を利用した，SLAM用のSegmentationフレームワーク
30

提案手法での改良点
31

キーフレーム生成と姿勢グラフ最適化
• 距離関数の補正
SLAM実行時のセンサCNN学習時のセンサ
パラメータ差異による誤差
：SLAM実行時カメラの焦点距離
：学習時カメラの焦点距離
キーフレームに対する
CNN直接の出力
補正後の距離
32

キーフレーム間の不確実度初期化
キーフレーム
における深度画像
における深度画像を剛体変換によって
へ投射したもの
キーフレームの
不確実度
不確実度の初期値が固定値 (RGB-Dを仮定)
CNNで得られた深度画像の不確実性
33

深度が確定したあと、前キーフレームの不確実度を修正
修正後の
前キーフレームの
不確実度
修正前の
前キーフレームの
不確実度
ガウシアンノイズ
不確実度で重み付け
34

評価
• CPU -> Intel Xeon
• RAM -> 16GB
• GPU -> Nvidia Quadro K5200 (8GB VRAM)
最新SLAM手法との比較 (ベンチマーク2つ）
純回転を行った時のロバスト性
意味ラベルの正確性
36

評価
• 評価データセット
カメラ動画像，深度マップ，姿勢グラフ
• CNNの学習データセット
カメラ画像，深度画像，意味ラベル
ICL-NUIM TUM RGB-D SLAM
人の手でラベル付けされた Kinect センサーで取得
NYU Depth v2
Kinect センサーで取得
floor vertical
large small
意味ラベル
37

評価
• LSD-SLAM
Semi-Dense SLAM
• ORB-SLAM
Feature-Based SLAM
• REMODE
Dense SLAM
• Laina’s
CNNをRGB-D SLAMに適応した
最新SLAM手法との比較 (ベンチマーク2つ）
38

評価
Abs : 各姿勢についての正解との二乗誤差
Perc : 正解との差が10%以内に入る割合
39

評価
• TUM データセット (fr1/rpy)
(回転の動きのみをするデータセット）
• LSD-SLAM
• ORB-SLAM
純回転を行った時のロバスト性
40

評価
• NYU Depth V2
• ICL-NUIM
意味ラベルの正確性
41

結論
純回転やテクスチャレスの環境に対して堅牢
CNNベースで高い性能のMonocular SLAMを提案
意味ラベルをグローバル地図へ適応
グラフ構造最適化へ深度修正を適応
42

感想
• 純回転へのロバスト性は革新的
• なぜSemi-Dense LSD-SLAMをベースとすると
よい結果が得られるの
• 不確かさ伝搬あたりが理解できなかった
• カメラパラメータの調節が雑ではないか
• この論文で示されているCNNを使った場合の
不確実性の訂正が重み付けで示されている理由
がわからない
43

参考文献
• [J. Engel, et al., 2014] J. Engel, T. Schps, and D. Cremers,
“LSD-SLAM: Large-Scale Direct Monocular SLAM.” In European Conference on
Computer Vision (ECCV), 2014.
• [I. Laina, et al., 2016]
I. Laina, C. Rupprecht, V. Belagiannis, F. Tombari, and N. Navab.
“Deeper depth prediction with fully convolutional residual networks.” In IEEE
International Conference on 3D Vision (3DV) (arXiv:1606.00373), October 2016.
• [K. Tateno, et al., 2015]
K. Tateno, F. Tombari, N. Navab, “Real-Time and Scalable Incremental
Segmentation on Dense SLAM”, In IROS. IEEE, 2015.
• [J. Engel, et al., 2013]
J. Engel, J. Sturm, D. Cremers, “Semi-dense visual odometry for a monocular
camera”, In IEEE International Conference on Computer Vision (ICCV), 2013.
44

付録
• 測光誤差関数
• 不確かさの伝搬
はに対するJacobian𝑓
45

付録
• 不確実度の伝搬
• 地図全体のLoss
46

CNN-SLAMざっくり

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie CNN-SLAMざっくり

Ähnlich wie CNN-SLAMざっくり (20)

CNN-SLAMざっくり