Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
論文紹介ゼミ
DeepVIO: Self-supervised Deep Learning of
Monocular Visual Inertial
Odometry using 3D Geometric Constraints
北海道大学 大...
論文情報
• タイトル
– DeepVIO: Self-supervised Deep Learning of Monocular
Visual Inertial Odometry using 3D Geometric Constraints
...
概要
単眼カメラとIMUを用いた自己位置推定のための自己教師あり学習
3
Introduction
• 6-DoF運動の推定はロボット工学において重要な課題の一つ
• カメラベースのVisual OdometryとVisual Simultaneous
Localization and Mapping (VSLAM)...
関連研究
• 教師あり学習ベースのVisual Inertial Odometry[1]
– LSTM[2]やLSTM+ IMU[3]が登場
• 教師なし学習ベース
– 単眼映像から深度画像とエゴモーションを推定[4]
5
学習のための大量の ...
主な提案手法 6
主な提案手法 7
1. 学習のための教師信号をステレオカメラ映像から求める
主な提案手法 8
2. 教師信号を用いて3つのモジュールを学習する
主な提案手法 9
3. 単眼カメラ映像からの自己位置とその軌跡を推定
Stereo Network as Supervision
PSMNet[1]を用いて深度情報とPoint Cloudを出力
10
𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像
[1] Jia-Ren Chang and Yong-Shen...
Stereo Network as Supervision
ICPを使用してStereo-se3と2D Optical Flowを求める
11
𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像
ICP: 2つの点群から位置姿勢を調整し、6次元ベ...
CNN-Flow Network 12
2フレームの画像から2Dオプティカルフローを求める
𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像
𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ
𝐵𝑎 : 加速度のバイアス
𝐵𝑔 : 角速度のバイアス
従来の2D...
LSTM-IMU Network 13
LSTMを用いてIMUシーケンスから姿勢情報を求める
𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像
𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ
𝐵𝑎 : 加速度のバイアス
𝐵𝑔 : 角速度のバイアス
IMUの...
LSTM-IMU Network 14
LSTMを用いてIMUシーケンスから姿勢情報を求める
𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像
𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ
𝐵𝑎 : 加速度のバイアス
𝐵𝑔 : 角速度のバイアス
IMUの...
FC-Fusion Network 15
2Dオプティカルフローの特徴量(OFF)と6自由度データでVIO-se3を
求める
𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像
𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ
𝐵𝑎 : 加速度のバイアス
𝐵𝑔...
実験結果
• データセット
– KITTI dataset
• 屋外のデータセット
• 22組のデータ
• 389個のステレオ画像とオプティカルフローマップ
– EuRoc dataset
• 屋内のデータセット
• 超小型無人飛行機 (MAV...
学習ネットワーク
• 画像サイズ
– KITTI: 640×192
– EuRoC: 640×480
• 最適化アルゴリズム
– Adam
• ハイパーパラメータ
– バッチサイズ: 32
– エポック: 200
• GPU
– Nvidia ...
軌跡の比較
• VINS, ORB-SLAM-Mとの比較
• 1フレームあたりの平均推論時間
– KITTIは、約7.81ms
– EuRoCは、約3.9ms
18
(a) KITTI 9 の軌跡 (b) EuRoC MH04 の軌跡
軌跡の比較 19
𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%)
𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°)
VINSよりも、推定誤差が小さい
→従来手法は厳密な同期をとらないIMUデータに弱い
一部のケ...
軌跡の比較 20
𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%)
𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°)
IMUを使用していないDeepVOより精度向上
→ 軌跡の補正としてIMUデータが有効
VIN...
2Dオプティカルフローの誤差 21
実際の画像 Ground truth
DeepVIO 従来手法
2Dオプティカルフローの平均誤差が
従来手法よりも少ない
特に動的ターゲットの場合に顕著
実際に推論した映像 22
url: https://youtu.be/fMeqCcpBCdM
まとめ
単眼カメラとIMUを用いた自己位置推定のための自己教師あり学習
23
Nächste SlideShare
Wird geladen in …5
×

DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints

684 Aufrufe

Veröffentlicht am

Liming Han, Yimin Lin, Guoguang Du, Shiguo Lian : DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints, arXiv preprint arXiv:1906.11435 (2019), https://arxiv.org/abs/1906.11435

公開URL: https://arxiv.org/abs/1906.11435

概要: 6-DoF運動の推定はロボット工学において重要な課題の一つです。教師あり学習のVisual Inertial Odometry(VIO)は存在しますが、学習のための大量のGround Truthデータが必要となります。この問題を解決するために、低コストのステレオカメラを用いた自己教師ありVIOシステムが提案されています。2次元のオプティカルフロー特徴量とIMUのデータをマージすることによって、絶対位置の軌跡を推定します。

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints

  1. 1. 論文紹介ゼミ DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室学研究室 修士課程1年 森雄斗 2020年 11月 04日
  2. 2. 論文情報 • タイトル – DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints • 著者 – Liming Han1, Yimin Lin1, Guoguang Du1, Shiguo Lian1 • 1. the AI Department, CloudMinds Technologies Inc. • 学会 – IROS2019 • 論文URL – https://arxiv.org/pdf/1906.11435.pdf • スライドのビデオ – https://youtu.be/fMeqCcpBCdM 2
  3. 3. 概要 単眼カメラとIMUを用いた自己位置推定のための自己教師あり学習 3
  4. 4. Introduction • 6-DoF運動の推定はロボット工学において重要な課題の一つ • カメラベースのVisual OdometryとVisual Simultaneous Localization and Mapping (VSLAM)が注目されている – IMUからの計測値とカメラを組み合わせたVisual Inertial Odometry (VIO)が多数提案[1][2][3] 4 [1] Ke Sun, Kartik Mohta, Bernd Pfrommer, Michael Watterson, Sikang Liu, Yash Mulgaonkar, Camillo J Taylor, and Vijay Kumar. Robust stereo visual inertial odometry for fast autonomous flight. IEEE Robotics and Automation Letters, 3(2):965–972, 2018. [2] Raul Mur-Artal and Juan Domingo Tardos. Visual-inertial monocular slam with map reuse. IEEE Robotics and Automation Letters, 2(2):796–803, 2016. [3] Qin Tong, Peiliang Li, and Shaojie Shen. Vins-mono: A robust and versatile monocular visual-inertial state estimator. IEEE Transactions on Robotics, PP(99):1–17, 2017.
  5. 5. 関連研究 • 教師あり学習ベースのVisual Inertial Odometry[1] – LSTM[2]やLSTM+ IMU[3]が登場 • 教師なし学習ベース – 単眼映像から深度画像とエゴモーションを推定[4] 5 学習のための大量の ground truth dataが必要 RGB-D (深度カメラ) や、LiDARが必要 低コストのステレオカメラを用いた自己教師ありVIOシステムを提案 [1] Ruihao Li, Sen Wang, and Dongbing Gu. Ongoing evolution of visual slam from geometry to deep learning: Challenges and opportunities. Cognitive Computation, 10(6):875–889, 2018. [2] Jason R Rambach, Aditya Tewari, Alain Pagani, and Didier Stricker. Learning to fuse: A deep learning approach to visual-inertial camera pose estimation. In 2016 IEEE International Symposium on Mixed and Augmented Reality (ISMAR), pages 71–76. IEEE, 2016. [3] Ronald Clark, Sen Wang, Hongkai Wen, Andrew Markham, and Niki Trigoni. Vinet: Visual-inertial odometry as a sequence-to-sequence learning problem. In Thirty-First AAAI Conference on Artificial Intelligence, 2017. [4] Tinghui Zhou, Matthew Brown, Noah Snavely, and David G Lowe. Unsupervised learning of depth and ego-motion from video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1851–1858, 2017.
  6. 6. 主な提案手法 6
  7. 7. 主な提案手法 7 1. 学習のための教師信号をステレオカメラ映像から求める
  8. 8. 主な提案手法 8 2. 教師信号を用いて3つのモジュールを学習する
  9. 9. 主な提案手法 9 3. 単眼カメラ映像からの自己位置とその軌跡を推定
  10. 10. Stereo Network as Supervision PSMNet[1]を用いて深度情報とPoint Cloudを出力 10 𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像 [1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5410–5418, 2018. [2] Zhao Cheng, Sun Li, Pulak Purkait, Tom Duckett, and Rustam Stolkin. Learning monocular visual odometry with dense 3d mapping from dense 3d flow. 2018. 視差マップ 𝑞 𝐿 = (𝑥 𝐿, 𝑦 𝐿, 𝑥 𝐿 − 𝑥 𝑅) 3D point cloud 𝑐 = 𝐾−1 𝑑 𝐿[𝑥 𝐿, 𝑦 𝐿, 1] 𝑇 深度画像からpoint cloud の変換パラメータ[2] 深度画像
  11. 11. Stereo Network as Supervision ICPを使用してStereo-se3と2D Optical Flowを求める 11 𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像 ICP: 2つの点群から位置姿勢を調整し、6次元ベクトルを求める (c) 3D optical flowから求めた 2D optical flow (d) FlownetCから求めた 2D optical flow 3D Optical Flow : 𝒗3𝐷 = 𝑣 𝑋, 𝑣 𝑌, 𝑣 𝑍 = ∆𝐼 𝑐𝑡−1, 𝑐𝑡 = 𝑐𝑡−1 − 𝑐𝑡 2D Optical Flow: 𝑣 𝑥, 𝑣 𝑦, 1 𝐿 = 𝑲 𝒗3𝐷 𝑑 𝐿(𝑥,𝑦) projection
  12. 12. CNN-Flow Network 12 2フレームの画像から2Dオプティカルフローを求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス 従来の2Dオプティカルフローアルゴリズムでは、正しい動きを決定できない 曖昧さを減らすために3Dオプティカルフローを教師データとして使用する 実際の画像 Ground truth DeepVIO 従来手法
  13. 13. LSTM-IMU Network 13 LSTMを用いてIMUシーケンスから姿勢情報を求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス IMUの状態を考慮した新たな学習手法 1) Preintegrated Network 2層のLSTMネットワークでそれぞれが6つの隠れ層を持つ 入力: N × 12 (N: 画像の2フレーム間のIMUデータのシーケンス) 出力: IMU-se3 = 6次元ベクトル (3つの並進と3つの回転)
  14. 14. LSTM-IMU Network 14 LSTMを用いてIMUシーケンスから姿勢情報を求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス IMUの状態を考慮した新たな学習手法 2) 状態更新モジュール ሚ𝑆𝑡−1 = argmin ሚ𝑆 𝑡−1 (𝑉𝐼𝑂 − 𝑠𝑒3, 𝐼𝑀𝑈 − 𝑠𝑒3) = argmin ሚ𝑆 𝑡−1 (𝜌([𝑒 𝑅 𝑇 𝑒 𝑝 𝑇 ] σ𝐼[𝑒 𝑅 𝑇 𝑒 𝑝 𝑇 ] 𝑇 )) 𝑒 𝑅 = 𝐿𝑜𝑔 ∆𝑅 𝐿𝑆𝑇𝑀 ሚ𝑆𝑡−1 𝑇 ∆𝑅 𝑉𝐼𝑂 𝑒 𝑝 = ∆𝑝 𝑉𝐼𝑂 − ∆𝑝 𝐿𝑆𝑇𝑀( ሚ𝑆𝑡−1) IMU-se3とVIO-se3の 間の回転と並進の誤差 𝑡 − 1のIMU状態の 最良推定値
  15. 15. FC-Fusion Network 15 2Dオプティカルフローの特徴量(OFF)と6自由度データでVIO-se3を 求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス 5つの全結合層を持つFC Fusionネットワークで学習 入力は、OFFとIMU-se3 出力は、次元数6のVIO-se3 (速度情報) VIO-se3を積分することで一定時間の軌跡が計算可能
  16. 16. 実験結果 • データセット – KITTI dataset • 屋外のデータセット • 22組のデータ • 389個のステレオ画像とオプティカルフローマップ – EuRoc dataset • 屋内のデータセット • 超小型無人飛行機 (MAV)で記録した11のステレオ動画とIMU測定値 • 実験では、200組のデータを使用 16
  17. 17. 学習ネットワーク • 画像サイズ – KITTI: 640×192 – EuRoC: 640×480 • 最適化アルゴリズム – Adam • ハイパーパラメータ – バッチサイズ: 32 – エポック: 200 • GPU – Nvidia GeForce GTX 1080 Ti (12G) 17
  18. 18. 軌跡の比較 • VINS, ORB-SLAM-Mとの比較 • 1フレームあたりの平均推論時間 – KITTIは、約7.81ms – EuRoCは、約3.9ms 18 (a) KITTI 9 の軌跡 (b) EuRoC MH04 の軌跡
  19. 19. 軌跡の比較 19 𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%) 𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°) VINSよりも、推定誤差が小さい →従来手法は厳密な同期をとらないIMUデータに弱い 一部のケースを除いてVIOlearnerより優れている →IMUのローデータを使用しているため Seq9,10は、映像が見えづらいが一般化できている
  20. 20. 軌跡の比較 20 𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%) 𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°) IMUを使用していないDeepVOより精度向上 → 軌跡の補正としてIMUデータが有効 VINSよりも若干劣る →IMUのデータの質 (高周波数など) 推進運動の誤差がORB-SLAM-Mよりも劣る → 提案手法が局所的バンドル調整モジュールが ないから
  21. 21. 2Dオプティカルフローの誤差 21 実際の画像 Ground truth DeepVIO 従来手法 2Dオプティカルフローの平均誤差が 従来手法よりも少ない 特に動的ターゲットの場合に顕著
  22. 22. 実際に推論した映像 22 url: https://youtu.be/fMeqCcpBCdM
  23. 23. まとめ 単眼カメラとIMUを用いた自己位置推定のための自己教師あり学習 23

×