SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Downloaden Sie, um offline zu lesen
3D物体検出の
理論と取り組み
第33回 Machine Learning 15minutes!
自己紹介
● Tier4 技術本部
○ 関谷 英爾
● 経歴
○ DeNA 2014/04 ~ 2018/03
■ 分析基盤 (Hadoop, Vertica)
■ 機械学習 (レコメンド, 強化学習, 組合せ最適化)
○ Tier IV 2018/03~
■ データ基盤・機械学習基盤
@eratostennis
今日のお話
● 3D物体検出の理論について丁寧な説明はしません
● 動向と自動運転での付き合い方について説明します
概要
● 自動運転のコンポーネント
● 3Dの物体検出手法の紹介
● ラベリングツール
● 今後の開発
自動運転OSS Autoware
Retrieved from https://github.com/CPFL/Autoware
自動運転OSS Autoware
Retrieved from https://github.com/CPFL/Autoware
自動運転に組み込まれているDeep Learning
● 検出タスク (2D Bounding Box)
○ Yolov3
● 検出タスク (3D Bounding Box)
○ VoxelNet
● 分類タスク (信号色認識)
○ DenseNet
● etc.
自動運転に組み込まれているDeep Learning
● 検出タスク (2D Bounding Box)
○ Yolov3, etc.
● 検出タスク (3D Bounding Box)
○ VoxelNet, etc.
● 分類タスク (信号色認識)
○ DenseNet
● etc.
3Dの物体検出の特徴
● 点群データの特徴
○ 3D, Sparse
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
Euclidean Cluster
単純に距離の近いものを同一クラスタとみなす
EuclideanClusterで障害物検出と十分な計算量削減が可能
ただし、Semantic情報があれば、さらにトラッキング精度なども上がってくる
ちゃんと物体単位で検出したい
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
3D物体検出の精度評価
Bird’s Eye View (BEV)
3D Bounding Box
The KITTI Vision Benchmark Suite. Retrieved from http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=bev
The KITTI Vision Benchmark Suite. Retrieved from http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d
MV3D
● 特徴
○ 画像とPCDをFusion
○ PCDは2D Convで扱えるようBirdViewとFrontViewに変換
Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, Tian Xia. 2017.
Multi-View 3D Object Detection Network for Autonomous Driving
arXiv:1611.07759.
Retrieved from https://arxiv.org/abs/1611.07759
MV3D
● 精度
○ 当時のSOTAを達成
● 課題
○ 処理が重く律速となる
30 Hz
10 Hz
VoxelNet
● 特徴
○ 3D 物体検出初のEnd-to-end学習
○ Convolution Middle Layersは3D CNNで遅い (4.4Hz)
Yin Zhou, Oncel Tuzel. 2017.
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.
arXiv:1711.06396.
Retrieved from https://arxiv.org/abs/1711.06396
PointPillars
● 特徴
○ 3D CNNを使わずに高速化 (62Hz)
○ Single Shot Detectorによる位置の回帰とクラス分類
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Performance
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Performance
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
PointPillars
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Failure Case
歩行者とサイクリストの誤分類
街路樹を歩行者と分類
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
3D物体検出との付き合い方
● 精度が上がって来たが、まだまだ3D物体検出単体で使うには
いまいち
● 使い方
○ 画像とFusionする
■ Deep Learningで行う必要はない
○ 地図のレーン情報など他に持っているデータも利用する
● Trackingの精度向上
○ 単純な2Dだけで推測するより距離などは正確
○ 物体の運動モデルがだいたい分かっていれば役に立つ
● 2D & 3Dの物体検出教師データ作成ツール
Annotation Tool開発 Automan
● 2D & 3Dの物体検出教師データ作成ツール
Automan
Automan Architecture
Automan Architecture API Server
● User/Group登録
● Raw Data登録
● Annotation登録
Job Container
● Calibration
● Sampling
● AutoLabeling
OSSに向け準備中...
● 現在
○ Input
■ ROSBAG
○ Output
■ 2D & 3D Bounding Box
● 計画
○ Input
■ どんなサポートが欲しい?MP4?
○ Output
■ Polygon Labeling (Semantic Segmentation)
■ Landmark Labeling (Semantic Segmentation)
課題と今後の展望
● データ節約
○ 通信量 & ラベリング工数 & ストレージ
○ 学習できていないデータに絞った収集
● シミュレーションによるデータ生成
○ 精度の高い教師データの作成 (特に3D)
○ リアルとの違いの分析 (ノイズなどの影響や再現)
● 学習評価システム
○ 環境ごとのあるべき状態の定義・テストデータ整備
○ モデル説明性・解釈性 (Interpretability) の検討

Weitere ähnliche Inhalte

Was ist angesagt?

関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...Yamato OKAMOTO
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)Takuma Yagi
 
カルマンフィルタ入門
カルマンフィルタ入門カルマンフィルタ入門
カルマンフィルタ入門Yasunori Nihei
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...Deep Learning JP
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...Deep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN ImageryDeep Learning JP
 

Was ist angesagt? (20)

関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
 
カルマンフィルタ入門
カルマンフィルタ入門カルマンフィルタ入門
カルマンフィルタ入門
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
 

Trend of 3D object detections