SlideShare ist ein Scribd-Unternehmen logo
1 von 38
Downloaden Sie, um offline zu lesen
The Cityscapes
Dataset for Semantic Urban
Scene Understanding
第35回CV勉強会「CVPR2016読み会(後編)」
2016/7/24
進矢陽介
自己紹介
2007~2014 東京大学
話者認識
形状の数式表現、Mixed Reality
2014~2015 三菱電機
車内センシング(ドライバモニタ)
2015~ デンソー(東京支社)
車外センシング(ADAS、自動運転)
技術動向調査(cvpaper.challenge参加)
http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用
三菱電機公式サイトより引用
※本発表は個人として行うものであり
所属組織を代表するものではありません
0. 導入 (1)Semantic Urban Scene Understandingとは
今回主に扱うのは、都市交通環境のSemantic Segmentation
Cityscapes Dataset
[M.Cordts+, CVPR2016]
これを
こうしたい
道路
空
車
樹
建物
標識
0. 導入 (2)Semantic Segmentationとは
http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 より引用
(Classification)
0. 導入 (3)CNNによるSemantic Segmentation
FCN[J.Long+, CVPR2015]
← Classification
何が映っているか
矩形ごとに出力
← Semantic Segmentation
何が映っているか
ピクセルごとに出力
①基本原理
②学習方法
③データの集め方
どのピクセルが猫かをアノテーション(正解ラベル付け)すれば良い
一体どうやって? 人がやったら時間がかかるぞ……
データ数 GPU
レベルを上げて物理で殴ればいい
0. 導入 (4)アノテーションの呪い (The Curse of Dataset Annotation)
[J.Xie+, CVPR2016]を元に作成
← 短時間でアノテーションできるタスクの
データは大量にある
← アノテーションに時間がかかるため
十分なデータが無い
どうにかして大量のデータが欲しい
0. 導入 (5)今回紹介する論文・データセット
1. Cityscapes Dataset [M.Cordts+, CVPR2016]
2. 3D to 2D Label Transfer [J.Xie+, CVPR2016]
3. SYNTHIA Dataset [G.Ros+, CVPR2016]
4. Virtual KITTI Dataset [A.Gaidon+, CVPR2016]
5. Scene Flow Datasets [N.Mayer+, CVPR2016]
FCN, SegNetの詳細等は紹介しないため、以下をご参照下さい
https://computing.ece.vt.edu/~f15ece6504/ (W7: Oct 6)
http://www.slideshare.net/Takayosi/ieee-itss-nagoya-chapter (p.40あたり)
http://www.slideshare.net/cvpaperchallenge
人手で頑張ろう
3Dスキャン
データを使おう
CGを使おう
1. Cityscapes
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Cordts_The_Cityscapes_Dataset_C
VPR_2016_paper.pdf
プロジェクトページ: https://www.cityscapes-dataset.com/
スライド: https://www.mpi-inf.mpg.de/fileadmin/inf/d2/HLCV/HLCV_2016/cv-ss16-0707-
deep-learning3.pdf
The Cityscapes Dataset for Semantic
Urban Scene Understanding
Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld,
Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth,
Bernt Schiele
1. Cityscapes (1)データの特徴
Fine annotations
・5000枚
・Instance-wise annotation
(人は1人ずつ、車は1台ずつ)
・品質を保証するため内製
・1枚あたり1時間半かけて
アノテーション+チェック
Coarse annotations
・20000枚
・弱教師あり学習用
(使わなくても良い)
・外注
・1枚あたり7分以下で
アノテーション
1. Cityscapes (1)データの特徴
従来のデータセットとは一線を画す、多様・大規模なデータセット
アノテーションピクセル数
1. Cityscapes (2)Instance数最大のデータ
1. Cityscapes (3)評価結果
使用解像度が精度に大きく影響
Cityscapesを使って学習すると
他のデータセットでも精度向上
↑
downscaling factor
2. 3D to 2D Label Transfer
Semantic Instance Annotation of Street
Scenes by 3D to 2D Label Transfer
Jun Xie, Martin Kiefel, Ming-Ting Sun, Andreas Geiger
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Xie_Semantic_Instance_Annotation_CVPR
_2016_paper.pdf
プロジェクトページ: http://www.cvlibs.net/projects/label_transfer/ (2016/7/23時点では未公開)
2. 3D to 2D Label Transfer (1)データの特徴
①LIDARで3Dデータを取得
②3Dの状態でアノテーション
③3Dから2Dに転写
・40万枚の画像
・10万のレーザースキャンデータ
・semantic 3D annotations
・郊外の静止物にフォーカス
・先行研究と相補的
- Cityscapes:都市
- [L.-C.Chen+, CVPR2014]:
車両へのCADモデルあてはめ
データセット作成方法 データセット内容
収集対象
2. 3D to 2D Label Transfer (2)手法
ピクセルと3D点群のラベルを同時に推定するCRFモデルを使用
Pixel Unary Potentials
3D Point Unary Potentials
Geometric Unary Potentials
Pixel Pairwise Potentials 2D/3D Pairwise Potentials
3D Pairwise Potentials
①Gibbs energy function
2. 3D to 2D Label Transfer (2)手法
②Geometric Unary Potentials
Curb, Foldを検出し、道路・歩道・壁のラベル変化に対応
2. 3D to 2D Label Transfer (3)定量評価結果
2D to 2D(±5フレームの画像から中間画像を推定)の従来手法、
単純な3D to 2Dの転写と比較し、高精度
2D to 2D
3D to 2D
2. 3D to 2D Label Transfer (4)アノテーション時間
2Dでは20時間かかるアノテーション(※)を
提案手法では3時間未満でアノテーション可能
※条件:
・200フレームの動画を10フレームごとにアノテーション
・1枚のアノテーションに60分かかると仮定
2. 3D to 2D Label Transfer (5)定性評価結果
3D点群転写結果
入力画像
+
segmentation結果
error map
大部分の境界を正しく推定できるが
いくつか課題あり(樹、コントラストの低い領域、等)
3. SYNTHIA
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_
2016_paper.pdf
プロジェクトページ: http://synthia-dataset.net/
The SYNTHIA Dataset: A Large Collection
of Synthetic Images for Semantic
Segmentation of Urban Scenes
German Ros, Laura Sellart, Joanna Materzynska, David Vazquez,
Antonio M. Lopez
3. SYNTHIA (1)データの特徴
• CGで生成した架空の都市のデータ
• 季節・天気・照明条件・視点の変動あり
• ground truth: semantic segmentation, depth
詳細は公式動画をご覧下さい
http://synthia-dataset.net/dataset/
3. SYNTHIA (2)手法
• 2種のCNNでSemantic Segmentation
- T-Net [G.Ros+, arXiv2016]
- FCN [J.Long+, CVPR2015]
• 実写データとCGデータを交ぜて学習する方法
BGC (Balanced Gradient Contribution) [G.Ros+, arXiv2016]を使用し
CGデータの重要度を下げる(発散を防ぐ効果あり)
実際には、実写データ6枚とCGデータ4枚を含むミニバッチを
使用しているだけ(λ=4/6)
(実写データでのロス) + λ(CGデータでのロス)
3. SYNTHIA (3)定量評価結果
実写データとCGデータを併用して学習することで
実写データのみで学習した場合と比較し精度向上
(Camvid, KITTIの場合、Class Accuracyが10%前後向上)
3. SYNTHIA (4)定性評価結果
Real(実写) + Virtual(CG) が優勝
4. Virtual KITTI
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Gaidon_Virtual_Worlds_as_CVPR_2
016_paper.pdf
プロジェクトページ:http://www.xrce.xerox.com/Research-Development/Computer-
Vision/Proxy-Virtual-Worlds
http://www.xrce.xerox.com/Research-Development/Publications/2015-085
Virtual Worlds as Proxy for Multi-Object
Tracking Analysis
Adrien Gaidon, Qiao Wang, Yohann Cabon, Eleonora Vig
4. Virtual KITTI (1)データの特徴
KITTI (multi-object
tracking benchmark)
Virtual KITTI
ground truth
optical flow, segmentation, depth
CGで
クローン作成
4. Virtual KITTI (1)データの特徴
カメラの向き、時間帯、天気の7種の変動を用意
4. Virtual KITTI (2)評価結果
• multi-object trackingの精度を、2種のTrackerで評価
• 実写データでの学習とCGデータでの学習で同程度の精度
→ CGデータが実写データの代替として有用
4. Virtual KITTI (2)評価結果
CGデータでプレトレーニングし
実写データでファインチューニングすることで精度向上
5. Scene Flow Datasets
論文: http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR_2016_pa
per.pdf
プロジェクトページ: http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/
A Large Dataset to Train Convolutional
Networks for Disparity, Optical Flow, and
Scene Flow Estimation
Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer, Daniel
Cremers, Alexey Dosovitskiy, Thomas Brox
5. Scene Flow Datasets (1)先行研究
Flying Chairs Dataset (FlowNet [A.Dosovitskiy+, ICCV2015])
・椅子が空を飛ぶデータセット
・奥行き方向には飛ばない
・オプティカルフロー推定用CNNの学習に使える
5. Scene Flow Datasets (2)データの特徴
③Driving
(KITTIリスペクト)
②Monkaa
(Sintelリスペクト)
①FlyingThings3D
・色んな物が空を飛ぶデータセット(椅子だけじゃない!)
・奥行き方向にも飛ぶ!
・シーンフロー推定用CNNの学習に使える!
5. Scene Flow Datasets (3)手法
①オプティカルフローを推定するFlowNetを学習
②視差を推定するDispNetを2つ学習
③ ①,②を統合したSceneFlowNetを学習
シーンフローの計算に
時刻t, t+1の視差の変化が必要
5. Scene Flow Datasets (4)視差評価結果
精度では劣るが1000倍高速
http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php
?benchmark=stereo (2016/7/23時点)
特にForegroundの精度が良い
5. Scene Flow Datasets (5)シーンフロー評価結果
オプティカルフロー・視差を別々に求めるより
SceneFlowNetで統合して求める方が高精度
オプティカルフロー推定では、Flying Chairs Datasetには勝てなかったよ…
まとめ
• Semantic Urban Scene Understanding に関する
5つの論文・データセットを紹介
• Semantic Segmentation用データを如何に集め、
如何に使うべきかは現時点で判断できず、更なる研究が必要
• Tracking, Scene Flow等、動きに関するデータは
CGで代用できる可能性が高い
どのようなデータで精度が上がり、それが何故なのか分析が必要
補足:CVPR2016で目についた傾向
Segmentation関連が約65件、うちSemantic Segmentationが約30件
(タイトル・セッション名で検索)
• Multi-scale対応
FCN等でreceptive fieldが固定サイズである問題の解決
• RNNによる画素走査
context情報を抽出
• Boundary, Optical Flowの併用
CRFの併用同様、境界付近の精度を向上
• 他のタスクへの転用
Semantic Segmentationの結果やCNNアーキテクチャを転用
補足:CNNによるピクセルラベリング
http://people.eecs.berkeley.edu/~jonlong/ より引用
・似た構造のCNNで、Semantic Segmentation以外にも様々な応用が可能
・複数のタスクが相補的な効果を持ち得る(例:SceneFlowNet)
・入力・出力の教師データの組み合わせによって機能が変わる
データ次第で新しい問題を設定・解決できる可能性がある
ラフスケッチの線画化 [Simo-Serra+, SIGGRAPH2016]

Weitere ähnliche Inhalte

Was ist angesagt?

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...cvpaper. challenge
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World ModelsDeep Learning JP
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Ohnishi Katsunori
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)cvpaper. challenge
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...Deep Learning JP
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Visionharmonylab
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)Tomohiro Motoda
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
自動運転におけるCNNの信頼性
自動運転におけるCNNの信頼性自動運転におけるCNNの信頼性
自動運転におけるCNNの信頼性Fixstars Corporation
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 

Was ist angesagt? (20)

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
自動運転におけるCNNの信頼性
自動運転におけるCNNの信頼性自動運転におけるCNNの信頼性
自動運転におけるCNNの信頼性
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 

Ähnlich wie Dataset for Semantic Urban Scene Understanding

≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ Brocade
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータ190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータYuichiro MInato
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS ConferenceKeiju Anada
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Kazuyuki Miyazawa
 
ソフトウェアテストの最新動向の学び方
ソフトウェアテストの最新動向の学び方ソフトウェアテストの最新動向の学び方
ソフトウェアテストの最新動向の学び方Keizo Tatsumi
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020
エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020
エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020Nico-Tech Shenzhen/ニコ技深圳コミュニティ
 
"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPI
"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPI"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPI
"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPIJunji Nishihara
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1ITDORAKU
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection surveyTakuya Minagawa
 
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿Daiyu Hatakeyama
 
Relationship betweenddd and mvc
Relationship betweenddd and mvcRelationship betweenddd and mvc
Relationship betweenddd and mvcTakao Tetsuro
 
IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)
IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)
IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)SORACOM,INC
 
MRTK V2.3 Spatial Awareness
MRTK V2.3 Spatial AwarenessMRTK V2.3 Spatial Awareness
MRTK V2.3 Spatial AwarenessYuichi Ishii
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1ITDORAKU
 
【AWS×Deployment】TechTalk #5
【AWS×Deployment】TechTalk #5【AWS×Deployment】TechTalk #5
【AWS×Deployment】TechTalk #5幸夫 茅根
 

Ähnlich wie Dataset for Semantic Urban Scene Understanding (20)

≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータ190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータ
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS Conference
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
ソフトウェアテストの最新動向の学び方
ソフトウェアテストの最新動向の学び方ソフトウェアテストの最新動向の学び方
ソフトウェアテストの最新動向の学び方
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020
エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020
エンジニアのキャリア開発と国際的なコミュニティづくり #efcフェスティバル2020
 
"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPI
"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPI"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPI
"Kong Summit, Japan 2022" Kongコミュニティセッション:政府が掲げるデジタル田園都市国家構想の実現に重要なオープンAPI
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
Saga Smart Center: デジタル変革が及ぼす企業が考慮すべき未来の姿
 
Relationship betweenddd and mvc
Relationship betweenddd and mvcRelationship betweenddd and mvc
Relationship betweenddd and mvc
 
IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)
IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)
IoT/M2M展基調講演 - 「IoTビジネスの新潮流」 by SORACOM玉川 (Japan IT week 2017)
 
MRTK V2.3 Spatial Awareness
MRTK V2.3 Spatial AwarenessMRTK V2.3 Spatial Awareness
MRTK V2.3 Spatial Awareness
 
Mithril
MithrilMithril
Mithril
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
【AWS×Deployment】TechTalk #5
【AWS×Deployment】TechTalk #5【AWS×Deployment】TechTalk #5
【AWS×Deployment】TechTalk #5
 

Dataset for Semantic Urban Scene Understanding

  • 1. The Cityscapes Dataset for Semantic Urban Scene Understanding 第35回CV勉強会「CVPR2016読み会(後編)」 2016/7/24 進矢陽介
  • 2. 自己紹介 2007~2014 東京大学 話者認識 形状の数式表現、Mixed Reality 2014~2015 三菱電機 車内センシング(ドライバモニタ) 2015~ デンソー(東京支社) 車外センシング(ADAS、自動運転) 技術動向調査(cvpaper.challenge参加) http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用 三菱電機公式サイトより引用 ※本発表は個人として行うものであり 所属組織を代表するものではありません
  • 3. 0. 導入 (1)Semantic Urban Scene Understandingとは 今回主に扱うのは、都市交通環境のSemantic Segmentation Cityscapes Dataset [M.Cordts+, CVPR2016] これを こうしたい 道路 空 車 樹 建物 標識
  • 4. 0. 導入 (2)Semantic Segmentationとは http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 より引用 (Classification)
  • 5. 0. 導入 (3)CNNによるSemantic Segmentation FCN[J.Long+, CVPR2015] ← Classification 何が映っているか 矩形ごとに出力 ← Semantic Segmentation 何が映っているか ピクセルごとに出力 ①基本原理 ②学習方法 ③データの集め方 どのピクセルが猫かをアノテーション(正解ラベル付け)すれば良い 一体どうやって? 人がやったら時間がかかるぞ…… データ数 GPU レベルを上げて物理で殴ればいい
  • 6. 0. 導入 (4)アノテーションの呪い (The Curse of Dataset Annotation) [J.Xie+, CVPR2016]を元に作成 ← 短時間でアノテーションできるタスクの データは大量にある ← アノテーションに時間がかかるため 十分なデータが無い どうにかして大量のデータが欲しい
  • 7. 0. 導入 (5)今回紹介する論文・データセット 1. Cityscapes Dataset [M.Cordts+, CVPR2016] 2. 3D to 2D Label Transfer [J.Xie+, CVPR2016] 3. SYNTHIA Dataset [G.Ros+, CVPR2016] 4. Virtual KITTI Dataset [A.Gaidon+, CVPR2016] 5. Scene Flow Datasets [N.Mayer+, CVPR2016] FCN, SegNetの詳細等は紹介しないため、以下をご参照下さい https://computing.ece.vt.edu/~f15ece6504/ (W7: Oct 6) http://www.slideshare.net/Takayosi/ieee-itss-nagoya-chapter (p.40あたり) http://www.slideshare.net/cvpaperchallenge 人手で頑張ろう 3Dスキャン データを使おう CGを使おう
  • 8. 1. Cityscapes 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Cordts_The_Cityscapes_Dataset_C VPR_2016_paper.pdf プロジェクトページ: https://www.cityscapes-dataset.com/ スライド: https://www.mpi-inf.mpg.de/fileadmin/inf/d2/HLCV/HLCV_2016/cv-ss16-0707- deep-learning3.pdf The Cityscapes Dataset for Semantic Urban Scene Understanding Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, Bernt Schiele
  • 9. 1. Cityscapes (1)データの特徴 Fine annotations ・5000枚 ・Instance-wise annotation (人は1人ずつ、車は1台ずつ) ・品質を保証するため内製 ・1枚あたり1時間半かけて アノテーション+チェック Coarse annotations ・20000枚 ・弱教師あり学習用 (使わなくても良い) ・外注 ・1枚あたり7分以下で アノテーション
  • 13. 2. 3D to 2D Label Transfer Semantic Instance Annotation of Street Scenes by 3D to 2D Label Transfer Jun Xie, Martin Kiefel, Ming-Ting Sun, Andreas Geiger 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Xie_Semantic_Instance_Annotation_CVPR _2016_paper.pdf プロジェクトページ: http://www.cvlibs.net/projects/label_transfer/ (2016/7/23時点では未公開)
  • 14. 2. 3D to 2D Label Transfer (1)データの特徴 ①LIDARで3Dデータを取得 ②3Dの状態でアノテーション ③3Dから2Dに転写 ・40万枚の画像 ・10万のレーザースキャンデータ ・semantic 3D annotations ・郊外の静止物にフォーカス ・先行研究と相補的 - Cityscapes:都市 - [L.-C.Chen+, CVPR2014]: 車両へのCADモデルあてはめ データセット作成方法 データセット内容 収集対象
  • 15. 2. 3D to 2D Label Transfer (2)手法 ピクセルと3D点群のラベルを同時に推定するCRFモデルを使用 Pixel Unary Potentials 3D Point Unary Potentials Geometric Unary Potentials Pixel Pairwise Potentials 2D/3D Pairwise Potentials 3D Pairwise Potentials ①Gibbs energy function
  • 16. 2. 3D to 2D Label Transfer (2)手法 ②Geometric Unary Potentials Curb, Foldを検出し、道路・歩道・壁のラベル変化に対応
  • 17. 2. 3D to 2D Label Transfer (3)定量評価結果 2D to 2D(±5フレームの画像から中間画像を推定)の従来手法、 単純な3D to 2Dの転写と比較し、高精度 2D to 2D 3D to 2D
  • 18. 2. 3D to 2D Label Transfer (4)アノテーション時間 2Dでは20時間かかるアノテーション(※)を 提案手法では3時間未満でアノテーション可能 ※条件: ・200フレームの動画を10フレームごとにアノテーション ・1枚のアノテーションに60分かかると仮定
  • 19. 2. 3D to 2D Label Transfer (5)定性評価結果 3D点群転写結果 入力画像 + segmentation結果 error map 大部分の境界を正しく推定できるが いくつか課題あり(樹、コントラストの低い領域、等)
  • 20. 3. SYNTHIA 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_ 2016_paper.pdf プロジェクトページ: http://synthia-dataset.net/ The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez
  • 21. 3. SYNTHIA (1)データの特徴 • CGで生成した架空の都市のデータ • 季節・天気・照明条件・視点の変動あり • ground truth: semantic segmentation, depth 詳細は公式動画をご覧下さい http://synthia-dataset.net/dataset/
  • 22. 3. SYNTHIA (2)手法 • 2種のCNNでSemantic Segmentation - T-Net [G.Ros+, arXiv2016] - FCN [J.Long+, CVPR2015] • 実写データとCGデータを交ぜて学習する方法 BGC (Balanced Gradient Contribution) [G.Ros+, arXiv2016]を使用し CGデータの重要度を下げる(発散を防ぐ効果あり) 実際には、実写データ6枚とCGデータ4枚を含むミニバッチを 使用しているだけ(λ=4/6) (実写データでのロス) + λ(CGデータでのロス)
  • 25. 4. Virtual KITTI 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Gaidon_Virtual_Worlds_as_CVPR_2 016_paper.pdf プロジェクトページ:http://www.xrce.xerox.com/Research-Development/Computer- Vision/Proxy-Virtual-Worlds http://www.xrce.xerox.com/Research-Development/Publications/2015-085 Virtual Worlds as Proxy for Multi-Object Tracking Analysis Adrien Gaidon, Qiao Wang, Yohann Cabon, Eleonora Vig
  • 26. 4. Virtual KITTI (1)データの特徴 KITTI (multi-object tracking benchmark) Virtual KITTI ground truth optical flow, segmentation, depth CGで クローン作成
  • 27. 4. Virtual KITTI (1)データの特徴 カメラの向き、時間帯、天気の7種の変動を用意
  • 28. 4. Virtual KITTI (2)評価結果 • multi-object trackingの精度を、2種のTrackerで評価 • 実写データでの学習とCGデータでの学習で同程度の精度 → CGデータが実写データの代替として有用
  • 29. 4. Virtual KITTI (2)評価結果 CGデータでプレトレーニングし 実写データでファインチューニングすることで精度向上
  • 30. 5. Scene Flow Datasets 論文: http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR_2016_pa per.pdf プロジェクトページ: http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/ A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer, Daniel Cremers, Alexey Dosovitskiy, Thomas Brox
  • 31. 5. Scene Flow Datasets (1)先行研究 Flying Chairs Dataset (FlowNet [A.Dosovitskiy+, ICCV2015]) ・椅子が空を飛ぶデータセット ・奥行き方向には飛ばない ・オプティカルフロー推定用CNNの学習に使える
  • 32. 5. Scene Flow Datasets (2)データの特徴 ③Driving (KITTIリスペクト) ②Monkaa (Sintelリスペクト) ①FlyingThings3D ・色んな物が空を飛ぶデータセット(椅子だけじゃない!) ・奥行き方向にも飛ぶ! ・シーンフロー推定用CNNの学習に使える!
  • 33. 5. Scene Flow Datasets (3)手法 ①オプティカルフローを推定するFlowNetを学習 ②視差を推定するDispNetを2つ学習 ③ ①,②を統合したSceneFlowNetを学習 シーンフローの計算に 時刻t, t+1の視差の変化が必要
  • 34. 5. Scene Flow Datasets (4)視差評価結果 精度では劣るが1000倍高速 http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php ?benchmark=stereo (2016/7/23時点) 特にForegroundの精度が良い
  • 35. 5. Scene Flow Datasets (5)シーンフロー評価結果 オプティカルフロー・視差を別々に求めるより SceneFlowNetで統合して求める方が高精度 オプティカルフロー推定では、Flying Chairs Datasetには勝てなかったよ…
  • 36. まとめ • Semantic Urban Scene Understanding に関する 5つの論文・データセットを紹介 • Semantic Segmentation用データを如何に集め、 如何に使うべきかは現時点で判断できず、更なる研究が必要 • Tracking, Scene Flow等、動きに関するデータは CGで代用できる可能性が高い どのようなデータで精度が上がり、それが何故なのか分析が必要
  • 37. 補足:CVPR2016で目についた傾向 Segmentation関連が約65件、うちSemantic Segmentationが約30件 (タイトル・セッション名で検索) • Multi-scale対応 FCN等でreceptive fieldが固定サイズである問題の解決 • RNNによる画素走査 context情報を抽出 • Boundary, Optical Flowの併用 CRFの併用同様、境界付近の精度を向上 • 他のタスクへの転用 Semantic Segmentationの結果やCNNアーキテクチャを転用