Dataset for Semantic Urban Scene Understanding

The Cityscapes
Dataset for Semantic Urban
Scene Understanding
第35回CV勉強会「CVPR2016読み会(後編)」
2016/7/24
進矢陽介

自己紹介
2007～2014 東京大学
話者認識
形状の数式表現、Mixed Reality
2014～2015 三菱電機
車内センシング（ドライバモニタ）
2015～デンソー（東京支社）
車外センシング（ADAS、自動運転）
技術動向調査（cvpaper.challenge参加）
http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用
三菱電機公式サイトより引用
※本発表は個人として行うものであり
所属組織を代表するものではありません

0. 導入 (1)Semantic Urban Scene Understandingとは
今回主に扱うのは、都市交通環境のSemantic Segmentation
Cityscapes Dataset
[M.Cordts+, CVPR2016]
これを
こうしたい
道路
空
車
樹
建物
標識

0. 導入 (2)Semantic Segmentationとは
http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 より引用
(Classification)

0. 導入 (3)CNNによるSemantic Segmentation
FCN[J.Long+, CVPR2015]
← Classification
何が映っているか
矩形ごとに出力
← Semantic Segmentation
何が映っているか
ピクセルごとに出力
①基本原理
②学習方法
③データの集め方
どのピクセルが猫かをアノテーション（正解ラベル付け）すれば良い
一体どうやって？人がやったら時間がかかるぞ……
データ数 GPU
レベルを上げて物理で殴ればいい

0. 導入 (4)アノテーションの呪い (The Curse of Dataset Annotation)
[J.Xie+, CVPR2016]を元に作成
← 短時間でアノテーションできるタスクの
データは大量にある
← アノテーションに時間がかかるため
十分なデータが無い
どうにかして大量のデータが欲しい

0. 導入 (5)今回紹介する論文・データセット
1. Cityscapes Dataset [M.Cordts+, CVPR2016]
2. 3D to 2D Label Transfer [J.Xie+, CVPR2016]
3. SYNTHIA Dataset [G.Ros+, CVPR2016]
4. Virtual KITTI Dataset [A.Gaidon+, CVPR2016]
5. Scene Flow Datasets [N.Mayer+, CVPR2016]
FCN, SegNetの詳細等は紹介しないため、以下をご参照下さい
https://computing.ece.vt.edu/~f15ece6504/ (W7: Oct 6)
http://www.slideshare.net/Takayosi/ieee-itss-nagoya-chapter (p.40あたり)
http://www.slideshare.net/cvpaperchallenge
人手で頑張ろう
3Dスキャン
データを使おう
CGを使おう

1. Cityscapes
論文： http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Cordts_The_Cityscapes_Dataset_C
VPR_2016_paper.pdf
プロジェクトページ： https://www.cityscapes-dataset.com/
スライド： https://www.mpi-inf.mpg.de/fileadmin/inf/d2/HLCV/HLCV_2016/cv-ss16-0707-
deep-learning3.pdf
The Cityscapes Dataset for Semantic
Urban Scene Understanding
Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld,
Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth,
Bernt Schiele

1. Cityscapes (1)データの特徴
Fine annotations
・5000枚
・Instance-wise annotation
（人は1人ずつ、車は1台ずつ）
・品質を保証するため内製
・1枚あたり1時間半かけて
アノテーション＋チェック
Coarse annotations
・20000枚
・弱教師あり学習用
（使わなくても良い）
・外注
・1枚あたり7分以下で
アノテーション

1. Cityscapes (1)データの特徴
従来のデータセットとは一線を画す、多様・大規模なデータセット
アノテーションピクセル数

1. Cityscapes (2)Instance数最大のデータ

1. Cityscapes (3)評価結果
使用解像度が精度に大きく影響
Cityscapesを使って学習すると
他のデータセットでも精度向上
↑
downscaling factor

2. 3D to 2D Label Transfer
Semantic Instance Annotation of Street
Scenes by 3D to 2D Label Transfer
Jun Xie, Martin Kiefel, Ming-Ting Sun, Andreas Geiger
foundation.org/openaccess/content_cvpr_2016/papers/Xie_Semantic_Instance_Annotation_CVPR
_2016_paper.pdf
プロジェクトページ： http://www.cvlibs.net/projects/label_transfer/ (2016/7/23時点では未公開)

2. 3D to 2D Label Transfer (1)データの特徴
①LIDARで3Dデータを取得
②3Dの状態でアノテーション
③3Dから2Dに転写
・40万枚の画像
・10万のレーザースキャンデータ
・semantic 3D annotations
・郊外の静止物にフォーカス
・先行研究と相補的
- Cityscapes：都市
- [L.-C.Chen+, CVPR2014]：
車両へのCADモデルあてはめ
データセット作成方法データセット内容
収集対象

2. 3D to 2D Label Transfer (2)手法
ピクセルと3D点群のラベルを同時に推定するCRFモデルを使用
Pixel Unary Potentials
3D Point Unary Potentials
Geometric Unary Potentials
Pixel Pairwise Potentials 2D/3D Pairwise Potentials
3D Pairwise Potentials
①Gibbs energy function

2. 3D to 2D Label Transfer (2)手法
②Geometric Unary Potentials
Curb, Foldを検出し、道路・歩道・壁のラベル変化に対応

2. 3D to 2D Label Transfer (3)定量評価結果
2D to 2D（±5フレームの画像から中間画像を推定）の従来手法、
単純な3D to 2Dの転写と比較し、高精度
2D to 2D
3D to 2D

2. 3D to 2D Label Transfer (4)アノテーション時間
2Dでは20時間かかるアノテーション（※）を
提案手法では3時間未満でアノテーション可能
※条件：
・200フレームの動画を10フレームごとにアノテーション
・1枚のアノテーションに60分かかると仮定

2. 3D to 2D Label Transfer (5)定性評価結果
3D点群転写結果
入力画像
+
segmentation結果
error map
大部分の境界を正しく推定できるが
いくつか課題あり（樹、コントラストの低い領域、等）

3. SYNTHIA
foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_
2016_paper.pdf
プロジェクトページ： http://synthia-dataset.net/
The SYNTHIA Dataset: A Large Collection
of Synthetic Images for Semantic
Segmentation of Urban Scenes
German Ros, Laura Sellart, Joanna Materzynska, David Vazquez,
Antonio M. Lopez

3. SYNTHIA (1)データの特徴
• CGで生成した架空の都市のデータ
• 季節・天気・照明条件・視点の変動あり
• ground truth: semantic segmentation, depth
詳細は公式動画をご覧下さい
http://synthia-dataset.net/dataset/

3. SYNTHIA (2)手法
• 2種のCNNでSemantic Segmentation
- T-Net [G.Ros+, arXiv2016]
- FCN [J.Long+, CVPR2015]
• 実写データとCGデータを交ぜて学習する方法
BGC (Balanced Gradient Contribution) [G.Ros+, arXiv2016]を使用し
CGデータの重要度を下げる（発散を防ぐ効果あり）
実際には、実写データ6枚とCGデータ4枚を含むミニバッチを
使用しているだけ（λ=4/6）
(実写データでのロス) + λ(CGデータでのロス)

3. SYNTHIA (3)定量評価結果
実写データとCGデータを併用して学習することで
実写データのみで学習した場合と比較し精度向上
（Camvid, KITTIの場合、Class Accuracyが10%前後向上）

3. SYNTHIA (4)定性評価結果
Real(実写) + Virtual(CG) が優勝

4. Virtual KITTI
foundation.org/openaccess/content_cvpr_2016/papers/Gaidon_Virtual_Worlds_as_CVPR_2
016_paper.pdf
プロジェクトページ：http://www.xrce.xerox.com/Research-Development/Computer-
Vision/Proxy-Virtual-Worlds
http://www.xrce.xerox.com/Research-Development/Publications/2015-085
Virtual Worlds as Proxy for Multi-Object
Tracking Analysis
Adrien Gaidon, Qiao Wang, Yohann Cabon, Eleonora Vig

4. Virtual KITTI (1)データの特徴
KITTI (multi-object
tracking benchmark)
Virtual KITTI
ground truth
optical flow, segmentation, depth
CGで
クローン作成

4. Virtual KITTI (1)データの特徴
カメラの向き、時間帯、天気の7種の変動を用意

4. Virtual KITTI (2)評価結果
• multi-object trackingの精度を、2種のTrackerで評価
• 実写データでの学習とCGデータでの学習で同程度の精度
→ CGデータが実写データの代替として有用

4. Virtual KITTI (2)評価結果
CGデータでプレトレーニングし
実写データでファインチューニングすることで精度向上

5. Scene Flow Datasets
foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR_2016_pa
per.pdf
プロジェクトページ： http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/
A Large Dataset to Train Convolutional
Networks for Disparity, Optical Flow, and
Scene Flow Estimation
Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer, Daniel
Cremers, Alexey Dosovitskiy, Thomas Brox

5. Scene Flow Datasets (1)先行研究
Flying Chairs Dataset (FlowNet [A.Dosovitskiy+, ICCV2015])
・椅子が空を飛ぶデータセット
・奥行き方向には飛ばない
・オプティカルフロー推定用CNNの学習に使える

5. Scene Flow Datasets (2)データの特徴
③Driving
（KITTIリスペクト）
②Monkaa
（Sintelリスペクト）
①FlyingThings3D
・色んな物が空を飛ぶデータセット（椅子だけじゃない！）
・奥行き方向にも飛ぶ！
・シーンフロー推定用CNNの学習に使える！

5. Scene Flow Datasets (3)手法
①オプティカルフローを推定するFlowNetを学習
②視差を推定するDispNetを2つ学習
③ ①,②を統合したSceneFlowNetを学習
シーンフローの計算に
時刻t, t+1の視差の変化が必要

5. Scene Flow Datasets (4)視差評価結果
精度では劣るが1000倍高速
http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php
?benchmark=stereo （2016/7/23時点）
特にForegroundの精度が良い

5. Scene Flow Datasets (5)シーンフロー評価結果
オプティカルフロー・視差を別々に求めるより
SceneFlowNetで統合して求める方が高精度
オプティカルフロー推定では、Flying Chairs Datasetには勝てなかったよ…

まとめ
• Semantic Urban Scene Understanding に関する
5つの論文・データセットを紹介
• Semantic Segmentation用データを如何に集め、
如何に使うべきかは現時点で判断できず、更なる研究が必要
• Tracking, Scene Flow等、動きに関するデータは
CGで代用できる可能性が高い
どのようなデータで精度が上がり、それが何故なのか分析が必要

補足：CVPR2016で目についた傾向
Segmentation関連が約65件、うちSemantic Segmentationが約30件
（タイトル・セッション名で検索）
• Multi-scale対応
FCN等でreceptive fieldが固定サイズである問題の解決
• RNNによる画素走査
context情報を抽出
• Boundary, Optical Flowの併用
CRFの併用同様、境界付近の精度を向上
• 他のタスクへの転用
Semantic Segmentationの結果やCNNアーキテクチャを転用

補足：CNNによるピクセルラベリング
http://people.eecs.berkeley.edu/~jonlong/ より引用
・似た構造のCNNで、Semantic Segmentation以外にも様々な応用が可能
・複数のタスクが相補的な効果を持ち得る（例：SceneFlowNet）
・入力・出力の教師データの組み合わせによって機能が変わる
データ次第で新しい問題を設定・解決できる可能性がある
ラフスケッチの線画化 [Simo-Serra+, SIGGRAPH2016]

Dataset for Semantic Urban Scene Understanding

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Dataset for Semantic Urban Scene Understanding

Ähnlich wie Dataset for Semantic Urban Scene Understanding (20)

Dataset for Semantic Urban Scene Understanding