[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals

1DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Takumi Ohkuma, Nakayama Lab M2
DeepSignals: Predicting Intent of Drivers Through
Visual Signals
2020/6/5

自己紹介
 大熊拓海（オオクマタクミ）
 東京大学情報理工学系研究科創造情報学専攻中山研究室 M2
 専門はfew-shot learning関連
 現在のテーマはOpenset image recognitionとFew-shot learningの融合に関する
研究
 共同研究で自動運転系の研究にも携わっている
2
2020/6/5

書誌情報
 題名：DeepSignals: Predicting Intent of Drivers Through Visual Signals
 出典：International Conference on Robotics and Automation (ICRA) 2019
 著者：Davi Frossard, Eric Kee, Raquel Urtasun (Uberの研究チーム)
 URL：https://arxiv.org/pdf/1905.01333.pdf
3
2020/6/5

概要
 自動運転に必要な自動車の行動予測に関する研究
 サブタスクとして、自動車のウィンカーや視点の推定も行う
 Convolutional LSTMを用いることで精度の向上に貢献
 Uberの自動運転プラットフォームを用いて大規模なデータセットを用意し、
実験を行う
4
2020/6/5

メインタスク
 自動車が写った連続画像を入力として受け取
り、その自動車が次にどのような行動をする
かを予測する。
 予測する行動の種類はLeft Turn (左折), Right
Turn (右折), Flashers (道路脇で停止), Off (その
まま), Unknown (不明) の5クラスである。
5
2020/6/5

サブタスク
 ウィンカー検出 (左右それぞれ On, Off ,Unknown)
 自動車は右折、左折、一時停止するときにはウィンカーを出す決まりになって
いるので、これを使わない手はない。
 対象となる自動車に対する視点 (前, 後, 左, 右)
 どの視点から対象となる自動車を見ているのか判別できないと、認識が難しい
（同じ右折でも向きが変わってしまう）
これらのタスクをサブタスクとして同時に学習させることで、メイン
タスクである行動予測の精度を高めることが目的
6
2020/6/5

モデルの概要
 基本的には Attention (a), CNN (b), Convolutional LSTM (c), FC (d)の流れである。
7
2020/6/5

Attention, CNN
Attention
 何処に注目するかを示すヒートマップ
 4層のCNNを用いており入力サイズは224×224×3、
出力サイズは224×224×1
 元の画像とAttentionの出力をピクセルごとにかけ
合わせ、次のCNN (VGG16) の入力とする
Input Attention
CNN
• Imagenet pretrained VGG16を用い、training中にfine tuningする。
• 出力サイズは7×7×512
8
2020/6/5

Convolutional LSTM
 通常のLSTMが内部でFCに基づく計算を行うのに
対し、ConvLSTMは畳み込みに基づく計算が行わ
れる。
 𝑋𝑡が時刻tにおけるVGG16
(もしくは下位のConvLSTM) より与えられる入力
 𝐻𝑡が時刻tにおける出力
(次のConvLSTM層もしくはFC層に渡す値)
 正則化のため (3) の出力にDropout
 本研究では2層のConvLSTM層を用いる
 隠れ層の次元は7×7×256, 出力サイズは
7×7×1024
9
2020/6/5

データセット (1)
 ウィンカー検出用の公開された大規模データが無いので、研究チームが自作した。
 Uberの自動運転プラットフォームから10Hzで連続画像を抜き出した
 10,000以上の連続画像を作成し、フレーム総数は1,257,591
 データ画像は予め自動車領域が抜き出されている
(Detectionの必要はない)。
 各フレームに行動予測, 左右ウィンカーのON, OFF, 自動車の向きのアノテーション
 ウィンカーに関してはフレームごとの点灯、消灯ではなく、連続時間で考えたときのON,
OFFのラベルである。
 点滅しているウィンカーに対しては、消灯しているフレームに対するラベルもONである。
10
2020/6/5

データセット (2)
 occlusionや悪天候等、難しい状況の
データも含まれている。
• 各クラスラベルのデータ数は以下の様に
ばらつきがある。
11
2020/6/5

学習
 誤差関数は4つのheadのcross-entropy loss関数の重み付き和である
 𝑦が予測ラベル, 𝑥が入力で, intent, left, right viewがそれぞれ行動予測, 左ウィンカー, 右ウィン
カー, 視点である。
ℒ 𝑦, 𝑥 θ = 𝑙𝑖𝑛𝑡𝑒𝑛𝑡 𝑦, 𝑥 θ + 𝑙𝑙𝑒𝑓𝑡 𝑦, 𝑥 θ + 𝑙 𝑟𝑖𝑔ℎ𝑡 𝑦, 𝑥 θ + 𝑙 𝑣𝑖𝑒𝑤 𝑦, 𝑥 θ
𝑙 𝑦, 𝑥 θ = γ
𝑐
𝑦𝑐log(σ 𝑐(𝑥|θ))
 全て微分可能であり、End-to-Endの学習を行う。
 Adam optimizerを用い（パラメータの詳細等は論文を参照）、50epochの学習を行った。
 25epochほどで大体収束するらしい
12
2020/6/5

実験結果 (1)
 行動予測に関して以下の様な混合行列が得られた
 各行が正解ラベル、各列が予測ラベルに対応している
• 偽陰性率（行動を予測できないでOFFと判断する）が高めになっている。
• 逆に偽陽性率はそれほど高くない。
• Flashersの精度が低い (データ数が少ないから？)
13
2020/6/5

実験結果 (2)
モデルアーキテクチャの有効性に関する実験
1. FC-LSTM: CNNを用いずに元の画像を平滑化してLSTMに入力するモデル
2. ConvLSTM: CNNを用いずに元の画像をそのままConvLSTMに入力するもでる
3. CNN-LSTM: CNNの出力をConvLSTMではなく通常のLSTMに入力したものを比較実験に用いる。
• 1はCNNを用いておらず、画像の良い特徴量が得られていない。
• 2はConvLSTMの入力サイズが大きすぎてチャネル数や層数が非常に少なくなってしまい
(3層, 8, 8, 3チャネル) 精度が出ない。
• 3とoursの差は、LSTMよりConvLSTMがこのタスクにおいて優れていることを示している。
14
2020/6/5

実験結果(3)
Ablation study
 1はAttentionを抜いたとき、2はAttention
にU-Netを用いた時に対応し、それぞれ
精度が低下している。
 3, 4はウィンカー及び視点のサブタスク
に関する実験で、これらを省くと精度が
劣化するので、サブタスクは行動推定に
対して有効に働いているとわかる。
 5, 6は各種normalizationを導入した実験
であり、本タスクにおいては有効ではな
いようである。
15
2020/6/5

実験結果(4)
Detectorを用いた場合の精度
 本データセットはあらかじめ自動車の領域に切り取られた動画であるが、実際の自動運転
ではDetection部分から検出器を用いて自動で行う必要がある。
 Detector部分の不正確性によって、行動推定の精度が下がらないかどうかを確かめる実験
の結果が以下である。
 DetectorはLIDARを用いたものと書いてあるが、詳細は不明
• Detectorを用いた場合でも(Detections) 多少の精度劣化は見られるが、十分機能する。
16
2020/6/5

まとめ
 自動運転に必要な自動車の行動予測に関する研究
 サブタスクとして、自動車のウィンカーや視点の推定も行う
 Convolutional LSTMを用いることで精度の向上に貢献
 Uberの自動運転プラットフォームを用いて大規模なデータセットを用意
し、実験を行った。
17
2020/6/5

感想
 作成しているデータセットが大規模で素晴らしい（流石Uber）。
(120万フレーム, 10000Seqences)
 データセットを公開してほしい。
 純粋に研究に使いたい
 データセットを見られないので、例えば精度70%と言われても良くわからない
 論文に載せてあるデータセットの図も少しわかりにくいので、実感がつかみにくい
 せっかくなのでウィンカー検出タスクの精度も公開してほしい。
 ウィンカー検出タスクは自動運転パイプラインに組み込むこともできる重要なタスク
なので、こちらの精度も出せているとすれば大きな研究成果であると思う。
18
2020/6/5

[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Similar to [DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals

Similar to [DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals (20)

More from Deep Learning JP

More from Deep Learning JP (20)

[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals