SlideShare ist ein Scribd-Unternehmen logo
1 von 17
第五回 全日本コンピュータビジョン研究会
ECCV2020論文読み会
pacifinapacific
Chained-Tracker: Chaining Paired Attentive
Regression Results for End-to-End Joint
Multiple-Object Detection and Tracking
本日紹介する論文
選んだ理由:
End to Endでさらに実装がシンプルで分かりやすい!!
ECCV2020 Spotlight
所属機関:Tencent Youtu Lab, Fudan University , NAIST
MOTタスクとは?
動画内の人物を検出して同じ人物には同じIDを割り当てる(ターゲットを人とした場合)
イメージとしてはDetection + フレーム間のre-identification
𝑡 = 𝑇 + 1𝑡 = 𝑇
フレーム間で人物のIDは共通
新規検出には新規ID
detection data associationfeature extraction
基本のフレームワーク
4
Data associationについて
MOTタスクのdata associationの多くはハンガリアン法を用いたものが使われる
𝑡 = 𝑇
A
B
C
a
b
c
d
A B C
a 0.6 0.1 0.3
b 0.2 ・・・ ・・・
c ・・・ ・・・ ・・・
d ・・・ ・・・ ・・・
①フレーム間で人物間のなにかしらの類似度を計算
(人物のembeddingのcos類似度やBBoxのIOUなど)
②人物を紐づけたとき全体の類似度が最大になるよう定式化
(重みつき最大2部マッチング問題)
③ハンガリアン法で解く(Kuhn-Munkres algorithm)
Data associationのステップ:
人物間の類似度行列
(グラフのエッジ重みに該当)
5
MOTにおける1ステージモデルと2ステージモデル
2ステージモデル(tracking-by-detection paradigm)
Detectionで得られたBboxを取得してからfeature extractionモデルを適用
専用のモデルで特徴抽出
Appearance, Motion, geometryなど
FasterRCNNなどで検出
1ステージモデル
detectionモデルとfeature extractionモデルで特徴抽出を2回挟む
推論速度の低下、個別学習によりlocal optimaにしかたどり着かない
Detector内部にReid用のモジュールを組み込み
特徴抽出を共通化でき、推論の高速化が可能
近年、こっちのタイプが増加傾向!!
6
1ステージモデルのパラドックス
ベースとなる特徴抽出を共通化することで学習が曖昧になる恐れがある
CNN
BBox
class
Reid embedding
共通部
detection部
Person class
background
Detectionのため離したい
reidのため離したい
特徴空間
Reidモジュールでは同じクラスの異なるインスタンスを識別する必要がある
特徴抽出の共通化によりDetectionモジュールとの競合が発生し、学習の難しさにつながる
論文のcontribution
MOTにおける新しいEnd to Endモデルの提案
新しい1ステージモデル考えたよ
Informativeな領域へのAttentionモジュールの設計
classとidでregression部にattentionかけて分離して学習しやすくするよ
MOT16、MOT17でSOTA
8
手法概要
Paired Boxes Regressionにより隣接フレームを使用したノード単位でdetecton
各ノードを共通フレームのIOUによりリンク
隣接フレーム(ノード)をまとめて入力し,
2フレームのdetectionを同時に行うPaired Boxes Regressionの提案
トラッキングをノード間の共通フレームBboxのchainとして考え、IOUベースでマッチング
9
モデル詳細(1/2)
隣接フレームのそれぞれパラメータ共有したRetinaNetに入れて特徴抽出
チャネル方向に結合しclassification、ReID, regressionの3つのbranchに枝分かれ
Classificationブランチ:そのgridが背景かObjectか判断する特徴マップ
出力次元 (Batch,class,w,h)
ReIDブランチ:そのgridの物体が隣接フレームで同じインスタンスか判断する特徴マップ
出力次元(Batch,1,w,h)
RetinaNetのFPN出力にelement-wiseでAttention
注目領域のサポートを受けてRegressionブランチへ入力
10
モデル詳細(2/2)
Paired Boxes regressionはChained-Anchorsによって行われる
従来のAnchor: 1フレームの1つのインスタンスを表現 (𝑐 𝑥, 𝑐 𝑦, 𝑤, ℎ)
Chained-Anchors: 2フレーム間の共通インスタンスを表現 (𝑐 𝑥𝑓1, 𝑐 𝑦𝑓1, 𝑤𝑓1, ℎ 𝑓1, 𝑐 𝑥𝑓2, 𝑐 𝑦𝑓2, 𝑤𝑓2, ℎ 𝑓2)
損失関数はRetinanetのFocalLossにid分を追加した形
Regressionブランチの出力次元(Batch, w*h, 8)
ここがポイント
2フレーム分でlossを計算
11
トラッキングアルゴリズム
共通フレームのIOUで2つのノードを紐づけ(Bbox-chain)
IOUが最大化するようにハンガリアン法でマッチングさせる
同じフレームをRetinanetに2回通すのは無駄なので特徴量は
ノード間でメモリに保存しておく
・short-term disappearing対策 (occlusionなどで一時的にトラッキングが不可能なとき)
追跡が切れてからσフレーム後まで物体が等速で動いていると仮定し、
Bbox位置を予測し続けておく
後に物体が現れたとき、予測BboxとのIOUが高ければidが復元できる
12
実装詳細
 DataAugmentation
photometric distortions, random flip and random crop.
 画像サイズはMOT16,17で512x512 (元画像 1920x1080)
 学習時の隣接フレームは1~3フレームの間でランダムに選択
 ベースモデルはRetinaNet (resnet-50)
 バッチサイズ8で100epoch
 予測Bboxの重複削除は閾値0.7のSoft-NMS
 IOUマッチングの閾値は0.5
 short-term disappearingの追跡フレームはσ=10フレーム
13
性能評価
MOTAとIDF1の違い
GTのid軌跡 : 1-1-1-1-1-1-1-1-1-1
予測1 : 1-1-2-2-3-3-4-4-5-5
予測2 : 1-1-2-2-1-1-2-2-1-1
予測1
MOTA=1 −
4
10
= 0.6
IDF1=
4
4+8+8
= 0.2
予測2
MOTA=1 −
4
10
= 0.6
IDF1=
12
12+4+4
= 0.6
MOTAはID切り替わりの頻度を評価
IDF1はIDの統一性を評価
MOT16,17でSOTAを達成した
比較されてるモデルは結構古い!?
他の1ステージSOTA手法と比較する
14
CenterTrack (ECCV2020)
Xingyi Zhou et al.「Tracking Objects as Points」
CenterNetをトラッキング用に改造。
前フレームからのオフセットを出力することでdetectionをサポートしながらトラッキング
従来のCenterNetの入力に前フレーム画像とtrackされている人のヒートマップを追加
出力に前フレームからの移動オフセットを追加(それぞれチャネルを増やすだけ)
出力される
heatmap座標
出力されるoffset
入力した
前フレームのheatmap座標
マッチングコスト
マッチングコストが最小になるようIDを割り当て
15
FairMOT
Yifu Zhang et al. 「A Simple Baseline for Multi-Object Tracking」
シンプルかつ強力な1ステージのベースラインモデルを提案
(ECCV2020のJDE Tracker※の改良版) ※Zhongdao Wang et.al 「Towards Real-Time Multi-Object Tracking」
アンカーベースのdetectionは粗く、reid特徴を抽出するのに適さない
→CenterNetベースでAnchor freeに
DetectionモデルにReidブランチを追加
Reid特徴はhigh level featureが有効
→Encoder-Decoderで解像度をキープ
16
他SOTA手法との比較
Tracker MOTA↑ IFD1↑ MT↑ ML↓ IDs↓ Hz↑
CenterTrack 67.3 59.9 34.9 24.8 2898 17.5
Chained-
Tracker
66.6 57.4 32.2 24.2 5529 34.4
FairMOT 67.5 69.8 37.7 20.8 2868 25.9
IDF1は最新手法であるFairMOTが高いが,MOTAは似た値
https://github.com/pjl1995/CTracker
https://github.com/ifzhang/FairMOT
https://github.com/xingyizhou/CenterTrack
どれも実装公開されているので好きなの試そう!!
17
MOTの課題と展望(主観含み)
 DataAsscociationのEnd to End化
一般的に使われるIOU+ハンガリアン法は微分可能ではないため真にEnd to Endになってない
→その時刻の複雑性や検出の不確かさを考慮して推論できない
 追跡classが人以外や複数になったときの性能は?
MOTデータセットは対象が人のみ
この世に同一人物は存在しないが同一車種は存在する
 object permanenceの良い表現方法
物体がocclusionされたとき、「検出されてないけど後ろに存在する」をどう表現するか
現状のMotionモデルだけで十分か?

Weitere ähnliche Inhalte

Ähnlich wie Eccv2020_chained tracker

march report in japanese
march report in japanesemarch report in japanese
march report in japanesenao takatoshi
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
Cross-modality meta-survey of dataset
Cross-modality meta-survey of datasetCross-modality meta-survey of dataset
Cross-modality meta-survey of datasetcvpaper. challenge
 
Machine learning at swift3
Machine learning at swift3Machine learning at swift3
Machine learning at swift3Daisuke Nagata
 
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報NVIDIA Japan
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会nlab_utokyo
 
Lecture univ.tokyo 2017_okanohara
Lecture univ.tokyo 2017_okanoharaLecture univ.tokyo 2017_okanohara
Lecture univ.tokyo 2017_okanoharaPreferred Networks
 
Deep Learning基本理論とTensorFlow
Deep Learning基本理論とTensorFlowDeep Learning基本理論とTensorFlow
Deep Learning基本理論とTensorFlowTadaichiro Nakano
 
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...DeepEyeVision, Inc.
 
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyamaPreferred Networks
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural NetworksYosuke Shinya
 
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知Core Concept Technologies
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知Hideo Terada
 

Ähnlich wie Eccv2020_chained tracker (20)

march report in japanese
march report in japanesemarch report in japanese
march report in japanese
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Cross-modality meta-survey of dataset
Cross-modality meta-survey of datasetCross-modality meta-survey of dataset
Cross-modality meta-survey of dataset
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
 
Machine learning at swift3
Machine learning at swift3Machine learning at swift3
Machine learning at swift3
 
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会
 
Lecture univ.tokyo 2017_okanohara
Lecture univ.tokyo 2017_okanoharaLecture univ.tokyo 2017_okanohara
Lecture univ.tokyo 2017_okanohara
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
Deep Learning基本理論とTensorFlow
Deep Learning基本理論とTensorFlowDeep Learning基本理論とTensorFlow
Deep Learning基本理論とTensorFlow
 
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
 
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
 
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
 
SOINN PBR
SOINN PBRSOINN PBR
SOINN PBR
 
MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019
 

Kürzlich hochgeladen

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 

Kürzlich hochgeladen (7)

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 

Eccv2020_chained tracker