[DL輪読会]SiamMOT: Siamese Multi-Object Tracking

•

1 gefällt mir•388 views

Deep Learning JP

2021/06/11 Deep Learning JP: http://deeplearning.jp/seminar-2/

Technologie

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
SiamMOT: Siamese Multi-ObjectTracking
Kotaro Omori, Suzuki Yonekura Lab

Object trackingとは
• 物体の追跡を⾏なうタスク
• 以下のように分類される
– SOT or MOT
– Short term or Long term
– Siamese or Correlation Filter
– オンライン or オフライン
2

既存⼿法の課題
• Siamese trackers in SOT
– Detectorとtrackerが分離されている(DeepMOT)
• Tracking-by-Detection in MOT
– Object detection, optical flow, re-identificationを組み合わせているため計算
量的に⾮効率
• Online MOT
– 学習時間がかかる
• Motion Modeling in SORT
– 位置や箱の形といった単純な情報を元に追跡している
3

SiamMOT: Siamese Multi-Object Tracking
4

Siamese Tracker
• Object Trackingを⽬標画像から抽出される特徴表現と探索画像から
抽出される特徴表現間の相互関係により得られる汎⽤的な類似性マッ
プを学習することで解く
• 代表的な⼿法
– SiamRPN
• 各グリッドに bounding box の基準となるアンカーを設定し、各グリッドは各アンカーの
物体らしさとアンカーのbounding boxの正解への座標と幅と⾼さへの補正値を出⼒するよ
うに学習
5

Siamese trackerによるMotion modeling
• Siam TrackerによるMotion modelingを複数instanceに並列で⾏う
• 345
6
: フレーム86
から抽出された特徴量, 3:5
6;<
: フレーム86;<
から抽出された特徴量
– Mask-RCNNのROI(Region of Interest)という部分で抽出される
– FG: オブジェクトのある領域、HG: 探索領域,bounding boxの中⼼位置を保ったままr倍する
• LG
6;<
: M + δにおけるPQRMSQTU PのLPRPVPWPMX RTYZU
– t+δにおいてinstanceがvisibleなら⾼いスコアになる
6

Implicit motion model (IMM)
• 2つのフレームから特徴量を連結してMLPに学習させることでobject trackingする⼿法
• 以下のように表される
7

Explicit motion model (EMM)
• 本⼿法ではこちらを取り⼊れている
• IMMに⽐べて以下の点で優れている
– Channel単位で独⽴に学習ができる
– より細かいピクセルレベルの学習ができる
• 以下のように定式化される
8

RPN features
• RPN (Region Proposal Network)
– フレーム!"#$の画像に対してObject detectionを⾏なうネットワーク
– Siamese Tracker による予測とテンプレートマッチングを⾏なう
9

IOU / NMS操作
• NMS (Non Maximum Suppression)
– 同じクラスとして認識された領域の重複を防ぐためのアルゴリズム
• IOU (Insertion over Union)
– 領域の重なり度合いを表す指標
• Area of overlap / Area of Union
10

Training and Inference
• 損失関数
– ! = !#$% + !'()(*) + !+,)-,%
• 推論
– IOU基準のNMS操作により以下がそ
れぞれ⾏われる
• Siamese Trackerによる予測
• RPNによるinstanceの検知
• Spatial matching
– IOUが0.5以上のところをmatchとす
る
• solver
– Visibly confidenceが閾値αを超えて
いるもの
– Matchしなかった領域でvcが閾値β
を超えるところは作る
– 閾値αを下回る部分を消す
11

Empfohlen

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners

Deep Learning JP

【DL輪読会】事前学習用データセットについて

Deep Learning JP

【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...

Deep Learning JP

【DL輪読会】Zero-Shot Dual-Lens Super-Resolution

Deep Learning JP

【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv

Deep Learning JP

【DL輪読会】マルチモーダル LLM

Deep Learning JP

【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...

Deep Learning JP

【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition

Deep Learning JP

Empfohlen

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners

Deep Learning JP

【DL輪読会】事前学習用データセットについて

Deep Learning JP

【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...

Deep Learning JP

【DL輪読会】Zero-Shot Dual-Lens Super-Resolution

Deep Learning JP

【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv

Deep Learning JP

【DL輪読会】マルチモーダル LLM

Deep Learning JP

【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...

Deep Learning JP

【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition

Deep Learning JP

【DL輪読会】Can Neural Network Memorization Be Localized?

Deep Learning JP

【DL輪読会】Hopfield network　関連研究について

Deep Learning JP

【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )

Deep Learning JP

【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...

Deep Learning JP

【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"

Deep Learning JP

【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "

Deep Learning JP

【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models

Deep Learning JP

【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"

Deep Learning JP

【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...

Deep Learning JP

【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...

Deep Learning JP

【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...

Deep Learning JP

【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

Deep Learning JP

【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...

Deep Learning JP

【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...

Deep Learning JP

【DL輪読会】マルチモーダル基盤モデル

Deep Learning JP

【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...

Deep Learning JP

【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...

Deep Learning JP

【DL輪読会】大量API・ツールの扱いに特化したLLM

Deep Learning JP

【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision

Deep Learning JP

【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...

Deep Learning JP

新人研修　後半 2024/04/26の勉強会で発表されたものです。

iPride Co., Ltd.

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス

CRI Japan, Inc.

Weitere ähnliche Inhalte

Mehr von Deep Learning JP

【DL輪読会】Can Neural Network Memorization Be Localized?

Deep Learning JP

【DL輪読会】Hopfield network　関連研究について

Deep Learning JP

【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )

Deep Learning JP

【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...

Deep Learning JP

【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"

Deep Learning JP

【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "

Deep Learning JP

【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models

Deep Learning JP

【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"

Deep Learning JP

【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...

Deep Learning JP

【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...

Deep Learning JP

【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...

Deep Learning JP

【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

Deep Learning JP

【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...

Deep Learning JP

【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...

Deep Learning JP

【DL輪読会】マルチモーダル基盤モデル

Deep Learning JP

【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...

Deep Learning JP

【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...

Deep Learning JP

【DL輪読会】大量API・ツールの扱いに特化したLLM

Deep Learning JP

【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision

Deep Learning JP

【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...

Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?

【DL輪読会】Hopfield network　関連研究について

【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )

【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...

【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"

【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "

【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models

【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"

【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...

【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...

【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...

【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...

【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...

【DL輪読会】マルチモーダル基盤モデル

【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...

【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...

【DL輪読会】大量API・ツールの扱いに特化したLLM

【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision

【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...

Kürzlich hochgeladen

新人研修　後半 2024/04/26の勉強会で発表されたものです。

iPride Co., Ltd.

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス

CRI Japan, Inc.

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）

Hiroshi Tomioka

NewSQLの可用性構成パターン（OCHaCafe Season 8 #4 発表資料）

NTT DATA Technology & Innovation

Amazon SES を勉強してみるその３2024/04/26の勉強会で発表されたものです。

iPride Co., Ltd.

Amazon SES を勉強してみるその２2024/04/26の勉強会で発表されたものです。

iPride Co., Ltd.

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル

CRI Japan, Inc.

Kürzlich hochgeladen (7)

新人研修　後半 2024/04/26の勉強会で発表されたものです。

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）

NewSQLの可用性構成パターン（OCHaCafe Season 8 #4 発表資料）

Amazon SES を勉強してみるその３2024/04/26の勉強会で発表されたものです。

Amazon SES を勉強してみるその２2024/04/26の勉強会で発表されたものです。

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル

[DL輪読会]SiamMOT: Siamese Multi-Object Tracking

1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ SiamMOT: Siamese Multi-ObjectTracking Kotaro Omori, Suzuki Yonekura Lab

2. Object trackingとは • 物体の追跡を⾏なうタスク • 以下のように分類される – SOT or MOT – Short term or Long term – Siamese or Correlation Filter – オンライン or オフライン 2

3. 既存⼿法の課題 • Siamese trackers in SOT – Detectorとtrackerが分離されている(DeepMOT) • Tracking-by-Detection in MOT – Object detection, optical flow, re-identificationを組み合わせているため計算量的に⾮効率 • Online MOT – 学習時間がかかる • Motion Modeling in SORT – 位置や箱の形といった単純な情報を元に追跡している 3

4. SiamMOT: Siamese Multi-Object Tracking 4

5. Siamese Tracker • Object Trackingを⽬標画像から抽出される特徴表現と探索画像から抽出される特徴表現間の相互関係により得られる汎⽤的な類似性マップを学習することで解く • 代表的な⼿法 – SiamRPN • 各グリッドに bounding box の基準となるアンカーを設定し、各グリッドは各アンカーの物体らしさとアンカーのbounding boxの正解への座標と幅と⾼さへの補正値を出⼒するように学習 5

6. Siamese trackerによるMotion modeling • Siam TrackerによるMotion modelingを複数instanceに並列で⾏う • 345 6 : フレーム86 から抽出された特徴量, 3:5 6;< : フレーム86;< から抽出された特徴量 – Mask-RCNNのROI(Region of Interest)という部分で抽出される – FG: オブジェクトのある領域、HG: 探索領域,bounding boxの中⼼位置を保ったままr倍する • LG 6;< : M + δにおけるPQRMSQTU PのLPRPVPWPMX RTYZU – t+δにおいてinstanceがvisibleなら⾼いスコアになる 6

7. Implicit motion model (IMM) • 2つのフレームから特徴量を連結してMLPに学習させることでobject trackingする⼿法 • 以下のように表される 7

8. Explicit motion model (EMM) • 本⼿法ではこちらを取り⼊れている • IMMに⽐べて以下の点で優れている – Channel単位で独⽴に学習ができる – より細かいピクセルレベルの学習ができる • 以下のように定式化される 8

9. RPN features • RPN (Region Proposal Network) – フレーム!"#$の画像に対してObject detectionを⾏なうネットワーク – Siamese Tracker による予測とテンプレートマッチングを⾏なう 9

10. IOU / NMS操作 • NMS (Non Maximum Suppression) – 同じクラスとして認識された領域の重複を防ぐためのアルゴリズム • IOU (Insertion over Union) – 領域の重なり度合いを表す指標 • Area of overlap / Area of Union 10

11. Training and Inference • 損失関数 – ! = !#$% + !'()(*) + !+,)-,% • 推論 – IOU基準のNMS操作により以下がそれぞれ⾏われる • Siamese Trackerによる予測 • RPNによるinstanceの検知 • Spatial matching – IOUが0.5以上のところをmatchとする • solver – Visibly confidenceが閾値αを超えているもの – Matchしなかった領域でvcが閾値β を超えるところは作る – 閾値αを下回る部分を消す 11