SlideShare ist ein Scribd-Unternehmen logo
1 von 11
Downloaden Sie, um offline zu lesen
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
SiamMOT: Siamese Multi-ObjectTracking
Kotaro Omori, Suzuki Yonekura Lab
Object trackingとは
• 物体の追跡を⾏なうタスク
• 以下のように分類される
– SOT or MOT
– Short term or Long term
– Siamese or Correlation Filter
– オンライン or オフライン
2
既存⼿法の課題
• Siamese trackers in SOT
– Detectorとtrackerが分離されている(DeepMOT)
• Tracking-by-Detection in MOT
– Object detection, optical flow, re-identificationを組み合わせているため計算
量的に⾮効率
• Online MOT
– 学習時間がかかる
• Motion Modeling in SORT
– 位置や箱の形といった単純な情報を元に追跡している
3
SiamMOT: Siamese Multi-Object Tracking
4
Siamese Tracker
• Object Trackingを⽬標画像から抽出される特徴表現と探索画像から
抽出される特徴表現間の相互関係により得られる汎⽤的な類似性マッ
プを学習することで解く
• 代表的な⼿法
– SiamRPN
• 各グリッドに bounding box の基準となるアンカーを設定し、各グリッドは各アンカーの
物体らしさとアンカーのbounding boxの正解への座標と幅と⾼さへの補正値を出⼒するよ
うに学習
5
Siamese trackerによるMotion modeling
• Siam	TrackerによるMotion	modelingを複数instanceに並列で⾏う
• 345
6
: フレーム86
から抽出された特徴量, 3:5
6;<
: フレーム86;<
から抽出された特徴量
– Mask-RCNNのROI(Region	of	Interest)という部分で抽出される
– FG: オブジェクトのある領域、HG: 探索領域,bounding	boxの中⼼位置を保ったままr倍する
• LG
6;<
: M + δにおけるPQRMSQTU PのLPRPVPWPMX RTYZU
– t+δにおいてinstanceがvisibleなら⾼いスコアになる
6
Implicit motion model (IMM)
• 2つのフレームから特徴量を連結してMLPに学習させることでobject trackingする⼿法
• 以下のように表される
7
Explicit motion model (EMM)
• 本⼿法ではこちらを取り⼊れている
• IMMに⽐べて以下の点で優れている
– Channel単位で独⽴に学習ができる
– より細かいピクセルレベルの学習ができる
• 以下のように定式化される
8
RPN features
• RPN (Region Proposal Network)
– フレーム!"#$の画像に対してObject detectionを⾏なうネットワーク
– Siamese Tracker による予測とテンプレートマッチングを⾏なう
9
IOU / NMS操作
• NMS (Non Maximum Suppression)
– 同じクラスとして認識された領域の重複を防ぐためのアルゴリズム
• IOU (Insertion over Union)
– 領域の重なり度合いを表す指標
• Area of overlap / Area of Union
10
Training and Inference
• 損失関数
– ! = !#$% + !'()(*) + !+,)-,%
• 推論
– IOU基準のNMS操作により以下がそ
れぞれ⾏われる
• Siamese Trackerによる予測
• RPNによるinstanceの検知
• Spatial matching
– IOUが0.5以上のところをmatchとす
る
• solver
– Visibly confidenceが閾値αを超えて
いるもの
– Matchしなかった領域でvcが閾値β
を超えるところは作る
– 閾値αを下回る部分を消す
11

Weitere ähnliche Inhalte

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

[DL輪読会]SiamMOT: Siamese Multi-Object Tracking

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ SiamMOT: Siamese Multi-ObjectTracking Kotaro Omori, Suzuki Yonekura Lab
  • 2. Object trackingとは • 物体の追跡を⾏なうタスク • 以下のように分類される – SOT or MOT – Short term or Long term – Siamese or Correlation Filter – オンライン or オフライン 2
  • 3. 既存⼿法の課題 • Siamese trackers in SOT – Detectorとtrackerが分離されている(DeepMOT) • Tracking-by-Detection in MOT – Object detection, optical flow, re-identificationを組み合わせているため計算 量的に⾮効率 • Online MOT – 学習時間がかかる • Motion Modeling in SORT – 位置や箱の形といった単純な情報を元に追跡している 3
  • 5. Siamese Tracker • Object Trackingを⽬標画像から抽出される特徴表現と探索画像から 抽出される特徴表現間の相互関係により得られる汎⽤的な類似性マッ プを学習することで解く • 代表的な⼿法 – SiamRPN • 各グリッドに bounding box の基準となるアンカーを設定し、各グリッドは各アンカーの 物体らしさとアンカーのbounding boxの正解への座標と幅と⾼さへの補正値を出⼒するよ うに学習 5
  • 6. Siamese trackerによるMotion modeling • Siam TrackerによるMotion modelingを複数instanceに並列で⾏う • 345 6 : フレーム86 から抽出された特徴量, 3:5 6;< : フレーム86;< から抽出された特徴量 – Mask-RCNNのROI(Region of Interest)という部分で抽出される – FG: オブジェクトのある領域、HG: 探索領域,bounding boxの中⼼位置を保ったままr倍する • LG 6;< : M + δにおけるPQRMSQTU PのLPRPVPWPMX RTYZU – t+δにおいてinstanceがvisibleなら⾼いスコアになる 6
  • 7. Implicit motion model (IMM) • 2つのフレームから特徴量を連結してMLPに学習させることでobject trackingする⼿法 • 以下のように表される 7
  • 8. Explicit motion model (EMM) • 本⼿法ではこちらを取り⼊れている • IMMに⽐べて以下の点で優れている – Channel単位で独⽴に学習ができる – より細かいピクセルレベルの学習ができる • 以下のように定式化される 8
  • 9. RPN features • RPN (Region Proposal Network) – フレーム!"#$の画像に対してObject detectionを⾏なうネットワーク – Siamese Tracker による予測とテンプレートマッチングを⾏なう 9
  • 10. IOU / NMS操作 • NMS (Non Maximum Suppression) – 同じクラスとして認識された領域の重複を防ぐためのアルゴリズム • IOU (Insertion over Union) – 領域の重なり度合いを表す指標 • Area of overlap / Area of Union 10
  • 11. Training and Inference • 損失関数 – ! = !#$% + !'()(*) + !+,)-,% • 推論 – IOU基準のNMS操作により以下がそ れぞれ⾏われる • Siamese Trackerによる予測 • RPNによるinstanceの検知 • Spatial matching – IOUが0.5以上のところをmatchとす る • solver – Visibly confidenceが閾値αを超えて いるもの – Matchしなかった領域でvcが閾値β を超えるところは作る – 閾値αを下回る部分を消す 11