SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Downloaden Sie, um offline zu lesen
High-Speed Tracking with Kernelized
Correlation Filters
の紹介
西村仁志
2016/7/11
論文について
論文誌:PATTERN ANALYSIS AND MACHINE INTELLIGENCE (2014)
タイトル:High-Speed Tracking with Kernelized Correlation Filters
著者:João F. Henriques, Rui Caseiro, Pedro Martins, and Jorge Batista
the Institute of Systems and Robotics, University of Coimbra
URL: http://arxiv.org/pdf/1404.7584.pdf
実装:OpenCV 3.x内のTracking APIに実装されている
1 INTRODUCTON
・人物追跡:コンピュータビジョンシステムの中で重要な要素
・人物追跡タスク:ターゲットが含まれている画像のパッチが与えられたとき、
対象物と環境とを識別する
・学習:対象物が写っているポジティブサンプル以上に、それ以外のネガティブ
サンプルが重要
・ネガティブサンプルは画像から無限に得られるので、計算時間がかからない程度に、
多くのサンプルを集める必要がある
→各フレームからいくつかのサンプルをランダムに選ぶのが一般的
・明示的に繰り返しすることなく、様々な変形をさせた数千ものサンプルを集める
ツールを改良した
・フーリエ変換を用いると、学習アルゴリズムにおいて多くのサンプルを追加する
のが簡単になる
・巡回行列が、ポピュラーな学習アルゴリズムと古典的な信号処理の架け橋となる
=「カーネルの呪い」なしのカーネル化リッジ回帰に基づくトラッカー
・カーネルトリックを用いて、線形相関フィルターと同じくらいの計算量にした
・線形カーネルを用いることによって、マルチチャンネルでも利用可能
2 RELATED WORK
2.1 On tracking-by-detection
2.2 On sample translation and correlation filtering
2.3 Subsequent work
3 CONTRIBUTIONS
・以前のバージョン [29]で、巡回シフトさせたサンプルを用いてリッジ回帰を行い、
O(nlogn)で高速に学習を行った
・ただ、シングルチャンネルに限られていた
・本論文では、マルチチャンネルに拡張し、state-of-the-artsの特徴量を
使えるようにした
4 BUILDING BLOCKS
様々な変換を行った画像パッチの解析モデルを提案する
4.1 Linear regression
リッジ回帰:L2ノルムで正則化
zwzf T
)(ゴール: を求めること
学習サンプル
教師ラベル
学習パラメータ
正則化パラメータ
が対象物体かどうかを識別z
1x
2x
1y
2y
式(1)を解くと、
4.4節で、複素数を扱うフーリエドメインを考えるので、
エルミート転置
:転置して、各要素の虚部の符号を入れ替える
4.2 Cyclic shifts
簡単のため、シングルチャネル(1次元信号)で考える
x n
1
ベースサンプル:対象物体写っているパッチ画像
ゴール:ベースサンプル(ポジティブ)と複数の仮想的に生成したサンプル
(ネガティブ)を用いて、分類器を学習すること
巡回シフト演算子
一要素右にシフトする
Figure 2 ※2次元の場合
巡回性より、
4.3 Circulant matrices
Figure 3
巡回行列:DFTによって対角化できる!
xのDTF
DFT行列(一定)
)ˆ(xdiagXFFH
( の方が対角化っぽい)
4.4 Putting it all together
この知識を式3の線形回帰に当てはめる
複素共役対称
IFFH
 より、
Fはユニタリ行列(正規直交基底)より
対角行列同士は、要素ごとの計算より、
自己相関(=パワースペクトル)
式3, 10より(詳細はAppendix A.5を参照)
つまり、
逆DFT
w が求まる
)( 3
nO
)(nO )log( nnO
リッジ回帰
式12 ※DFTは
4.5 Relationship to correlation filters
・80sより、相関フィルタは信号処理において、目的関数の解法として
使われてきた
・最近では、MOSSE filtersが再注目されており、トラッキングにおいて
高い性能を示している
・MOSSE filtersの解は、式12と似ているが、2つの決定的な違いがある
1. MOSSE filtersはフーリエドメインで目的関数が定式化されている
2. はゼロ除算を避けるための特定の目的で使用されている
5 NON-LINEAR REGRESSION
5.1 Kernel trick – brief overview
・より強力な非線形回帰関数 を使用する方法として、カーネルトリックがある
・通常サンプル数が増えると、 の計算量が増える
・カーネルトリックを用いると、最適化問題を線形で扱える
・提案手法では、線形相関フィルタと同じくらい速く、非線形フィルタを
得ることができる
)(zf
)(zf
解 を線形和で表すと、w
最適化すべき変数は となる
1)
学習サンプルの線形和で表現
カーネル関数
2) ドット積としてアルゴリズムを書くと、
全てのサンプルのペアについてのドット積は通常、
のカーネル行列 として保持しておき、nn  K
カーネルトリック:高次元ベクトル を計算することはせず、暗に使用する)(x
これより、
双対空間で考える
5.2 Fast kernel regression
カーネル化リッジ回帰の解は、
ここで、もし が巡回行列であれば、線形のとき(4.1~4.4節)と同様に
式16を対角化し、高速に解を得ることができる
K
カーネルがある条件を満たすと、
が巡回行列になる
(証明はAppendix A.2を参照)
そのようなカーネルの例
K
条件を満たすカーネルを用いれば、式16を線形のときのように対角化でき、
Kカーネル行列 の一行目
(詳細な導出はAppendix A.3を参照)
x xx
k
X
x
'xx
k
x
X
'x




より一般的なカーネル相関を定義する
(12)
xx
kˆ
(線形版のアナロジー)
はカーネル
自己相関と呼べる
5.3 Fast detection
1つのパッチを単独で用いて、 を評価したいケースは稀である)(zf
所望の物体を検出するためには、複数の候補パッチを用いて
を評価する必要がある
)(zf
全学習サンプルと全候補パッチの間のカーネル行列を とする
Z
K
サンプルとパッチは、それぞれベースサンプル と の巡回シフトなので、
は で与えられる
x z
Z
K
5.2節と同様に、カーネル行列は第一行目のみで表せる
と のカーネル相関x z
式15より、全候補パッチに対する回帰関数を計算できる
の全巡回シフトに対する出力を表すベクトルz
計算の効率化のため、対角化をすると、
全ての位置に対して を評価するのは、カーネルの値 に対する空間フィル
タリング操作とみなせる
各 は、 からのカーネルの値に、学習された係数 で重み付けしたものの
線形和で示せる
これはフィルタリング操作なので、フーリエドメインで効率良く処理できる
)(zf
xz
k
)(zf xz
k 
xz
k

6 FAST KERNEL CORRELATION
さらに計算量を削減
7 MULTIPLE CHANNELS
マルチチャネルへの応用(HOG特徴量など)
8 EXPERIMENTS
8.1 Tracking pipeline
train
detect
8.2 Evaluation
・50ビデオ
・precision carveを指標にした
8.3 Experiments on the full dataset
8.4 Experiments with sequence attributes
KCFの紹介

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
単一物体追跡論文のサーベイ
単一物体追跡論文のサーベイ単一物体追跡論文のサーベイ
単一物体追跡論文のサーベイ
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
20190619 オートエンコーダーと異常検知入門
20190619 オートエンコーダーと異常検知入門20190619 オートエンコーダーと異常検知入門
20190619 オートエンコーダーと異常検知入門
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 

Ähnlich wie KCFの紹介

march report in japanese
march report in japanesemarch report in japanese
march report in japanese
nao takatoshi
 

Ähnlich wie KCFの紹介 (19)

Ml based detection of users anomaly activities (20th OWASP Night Tokyo, Japan...
Ml based detection of users anomaly activities (20th OWASP Night Tokyo, Japan...Ml based detection of users anomaly activities (20th OWASP Night Tokyo, Japan...
Ml based detection of users anomaly activities (20th OWASP Night Tokyo, Japan...
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
miyamori m
miyamori mmiyamori m
miyamori m
 
march report in japanese
march report in japanesemarch report in japanese
march report in japanese
 
ICLR2018出張報告
ICLR2018出張報告ICLR2018出張報告
ICLR2018出張報告
 
データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)
データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)
データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)
 
Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )Geotag Data Mining (メタサーベイ )
Geotag Data Mining (メタサーベイ )
 
情報検索のためのユーザモデル
情報検索のためのユーザモデル情報検索のためのユーザモデル
情報検索のためのユーザモデル
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 
[Japan Tech summit 2017] MAI 001
[Japan Tech summit 2017]  MAI 001[Japan Tech summit 2017]  MAI 001
[Japan Tech summit 2017] MAI 001
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会
 
Robotpaper.Challenge 2019-08
Robotpaper.Challenge 2019-08Robotpaper.Challenge 2019-08
Robotpaper.Challenge 2019-08
 
T univ
T univT univ
T univ
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2
 
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
 
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS KashiwaCytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
 
Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた
Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみたJupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた
Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた
 
説得のためのテクノロジ:「カプトロジ」入門
説得のためのテクノロジ:「カプトロジ」入門説得のためのテクノロジ:「カプトロジ」入門
説得のためのテクノロジ:「カプトロジ」入門
 
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
 

Mehr von Hitoshi Nishimura (8)

Tracking emerges by colorizing videosの紹介
Tracking emerges by colorizing videosの紹介Tracking emerges by colorizing videosの紹介
Tracking emerges by colorizing videosの紹介
 
TRiPODの紹介
TRiPODの紹介TRiPODの紹介
TRiPODの紹介
 
Social LSTMの紹介
Social LSTMの紹介Social LSTMの紹介
Social LSTMの紹介
 
Online real time multiple spatiotemporal action localisation and predictionの紹介
Online real time multiple spatiotemporal action localisation and predictionの紹介Online real time multiple spatiotemporal action localisation and predictionの紹介
Online real time multiple spatiotemporal action localisation and predictionの紹介
 
Learning to discover objects in rgb d images using correlation clusteringの紹介
Learning to discover objects in rgb d images using correlation clusteringの紹介Learning to discover objects in rgb d images using correlation clusteringの紹介
Learning to discover objects in rgb d images using correlation clusteringの紹介
 
A bayesian approach to multimodal visual dictionary learningの紹介
A bayesian approach to multimodal visual dictionary learningの紹介A bayesian approach to multimodal visual dictionary learningの紹介
A bayesian approach to multimodal visual dictionary learningの紹介
 
Sparse isotropic hashingの紹介
Sparse isotropic hashingの紹介Sparse isotropic hashingの紹介
Sparse isotropic hashingの紹介
 
Dimensionality reduction with side information for image classification
Dimensionality reduction with side information for image classificationDimensionality reduction with side information for image classification
Dimensionality reduction with side information for image classification
 

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

KCFの紹介