SlideShare ist ein Scribd-Unternehmen logo
1 von 47
Downloaden Sie, um offline zu lesen
2011/07/16 名古屋CV・PRML勉強会
                    発表資料
                    takmin
本日紹介する論文
   A Coarse-to-fine approach for fast deformable
    object detection
       Marco Pedersoli, Andrea Vadaldi, Jordi Gonzalez
       CVPR2011

この論文の主張:
Deformable Part Modelと
いう物体検出手法を高速
化したぜ
Deformable Part Model
   とはなんぞや?
Histogram of Oriented Gradients (HOG)




   8×8ピクセルを一つのセルとする。
   セルごとに勾配方向のヒストグラムを作成
   各ヒストグラムをつなげたものを特徴量とする
   N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”,
    CVPR, 2005
HOGによる物体検出
             :位置とスケール




                 p  ( x, y, l )
                        位置   スケール

               score( p)
                   F   ( p, H )
                  位置とスケールpから抽出
                  したHOG特徴量ベクトル
HOGによる物体検出

線型SVMによる学習と検出
Deformable Part Model
   物体のモデルをパーツの集合として表現
       パーツの相対位置は対象によって変化
   ここでは、以下の手法を解説
       P. Felzenswalb et al, “Object Detection with Discriminatively Trained
        Part Based Models”, PAMI, 32(9), 2010
Deformable Part Model

                        z   p0 ,, pn 
                        p0
                          ルート位置

                        p1 ,, pn
                             パーツ位置
評価関数
Bounding Boxの妥当性              各パーツ形状                  パーツ位置の歪み           定数項
                               の妥当性
                        n                       n
score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                       i 0                    i 1
                                各Boxの                     パーツ位置
                                HOG特徴                      歪み
                        フィルタ                    歪みパラ
                                                 メータ



                        d (dx, dy)  (dx, dy, dx 2 , dy 2 )

                         (dxi , dyi )  ( xi , yi )  (2( x0 , y0 )  vi )
                     パーツ位置歪み           パーツ位置           ルート位置
                                                                  標準的な
                                                                  パーツの
                                                                   位置
物体の検出

                        n                    n
score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                       i 0                 i 1


p0                                     Sliding Windowの各位置で以下の
                                       スコアを求め、高いところを検出す
                                       る。

                                     score( p0 )
                                          max score p0 ,, pn 
                                            p1 ,, pn


                                       各ルート位置でもっとも最適化された
                                       パーツ位置でのスコア
物体の検出

                           n                    n
  score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                          i 0                 i 1




                               n             n
                                                                    
      score p0   max   Fi   ( pi )   d i  d (dxi , dyi ) 
                    p1 ,, pn
                               i 0        i 1                    



                      各パーツは独立なので、それぞれについてスコアを最大化する。
                                  n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                                 i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
Deformable Part Modelの学習
   学習データはBounding Box + ラベル名
   各パーツのフィルタFと歪みパラメータdを求める。
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )

                                             入力画像 パーツ位置   z   p0 ,, pn 
                            これを学習したい!


 f  ( x)    ( x) という形なら、SVMで解けるが、、、
                       残念ながら非凸関数
Latent SVMによる学習
   パーツ位置zを潜在変数として扱う

       Latent SVM (MI-SVM)

識別関数     f  ( x)  max   ( x, z )
                  zZ ( x )

                              学習画像 パーツ位置    z   p0 ,, pn 
                                   (潜在変数)


以下の繰り返しにより解く:
1.  を固定して f  (x) を最大化する z を求める
2. z を固定して  を最適化(通常のSVM)
やっと本題
Deformable Part Modelの計算コスト

 L   画像のピクセル数        c   パーツの近傍探索範囲
 P   パーツの数          D    フィルターの次元
 δ   セルのサイズ




               L        L 
             O P 2  D  2  
                            
                        c 
         処理する      特徴量マッチ   パーツ探索
         セルの数      ングのコスト    のコスト
Deformable Part Modelの計算コスト
 例:
 フィルターのサイズ: 6×6セル           D  6  6  31  1,116
 セルの次元: 31
                             L
 パーツ探索範囲: 6×6セル                  6  6  36
                             c
                             2



         L        L 
       O P 2  D  2  
                      
                  c 
       処理する   特徴量マッチ   パーツ探索
       セルの数   ングのコスト    のコスト
Deformable Part Modelの計算コスト
 例:
 フィルターのサイズ: 6×6セル             D  6  6  31  1,116
 セルの次元: 31
                               L
 パーツ探索範囲: 6×6セル                    6  6  36
                               c
                               2




         L               
       O P 2 1,116  36
                        
       処理する   特徴量マッチ   パーツ探索
       セルの数   ングのコスト    のコスト

  いかにマッチングにかかるコストを減らすか?
Coarse-to-Fineな推定
       粗い解像度で取得したフィルター情報を元に、密な解
        像度でのフィルターの計算範囲を絞る。
       極大点周辺のm×mセルのみ
オブジェクトモデル
   モデルは異なる解像度のHOGフィルタのパーツで構成
   各パーツフィルターは解像度が上がるごとに均等に分割
   階層間の制約(青ライン)+パーツ間の制約(赤ライン)
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                 位置の妥当性
                          (a)                      (bの青いライン)                               (bの赤の破線)
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                      位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                  x : 入力画像
                          HOG特徴         パーツのフィルタ
                                                                                 w : パラメータ
                                                                                 y i : パーツiの位置
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)       S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                    ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                     親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                   x : 入力画像
                            HOG特徴        パーツのフィルタ
                                                                                  w : パラメータ
    S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w)                             y i : パーツiの位置
                            親子パーツの相             歪みパラメータ
                              対位置




                        
     D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2         
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)       S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                    ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                     親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                   x : 入力画像
                            HOG特徴        パーツのフィルタ
                                                                                  w : パラメータ
    S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w)                             y i : パーツiの位置
                            親子パーツの相             歪みパラメータ
                              対位置

     S Pij (y i , y j ; w)  D(y i , y j )  M Pi (w; y i )
                            隣接パーツの相           歪みパラメータ
                              対位置

                        
     D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2         
検出のための評価関数                                                                                                NEW!
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                      位置の妥当性                                  位置の妥当性



                             n                                     n
 score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                            i 0                                  i 1

  Felzenswalbらのモデルとの対応
検出のための評価関数
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P
                                                                                          隣接パーツの相対
                                                                                           位置の妥当性
                 おそらくこういう状況を防ぐための制約
検出のための評価関数
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P
                                                                                          隣接パーツの相対
                                                                                           位置の妥当性

  Coarse-to-Fineにしたために、オクルージョンやノイズに弱くなっ
  たため、加えた制約




         隣接パーツの評価あり                                             隣接パーツの評価なし
            学習結果                                                   学習結果
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算




                         ×4
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算




                             ×16
物体の検出
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P


    隣接パーツ間の制約が無い時は、モデルはツリー構造
        DPを用いてスコアが一意に求まる
    隣接パーツ間の制約がある時は、一つのパーツの位置を固定
     してしまう。




     iを固定して、jとiの位置からkの歪みを求める
学習
   latent structural SVMでパラメータを学習
       パーツ位置を潜在変数として扱う
       Vedaldiらのやり方*に従ったと書いてあるだけで、具体的にこ
        のモデルにどのようにlatent structural SVMを適用したのかの
        記述はない。
           (おそらく)以下の識別関数Sにおいて、カーネル関数をΦ同士の内
            積、損失関数をBounding Boxの重なり具合として、wを求めている。


               S y1; x   max w  (x, y i )
                                y i  p  y1



* A. Vedaldi and A. Zisserman. .Structured output regression for detection with partial
occulusion. In Proc NIPS, 2009
実験:INRIA Pedestrianデータセット




CF: Coarse-to-Fine
sib: 隣接パーツの制約

[9] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade object detection with
deformable par models. In CVPR, 2010
実験:INRIA Pedestrianデータセット
実験:Coarse-to-Fineの有無で性能比較
       INRIA Pedestrianデータの検出スコアの比較

CFあり                       CFあり




                    CF無し              CF無し
実験:PASCAL VOC 2007データセット
まとめ
   Coarse-to-Fineなアプローチを入れることでDeformable
    Part Modelによる検出を高速化した。
   性能(精度+速度)に関しては、ほぼ最新の手法(カス
    ケード型)と同等
   この2つの手法は組み合わせることで更なる高速化が可
    能

Weitere ähnliche Inhalte

Was ist angesagt?

SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)Takanori Ogata
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative ModelDeep Learning JP
 
ResNest: split-attention networks
ResNest: split-attention networksResNest: split-attention networks
ResNest: split-attention networksharmonylab
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
統計的学習手法による人検出
統計的学習手法による人検出統計的学習手法による人検出
統計的学習手法による人検出MPRG_Chubu_University
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
3次元計測とフィルタリング
3次元計測とフィルタリング3次元計測とフィルタリング
3次元計測とフィルタリングNorishige Fukushima
 
[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with TransformersDeep Learning JP
 
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...Toshiki Sakai
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況Deep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 
[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化Deep Learning JP
 
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定Y-h Taguchi
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII
 
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...cvpaper. challenge
 
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain GeneralizationDeep Learning JP
 

Was ist angesagt? (20)

Icra2020 v1
Icra2020 v1Icra2020 v1
Icra2020 v1
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
 
ResNest: split-attention networks
ResNest: split-attention networksResNest: split-attention networks
ResNest: split-attention networks
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
統計的学習手法による人検出
統計的学習手法による人検出統計的学習手法による人検出
統計的学習手法による人検出
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
3次元計測とフィルタリング
3次元計測とフィルタリング3次元計測とフィルタリング
3次元計測とフィルタリング
 
[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers
 
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化
 
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
『主成分分析を用いた教師なし学習による変数選択』 を用いたデング出血熱原因遺伝子の推定
 
人工知能概論 13
人工知能概論 13人工知能概論 13
人工知能概論 13
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
 
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
【CVPR 2019】DeepSDF: Learning Continuous Signed Distance Functions for Shape R...
 
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
 

Mehr von Takuya Minagawa

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureTakuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイTakuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsTakuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfTakuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)Takuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summaryTakuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation surveyTakuya Minagawa
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencvTakuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection surveyTakuya Minagawa
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 

Mehr von Takuya Minagawa (20)

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
Visual slam
Visual slamVisual slam
Visual slam
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 

2011/07/16 NagoyaCV_takmin

  • 2. 本日紹介する論文  A Coarse-to-fine approach for fast deformable object detection  Marco Pedersoli, Andrea Vadaldi, Jordi Gonzalez  CVPR2011 この論文の主張: Deformable Part Modelと いう物体検出手法を高速 化したぜ
  • 3. Deformable Part Model とはなんぞや?
  • 4. Histogram of Oriented Gradients (HOG)  8×8ピクセルを一つのセルとする。  セルごとに勾配方向のヒストグラムを作成  各ヒストグラムをつなげたものを特徴量とする  N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”, CVPR, 2005
  • 5. HOGによる物体検出 :位置とスケール p  ( x, y, l ) 位置 スケール score( p)  F   ( p, H ) 位置とスケールpから抽出 したHOG特徴量ベクトル
  • 7. Deformable Part Model  物体のモデルをパーツの集合として表現  パーツの相対位置は対象によって変化  ここでは、以下の手法を解説  P. Felzenswalb et al, “Object Detection with Discriminatively Trained Part Based Models”, PAMI, 32(9), 2010
  • 8. Deformable Part Model z   p0 ,, pn  p0 ルート位置 p1 ,, pn パーツ位置
  • 9. 評価関数 Bounding Boxの妥当性 各パーツ形状 パーツ位置の歪み 定数項 の妥当性 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 各Boxの パーツ位置 HOG特徴 歪み フィルタ 歪みパラ メータ d (dx, dy)  (dx, dy, dx 2 , dy 2 ) (dxi , dyi )  ( xi , yi )  (2( x0 , y0 )  vi ) パーツ位置歪み パーツ位置 ルート位置 標準的な パーツの 位置
  • 10. 物体の検出 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 p0 Sliding Windowの各位置で以下の スコアを求め、高いところを検出す る。 score( p0 )  max score p0 ,, pn  p1 ,, pn 各ルート位置でもっとも最適化された パーツ位置でのスコア
  • 11. 物体の検出 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1  n n  score p0   max   Fi   ( pi )   d i  d (dxi , dyi )  p1 ,, pn  i 0 i 1  各パーツは独立なので、それぞれについてスコアを最大化する。 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 12. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 13. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 14. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 15. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 16. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 17. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 18. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 19. Deformable Part Modelの学習  学習データはBounding Box + ラベル名  各パーツのフィルタFと歪みパラメータdを求める。
  • 20. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x )
  • 21. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x )
  • 22. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x ) 入力画像 パーツ位置 z   p0 ,, pn  これを学習したい! f  ( x)    ( x) という形なら、SVMで解けるが、、、 残念ながら非凸関数
  • 23. Latent SVMによる学習  パーツ位置zを潜在変数として扱う Latent SVM (MI-SVM) 識別関数 f  ( x)  max   ( x, z ) zZ ( x ) 学習画像 パーツ位置 z   p0 ,, pn  (潜在変数) 以下の繰り返しにより解く: 1.  を固定して f  (x) を最大化する z を求める 2. z を固定して  を最適化(通常のSVM)
  • 25. Deformable Part Modelの計算コスト L 画像のピクセル数 c パーツの近傍探索範囲 P パーツの数 D フィルターの次元 δ セルのサイズ  L  L  O P 2  D  2         c  処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト
  • 26. Deformable Part Modelの計算コスト 例: フィルターのサイズ: 6×6セル D  6  6  31  1,116 セルの次元: 31 L パーツ探索範囲: 6×6セル  6  6  36  c 2  L  L  O P 2  D  2         c  処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト
  • 27. Deformable Part Modelの計算コスト 例: フィルターのサイズ: 6×6セル D  6  6  31  1,116 セルの次元: 31 L パーツ探索範囲: 6×6セル  6  6  36  c 2  L  O P 2 1,116  36    処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト いかにマッチングにかかるコストを減らすか?
  • 28. Coarse-to-Fineな推定  粗い解像度で取得したフィルター情報を元に、密な解 像度でのフィルターの計算範囲を絞る。  極大点周辺のm×mセルのみ
  • 29. オブジェクトモデル  モデルは異なる解像度のHOGフィルタのパーツで構成  各パーツフィルターは解像度が上がるごとに均等に分割  階層間の制約(青ライン)+パーツ間の制約(赤ライン)
  • 30. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 (a) (bの青いライン) (bの赤の破線)
  • 31. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ y i : パーツiの位置
  • 32. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置 親子パーツの相 歪みパラメータ 対位置  D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 
  • 33. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置 親子パーツの相 歪みパラメータ 対位置 S Pij (y i , y j ; w)  D(y i , y j )  M Pi (w; y i ) 隣接パーツの相 歪みパラメータ 対位置  D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 
  • 34. 検出のための評価関数 NEW! p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 Felzenswalbらのモデルとの対応
  • 35. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P 隣接パーツの相対 位置の妥当性 おそらくこういう状況を防ぐための制約
  • 36. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P 隣接パーツの相対 位置の妥当性 Coarse-to-Fineにしたために、オクルージョンやノイズに弱くなっ たため、加えた制約 隣接パーツの評価あり 隣接パーツの評価なし 学習結果 学習結果
  • 37. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算
  • 38. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算
  • 39. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算 ×4
  • 40. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算 ×16
  • 41. 物体の検出 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P  隣接パーツ間の制約が無い時は、モデルはツリー構造  DPを用いてスコアが一意に求まる  隣接パーツ間の制約がある時は、一つのパーツの位置を固定 してしまう。 iを固定して、jとiの位置からkの歪みを求める
  • 42. 学習  latent structural SVMでパラメータを学習  パーツ位置を潜在変数として扱う  Vedaldiらのやり方*に従ったと書いてあるだけで、具体的にこ のモデルにどのようにlatent structural SVMを適用したのかの 記述はない。  (おそらく)以下の識別関数Sにおいて、カーネル関数をΦ同士の内 積、損失関数をBounding Boxの重なり具合として、wを求めている。 S y1; x   max w  (x, y i ) y i  p y1 * A. Vedaldi and A. Zisserman. .Structured output regression for detection with partial occulusion. In Proc NIPS, 2009
  • 43. 実験:INRIA Pedestrianデータセット CF: Coarse-to-Fine sib: 隣接パーツの制約 [9] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade object detection with deformable par models. In CVPR, 2010
  • 45. 実験:Coarse-to-Fineの有無で性能比較 INRIA Pedestrianデータの検出スコアの比較 CFあり CFあり CF無し CF無し
  • 47. まとめ  Coarse-to-Fineなアプローチを入れることでDeformable Part Modelによる検出を高速化した。  性能(精度+速度)に関しては、ほぼ最新の手法(カス ケード型)と同等  この2つの手法は組み合わせることで更なる高速化が可 能