SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Downloaden Sie, um offline zu lesen
CVPR2011 Paper Digest
(1) Interactive building a discriminative
      vocabulary of nameable attributes
    (2) Recognition using visual phrases

             Akisato Kimura @ NTT CS Labs
                       Twitter ID: @_akisato
なぜこの2本を選んだのか?
   「画像を理解する」をどう問題に落とす?
       物体認識…?                                                        Person
                                                    Horse




        [ Full description ]
        A woman wearing a blue cloth and gray tights is riding on a galloping
        white horse at a beautiful sandy beach under a clear sky.

                    物体認識をしただけでは,
                   実は何も理解できていない!
                     (物体だけを認識する一般物体認識の終焉)
2                                                      CVPR2011祭り (July 31, 2011)
何が足りないのか? (1)
   物体などの属性が足りない
       でも画像だけで                           Sky: clear            Person: female
        全部できる気がしない                            Horse: white




        [ Full description ]                Beach: beautiful, sandy
        A woman wearing a blue cloth and gray tights is riding on a galloping
        white horse at a beautiful sandy beach under a clear sky.

           第1論文の主題: 属性辞書をインタラクティブに学習

3                                                      CVPR2011祭り (July 31, 2011)
何が足りないのか? (2)
   物体間の関係性が足りない
                                              A person is wearing clothes.




    [ Full description ]               A person is riding on a horse.
    A woman wearing a blue cloth and gray tights is riding on a white horse
    at a beautiful sandy beach under a clear sky.

    第2論文の主題: 物体とその関係性をクラスと見なす認識

4                                                  CVPR2011祭り (July 31, 2011)
Interactively building a
 discriminative vocabulary of
         nameable attributes

D. Parikh @ Toyota Technological Institute, Chicago
        K. Grauman @ University of Texas at Austin
やりたいこと
   物体・シーンの属性の辞書・モデルを
    インタラクティブに構築する




物体やシーンはそれぞれ
違うラベルが付いているけど,    何か名前があるかも!
何か傾向があるような気がする…   聞いてみよう!


6                 CVPR2011祭り (July 31, 2011)
アプローチ
    物体クラスとは異なる類似性を見つける



クラス分類を壊さないような
 2クラス識別面を見つける


                            ユーザに見せる画像を
                              適切に選択


           尤もらしい仮説だけを
             選択して提示
 7                      CVPR2011祭り (July 31, 2011)
類似性発見の方法
Mixture of Probabilistic PCAs    教師なし(物体も属性も関係なし)で
でモデル化,適切な仮説のみ選択                  最大マージンクラスタリング




   現在の属性辞書                 現在の属性辞書で
   (この図では1つだけど             分離しにくい物体クラスの
    いっぱいあってもOK)            集合を見つける by normalized cuts

   8                                     CVPR2011祭り (July 31, 2011)
提示する画像の選択

        識別面に直交する軸を等間隔に区切る

区切った領域内で,識別面の真ん中に   最大マージンクラスタリングで得られた
最も近いサンプルを選択         識別面 (=属性候補)




 9                       CVPR2011祭り (July 31, 2011)
ユーザに何を尋ねるか?




• この属性の名前は? (以降はもし属性に名前があれば回答)
• 左右,どちらに行くほどその特性が強くなるか?
• この画像列がその属性を表現するものとして,
  どの程度尤もらしいか (4段階評価)?
10                  CVPR2011祭り (July 31, 2011)
データセット
   Outdoor scene recognition (OSR)
       http://people.csail.mit.edu/torralba/code/spatialenvelope/
   Animals with attributes (AWA)
       http://attributes.kyb.tuebingen.mpg.de
   共通事項
       各データセットから8物体クラスを選択
       1画像1クラスとなるように加工された画像もある
       属性の種類は主旨(gist)と色に限定
       インタラクションはMechanical Turk経由

11                                               CVPR2011祭り (July 31, 2011)
クラス選択と仮説選択の効果
                      クラス選択

               クラスのランダム選択や
               クラス選択なしに比べ,
               意味ある仮説を適切に
                 選択できている



      仮説選択

仮説のランダム選択と
   比較して,
 意味ある仮説を
適切に選択できている

 12          CVPR2011祭り (July 31, 2011)
全体としての効果
   インタラクションを重ねれば,
    属性辞書は着実に構築されます.




   なので,当然,認識精度も少し向上します.




13                CVPR2011祭り (July 31, 2011)
Recognition
                  using visual phrases


M.A. Sadeghi @ Institute for Research in Fundamental Science
      A. Farhadi @ University of Illinois at Urbana-Champaign
やりたいこと
   物体とその関係性を認識する




     Person_nextto_bicycle   Person_drinking_bottle




     Person_riding_bicycle     Dog_lyingon_sofa

15                               CVPR2011祭り (July 31, 2011)
アプローチ
1.    関係性も物体同様,1つの「クラス」と見なす.
     なので,真に関係性を認識しているわけではない.
2.    クラス間の位置関係を考慮して,
      クラス別での認識結果を修正 (追加・削除)
          1

                        2




 16                 CVPR2011祭り (July 31, 2011)
各クラスのモデル
                                                                 粗めPCA-HOG
   Deformable part model
    [Felzenszwalb+ 2010]
         PASCAL VOC 標準ソフト採用
                                                  物体パーツごとの細かめPCA-HOG
             bicycle



                                              パーツ位置ずれ/変形に対するコスト




Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based
Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/
 17                                                        CVPR2011祭り (July 31, 2011)
各クラスの認識
                               粗めHOG   細かめHOG (解像度2倍)




Input image




              Model (person)




   18                                     CVPR2011祭り (July 31, 2011)
クラス別認識結果の統合
                           i番目のbounding boxを
                           最終結果に使うかどうか? i番目のbounding boxの
                                                クラス インデックス


person
            person



                           i番目使わない → all 0 のベクトル
  person             bag   i番目使う → i番目のbounding boxの特徴表現

                           クラス別に,位置関係・尤度・サイズ比等を考慮した
                           「何らか」の(9K+1)次元ベクトル (ダッテナニモカイテナイシ)

         識別軸 w でクラス判別を行う線形(structured)SVM
   19                                      CVPR2011祭り (July 31, 2011)
結果統合モデルの学習
    Structured SVMの設計




n番目の画像全体での                     仮説と正解とのハミング距離
bounding boxes の評価値
                      bounding boxの
                      使用/不使用に関する仮説


        仮説最適化と目的関数最大化の繰り返しで学習

  20                              CVPR2011祭り (July 31, 2011)
データセット                  http://vision.cs.uiuc.edu/phrasal/
    Bingでphraseを検索,以降は手動作業…
        25クラス = 8 objects + 17 phrases
        画像 2769枚 (822枚 = negative examples)
        各クラス 平均120枚のpositives
        5067 bounding boxes (phrases:1796, objects:3271)
   Dog jumping


Person drinking
         bottle

  Person lying
       on sofa

   21                                      CVPR2011祭り (July 31, 2011)
関係性認識の精度が良くなります
   精度が大きく向上した10 phrasesでのPR曲線




22                   CVPR2011祭り (July 31, 2011)
関係性認識の精度が良くなります




            多くのphrasesで
            baselineを大きく上回る性能




           どのような状況が得手/不得手
           か,があまり明らかでない



23         CVPR2011祭り (July 31, 2011)
物体認識の精度も少し良くなります
     Deformable part model [Felzenszwalb+ PAMI2010]
     (Baselineとなる物体検出器,page 10 参照)


      Structured learning for
      multi-class object layout [Desai+ ICCV2010]
      (scoring functionを使った物体関係モデルを用いた検出器)




24                             CVPR2011祭り (July 31, 2011)
物体認識の精度も良くなります




25         CVPR2011祭り (July 31, 2011)
さいごのまとめ




Akisato Kimura @ NTT CS Labs
          Twitter ID: @_akisato
それでもやっぱりまだ足りない…
 物体の動作が足りない → 第2論文でできたのはごく一部
 風景を系統的に理解できない
      → 物体・属性・関係性・動作の総合体,かなぁ
                                                           Beach = sky(upper) +
                                                      water(middle) + sand(lower)??




                                                            A horse is galloping.

   説明文自体を直接生成する
    Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011

27                                                         CVPR2011祭り (July 31, 2011)

Weitere ähnliche Inhalte

Ähnlich wie CVPR2011祭り 発表スライド

関西CVPRML勉強会 2011.9.23
関西CVPRML勉強会 2011.9.23関西CVPRML勉強会 2011.9.23
関西CVPRML勉強会 2011.9.23Akisato Kimura
 
オブジェクト指向入門1
オブジェクト指向入門1オブジェクト指向入門1
オブジェクト指向入門1Kenta Hattori
 
Casual learning machine learning with_excel_no6
Casual learning machine learning with_excel_no6Casual learning machine learning with_excel_no6
Casual learning machine learning with_excel_no6KazuhiroSato8
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」Masaru Nagaku
 
Rm20140625 10key
Rm20140625 10keyRm20140625 10key
Rm20140625 10keyyouwatari
 

Ähnlich wie CVPR2011祭り 発表スライド (6)

関西CVPRML勉強会 2011.9.23
関西CVPRML勉強会 2011.9.23関西CVPRML勉強会 2011.9.23
関西CVPRML勉強会 2011.9.23
 
オブジェクト指向入門1
オブジェクト指向入門1オブジェクト指向入門1
オブジェクト指向入門1
 
Casual learning machine learning with_excel_no6
Casual learning machine learning with_excel_no6Casual learning machine learning with_excel_no6
Casual learning machine learning with_excel_no6
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
Rm20140625 10key
Rm20140625 10keyRm20140625 10key
Rm20140625 10key
 

Mehr von Akisato Kimura

Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Akisato Kimura
 
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Akisato Kimura
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化Akisato Kimura
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 
NIPS2015 reading - Learning visual biases from human imagination
NIPS2015 reading - Learning visual biases from human imaginationNIPS2015 reading - Learning visual biases from human imagination
NIPS2015 reading - Learning visual biases from human imaginationAkisato Kimura
 
CVPR2015 reading "Global refinement of random forest"
CVPR2015 reading "Global refinement of random forest"CVPR2015 reading "Global refinement of random forest"
CVPR2015 reading "Global refinement of random forest"Akisato Kimura
 
CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)Akisato Kimura
 
Computational models of human visual attention driven by auditory cues
Computational models of human visual attention driven by auditory cuesComputational models of human visual attention driven by auditory cues
Computational models of human visual attention driven by auditory cuesAkisato Kimura
 
NIPS2014 reading - Top rank optimization in linear time
NIPS2014 reading - Top rank optimization in linear timeNIPS2014 reading - Top rank optimization in linear time
NIPS2014 reading - Top rank optimization in linear timeAkisato Kimura
 
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...Akisato Kimura
 
ICCV2013 reading: Learning to rank using privileged information
ICCV2013 reading: Learning to rank using privileged informationICCV2013 reading: Learning to rank using privileged information
ICCV2013 reading: Learning to rank using privileged informationAkisato Kimura
 
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...Akisato Kimura
 
IJCAI13 Paper review: Large-scale spectral clustering on graphs
IJCAI13 Paper review: Large-scale spectral clustering on graphsIJCAI13 Paper review: Large-scale spectral clustering on graphs
IJCAI13 Paper review: Large-scale spectral clustering on graphsAkisato Kimura
 
関西CVPR勉強会 2012.10.28
関西CVPR勉強会 2012.10.28関西CVPR勉強会 2012.10.28
関西CVPR勉強会 2012.10.28Akisato Kimura
 
関西CVPR勉強会 2012.7.29
関西CVPR勉強会 2012.7.29関西CVPR勉強会 2012.7.29
関西CVPR勉強会 2012.7.29Akisato Kimura
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)Akisato Kimura
 
関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14Akisato Kimura
 
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -Akisato Kimura
 
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明Akisato Kimura
 

Mehr von Akisato Kimura (20)

Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
 
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
NIPS2015 reading - Learning visual biases from human imagination
NIPS2015 reading - Learning visual biases from human imaginationNIPS2015 reading - Learning visual biases from human imagination
NIPS2015 reading - Learning visual biases from human imagination
 
CVPR2015 reading "Global refinement of random forest"
CVPR2015 reading "Global refinement of random forest"CVPR2015 reading "Global refinement of random forest"
CVPR2015 reading "Global refinement of random forest"
 
CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)CVPR2015 reading "Understainding image virality" (in Japanese)
CVPR2015 reading "Understainding image virality" (in Japanese)
 
Computational models of human visual attention driven by auditory cues
Computational models of human visual attention driven by auditory cuesComputational models of human visual attention driven by auditory cues
Computational models of human visual attention driven by auditory cues
 
NIPS2014 reading - Top rank optimization in linear time
NIPS2014 reading - Top rank optimization in linear timeNIPS2014 reading - Top rank optimization in linear time
NIPS2014 reading - Top rank optimization in linear time
 
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
CVPR2014 reading "Reconstructing storyline graphs for image recommendation fr...
 
ICCV2013 reading: Learning to rank using privileged information
ICCV2013 reading: Learning to rank using privileged informationICCV2013 reading: Learning to rank using privileged information
ICCV2013 reading: Learning to rank using privileged information
 
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
ACMMM 2013 reading: Large-scale visual sentiment ontology and detectors using...
 
IJCAI13 Paper review: Large-scale spectral clustering on graphs
IJCAI13 Paper review: Large-scale spectral clustering on graphsIJCAI13 Paper review: Large-scale spectral clustering on graphs
IJCAI13 Paper review: Large-scale spectral clustering on graphs
 
関西CVPR勉強会 2012.10.28
関西CVPR勉強会 2012.10.28関西CVPR勉強会 2012.10.28
関西CVPR勉強会 2012.10.28
 
関西CVPR勉強会 2012.7.29
関西CVPR勉強会 2012.7.29関西CVPR勉強会 2012.7.29
関西CVPR勉強会 2012.7.29
 
ICWSM12 Brief Review
ICWSM12 Brief ReviewICWSM12 Brief Review
ICWSM12 Brief Review
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 
関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14関西CVPRML勉強会(特定物体認識) 2012.1.14
関西CVPRML勉強会(特定物体認識) 2012.1.14
 
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
 
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
IBIS2011 企画セッション「CV/PRで独自の進化を遂げる学習・最適化技術」 趣旨説明
 

Kürzlich hochgeladen

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Kürzlich hochgeladen (12)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

CVPR2011祭り 発表スライド

  • 1. CVPR2011 Paper Digest (1) Interactive building a discriminative vocabulary of nameable attributes (2) Recognition using visual phrases Akisato Kimura @ NTT CS Labs Twitter ID: @_akisato
  • 2. なぜこの2本を選んだのか?  「画像を理解する」をどう問題に落とす?  物体認識…? Person Horse [ Full description ] A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky. 物体認識をしただけでは, 実は何も理解できていない! (物体だけを認識する一般物体認識の終焉) 2 CVPR2011祭り (July 31, 2011)
  • 3. 何が足りないのか? (1)  物体などの属性が足りない  でも画像だけで Sky: clear Person: female 全部できる気がしない Horse: white [ Full description ] Beach: beautiful, sandy A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky. 第1論文の主題: 属性辞書をインタラクティブに学習 3 CVPR2011祭り (July 31, 2011)
  • 4. 何が足りないのか? (2)  物体間の関係性が足りない A person is wearing clothes. [ Full description ] A person is riding on a horse. A woman wearing a blue cloth and gray tights is riding on a white horse at a beautiful sandy beach under a clear sky. 第2論文の主題: 物体とその関係性をクラスと見なす認識 4 CVPR2011祭り (July 31, 2011)
  • 5. Interactively building a discriminative vocabulary of nameable attributes D. Parikh @ Toyota Technological Institute, Chicago K. Grauman @ University of Texas at Austin
  • 6. やりたいこと  物体・シーンの属性の辞書・モデルを インタラクティブに構築する 物体やシーンはそれぞれ 違うラベルが付いているけど, 何か名前があるかも! 何か傾向があるような気がする… 聞いてみよう! 6 CVPR2011祭り (July 31, 2011)
  • 7. アプローチ  物体クラスとは異なる類似性を見つける クラス分類を壊さないような 2クラス識別面を見つける ユーザに見せる画像を 適切に選択 尤もらしい仮説だけを 選択して提示 7 CVPR2011祭り (July 31, 2011)
  • 8. 類似性発見の方法 Mixture of Probabilistic PCAs 教師なし(物体も属性も関係なし)で でモデル化,適切な仮説のみ選択 最大マージンクラスタリング 現在の属性辞書 現在の属性辞書で (この図では1つだけど 分離しにくい物体クラスの いっぱいあってもOK) 集合を見つける by normalized cuts 8 CVPR2011祭り (July 31, 2011)
  • 9. 提示する画像の選択 識別面に直交する軸を等間隔に区切る 区切った領域内で,識別面の真ん中に 最大マージンクラスタリングで得られた 最も近いサンプルを選択 識別面 (=属性候補) 9 CVPR2011祭り (July 31, 2011)
  • 10. ユーザに何を尋ねるか? • この属性の名前は? (以降はもし属性に名前があれば回答) • 左右,どちらに行くほどその特性が強くなるか? • この画像列がその属性を表現するものとして, どの程度尤もらしいか (4段階評価)? 10 CVPR2011祭り (July 31, 2011)
  • 11. データセット  Outdoor scene recognition (OSR)  http://people.csail.mit.edu/torralba/code/spatialenvelope/  Animals with attributes (AWA)  http://attributes.kyb.tuebingen.mpg.de  共通事項  各データセットから8物体クラスを選択  1画像1クラスとなるように加工された画像もある  属性の種類は主旨(gist)と色に限定  インタラクションはMechanical Turk経由 11 CVPR2011祭り (July 31, 2011)
  • 12. クラス選択と仮説選択の効果 クラス選択 クラスのランダム選択や クラス選択なしに比べ, 意味ある仮説を適切に 選択できている 仮説選択 仮説のランダム選択と 比較して, 意味ある仮説を 適切に選択できている 12 CVPR2011祭り (July 31, 2011)
  • 13. 全体としての効果  インタラクションを重ねれば, 属性辞書は着実に構築されます.  なので,当然,認識精度も少し向上します. 13 CVPR2011祭り (July 31, 2011)
  • 14. Recognition using visual phrases M.A. Sadeghi @ Institute for Research in Fundamental Science A. Farhadi @ University of Illinois at Urbana-Champaign
  • 15. やりたいこと  物体とその関係性を認識する Person_nextto_bicycle Person_drinking_bottle Person_riding_bicycle Dog_lyingon_sofa 15 CVPR2011祭り (July 31, 2011)
  • 16. アプローチ 1. 関係性も物体同様,1つの「クラス」と見なす.  なので,真に関係性を認識しているわけではない. 2. クラス間の位置関係を考慮して, クラス別での認識結果を修正 (追加・削除) 1 2 16 CVPR2011祭り (July 31, 2011)
  • 17. 各クラスのモデル 粗めPCA-HOG  Deformable part model [Felzenszwalb+ 2010]  PASCAL VOC 標準ソフト採用 物体パーツごとの細かめPCA-HOG bicycle パーツ位置ずれ/変形に対するコスト Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/ 17 CVPR2011祭り (July 31, 2011)
  • 18. 各クラスの認識 粗めHOG 細かめHOG (解像度2倍) Input image Model (person) 18 CVPR2011祭り (July 31, 2011)
  • 19. クラス別認識結果の統合 i番目のbounding boxを 最終結果に使うかどうか? i番目のbounding boxの クラス インデックス person person i番目使わない → all 0 のベクトル person bag i番目使う → i番目のbounding boxの特徴表現 クラス別に,位置関係・尤度・サイズ比等を考慮した 「何らか」の(9K+1)次元ベクトル (ダッテナニモカイテナイシ) 識別軸 w でクラス判別を行う線形(structured)SVM 19 CVPR2011祭り (July 31, 2011)
  • 20. 結果統合モデルの学習  Structured SVMの設計 n番目の画像全体での 仮説と正解とのハミング距離 bounding boxes の評価値 bounding boxの 使用/不使用に関する仮説  仮説最適化と目的関数最大化の繰り返しで学習 20 CVPR2011祭り (July 31, 2011)
  • 21. データセット http://vision.cs.uiuc.edu/phrasal/  Bingでphraseを検索,以降は手動作業…  25クラス = 8 objects + 17 phrases  画像 2769枚 (822枚 = negative examples)  各クラス 平均120枚のpositives  5067 bounding boxes (phrases:1796, objects:3271) Dog jumping Person drinking bottle Person lying on sofa 21 CVPR2011祭り (July 31, 2011)
  • 22. 関係性認識の精度が良くなります  精度が大きく向上した10 phrasesでのPR曲線 22 CVPR2011祭り (July 31, 2011)
  • 23. 関係性認識の精度が良くなります 多くのphrasesで baselineを大きく上回る性能 どのような状況が得手/不得手 か,があまり明らかでない 23 CVPR2011祭り (July 31, 2011)
  • 24. 物体認識の精度も少し良くなります Deformable part model [Felzenszwalb+ PAMI2010] (Baselineとなる物体検出器,page 10 参照) Structured learning for multi-class object layout [Desai+ ICCV2010] (scoring functionを使った物体関係モデルを用いた検出器) 24 CVPR2011祭り (July 31, 2011)
  • 25. 物体認識の精度も良くなります 25 CVPR2011祭り (July 31, 2011)
  • 26. さいごのまとめ Akisato Kimura @ NTT CS Labs Twitter ID: @_akisato
  • 27. それでもやっぱりまだ足りない…  物体の動作が足りない → 第2論文でできたのはごく一部  風景を系統的に理解できない → 物体・属性・関係性・動作の総合体,かなぁ Beach = sky(upper) + water(middle) + sand(lower)?? A horse is galloping.  説明文自体を直接生成する Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011 27 CVPR2011祭り (July 31, 2011)