CVPR2011祭り発表スライド

CVPR2011 Paper Digest
(1) Interactive building a discriminative
vocabulary of nameable attributes
(2) Recognition using visual phrases

Akisato Kimura @ NTT CS Labs
Twitter ID: @_akisato

なぜこの2本を選んだのか？
 「画像を理解する」をどう問題に落とす？
 物体認識…？ Person
Horse

[ Full description ]
A woman wearing a blue cloth and gray tights is riding on a galloping
white horse at a beautiful sandy beach under a clear sky.

物体認識をしただけでは，
実は何も理解できていない！
（物体だけを認識する一般物体認識の終焉）
2 CVPR2011祭り (July 31, 2011)

何が足りないのか？ (1)
 物体などの属性が足りない
 でも画像だけで Sky: clear Person: female
全部できる気がしない Horse: white

[ Full description ] Beach: beautiful, sandy
A woman wearing a blue cloth and gray tights is riding on a galloping
white horse at a beautiful sandy beach under a clear sky.

第1論文の主題：属性辞書をインタラクティブに学習

3 CVPR2011祭り (July 31, 2011)

何が足りないのか？ (2)
 物体間の関係性が足りない
A person is wearing clothes.

[ Full description ] A person is riding on a horse.
A woman wearing a blue cloth and gray tights is riding on a white horse
at a beautiful sandy beach under a clear sky.

第2論文の主題：物体とその関係性をクラスと見なす認識

4 CVPR2011祭り (July 31, 2011)

Interactively building a
discriminative vocabulary of
nameable attributes

D. Parikh @ Toyota Technological Institute, Chicago
K. Grauman @ University of Texas at Austin

やりたいこと
 物体・シーンの属性の辞書・モデルを
インタラクティブに構築する

物体やシーンはそれぞれ
違うラベルが付いているけど，何か名前があるかも！
何か傾向があるような気がする… 聞いてみよう！

6 CVPR2011祭り (July 31, 2011)

アプローチ
 物体クラスとは異なる類似性を見つける

クラス分類を壊さないような
2クラス識別面を見つける

ユーザに見せる画像を
適切に選択

尤もらしい仮説だけを
選択して提示
7 CVPR2011祭り (July 31, 2011)

類似性発見の方法
Mixture of Probabilistic PCAs 教師なし（物体も属性も関係なし）で
でモデル化，適切な仮説のみ選択最大マージンクラスタリング

現在の属性辞書現在の属性辞書で
（この図では1つだけど分離しにくい物体クラスの
いっぱいあってもOK）集合を見つける by normalized cuts

8 CVPR2011祭り (July 31, 2011)

提示する画像の選択

識別面に直交する軸を等間隔に区切る

区切った領域内で，識別面の真ん中に最大マージンクラスタリングで得られた
最も近いサンプルを選択識別面（＝属性候補）

9 CVPR2011祭り (July 31, 2011)

ユーザに何を尋ねるか？

• この属性の名前は？（以降はもし属性に名前があれば回答）
• 左右，どちらに行くほどその特性が強くなるか？
• この画像列がその属性を表現するものとして，
どの程度尤もらしいか（4段階評価）？
10 CVPR2011祭り (July 31, 2011)

データセット
 Outdoor scene recognition (OSR)
 http://people.csail.mit.edu/torralba/code/spatialenvelope/
 Animals with attributes (AWA)
 http://attributes.kyb.tuebingen.mpg.de
 共通事項
 各データセットから8物体クラスを選択
 1画像1クラスとなるように加工された画像もある
 属性の種類は主旨(gist)と色に限定
 インタラクションはMechanical Turk経由

11 CVPR2011祭り (July 31, 2011)

クラス選択と仮説選択の効果
クラス選択

クラスのランダム選択や
クラス選択なしに比べ，
意味ある仮説を適切に
選択できている

仮説選択

仮説のランダム選択と
比較して，
意味ある仮説を
適切に選択できている

12 CVPR2011祭り (July 31, 2011)

全体としての効果
 インタラクションを重ねれば，
属性辞書は着実に構築されます．

 なので，当然，認識精度も少し向上します．

13 CVPR2011祭り (July 31, 2011)

Recognition
using visual phrases

M.A. Sadeghi @ Institute for Research in Fundamental Science
A. Farhadi @ University of Illinois at Urbana-Champaign

やりたいこと
 物体とその関係性を認識する

Person_nextto_bicycle Person_drinking_bottle

Person_riding_bicycle Dog_lyingon_sofa

15 CVPR2011祭り (July 31, 2011)

アプローチ
1. 関係性も物体同様，１つの「クラス」と見なす．
 なので，真に関係性を認識しているわけではない．
2. クラス間の位置関係を考慮して，
クラス別での認識結果を修正（追加・削除）
1

2

16 CVPR2011祭り (July 31, 2011)

各クラスのモデル
粗めPCA-HOG
 Deformable part model
[Felzenszwalb+ 2010]
 PASCAL VOC 標準ソフト採用
物体パーツごとの細かめPCA-HOG
bicycle

パーツ位置ずれ/変形に対するコスト

Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based
Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/
17 CVPR2011祭り (July 31, 2011)

各クラスの認識
粗めHOG 細かめHOG （解像度2倍）

Input image

Model (person)

18 CVPR2011祭り (July 31, 2011)

クラス別認識結果の統合
i番目のbounding boxを
最終結果に使うかどうか？ i番目のbounding boxの
クラスインデックス

person
person

i番目使わない → all 0 のベクトル
person bag i番目使う → i番目のbounding boxの特徴表現

クラス別に，位置関係・尤度・サイズ比等を考慮した
「何らか」の(9K+1)次元ベクトル（ダッテナニモカイテナイシ）

識別軸 w でクラス判別を行う線形(structured)SVM
19 CVPR2011祭り (July 31, 2011)

結果統合モデルの学習
 Structured SVMの設計

n番目の画像全体での仮説と正解とのハミング距離
bounding boxes の評価値
bounding boxの
使用/不使用に関する仮説

 仮説最適化と目的関数最大化の繰り返しで学習

20 CVPR2011祭り (July 31, 2011)

データセット http://vision.cs.uiuc.edu/phrasal/
 Bingでphraseを検索，以降は手動作業…
 25クラス = 8 objects + 17 phrases
 画像 2769枚 (822枚 = negative examples)
 各クラス平均120枚のpositives
 5067 bounding boxes （phrases:1796, objects:3271)
Dog jumping

Person drinking
bottle

Person lying
on sofa

21 CVPR2011祭り (July 31, 2011)

関係性認識の精度が良くなります
 精度が大きく向上した10 phrasesでのPR曲線

22 CVPR2011祭り (July 31, 2011)

関係性認識の精度が良くなります

多くのphrasesで
baselineを大きく上回る性能

どのような状況が得手/不得手
か，があまり明らかでない

23 CVPR2011祭り (July 31, 2011)

物体認識の精度も少し良くなります
Deformable part model [Felzenszwalb+ PAMI2010]
（Baselineとなる物体検出器，page 10 参照）

Structured learning for
multi-class object layout [Desai+ ICCV2010]
（scoring functionを使った物体関係モデルを用いた検出器）

24 CVPR2011祭り (July 31, 2011)

物体認識の精度も良くなります

25 CVPR2011祭り (July 31, 2011)

さいごのまとめ

Akisato Kimura @ NTT CS Labs
Twitter ID: @_akisato

それでもやっぱりまだ足りない…
 物体の動作が足りない → 第2論文でできたのはごく一部
 風景を系統的に理解できない
→ 物体・属性・関係性・動作の総合体，かなぁ
Beach = sky(upper) +
water(middle) + sand(lower)??

A horse is galloping.

 説明文自体を直接生成する
Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011

27 CVPR2011祭り (July 31, 2011)

CVPR2011祭り発表スライド

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie CVPR2011祭り発表スライド

Ähnlich wie CVPR2011祭り発表スライド (6)

Mehr von Akisato Kimura

Mehr von Akisato Kimura (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (12)