関西CVPR勉強会 2012.7.29

CVPR2012 Review
“Social interactions:
A first-person perspective”
Akisato Kimura (@_akisato, @_akisato_)

何でこれを紹介しようと思ったんですか？
 Social という単語に釣られました… （嘘

2 関西CVPR勉強会 (July 29, 2012)

 Ego-centric visionで本質的に面白い問題はこれ！


 Ego-centric visionで本質的に面白い問題はこれ！
 ライフログ？いや，スナップショットで十分だし…

http://www.ntt.co.jp/ylab/special/vol_3/index.html
http://itunes.apple.com/jp/app/puno-laita-dao/id536059062

一言で言うと，何これ？

誰が何をしているかを予測します！

もう少しキチンと説明します

みんな
あなたを
見ています

あなたです


みんな
あなたを
放置です

あなたです

みんな
あなたを
見ています

あなたです


みんな
あなたを
放置です

あなたです

みんな
あなたを
見ています

あなたです

画面に映る人の役割や意図を予測します！

こんなことして何が嬉しいの？
 リアルお友達関係が映像だけからわかります．
 行動パターンが似ている人がわかります．

同一行動をしていたグループ全員

HMDをつけていた人たち (First person)

（注： HMDをつけている人が自分自身を映すことはできないので，自分とは仲良くなれません．）


大雑把な枠組


大雑把な枠組

HMDな人
の頭部運動

顔追跡・
HMD画像顔認識


大雑把な枠組

各人の役割

HMDな人各人の
の頭部運動顔向き・位置

顔追跡・
HMD画像誰が誰を顔認識
見ているか

大雑把な枠組
何らかのラベル
謎の離散
隠れ変数系列
各人の役割
観測特徴系列

HMDな人各人の

顔追跡・
見ているか

顔検出・認識・顔向き推定
 フリーソフト PittPatt を利用



(゜Д゜)
http://www.pittpatt.com



(゜Д゜)
http://www.pittpatt.com

(゜Д゜)

http://techcrunch.com/2011/07/22/google-acquires-facial-recognition-software-company-pittpatt/


実世界上の顔位置の推定
 キャリブレーションができていればできる．



画面上での顔位置，
顔の大きさ，
顔向き (Yaw, Pitch, Roll)



顔の大きさ，
顔向き (Yaw, Pitch, Roll)

HMDな人からの距離
𝑑 = 𝑐/ℎ
HMDな人基準の顔向き
𝜃 = 𝑟/𝑓
（𝑐, 𝑓がカメラパラメータ）


ℎ 顔の大きさ，
𝑟 顔向き (Yaw, Pitch, Roll)

𝑑 = 𝑐/ℎ
𝜃 = 𝑟/𝑓
（𝑐, 𝑓がカメラパラメータ）


ℎ 顔の大きさ，
𝑟 顔向き (Yaw, Pitch, Roll)

上から見た図
𝑑 = 𝑐/ℎ
ターゲット 𝜃 = 𝑟/𝑓
HMDな人（𝑐, 𝑓がカメラパラメータ）

みんながどこを向いているか当てましょう
 顔向きと注意位置は一致しません！
 でも全く相関がないわけではない．


 たぶんこんな感じ



顔向きからわかる，ぼやっと拡がる視野



その視野内に誰かいれば，その人を見ているはず



その視野内に誰かいれば，その人を見ているはず
そうでないときは，勝手に見ている場所を作る！

注意箇所推定のためのモデル
 マルコフ確率場 (MRF)のエネルギー最大化
𝑁

𝐸 𝑳|𝑷 = 𝜙 𝑈 𝐿 𝑓 𝑖, 𝑷 + 𝜙 𝑃 𝐿 𝑓 𝑖, 𝐿 𝑓 𝑗
𝑖=1 𝑗≠𝑖


𝑁

𝑖=1 𝑗≠𝑖

（推定したいもの）
𝑖さんが実際に見ている対象の位置𝐿 𝑓 𝑖

（観測できるもの） 𝑖さんの顔 𝑓𝑖 の
実世界での位置 𝑇 𝑓 𝑖 と顔向き 𝑉𝑓 𝑖

𝑁 人数

𝑖=1 𝑗≠𝑖
尤度項隣接項
（推定したいもの）
𝑖さんが実際に見ている対象の位置𝐿 𝑓 𝑖

（観測できるもの） 𝑖さんの顔 𝑓𝑖 の
実世界での位置 𝑇 𝑓 𝑖 と顔向き 𝑉𝑓 𝑖

エネルギー関数をまじめに書くと…
 尤度項

 隣接項


 尤度項
正面ほど高得点
周辺視は低得点．

 隣接項


 尤度項

自分が自分を見ない
ような縛りを掛ける．

 隣接項


 尤度項


誰かの顔を見ていれば，
高得点get！

 隣接項


 尤度項


誰かの顔を見ていれば，
高得点get！

 隣接項
同じ人の顔を見ていれば，
高得点get！

 α-expansion的な何かで推定可能 (cf. P4右)

実はここからが本番


各人の役割や意図を予測するモデル
 NLP業界大好き条件付き確率場 (CRF)
𝑛 𝑛

Ψ 𝑦, 𝒉, 𝒙; 𝑤 = 𝑤ℎ 𝑖 ∙ 𝜑 𝑥 𝑖 + 𝑤 𝑦,ℎ 𝑖 + 𝑤 𝑦,ℎ 𝑘,ℎ 𝑙
𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸


𝑛 𝑛

𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸

（推定したいもの）行動ラベル


𝑛 𝑛

𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸


（観測できるもの）
フレーム𝑘の各種特徴量

𝑛 𝑛

𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸


（観測の教師なしclustering結果）
フレーム𝑘の離散潜在変数

𝑛 フレーム数 𝑛

𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸




𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸
特徴尤度項



𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸
特徴尤度項潜在尤度項



𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸
特徴尤度項潜在尤度項隣接項


CRFに突っ込む特徴量（１）
 HMDな人の近くにいる人の数を数えてみる



５ｍ

75度－75度

０ｍ HMDな人

 視野を20分割して，それを20次元のベクトルに．
 人々の位置関係で誰がどう話しているかわかる．

５ｍ

75度－75度

０ｍ HMDな人

CRFに突っ込む特徴量（２）
 見られている，ということを基準にした特徴


 𝑖さんを見ている人の数
 1以上 = 𝑖さんが会話の中心にいる


 HMDな人が𝑖さんを見ているかどうか
 Yes = HMDな人と𝑖さんが会話している


 HMDな人と𝑖さんが同じ人を見ているかどうか
 Yes = その人が会話の中心にいる


 𝑖さんと同じ場所を見ている人の数
 1以上 = その場所が注意の中心


 𝑖さんと同じ場所を見ている人の数
 1以上 = その場所が注意の中心
 （合計，4次元の特徴）


CRFに突っ込む特徴（３）
 HMDな人の頭部運動
 特に，歩行中のインタラクション判別に効果的．



① Dense optical flowを計算



② ３×３の部分領域に分割



③ 各領域を左右上下成分に
分割（全成分非負値）



③ 各領域を左右上下成分に
分割（全成分非負値）

合計，36次元．


CRFに突っ込む特徴量まとめ
 全部で20次元



 全部合わせて，
60次元の特徴ベクトル/frame の完成．

もう一度モデルを見直す
 条件付き確率場 (CRF)
𝑛 𝑛

𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸


𝑛 𝑛

𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸

潜在変数に依存する重みで，
特徴の各次元を重み付け


𝑛 𝑛

𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸

どの潜在変数が出やすいか，
行動ラベルによって変わる．


𝑛 𝑛

𝑖=1 𝑖=1 𝑘,𝑙 ∈𝐸

どの潜在変数が出やすいか，
行動ラベルによって変わる．
現時点の前後での潜在変数の
変わりやすさが行動ラベル依存．

で，CRFってどうやって解くの？

 準ニュートン法の一種であるBFGSで解けるっぽい


で，CRFってどうやって解くの？

 準ニュートン法の一種であるBFGSで解けるっぽい
 反省しています…これを読んで出直します…
http://d.hatena.ne.jp/nishiohirokazu/20111216/1324015670


データセット

http://vimeo.com/37507972

http://www.cc.gatech.edu/~afathi3/Disney/


使った機材
 GoPro HD HERO2：今なら1台299USD！

http://jp.gopro.com/hd-hero2-cameras/


データセット詳細スペック
 8人に42時間HMDな人になってもらう．
 その他含めて25人以上の団体様でテーマパークへ．
 データに残ったのは25人だった模様．
 1280x720 pixels, 30fpsでキャプチャ，15fpsにして解析．


 全映像に手動でラベリング．
 6種類の行動ラベル：
（1対1）対話，議論，独り言，歩いて対話，歩いて議論，他．
 行動の開始と終了も丁寧にアノテーション．


 全映像に手動でラベリング．
 6種類の行動ラベル：
（1対1）対話，議論，独り言，歩いて対話，歩いて議論，他．
 行動の開始と終了も丁寧にアノテーション．
 顔向きや位置は各人1000フレームだけラベリング．
 5人分を各種学習に，残り3人分をテストに．


行動ラベリングの結果（１）
Dialogue Discussion Monologue
True positive

False positive
水色：位置に関する特徴だけ
緑色： HMDな人の頭部運動特徴だけ
青色：注目度に関する特徴だけ
赤色：全部使ってみた（提案法）

行動ラベリングの結果（１）
Dialogue Discussion Monologue
True positive

対抗手法ないのでこれで勘弁してやろうか…

False positive

行動ラベリングの結果（２）
Walk dialogue Walk discussion Confusion mat.
True positive

False positive

True positive

False positive
Dialogとdiscussionを区別するのは大変．

True positive

False positive
Dialogとdiscussionを区別するのは大変．
歩いているとさらに大変．

実世界における仲良し関係が明らかに
 特に何も解析はしていないが，
多くのデータで突き詰めて解析すると，
何か面白い結果が出る，かも？


他にもたくさんできることが
 グループ全員の行動パターンを知る


 グループ全員の行動パターンを知る．
 たぶんこれら
 Fathi, Rehg “Learning to recognize daily actions using
attention,” IEEE Works. Egocentric Vision 2012.
gaze,” to appear in ECCV2012.


 同じ，じゃないよね，まさか…


 同じ，じゃないよね，まさか…

 複数のHMDの幾何拘束を使って
本質的にインタラクションの問題を解ける．
 たぶんどっかで見たけど，忘却の彼方…


参考資料
 第1著者のページ (Alireza Fathi)
http://www.cc.gatech.edu/~afathi3/
 2nd IEEE Workshop on Egocentric (First-Person) Vision
in conjunction with CVPR2012
http://egovision12.cc.gatech.edu
 First-person social interaction dataset
http://www.cc.gatech.edu/~afathi3/Disney/
 Woodman Labs GoPro HD HERO2
http://jp.gopro.com/hd-hero2-cameras/
 数式を含む論文の読解効率化 / 西尾泰和のはてなダイアリー
http://d.hatena.ne.jp/nishiohirokazu/20111216/1324015670


関西CVPR勉強会 2012.7.29

Recommended

Recommended

More Related Content

More from Akisato Kimura

More from Akisato Kimura (20)

Recently uploaded

Recently uploaded (9)

関西CVPR勉強会 2012.7.29