Face Alignment by Explicit Shape Regression

2012/06/23 CV勉強会＠関東
CVPR読み会発表資料
takmin

紹介する論文
 Face Alignment by Explicit Shape Regression
 Xudong Cao, Yichen Wei, Fang Wen, Jian Sun
 Microsoft Research Asia

 回帰ベース/ノンパラメトリックな顔ランドマーク抽出手法
 認識率高い＋効率良い
 この論文を選んだ理由
 回帰による形状当てはめというのをそもそも知らなかった。
 え？本当にこんな単純なモデルでうまくいくの？という感想。
 でも、理解するのには手間取った。。。
 そしてイマイチ腹に落ちた感じがしない。。。

実験結果(LFPWデータセット)

実験結果(LFW87データセット)

実験結果（BioIDデータセット）

顔の形状当てはめ
 x1 
 y 
 1 
S  
 
 x N fp 
 yN 
 fp 

ˆ
min S  S (1)
2
推定した形状正解データ

従来法
 Optimization-based
 AAMなど、(1)と相関する誤差関数を使用
 Regression-based
 パラメトリックなモデルで、間接的に(1)を最小化
 個々のランドマークの見えからリグレッサーを学習

目的：ランドマーク間の相関も考慮し、直接(1)を最小化す
るリグレッサーを求める！

ˆ
min S  S (1)
2
推定した形状正解データ

回帰による形状当てはめ
 Boosting Regressor
 形状を弱いリグレッサーの和とする。
T 画像

S  S   R (I )
0 t

推定平均 t 1 弱リグレッサー
形状形状
（形状の変化分）

t 1 t 1
S S
t
 R ( I , S ), t  1,, T
t
(2)

更新現在の弱リグレッサー
形状形状（形状の変化分）

各学習サンプルの形状誤差の和が最小となるリグレッサーを算出
N
R t  arg min  Si  ( Sit 1  R( I i , Sit 1 ))
ˆ (3)
R
i 1
訓練サンプルの誤差

ˆ
min S  S (1)
2

t 1 t 1
S St
 R ( I , S ), t  1,, T
t
(2)

更新現在の弱リグレッサー
形状形状（形状の変化分）

各学習サンプルの形状誤差の和が最小となるリグレッサーを算出
N
ˆ (3)
R
i 1
訓練サンプルの誤差

学習の順番 ˆ
Si
正解形状

S0
R1
S i1
R2
S i2
… SiT 1
RT
S iT

Two-level cascaded regression
 リグレッサーを２段階のBoostingで構成する
 収束性向上＆性能向上のため
N
ˆ (3)
R
i 1
K
R t ( I i , Sit 1 )  Sit 1   r k ( I i , Sik 1 )
k 1
2段目の弱リグレッサー
(Primitive Regresser)

N
ˆ (3)
R
i 1
K
R t ( I i , Sit 1 )  Sit 1   r k ( I i , Sik 1 )
k 1

S   S   r ( I , S  ), k  1,, K
k k 1 k k 1

S 0  S t 1

N
ˆ (3)
R
i 1

N
r  arg min 
k ˆ  ( S k 1  r ( I , S k 1 ))
Si i i i
r
i 1

S   S   r ( I , S  ), k  1,, K
k k 1 k k 1

S 0  S t 1


学習の順番

S i2
… SiT 1 S iT
0 1
S S
R1 i
R2 RT
S 0
S 1
i S 1
i S i
2
SiT 1 S iT

r1 r2 … rK … …
fern

Primitive Regressor
 2段目の弱リグレッサー = fern
 F個の特徴を持ち、各特徴は閾値で2つに分類
 全部で2のF乗のグループに分ける

F次元特徴ベクトル  f1, f 2 , f3 , f 4 , f5 
T

fern
k
r

個の各binに S b
0,1,1,0,1
F
出力
T 2
を割り当てる

Primitive Regressor

Sb  arg min  Si  (Si  S )
ˆ  b ：このbinの訓練 (4)
S サンプル集合
ib

Sb 

ib
ˆ
( Si  Si )
(5)
b

bと判別された訓練サンプルの形状と正解形状の誤差の平均

Primitive Regressor

ˆ  b ：このbinの訓練 (4)
ib

Sb 
1  ib
ˆ
( Si  Si )
(6)
1   / b b
データ数が少なかった時
のOverfittingを避けるた
め

Shape-indexed (image) features

F次元特徴ベクトル  f1, f 2 , f3 , f 4 , f5 
T
どんな画像特徴？

fern
k
r どうやって作る？

出力 0,1,1,0,1 T

 どんな画像特徴？
２つの画素の値の差

x
x  f1 
x f 
 2
x
x
x
 f3 
x  
x
x  f4 
x x  f5 
 

 顔の向き/大きさに不変な特徴にしたい
 現在の顔形状 S t を標準顔 S 0 にフィッティングする
 画素の位置をそれに合わせて変換
 座標系の原点を最近傍のランドマークに取ることで、表
情の変化にもロバストにする。

○ ×

Correlation-based feature selection

F次元特徴ベクトル  f1, f 2 , f3 , f 4 , f5 
T

fern
k
r どうやって作る？

出力 0,1,1,0,1 T

どの場所の画素のペアを使う？
閾値はどう決める？

 シンプルな方法（n-Best）
1. n個のfernをランダムに生成する
2
2. 訓練画像からランダムにP個の画素を選択し、P 個の特徴
を作る
3. (4)式を評価し、最も誤差の少ないものを選択する

ˆ  b ：このbinの学習 (4)
ib

非効率！

 CBFS（Correlation-based feature selection）
 P 2 個の特徴の中から、目標（正解形状と現在の形状の差
分）と相関の高いものを取ってくる
N
ˆ (3)
R
i 1

t 1ˆ  S t 1
R( I i , S )  S i
i i
ターゲット

1. 回帰目標ベクトルをランダムな方向へ投影し、スカラー
値を取得

ˆ
Si  Sit 1

ランダムなベクトル

i

2
2. P 個の特徴の中から取得したスカラー値と最も相関の
高いものを1つ選ぶ
訓練サンプル

x
x 1,, i ,, N  T

相関

 f1,, fi ,, f N  T

x
x
x
x
N=学習サンプル数

3. 1と2をF回繰り返し、F個の特徴を取得
4. F個の特徴にランダムに閾値を設けることで、fernを作
成
ˆ
Si  Sit 1
1,, i ,, N  T

相関

 f1,, fi ,, f N  T

i
ランダムなベクトル

Non-parametric shape constraint
 本手法での形状は、以下の式で表せる
N
S  S   wi Si
0 ˆ (6)
初期形状 i 1 訓練形状

訓練形状の線型部分空間内のため、顔の形状に制約
が自動的につく

人の顔として不自然な形に歪むことがない！

 本手法での形状は、以下の式で表せる
N
S  S   wi Si
0 ˆ (6)
初期形状 i 1 訓練形状
顔の変形へのペナルティがいらない！

 AAMやCLMの場合
n
Q(p)  R(p)   Di (xi ; I )
i 1
パラメータ顔の変形のアピアランス
誤差関数大きさに対すの類似度
るペナルティ
（正則化項）


 徐々に顔形状がFittingされていく様子

 Fernリグレッサーの各bin （ 2 F  K ）個に格納されている
形状 S b を主成分分析し、95%までのエネルギーを持つ
主成分の数をプロットしたもの。
(ステージが上がるほど形状の微調整が必要になり、主成分が増える)

Rt

 最初のステージ R1 と最後のステージ RT における上位3
つの主成分

最初のステージ最後のステージ

学習方法の擬似コード
学習データから平均顔形状 S 0 を算出
S  S0
While (T):
画像からP個の画素をランダムに取得し P 2の画素ペアを作成
S  S
While (K):
S と P
2
の特徴ベクトルでfernを学習(CBFS)
fernで学習画像を 2 F のグループに分離
分離した各グループから各binの S b を(6)で決定

Sb 
1 
ib
ˆ
( Si  Si )
(6)
1   / b b

Si  Si  rk ( I , Si)
S  S

実装の詳細
 訓練データの拡張
 初期形状として平均だけでなく、訓練形状からランダムに選ん
で、それも初期形状としてトレーニングに使用
 複数の初期形状による検出
 平均形状だけでなく、複数の初期形状を用いて検出を行い、
得られた形状の中間値を取ることで、精度向上

実装の詳細
 処理時間
 Intel Core i7 2.93GHz / C++ implementation
 訓練画像: 2000枚

 パラメータ
F  5   1000 T  10 K  500 P  400

実験
 従来法との比較のため、以下のデータセットで実験
 BioID
 LFPW
 LFW87

LFPWデータセットの結果

丸の半径が本手法のエラーの平 [1]P.Belhumeur et al, ”Localizing parts
均。Greenが従来法と比べ10%以 of faces using a concensus of
上精度が上がった箇所 exemplars”, CVPR2011

LFW87データセットの結果

[12]L. Liang et al., “Face Alignment via component-based discriminative search”,
ECCV2008

BioIDデータセットの結果

アルゴリズムの検証
 アルゴリズムの検証にはLPFWデータセットを用いた
 Two-level cascaded regression
 １段目の弱リグレッサーと２段目の弱リグレッサーの数を変更
して、精度を確認

 Shape indexed feature
 2つの特徴用座標系で比較

平均誤差: 0.033 平均誤差: 0.059

 Feature selection
 特徴抽出手法（fernの構築方法）について、n-Bestと
Correleation-based feature selection method(CBFS)との比較

 各訓練ステージ毎に、選択された特徴間の距離の平均
をプロット

学習が進むほど小さくなる。（微調整になる）

結論
 顔画像に形状を陽に、回帰的に割り当てる手法を提案。
 全体への形状の割り当てと、局所的な誤差の最小化を
同時に回帰的に扱うことで、形状が自動的に制約される。
 高速、高精度。
 リアルタイム追跡も可能
 この形状当てはめのフレームワークは関節を持つ物体
の認識など、他の分野への応用も期待できる。

Face Alignment by Explicit Shape Regression

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Takuya Minagawa

Mehr von Takuya Minagawa (20)

Face Alignment by Explicit Shape Regression