Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

1
2014.12.6
第26回コンピュータビジョン勉強会＠関東　ECCV2014読み会
Facial Landmark Detection
by Deep Multi-task Learning
Zhanpeng Zhang, Ping Luo, Chen Change Loy, Xiaoou Tang
The Chinese University of Hong Kong
笹尾幸良　Yukiyoshi Sasao (紹介者)
@poyy

2
Summary
目的：顔画像の５点の位置を得る(顔特徴点検出：Facial Landmark Detection)
主目的
補助的なタスク
(性別とか顔向き)
情報も用いて
一緒に学習する
Deep CNN + Multi-Task Learning (タスク毎の停止条件付き)
によって、少ないNN-layer数で高精度,隠れに強い顔特徴点検出を実現

3
著者(研究室) 紹介1
香港中文大学
The Chinese University of Hong Kong　/ Multimedia Laboratory
Xiaogang Wang
Deep Learning を人・顔などの認識に応用
ECCV2014 : 10papers accepted
CVPR2014 : 12papers accepted

4
著者(研究室) 紹介2
顔認識ベンチマーク Labeled Faces in the Wild でNo.1精度
人が実施した精度 (Human performance)
Facebook

5
顔特徴点検出の先行研究
● Regression-based method
Valstar, M., Martinez, B., Binefa, X., Pantic, M.:
Facial point detection using boosted regression
and graph models. In: CVPR. pp. 2729-2736 (2010)
回帰で、点の位置を直接求める
● Template fitting method
Cootes, T.F., Edwards, G.J., Taylor, C.J.:
Active appearance models.
PAMI 23(6), 681-685 (2001)
位置や見た目のモデルをあてはめる
● Cascaded CNN
Sun, Y., Wang, X., Tang, X.:
Deep convolutional network cascade
for facial point detection.
In: CVPR. pp. 3476-3483 (2013)
同じ研究室の手法
特徴点ごとに分割して段階的にCNNを適用.
CNN数が多い. 23 CNNs.
先行研究に対し,補助的なタスクを使うことと,
Raw-pixel入力のCNNで,Cascadeせずに
少ない処理時間で処理できることが特徴.

6
メインTask と補助Task
w
メインTask
5点の2次元座標 (回帰)
眼鏡をかけているか (識別)
笑顔か (識別)
性別 (識別)
顔向き (識別)
g

7
目的関数 1
● 一般的な Multi-Task Learning (MTL)
各Task 各訓練サンプル
正則化
正解y 特徴量x, パラメータwによる関数
各Taskの損失関数
→　全てのTaskの損失関数を平等に最適化

8
● 本稿でのMTL
目的関数 2
各補助Task
その補助Taskの重要度
メインTask(顔特徴点検出)の損失補助Task(笑顔,眼鏡,..)の損失
→ Taskごとに重要度λは異なる (λも学習)
目的はあくまでメインTaskを最適化すること
正則化
の線形関数softmax関数
実装は..

9
全体構造
TCDCN : Tasks-Constrained Deep Convolutional Network
特徴量
は共通
Network (特徴抽出)は
全Taskで共通
各Taskで回帰

10
CNNで抽出した特徴量
・学習した特徴量を可視化すると..
似たような顔向き、顔属性の入力に対し
同じような特徴量を抽出できている
→　顔向き・顔属性にロバストな特徴空間

11
学習方法:
一般的な確率的勾配降下法 (Stochastic Gradient Descent)
例：
Back propagation 特徴量のエラー = 全TaskのErrorを統合したもの
収束するまで繰り返す

12
Task-wise early stopping:
Taskによって, 難易度, 収束率 (最適なパラメータまでのiteration数) は異なる
例えば, 眼鏡のあり/なしは, 笑顔かどうかよりも簡単である
そのTaskの最良の時を過ぎて学習を続けることは,
メインTaskの学習を阻害することになりかねない
→　Taskごとに, 最良の時に学習をstopする
[最良の時]のcriterion
閾値
training-errorの傾向.
直近k回のtraining-errorが
急激に落ちていると,
値は小さくなる　→ stop しない
：補助Taskの重要度
汎化性能.
training-error に対する validation-error の率.

13
結果評価Dataset : AFLW
評価Dataset : AFW
失敗例

14
評価(1) 各補助Taskの効果:
学習画像として, 自ら用意した公開Dataset (MTFL) を使用
評価Dataset : AFLW
・全補助Taskを使用する(FLD+all)ことで, 従来(FLD)から失敗率を10%改善
・補助Taskの中ではposeが最も寄与している

15
評価(2) Smile, Poseの効果:
評価Dataset : AFLW

16
評価(3) Task-wise Early Stoppingの効果:
補助Taskごとにstopすることで, 精度向上している

17
評価(4) 他手法との比較 1
Cascaded CNN と比較し, より少ない計算量で, 精度が良い
CNN数処理時間 on Core i5
Cascaded CNN 23 120 msec
TCDCN 1 17 msec GPU
→ 1.5 msec

18
評価(4) 他手法との比較 2

19
Demo
http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html
● Live Demo (exe, windows)
● Multi-Task Facial Landmark (MTFL) dataset

まとめ
● 異なる, だが少し関係するTaskとのjoint-learningによって,
隠れや顔角度に頑強な顔特徴点検出を実現.
20
● Taskごとの早期停止スキームによってモデルを収束.
● CNNをCascadeしないため高速.
● 他の手法の初期位置推定としても使用可能.
RCPR(Robust face landmark estimation under occlusion)
を高精度化

Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

Ähnlich wie Introduction to "Facial Landmark Detection by Deep Multi-task Learning" (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (8)

Introduction to "Facial Landmark Detection by Deep Multi-task Learning"