SlideShare ist ein Scribd-Unternehmen logo
1 von 20
1 
2014.12.6 
第26回 コンピュータビジョン勉強会@関東 ECCV2014読み会 
Facial Landmark Detection 
by Deep Multi-task Learning 
Zhanpeng Zhang, Ping Luo, Chen Change Loy, Xiaoou Tang 
The Chinese University of Hong Kong 
笹尾幸良 Yukiyoshi Sasao (紹介者) 
@poyy
2 
Summary 
目的:顔画像の5点の位置を得る(顔特徴点検出:Facial Landmark Detection) 
主目的 
補助的なタスク 
(性別とか顔向き) 
情報も用いて 
一緒に学習する 
Deep CNN + Multi-Task Learning (タスク毎の停止条件付き) 
によって、少ないNN-layer数で高精度,隠れに強い顔特徴点検出を実現
3 
著者(研究室) 紹介1 
香港中文大学 
The Chinese University of Hong Kong / Multimedia Laboratory 
Xiaogang Wang 
Deep Learning を人・顔などの認識に応用 
ECCV2014 : 10papers accepted 
CVPR2014 : 12papers accepted
4 
著者(研究室) 紹介2 
顔認識ベンチマーク Labeled Faces in the Wild でNo.1精度 
人が実施した精度 (Human performance) 
Facebook
5 
顔特徴点検出の先行研究 
● Regression-based method 
Valstar, M., Martinez, B., Binefa, X., Pantic, M.: 
Facial point detection using boosted regression 
and graph models. In: CVPR. pp. 2729-2736 (2010) 
回帰で、点の位置を直接求める 
● Template fitting method 
Cootes, T.F., Edwards, G.J., Taylor, C.J.: 
Active appearance models. 
PAMI 23(6), 681-685 (2001) 
位置や見た目のモデルをあてはめる 
● Cascaded CNN 
Sun, Y., Wang, X., Tang, X.: 
Deep convolutional network cascade 
for facial point detection. 
In: CVPR. pp. 3476-3483 (2013) 
同じ研究室の手法 
特徴点ごとに分割して段階的にCNNを適用. 
CNN数が多い. 23 CNNs. 
先行研究に対し,補助的なタスクを使うことと, 
Raw-pixel入力のCNNで,Cascadeせずに 
少ない処理時間で処理できることが特徴.
6 
メインTask と 補助Task 
w 
メインTask 
5点の2次元座標 (回帰) 
眼鏡をかけているか (識別) 
笑顔か (識別) 
性別 (識別) 
顔向き (識別) 
g
7 
目的関数 1 
● 一般的な Multi-Task Learning (MTL) 
各Task 各訓練サンプル 
正則化 
正解y 特徴量x, パラメータwによる関数 
各Taskの損失関数 
→ 全てのTaskの損失関数を平等に最適化
8 
● 本稿でのMTL 
目的関数 2 
各補助Task 
その補助Taskの重要度 
メインTask(顔特徴点検出)の損失補助Task(笑顔,眼鏡,..)の損失 
→ Taskごとに重要度λは異なる (λも学習) 
目的はあくまでメインTaskを最適化すること 
正則化 
の線形関数softmax関数 
実装は..
9 
全体構造 
TCDCN : Tasks-Constrained Deep Convolutional Network 
特徴量 
は共通 
Network (特徴抽出)は 
全Taskで共通 
各Taskで回帰
10 
CNNで抽出した特徴量 
・学習した特徴量を可視化すると.. 
似たような顔向き、顔属性の入力に対し 
同じような特徴量を抽出できている 
→ 顔向き・顔属性にロバストな特徴空間
11 
学習方法: 
一般的な確率的勾配降下法 (Stochastic Gradient Descent) 
例: 
Back propagation 特徴量のエラー = 全TaskのErrorを統合したもの 
収束するまで繰り返す
12 
Task-wise early stopping: 
Taskによって, 難易度, 収束率 (最適なパラメータまでのiteration数) は異なる 
例えば, 眼鏡のあり/なしは, 笑顔かどうか よりも簡単である 
そのTaskの最良の時を過ぎて学習を続けることは, 
メインTaskの学習を阻害することになりかねない 
→ Taskごとに, 最良の時に学習をstopする 
[最良の時]のcriterion 
閾値 
training-errorの傾向. 
直近k回のtraining-errorが 
急激に落ちていると, 
値は小さくなる → stop しない 
:補助Taskの重要度 
汎化性能. 
training-error に対する validation-error の率.
13 
結果 評価Dataset : AFLW 
評価Dataset : AFW 
失敗例
14 
評価(1) 各補助Taskの効果: 
学習画像として, 自ら用意した公開Dataset (MTFL) を使用 
評価Dataset : AFLW 
・全補助Taskを使用する(FLD+all)ことで, 従来(FLD)から失敗率を10%改善 
・補助Taskの中ではposeが最も寄与している
15 
評価(2) Smile, Poseの効果: 
評価Dataset : AFLW
16 
評価(3) Task-wise Early Stoppingの効果: 
補助Taskごとにstopすることで, 精度向上している
17 
評価(4) 他手法との比較 1 
Cascaded CNN と比較し, より少ない計算量で, 精度が良い 
CNN数処理時間 on Core i5 
Cascaded CNN 23 120 msec 
TCDCN 1 17 msec GPU 
→ 1.5 msec
18 
評価(4) 他手法との比較 2
19 
Demo 
http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html 
● Live Demo (exe, windows) 
● Multi-Task Facial Landmark (MTFL) dataset
まとめ 
● 異なる, だが少し関係するTaskとのjoint-learningによって, 
隠れや顔角度に頑強な顔特徴点検出を実現. 
20 
● Taskごとの早期停止スキームによってモデルを収束. 
● CNNをCascadeしないため高速. 
● 他の手法の初期位置推定としても使用可能. 
RCPR(Robust face landmark estimation under occlusion) 
を高精度化

Weitere ähnliche Inhalte

Was ist angesagt?

(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target Propagation(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target PropagationMasahiro Suzuki
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」Naoki Hayashi
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Takao Yamanaka
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
トピックモデル
トピックモデルトピックモデル
トピックモデル貴之 八木
 
誤差逆伝播法の計算(ディープラーニング)
誤差逆伝播法の計算(ディープラーニング)誤差逆伝播法の計算(ディープラーニング)
誤差逆伝播法の計算(ディープラーニング)t dev
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定Masaaki Imaizumi
 
20150803.山口大学集中講義
20150803.山口大学集中講義20150803.山口大学集中講義
20150803.山口大学集中講義Hayaru SHOUNO
 
Prml5 6
Prml5 6Prml5 6
Prml5 6K5_sem
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】Naoki Hayashi
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
Back propagation
Back propagationBack propagation
Back propagationT2C_
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)Akisato Kimura
 

Was ist angesagt? (20)

(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target Propagation(DL hacks輪読) Difference Target Propagation
(DL hacks輪読) Difference Target Propagation
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
トピックモデル
トピックモデルトピックモデル
トピックモデル
 
誤差逆伝播法の計算(ディープラーニング)
誤差逆伝播法の計算(ディープラーニング)誤差逆伝播法の計算(ディープラーニング)
誤差逆伝播法の計算(ディープラーニング)
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
 
NLPforml5
NLPforml5NLPforml5
NLPforml5
 
20150803.山口大学集中講義
20150803.山口大学集中講義20150803.山口大学集中講義
20150803.山口大学集中講義
 
Prml5 6
Prml5 6Prml5 6
Prml5 6
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
 
PRML Chapter5.2
PRML Chapter5.2PRML Chapter5.2
PRML Chapter5.2
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
Back propagation
Back propagationBack propagation
Back propagation
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)
 
PRML chapter5
PRML chapter5PRML chapter5
PRML chapter5
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 

Andere mochten auch

(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
(研究会輪読) Facial Landmark Detection by Deep Multi-task LearningMasahiro Suzuki
 
(DL Hacks輪読) How transferable are features in deep neural networks?
(DL Hacks輪読) How transferable are features in deep neural networks?(DL Hacks輪読) How transferable are features in deep neural networks?
(DL Hacks輪読) How transferable are features in deep neural networks?Masahiro Suzuki
 
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization TrickMasahiro Suzuki
 
(DL hacks輪読) Variational Inference with Rényi Divergence
(DL hacks輪読) Variational Inference with Rényi Divergence(DL hacks輪読) Variational Inference with Rényi Divergence
(DL hacks輪読) Variational Inference with Rényi DivergenceMasahiro Suzuki
 
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...Masahiro Suzuki
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsTakuya Akiba
 
How to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your NicheHow to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your NicheLeslie Samuel
 
Large-Scale Object Classification Using Label Relation Graphs
Large-Scale Object Classification Using Label Relation GraphsLarge-Scale Object Classification Using Label Relation Graphs
Large-Scale Object Classification Using Label Relation GraphsTakuya Minagawa
 
Iaetsd deblurring of noisy or blurred
Iaetsd deblurring of noisy or blurredIaetsd deblurring of noisy or blurred
Iaetsd deblurring of noisy or blurredIaetsd Iaetsd
 
image-deblurring
image-deblurringimage-deblurring
image-deblurringErik Mayer
 
DTAM: Dense Tracking and Mapping in Real-Time, Robot vision Group
DTAM: Dense Tracking and Mapping in Real-Time, Robot vision GroupDTAM: Dense Tracking and Mapping in Real-Time, Robot vision Group
DTAM: Dense Tracking and Mapping in Real-Time, Robot vision GroupLihang Li
 
[G4]image deblurring, seeing the invisible
[G4]image deblurring, seeing the invisible[G4]image deblurring, seeing the invisible
[G4]image deblurring, seeing the invisibleNAVER D2
 
(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot LearningMasahiro Suzuki
 
Deblurring of Digital Image PPT
Deblurring of Digital Image PPTDeblurring of Digital Image PPT
Deblurring of Digital Image PPTSyed Atif Naseem
 
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakiCvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakitomoaki0705
 
Suicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webminingSuicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webminingHiroko Onari
 
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜Junichi Noda
 

Andere mochten auch (20)

(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
 
(DL Hacks輪読) How transferable are features in deep neural networks?
(DL Hacks輪読) How transferable are features in deep neural networks?(DL Hacks輪読) How transferable are features in deep neural networks?
(DL Hacks輪読) How transferable are features in deep neural networks?
 
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
 
(DL hacks輪読) Variational Inference with Rényi Divergence
(DL hacks輪読) Variational Inference with Rényi Divergence(DL hacks輪読) Variational Inference with Rényi Divergence
(DL hacks輪読) Variational Inference with Rényi Divergence
 
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
How to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your NicheHow to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your Niche
 
Large-Scale Object Classification Using Label Relation Graphs
Large-Scale Object Classification Using Label Relation GraphsLarge-Scale Object Classification Using Label Relation Graphs
Large-Scale Object Classification Using Label Relation Graphs
 
Iaetsd deblurring of noisy or blurred
Iaetsd deblurring of noisy or blurredIaetsd deblurring of noisy or blurred
Iaetsd deblurring of noisy or blurred
 
Deblurring in ct
Deblurring in ctDeblurring in ct
Deblurring in ct
 
image-deblurring
image-deblurringimage-deblurring
image-deblurring
 
DTAM: Dense Tracking and Mapping in Real-Time, Robot vision Group
DTAM: Dense Tracking and Mapping in Real-Time, Robot vision GroupDTAM: Dense Tracking and Mapping in Real-Time, Robot vision Group
DTAM: Dense Tracking and Mapping in Real-Time, Robot vision Group
 
[G4]image deblurring, seeing the invisible
[G4]image deblurring, seeing the invisible[G4]image deblurring, seeing the invisible
[G4]image deblurring, seeing the invisible
 
(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning(DL輪読)Matching Networks for One Shot Learning
(DL輪読)Matching Networks for One Shot Learning
 
Deblurring of Digital Image PPT
Deblurring of Digital Image PPTDeblurring of Digital Image PPT
Deblurring of Digital Image PPT
 
Deeplearning4.4 takmin
Deeplearning4.4 takminDeeplearning4.4 takmin
Deeplearning4.4 takmin
 
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakiCvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoaki
 
Suicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webminingSuicide ideation of individuals in online social networks tokyo webmining
Suicide ideation of individuals in online social networks tokyo webmining
 
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜
せいまち〜聖地探訪に出会いを求めるのは間違っているだろうか〜
 
Dslt祭り2夜
Dslt祭り2夜Dslt祭り2夜
Dslt祭り2夜
 

Ähnlich wie Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目Atsushi Hashimoto
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
Cvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep faceCvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep facetomoaki0705
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用Seiya Tokui
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasyYoichi Shirasawa
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Taiga Nomi
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phraseTatsuya Shirakawa
 
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyamaPreferred Networks
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Yoshitaka Ushiku
 
Interop2017
Interop2017Interop2017
Interop2017tak9029
 

Ähnlich wie Introduction to "Facial Landmark Detection by Deep Multi-task Learning" (20)

20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
Cvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep faceCvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep face
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
Protocol
ProtocolProtocol
Protocol
 
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
Interop2017
Interop2017Interop2017
Interop2017
 

Kürzlich hochgeladen

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 

Kürzlich hochgeladen (8)

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 

Introduction to "Facial Landmark Detection by Deep Multi-task Learning"

  • 1. 1 2014.12.6 第26回 コンピュータビジョン勉強会@関東 ECCV2014読み会 Facial Landmark Detection by Deep Multi-task Learning Zhanpeng Zhang, Ping Luo, Chen Change Loy, Xiaoou Tang The Chinese University of Hong Kong 笹尾幸良 Yukiyoshi Sasao (紹介者) @poyy
  • 2. 2 Summary 目的:顔画像の5点の位置を得る(顔特徴点検出:Facial Landmark Detection) 主目的 補助的なタスク (性別とか顔向き) 情報も用いて 一緒に学習する Deep CNN + Multi-Task Learning (タスク毎の停止条件付き) によって、少ないNN-layer数で高精度,隠れに強い顔特徴点検出を実現
  • 3. 3 著者(研究室) 紹介1 香港中文大学 The Chinese University of Hong Kong / Multimedia Laboratory Xiaogang Wang Deep Learning を人・顔などの認識に応用 ECCV2014 : 10papers accepted CVPR2014 : 12papers accepted
  • 4. 4 著者(研究室) 紹介2 顔認識ベンチマーク Labeled Faces in the Wild でNo.1精度 人が実施した精度 (Human performance) Facebook
  • 5. 5 顔特徴点検出の先行研究 ● Regression-based method Valstar, M., Martinez, B., Binefa, X., Pantic, M.: Facial point detection using boosted regression and graph models. In: CVPR. pp. 2729-2736 (2010) 回帰で、点の位置を直接求める ● Template fitting method Cootes, T.F., Edwards, G.J., Taylor, C.J.: Active appearance models. PAMI 23(6), 681-685 (2001) 位置や見た目のモデルをあてはめる ● Cascaded CNN Sun, Y., Wang, X., Tang, X.: Deep convolutional network cascade for facial point detection. In: CVPR. pp. 3476-3483 (2013) 同じ研究室の手法 特徴点ごとに分割して段階的にCNNを適用. CNN数が多い. 23 CNNs. 先行研究に対し,補助的なタスクを使うことと, Raw-pixel入力のCNNで,Cascadeせずに 少ない処理時間で処理できることが特徴.
  • 6. 6 メインTask と 補助Task w メインTask 5点の2次元座標 (回帰) 眼鏡をかけているか (識別) 笑顔か (識別) 性別 (識別) 顔向き (識別) g
  • 7. 7 目的関数 1 ● 一般的な Multi-Task Learning (MTL) 各Task 各訓練サンプル 正則化 正解y 特徴量x, パラメータwによる関数 各Taskの損失関数 → 全てのTaskの損失関数を平等に最適化
  • 8. 8 ● 本稿でのMTL 目的関数 2 各補助Task その補助Taskの重要度 メインTask(顔特徴点検出)の損失補助Task(笑顔,眼鏡,..)の損失 → Taskごとに重要度λは異なる (λも学習) 目的はあくまでメインTaskを最適化すること 正則化 の線形関数softmax関数 実装は..
  • 9. 9 全体構造 TCDCN : Tasks-Constrained Deep Convolutional Network 特徴量 は共通 Network (特徴抽出)は 全Taskで共通 各Taskで回帰
  • 10. 10 CNNで抽出した特徴量 ・学習した特徴量を可視化すると.. 似たような顔向き、顔属性の入力に対し 同じような特徴量を抽出できている → 顔向き・顔属性にロバストな特徴空間
  • 11. 11 学習方法: 一般的な確率的勾配降下法 (Stochastic Gradient Descent) 例: Back propagation 特徴量のエラー = 全TaskのErrorを統合したもの 収束するまで繰り返す
  • 12. 12 Task-wise early stopping: Taskによって, 難易度, 収束率 (最適なパラメータまでのiteration数) は異なる 例えば, 眼鏡のあり/なしは, 笑顔かどうか よりも簡単である そのTaskの最良の時を過ぎて学習を続けることは, メインTaskの学習を阻害することになりかねない → Taskごとに, 最良の時に学習をstopする [最良の時]のcriterion 閾値 training-errorの傾向. 直近k回のtraining-errorが 急激に落ちていると, 値は小さくなる → stop しない :補助Taskの重要度 汎化性能. training-error に対する validation-error の率.
  • 13. 13 結果 評価Dataset : AFLW 評価Dataset : AFW 失敗例
  • 14. 14 評価(1) 各補助Taskの効果: 学習画像として, 自ら用意した公開Dataset (MTFL) を使用 評価Dataset : AFLW ・全補助Taskを使用する(FLD+all)ことで, 従来(FLD)から失敗率を10%改善 ・補助Taskの中ではposeが最も寄与している
  • 15. 15 評価(2) Smile, Poseの効果: 評価Dataset : AFLW
  • 16. 16 評価(3) Task-wise Early Stoppingの効果: 補助Taskごとにstopすることで, 精度向上している
  • 17. 17 評価(4) 他手法との比較 1 Cascaded CNN と比較し, より少ない計算量で, 精度が良い CNN数処理時間 on Core i5 Cascaded CNN 23 120 msec TCDCN 1 17 msec GPU → 1.5 msec
  • 19. 19 Demo http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html ● Live Demo (exe, windows) ● Multi-Task Facial Landmark (MTFL) dataset
  • 20. まとめ ● 異なる, だが少し関係するTaskとのjoint-learningによって, 隠れや顔角度に頑強な顔特徴点検出を実現. 20 ● Taskごとの早期停止スキームによってモデルを収束. ● CNNをCascadeしないため高速. ● 他の手法の初期位置推定としても使用可能. RCPR(Robust face landmark estimation under occlusion) を高精度化