[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Deep High-Resolution Representation
Learning for Human Pose Estimation”
Matsuo Lab, Ryo Okada/岡田領

Outline
1. 書誌情報
2. 論文の概要
3. 姿勢推定問題とは
4. 先行研究
5. 提案手法
6. 実験
7. まとめ
2

書誌情報
• タイトル
– Deep High-Resolution Representation Learning for Human
Pose Estimation
• 著者
– Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang
– University of Science and Technology of China,
Microsoft Research Asia
• CVPR’19
3

本論文の概要
• Deep High-Resolution Representation Learning for
Human Pose Estimation
– ネットワーク全体で高解像度を維持する一方で、複数スケールを繰り返し
フィージョンする姿勢推定のためのhigh resolution network
（HRNet）を提案
– 異なるスケールのインタラクションを密にして高精度出した
5

Human Pose
Estimation - 姿勢推定
• 姿勢推定とは
– 画像や動画から肩や手首といった人間の関節部分
（キーポイント）を推定する問題
• 種類
– 2D姿勢推定
• 画像から関節部分の２次元(x, y)の位置を推定する
– 3D姿勢推定
• 画像から関節部分の３次元(x, y, z)の位置を推定す
る
• 利用例
– 行動認識、アニメーション、ゲーム
– Homecourt（バスケのシュートの分析アプリ）
7

Human Pose Estimation - 姿勢推定
• 姿勢推定モデルのアプローチ
– トップダウンアプローチ
• まず人物を検知する。その後、それぞれの人物について姿勢推定(Single Person Pose
Estimation)を行う。
• 人数に比例して計算量が増加する
– ボトムアップアプローチ
• 画像中のキーポイントを全て洗い出したあと、人物ごとにマッチングさせて繋ぎ合わせて
いく。
• トップダウンに比べ、計算量が少ないが、部位間のつなぎ合わせの精度が低い
8

姿勢推定の先行研究
10
Hourglass Cascaded pyramid network Simple Baseline
• 対照的な高->低、低->高解像度の
ネットワーク(Hourglass)を直列に
８つつ繋ぐ。それぞれのhourglass
ではIntermediate supervisionを用
いる。
• Skip connection使ってフュージョ
ンする。
• トップダウンアプローチ（人物検
知->姿勢推定）
• 左側の GlobalNetで単純明瞭な
キーポイントを見つける。右部分
のRefineNetが複数スケールの特
徴をアップサンプリング・統合す
ることで、抽象度の高く、見つけ
づらいキーポイントの推定を行う。
• ResNetで高->低解像度、Hourglass
ではアップサンプリングであった
が、deconv layerでスケールを戻
す。
• シンプルなネットワークで高性能
を示した。
• ECCV Posetrack challenge 2018で優
勝
• 著者らの前作

既存研究のポイントと提案手法の着想
11
既存研究提案手法
直列に高->低解像度へ落とす
段階的に異なるスケールを加えていく
ものが多い
Intermediate supervisionを使用
(Hourglassなど)
並列に高->低解像度ネットワーク
(分類やセグメンテーションのmulti scale
networkから着想. Ex. Convolutional
neural fabric, interlinked CNN)
複数スケールを一気に繰り返しフュー
ジョン
(Deep fusionから着想)
intermediate supervisionを使用
しないため、計算量小。
ネットワーク
構成
複数スケール
の加算方
Intermediat
e
supervision

HRNetのアーキテクチャ
13
• 高解像度から始め徐々に低解像度
のサブネットワークを加えていく。
• 後段のステージの並列ネットワー
クの解像度は前段のステージのも
のに加え、より解像度の低いもの
で構成される。
• サブネットワーク間で情報を繰り
返しフュージョンする
• 異なるスケールのfeature mapは
アップサンプリング (nearest
neighbor サンプリング + 1x1
convolution) またはダウンサ
ンプリング (strided 3x3
convolution) して加算。
並列マルチ解像度サブネットワーク Exchange Unit
s: stage, r: resolution index

HRNetのアーキテクチャ
14
• 最終層では1x, 2x, 4x, 8xの4スケー
ルが出力される。このうち最も精度の
高い1xの出力のみが用いられる。
• 損失関数はground truthのキーポイン
トヒートマップに対するmean square
error。
HRNet全体イメージ出力
• ４ステージ、４並列サブネットワーク
• 実験では２サイズのネットワークを用意
• HRNet-W32（チャンネル幅32,64,128,256）
• HRNet-W48（チャンネル幅48,96,192,384）

実験
• 以下データセットで検証。それ
ぞれSoTAを達成。
– MSCOCO
• 物体検知・セグメンテーション・人物
姿勢を含むデータセット
– MPII Human Pose Estimation,
PoseTrack
• 人物2D姿勢データセット
• 評価指標（COCOでの検証の際）
– Object Keypoint Similarity
– 物体認識におけるIoUと似た役割
– OKS閾値でのStandard Average
precisionとrecall scoresで評
価 16
http://image-
net.org/challenges/talks/2016/ECCV2016_workshop_presentation_keypo
int.pdf

COCO test-devでの性能比較結果
17
提案手法が高精度を示
している
• AP: OKSを10段階に
変えた時のAverage
Precisionの平均値
• AP50, AP75: OKSの閾
値0.5, 0.75
• APM,APL: 中サイズ、
大サイズ人物に対す
るAP

分解検証
• 以下３点について分解検証
1. フュージョン回数による効果
2. ネットワーク内での解像度の扱いの影響
3. ヒートマップ推定に利用するfeature mapの解像度
4. 入力サイズの影響
19

分解検証
20
①フュージョンの繰り返しによる効果
提案手法（HRNet-W32）のほうが高性能となった。
徐々にスケール/サブネットワークを増やしていく
のが性能向上につながると言える。
②ネットワーク内での解像度の扱いの影響
マルチスケールのフュージョンは効果的であり、回
数を増やすほど高い性能に
最初から４つのサブネットワークを繋いだネット
ワークと提案手法とを検証(variant of the
HRNet)。
ネットワークの深さやフュージョンについては同じ。
- 結果
Variant of the HRNet: 72.5AP
HRNet-W32:73.4 AP

分解検証
21
③ヒートマップ推定に利用する
feature mapの解像度
小さいサイズにおける変化の方が性能の改善幅が大
きい。
ある程度の解像度を利用すれば精度の高い結果につ
ながる。
④入力サイズの影響
ネットワーク最後で利用するfeature mapの解像
度の精度への影響を検証。
解像度は予測精度に大きく影響することがわかる。

まとめ
• 姿勢推定のためのhigh resolution network（HRNet）を提案した
– プロセス全体で高解像度を維持し、解像度を復元する必要がない、
– 複数の解像度を繰り返しフュージョンし、高い精度を得た
• Future work
– HRNetの他のタスクでの効果検証（すでにいくつか検証している）
• 物体検知
– High-Resolution Representation Learning for Object Detection
• セグメンテーション
– High-Resolution Representations for Labeling Pixels and Regions
• 画像分類
– High-Resolution Representation Learning for ImageNet Classification
• 顔認識
– 未
22

[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie [DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation

Ähnlich wie [DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation (17)

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation