Weitere ähnliche Inhalte
Ähnlich wie [DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks (20)
Mehr von Deep Learning JP (20)
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
- 3. 書誌情報
3
• 論⽂名:“DeepPose: Human Pose Estimation via Deep Neural
Networks”
– https://arxiv.org/pdf/1312.4659
• 著者:Alexander Toshev, Christian Szegedy
– Google
• 公開⽇:20 Aug 2014
• IEEE Conference on Computer Vision and Pattern Recognition, 2014
• ※ 特に断りが無い場合は, 上記論⽂, Slide, Videoから引⽤
- 6. Introduction
• ⼈間は隠れている関節の位置を推測できる
– 他の部位の様⼦や対象⼈物の動きから推測
– → 「全体的に⾒て, 推測する」ことが重要
• DNNならこの辺うまくできそう.
• 既存研究では, パーツごと検出してあとでパーツ間の関係を考慮する⼿法が
多い.
• → DNNなら特徴量設計しなくていい & パーツ検出器設計いらない & 関節
間の相互関係などのモデルもいらない
• DeepPoseでは 複数のDNNを直列につなげる
– ⼤まかに各関節の初期位置を推定するDNN
– 推定された位置の画像を切り出したもの⽤いて, 関節位置推定するDNN ←
– 各関節推定のためのDCNNの直列の繋ぎ合わせ
6
- 9. CNNによる関節位置の推定
• 画像xを姿勢ベクトルyに回帰する関数ψ(x;θ) ∈ R2kを学習.(k:関節数)
• ψを事前に決めたサイズ(220x220)の3チャンネルの⼊⼒画像を取り, 2k次
元のベクトルy*を出⼒するDeep Convolutional Neural Networkで近似.
• CNNのアーキテクチャ:AlexNet
– 最終層は1000unitsではなく2k units
– 13層アーキテクチャ:C(55 x 55 x 96) - LRN - P - C(27 x 27 x 256) - LRN - P -
C(13 x 13 x 384) - C(13 x 13 x 384) - C(13 x 13 x 256) - P - F(4096) -
F(4096) - F(2k)
– 活性化関数には全てReLu
– フィルタサイズは, 下から順位, 11x11, 5x5, 3x3, 3x3
9
- 11. 訓練
• データ前処理
– 画像から⼈物領域切り出し.
– データセット内のデータを⼈物領域切り出した画像上の座標に変換.
• 誤差関数
– 予測ベクトルψ(x;θ)と正解ベクトルyの間のユークリッド距離
– K個の関節ごとのL2距離の合計(MSE)
• 勾配降下法:Momentum SGD or Adam
• Data Augumentation: ランダムCrop, ランダムノイズ
11