Object as Points

Objects as Points
論文URL : https://arxiv.org/pdf/1904.07850v2.pdf
コード : https://github.com/xingyizhou/CenterNet
[v1] Tue, 16 Apr 2019 17:54:26 UTC
[v2] Thu, 25 Apr 2019 16:20:02 UTC
DLゼミ
M2 木戸口稜
2019/5/22
2019/5/22

概要
• リアルタイム物体認識の論文
• 物体の中心をキーポイント推定で
探知，様々なオブジェクトプロパ
ティに回帰
2019/5/22
2

物体検出
• 従来の方法
1. バウンディングボックスの決定⇒分類器は画像内容
が特定のオブジェクトか背景かを決定
• 1-stage detector : アンカーをスライドさせ無数に作成
• 2-stage detector : 潜在的ボックスについて特徴を再計算
2. 境界ボックスのIoUを計算する
2019/5/22
3

物体検出
• 従来の方法
1. バウンディングボックスの決定⇒分類器は画像内容
が特定のオブジェクトか背景かを決定
• 1-stage detector : アンカーをスライドさせ無数に作成
• 2-stage detector : 潜在的ボックスについて特徴を再計算
2. 境界ボックスのIoUを計算する
• 問題点
• end-to-endの検出ができない
• 全ての有り得る物体の位置および寸法を列挙するの
は無駄が多い
2019/5/22
4

物体検知
• 提案手法
• 物体をバウンディングボックスの中心の1点で表す
• 物体検出を標準的なキーポイント推定問題に変える
• 様々なオブジェクトプロパティに中心位置の画像の
特徴量から直接回帰
2019/5/22
5

中心点の導出
• 𝐼 ∈ 𝑅 𝑊×𝐻×3
: 幅W，高さHの入力画像
• ෠𝑌 ∈ 0,1
𝑊
𝑅
×
𝐻
𝑅
×𝐶
: キーポイントヒートマップ
• C : キーポイントタイプの数. 姿勢推定(C=17)，物体認識(C=80)
• R :ストライド. 文献[4,40,42]のデフォルトを使用(R=4)
• 係数Ｒだけ出力予測をダウンサンプリングしている
• ෠𝑌𝑥,𝑦,𝑐 = 1 : キーポイント， ෠𝑌𝑥,𝑦,𝑐 = 0 : 背景
• 𝐼から෠𝑌を予測するために，Hourglass, ResNet, DLAを使用
• Cクラスの真値キーポイント𝑝 ∈ ℛ2それぞれに対して等価な低解像度 ෤𝑝 = [
𝑝
𝑅
]を
計算⇒ガウシアンカーネルを用いてヒートマップを作製
• 同じクラスが重複した時は要素ごとの最大値を取る
2019/5/22
6
ガウシアンカーネル
を用いたヒートマップ

中心点の導出
• キーポイント学習用の損失関数
• 焦点損失を伴うペナルティを削減したピクセル単位ロジスティック回帰
• オフセット学習用の損失関数
• 出力ストライドによる離散化誤差を回復するために、各中心点に対して
ローカルオフセットをさらに予測
• 教師は位置 ෤𝑝においてのみ作用し他の位置は無視
2019/5/22
7
オフセット

中心点の導出
• サイズ学習用の損失関数
• スケールは正規化せず、生のピクセル座標を直接用いる
• 代わりに損失を定数𝜆 𝑠𝑖𝑧𝑒でスケーリング
2019/5/22
8
損失関数全体指定しない限り
全ての実験で以下に設定
• 𝜆 𝑠𝑖𝑧𝑒 = 0.1
• 𝜆 𝑜𝑓𝑓 = 1
• キーポイント෠𝑌, オフセット ෠𝑂, サイズ መ𝑆を求めるために単一のネットワークを使用
• 全ての位置でC+4の出力
(𝑥1
𝑘
, 𝑦1
𝑘
, 𝑥2
𝑘
, 𝑦2
𝑘
) をカテゴリー 𝑐 𝑘 の物体 𝑘 のバウンディングボックスとすると、
中心は𝑝 𝑘 = (
𝑥1
𝑘
+𝑥2
𝑘
2
,
𝑦1
𝑘
+𝑦2
𝑘
2
)で、サイズは𝑠 𝑘 = (𝑥2
𝑘
− 𝑥1
𝑘
, 𝑦2
𝑘
− 𝑦1
𝑘
)

中心点からバウンディングボックスに
• キーポイント値 ෠𝑌𝑥 𝑖 𝑦 𝑖 𝑐を検出信頼度の尺度として使用
• バウンディングボックスの位置
2019/5/22
9
ＩｏＵに基づく非最大値抑
制（ＮＭＳ）または他の後
処理を必要とせずに、すべ
ての出力がキーポイント推
定から直接生成される

中心点から3D検出に
• 3D検出では、物体ごとに3次元の境界ボックスが推定され、中心点ごとに3つの
追加属性（深度、３次元位置、方向）が必要
• 深さdは中心点ごとに単一のスカラー
• 奥行きを直接回帰させることは困難なため，Eigen[13]と𝑑 =
1
𝜎 ෠𝑑
− 1を使用
• キーポイント推定量の追加の出力チャネル෡𝐷 ∈ 0,1
𝑊
𝑅
×
𝐻
𝑅として深度を計算
• ３次元位置は３つのスカラ
• 個別のヘッド෠Γ ∈ ℛ
𝑊
𝑅
×
𝐻
𝑅
×3
とL1損失を使用して直接回帰
• 方向は単一のスカラ
• 直接の回帰は難しいため， Mousavian[38]に従い，方向をビン内回帰を有す
る２つのビンとして表す
• 向きは、各ビンに対して４つのスカラーを有する８つのスカラーを使用して符号化
• 1つのビンに対して、2つのスカラーがsoftmax分類に使用され、残りの2つのスカラーは
各ビン内の角度に回帰
2019/5/22
10
σ：シグモイド関数

中心点から姿勢推定に
• 画像内のすべての人間のインスタンスについてｋ個の２Ｄ人間関節位置を
推定する（COCOならk=17）
• 姿勢を中心点のk×2次元の特性と見なし、中心点へのオフセットで各キー
ポイントをパラメータ化
• L1損失の骨格オフセット（ピクセル単位）መ𝐽 ∈ ℛ
𝑊
𝑅
×
𝐻
𝑅
×𝑘×2
に直接回帰
• キーポイントを洗練するために、さらに標準的なボトムアップ型の複数人
姿勢推定を使用してｋ個の人間の骨格ヒートマップを推定
• ヒートマップで検出された最も近いキーポイントに初期予測をスナップ
• 中心オフセットはグループ化の手がかりとして機能させる
• 個々のキーポイント検出を最も近い人物インスタンスに割り当て
2019/5/22
11

中心点から姿勢推定に
• 実装
• (ො𝑥, ො𝑦)を検出した中心点とする
• 𝑙𝑗 = ො𝑥, ො𝑦 + መ𝐽ො𝑥 ො𝑦𝑗 (for 𝑗 ∈ 1 … 𝑘)に関節位置を回帰
• 対応するヒートマップ෡Φ..𝑗から各骨格タイプjについて信頼度>0.1となるキー
ポイント位置𝐿𝑗 = ሚ𝑙𝑗𝑖 𝑖=1
𝑛 𝑗
を抽出
• 検出された物体の境界ボックス内の同時検出のみを考慮して，各回帰位置𝑙𝑗
をその最も近い検出されたキーポイント𝑎𝑟𝑔𝑚𝑖𝑛𝑙∈𝐿 𝑗
(𝑙 − 𝑙𝑖)2に割り当てる
2019/5/22
12

実装の詳細
• 訓練
• 512×512の入力解像度で訓練（全てのモデルで128×128の出力解像度）
• Augmentation: ランダムフリップ、ランダムスケーリング（0.6から1.3の間）、
トリミング、カラージッタ
• Optimation : Adam
• 3D推定ブランチの訓練には拡張を使用しない
• ResNet，DLA-34：140エポック，バッチサイズ128(8 GPU)，学習率5e-4．学習
率は90エポックと120エポックで10分の1．2.5日訓練．
• Hourglass-104：ExtremeNet [61]に従い，バッチサイズ29(5 GPU，マスター
GPUバッチサイズ4)，学習速度2.5e-4を50エポックで使用し、10分の1にして
40エポック．ExtremeNetからのHourglass-104をFinetune．5日訓練．
• テスト
• 拡張なし，フリップ，フリップとマルチスケール(0.5, 0.75, 1, 1.25, 1.5)
• 反転については、境界ボックスを復号化する前にネットワーク出力を平均.
マルチスケールの場合は、NMSを使用して結果をマージ
13

実験（物体認識）
• MS COCOデータセット[34]を使用
• MS COCOデータセットには、118kのtrain画像(train2017)、5kの
val画像(val2017)、および20kのhold-out test画像(test-dev)
• IOUしきい値0.5(AP50)，0.75(AP75)，全て(AP)でAPに対する平均
精度を提示
• Intel Core i7-8086K CPU, Titan Xp GPU, Pytorch 0.4.1, CUDA 9.0,
CUDNN 7.1
• 比較する手法はhttps://github.com/facebookresearch/Detectronから
モデルとコードをコピー
2019/5/22
14

2019/5/22
15
拡張無し
フリップ
フリップ
＋マルチスケールバックボーンとテストオプションを使用したCOCO検証
Hourglass-104 : 最高の精度を実現
ResNet-101 : RetinaNet[33]と同程度の精度で２倍速い
ResNet-18 : 28.1%mAPを保ちつつ142FPSを達成
DLA-34 : 最高の速度と精度のトレードオフを提供

2019/5/22
16
• 他のキーポイント推定を用いたものよ
り速度，精度ともに上回る
• 精度が高いほど、中心点は角や極端
な点よりも検出が容易
• ２段検出器に精度で劣るが圧倒的に高
速に検出
• 他のリアルタイム１段検出器よりは速
度、精度ともに高い

実験（3D検出）
• KITTIデータセット[17]を使用
• 7841の訓練画像を文献[10，54]に従い，標準的なトレーニング
とバリデーションの分割を行う
• 2Dバウンディングボックス(AP)，方向(AOP) ，バードアイビュー
バウンディングボックス(BEV AP)に基づいてIOUを評価
• 訓練とテストの両方で，元の画像の解像度を1280×384に保つ
• 実験詳細
• 訓練は70エポックで収束し，学習率はそれぞれ45エポックと60
エポックに低下させる
• DLA-34バックボーンを使用し，深さ，方向，および寸法の損失
重みを1に設定する
2019/5/22
17

実験（3D検出）
2019/5/22
18
Slow-RCNNベース Faster-RCNNベース
同程度の精度やや優れた精度
※ただし、CenterNetはどちらの方法よりも２倍速い

実験（姿勢推定）
• MS COCOデータセット[34]を使用
• キーポイントAPで評価
• バウンディングボックスAPのバウンディングボックスIoUをオブ
ジェクトのキーポイントの類似性に置き換え
• COCO test-devで他の方法と比較
• 実験詳細
• 中心点検出のDLA-34とHourglass-104からFinetune
• DLA-34は320エポック(8 GPU：約3日)で収束し、Hourglass-104は
150エポック(5 GPU：約8日)で収束します。
• 追加の全ての損失重みは1に設定．他の全てのハイパーパラメー
タはオブジェクト検出と同じ
2019/5/22
19

実験（姿勢推定）
2019/5/22
20
最先端技術と競合できる精度
を実現
CenterNetは一般的で新しいタ
スクに容易に適応できる

結論
• 「物体の新しい表現方法：ポイント」を提案
• CenterNet物体検出器は、キーポイント推定ネットワークにより中心
点を見つけ，そしてサイズに回帰する
• NMS後処理なし，簡単，高速，正確，かつend-to-endで区別できる
• 一般的であり，単純な二次元検出を超えた広い用途を有する
• ポーズ，3D方向，奥行き，広がりなど、さまざまな物体プロパ
ティを推定できる
• リアルタイムの物体認識とそれに関連したタスクのための新しい方向
性を奨励している
2019/5/22
21

Object as Points

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Mehr von harmonylab

Mehr von harmonylab (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (8)

Object as Points