SlideShare ist ein Scribd-Unternehmen logo
1 von 8
Downloaden Sie, um offline zu lesen
〒163-0515
東京都新宿区西新宿1-26-2 新宿野村ビル15F
TEL:03-5909-7510 FAX:03-5909-7569
www.albert2005.co.jp/
清水 駿介
2018/04/23 arXivtimes 勉強会
Copyright(C) ALBERT Inc. All Rights Reserved. 1
概要
• 従来: Anchor→Region Proposal Network→Detector (2-stage 系)
Anchor→ → → → → → → → → → → Detector (1-stage 系)
• コレ: Anchor→Region Proposal Network→Detector→Detector→Detector
高い IoU (Intersection over Union = boxp ∩ boxt / boxp ∪ boxt ) を実現!
そもそも detector って?(Fast R-CNN 以降を前提)
• 粗いボックス予測とボックスがある位置にだいたい対応する特徴量マップを受
け取って、より正確なボックス予測とクラス予測を行う
• N 種類のオブジェクトがある場合、背景含めて N+1 クラスの予測となる
• 位置が少しでもずれてたら背景だ、とやってるとロクに学習できないため、位
置ズレに甘くする(IoU=0.5)ことが多く、高精度な位置検出はつらい
Copyright(C) ALBERT Inc. All Rights Reserved. 2
出力例(non maximum suppression なし)
• 最初の detector は
IoU=0.5 以上ならブツ
があると学習する
• 次の detector には
IoU=0.6 以上を要求
• 最後の detector は
IoU=0.7 よ
• ピッタシ囲えてない
ボックスさんが消される
論文 Figure 1 を引用
Copyright(C) ALBERT Inc. All Rights Reserved. 3
複数の detector を使う理由
• 一つの detector があらゆる IoU に対して最高性能を出すことはない
• 低い IoU でも合格にしていると、高い IoU での位置予測はできない
• 高い IoU のみ合格にしていると、低い IoU で取りあえず検出、が困難
• 位置予測精度が高い detector は、ボックス位置の事前情報にも高精度を要求
• ハズレの割合が極端に多いとクラス分類器がまともにに学習しない
• Focal loss を使ったり、YOLO 系のように物体があるかどうかの 2 クラ
ス分類と N クラス分類を分離したりで、ある程度の対処はできるが
→ IoU の閾値が異なる複数の detector を用意し、閾値が低い detector が
出すボックスを次の detector に投入(IoU が上がっていく様子はFig. 4 参照)
Copyright(C) ALBERT Inc. All Rights Reserved. 4
アーキテクチャ
conv
絵
pool
box1cls1
head1box0cls0
head0 pool
box2cls2
head2
pool
box3cls3
head3
RPN
Faster R-CNN Cascade Part
論文 Figure 3 より作成
ヘッドを増やすだけで楽チン ★
Copyright(C) ALBERT Inc. All Rights Reserved. 5
ネットワーク構成
Feature Pyramid Network 解説の神画像があり、わたしの言うことがなかった
https://medium.com/@jonathan_hui/understanding-feature-pyramid-networks-for-
object-detection-fpn-45b227b9106c
conv
head0
head1
ResNet の右側にあるのは全部 256 channels
7x7 マップを適当な解像度の P 層から切出す
(この論文ではROI Align が利用されている)
1024 フィルタの FC→ReLU
過度に凝らないシンプルな構成
Copyright(C) ALBERT Inc. All Rights Reserved. 6
ロス関数・学習など詳細
• 著者実装 (Caffe): https://github.com/zhaoweicai/cascade-rcnn
• 𝐿𝑙𝑜𝑐 = 𝑠𝑚𝑜𝑜𝑡ℎ 𝐿1 Δ 𝒈, 𝒃 , 𝑤ℎ𝑒𝑟𝑒 Δ 𝒈, 𝒃 = 𝛿 𝑥, 𝛿 𝑦, 𝛿 𝑤, 𝛿ℎ ,
𝛿 𝑥 =
𝑔 𝑥 − 𝑏 𝑥
𝑏 𝑤
, 𝛿 𝑦 =
𝑔 𝑦 − 𝑏 𝑦
𝑏ℎ
, 𝛿 𝑤 = log
𝑔 𝑤
𝑏 𝑤
, 𝑎𝑛𝑑 𝛿ℎ = log
𝑔ℎ
𝑏ℎ
.
さらに Δ を batch normalizationする。RPN, detector 両方ともコレ。
• 𝐿 𝑐𝑙𝑠はクロスエントロピー。RPN は 2 クラス、detector は N+1 クラス。
• RPN は物体にアンカーが IoU>0.7 で被るか IoU 最大かであれば当たり。
• 3 人の detector たちはそれぞれ IoU 0.5, 0.6, 0.7 以上でボックスが物
体に被るなら物体のクラスを言い当て、然らずんば背景。
• 8 GPU に画像 1 枚ずつ。当然 CNN の batch normalization は凍結。
• 180k iters on COCO2015 (~43 epochs)
Copyright(C) ALBERT Inc. All Rights Reserved. 7
ベンチマーク結果
• FPN+ w/ ResNet-101 で最高性能、これの test-dev の結果が正式なもの
• FPN+ は Feature Pyramid Network に ROI Align を導入したもの
• すべてのテストで cascade により大きな速度低下を起こさず高性能を実現
• (個人的推測)特に大きいオブジェクトに有効なのは一段では受容野が狭いから?

Weitere ähnliche Inhalte

Was ist angesagt?

0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
 

Was ist angesagt? (20)

ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
Triplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationTriplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identification
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
 
ConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティス
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 

Ähnlich wie 20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Detection

20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearning
Hayaru SHOUNO
 
自動でできるかな?
自動でできるかな?自動でできるかな?
自動でできるかな?
_norin_
 

Ähnlich wie 20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Detection (20)

SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 
全体セミナー20180124 final
全体セミナー20180124 final全体セミナー20180124 final
全体セミナー20180124 final
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearning
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
20140726.西野研セミナー
20140726.西野研セミナー20140726.西野研セミナー
20140726.西野研セミナー
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
OpenStack Summit November 2014 Paris出張報告
OpenStack Summit November 2014 Paris出張報告OpenStack Summit November 2014 Paris出張報告
OpenStack Summit November 2014 Paris出張報告
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
Kernel vm-2014-05-25
Kernel vm-2014-05-25Kernel vm-2014-05-25
Kernel vm-2014-05-25
 
自動でできるかな?
自動でできるかな?自動でできるかな?
自動でできるかな?
 
学生からみた松江高専生とOpenStackで遊んだお話
学生からみた松江高専生とOpenStackで遊んだお話学生からみた松江高専生とOpenStackで遊んだお話
学生からみた松江高専生とOpenStackで遊んだお話
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
Efficient Det
Efficient DetEfficient Det
Efficient Det
 
AGA_CVPR2017
AGA_CVPR2017AGA_CVPR2017
AGA_CVPR2017
 
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
 
Trema day 1
Trema day 1Trema day 1
Trema day 1
 

20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Detection

  • 2. Copyright(C) ALBERT Inc. All Rights Reserved. 1 概要 • 従来: Anchor→Region Proposal Network→Detector (2-stage 系) Anchor→ → → → → → → → → → → Detector (1-stage 系) • コレ: Anchor→Region Proposal Network→Detector→Detector→Detector 高い IoU (Intersection over Union = boxp ∩ boxt / boxp ∪ boxt ) を実現! そもそも detector って?(Fast R-CNN 以降を前提) • 粗いボックス予測とボックスがある位置にだいたい対応する特徴量マップを受 け取って、より正確なボックス予測とクラス予測を行う • N 種類のオブジェクトがある場合、背景含めて N+1 クラスの予測となる • 位置が少しでもずれてたら背景だ、とやってるとロクに学習できないため、位 置ズレに甘くする(IoU=0.5)ことが多く、高精度な位置検出はつらい
  • 3. Copyright(C) ALBERT Inc. All Rights Reserved. 2 出力例(non maximum suppression なし) • 最初の detector は IoU=0.5 以上ならブツ があると学習する • 次の detector には IoU=0.6 以上を要求 • 最後の detector は IoU=0.7 よ • ピッタシ囲えてない ボックスさんが消される 論文 Figure 1 を引用
  • 4. Copyright(C) ALBERT Inc. All Rights Reserved. 3 複数の detector を使う理由 • 一つの detector があらゆる IoU に対して最高性能を出すことはない • 低い IoU でも合格にしていると、高い IoU での位置予測はできない • 高い IoU のみ合格にしていると、低い IoU で取りあえず検出、が困難 • 位置予測精度が高い detector は、ボックス位置の事前情報にも高精度を要求 • ハズレの割合が極端に多いとクラス分類器がまともにに学習しない • Focal loss を使ったり、YOLO 系のように物体があるかどうかの 2 クラ ス分類と N クラス分類を分離したりで、ある程度の対処はできるが → IoU の閾値が異なる複数の detector を用意し、閾値が低い detector が 出すボックスを次の detector に投入(IoU が上がっていく様子はFig. 4 参照)
  • 5. Copyright(C) ALBERT Inc. All Rights Reserved. 4 アーキテクチャ conv 絵 pool box1cls1 head1box0cls0 head0 pool box2cls2 head2 pool box3cls3 head3 RPN Faster R-CNN Cascade Part 論文 Figure 3 より作成 ヘッドを増やすだけで楽チン ★
  • 6. Copyright(C) ALBERT Inc. All Rights Reserved. 5 ネットワーク構成 Feature Pyramid Network 解説の神画像があり、わたしの言うことがなかった https://medium.com/@jonathan_hui/understanding-feature-pyramid-networks-for- object-detection-fpn-45b227b9106c conv head0 head1 ResNet の右側にあるのは全部 256 channels 7x7 マップを適当な解像度の P 層から切出す (この論文ではROI Align が利用されている) 1024 フィルタの FC→ReLU 過度に凝らないシンプルな構成
  • 7. Copyright(C) ALBERT Inc. All Rights Reserved. 6 ロス関数・学習など詳細 • 著者実装 (Caffe): https://github.com/zhaoweicai/cascade-rcnn • 𝐿𝑙𝑜𝑐 = 𝑠𝑚𝑜𝑜𝑡ℎ 𝐿1 Δ 𝒈, 𝒃 , 𝑤ℎ𝑒𝑟𝑒 Δ 𝒈, 𝒃 = 𝛿 𝑥, 𝛿 𝑦, 𝛿 𝑤, 𝛿ℎ , 𝛿 𝑥 = 𝑔 𝑥 − 𝑏 𝑥 𝑏 𝑤 , 𝛿 𝑦 = 𝑔 𝑦 − 𝑏 𝑦 𝑏ℎ , 𝛿 𝑤 = log 𝑔 𝑤 𝑏 𝑤 , 𝑎𝑛𝑑 𝛿ℎ = log 𝑔ℎ 𝑏ℎ . さらに Δ を batch normalizationする。RPN, detector 両方ともコレ。 • 𝐿 𝑐𝑙𝑠はクロスエントロピー。RPN は 2 クラス、detector は N+1 クラス。 • RPN は物体にアンカーが IoU>0.7 で被るか IoU 最大かであれば当たり。 • 3 人の detector たちはそれぞれ IoU 0.5, 0.6, 0.7 以上でボックスが物 体に被るなら物体のクラスを言い当て、然らずんば背景。 • 8 GPU に画像 1 枚ずつ。当然 CNN の batch normalization は凍結。 • 180k iters on COCO2015 (~43 epochs)
  • 8. Copyright(C) ALBERT Inc. All Rights Reserved. 7 ベンチマーク結果 • FPN+ w/ ResNet-101 で最高性能、これの test-dev の結果が正式なもの • FPN+ は Feature Pyramid Network に ROI Align を導入したもの • すべてのテストで cascade により大きな速度低下を起こさず高性能を実現 • (個人的推測)特に大きいオブジェクトに有効なのは一段では受容野が狭いから?