物体検出の歴史まとめ(1) 20180417

物体検出についての歴史まとめ(1)
2018/04/17　篠田昌和
1
quiita にもまとめてます。
https://qiita.com/mshinoda88/items/9770ee671ea27f2c81a9

Agenda
1. 物体検出とは
2. HOG機能を使用した物体検出
3. R-CNN (Region-based CNN)
non-maximum suppression
R-CNN の欠点
4. SPP-net(spatial pyramid pooling)
空間プーリング
SPPの欠点
5. Fast R-CNN
Fast R-CNN の改善点
RoIプーリングの詳細
6. Faster R-CNN
ネットワーク概要
RPN(Region Proposal Network)の導入
アンカーボックスの導入
Regressionベースの物体検出
7. YOLO(You only Look Once)
YOLO 詳細
YOLOの欠点
8. SSD(Single Shot Detector)
SSDの主な特徴
初期ボックスとアスペクト比
Jaccard係数
初期ボックスのスケールとアスペクト比の選択
ハードネガティブマイニング (hard negative mining)
データ拡張
速度と性能のトレードオフ
SSD のVOC2007のデータセットにおいての成績
9. Mask R-CNN
ブランチ部の入力と出力
RoiAlign ：RoIPoolの再配置
バイリニア補間
10. まとめ

物体検出とは
物体検出は画像を取り込み、画像の中から定められた物体の位置とカテゴリー (クラス)を
検出することを指します。
犬猫分類器を作成したとき、猫や犬の画像を撮り、そのクラスを予測しました。
図1−1

物体検出とは
猫と犬の両方が画像に存在する場合、どう処理すべきでしょうか。
図1-2 
 
 
 
 
 
 
 
 
 
 
 
 
この場合、モデルは何を予測するのでしょうか？
この問題を解決するために、両方のクラス（犬と猫）を予測する複数ラベル分類子を
訓練することが可能です。

物体検出とは
しかし、私たちはまだ猫や犬の位置を知りません。画像内のクラスが与えられた物体の位置を
特定する問題は、localization と呼ばれます。
物体クラスがわからない場合は、位置を決定するだけでなく、各物体のクラスを予測する必要が
あります。
図1-3 
 
 
 
 
 
 
 
 
 
 
 
クラスと一緒に物体の位置を予測することを物体検出(object detection)と呼びます。

バウンディングボックス
画像から物体のクラスを予測する代わりに、クラスとその物体を含む矩形（バウンディングボックスという）を予
測する必要があります。
矩形を一意に識別するには 4つの変数が必要です。したがって、イメージ内の物体の各インスタンスについて、
次の変数を予測します。
 
● class_name 
● bounding_box_top_left_x_coordinate 
● bounding_box_top_left_y_coordinate 
● bounding_box_width 
● bounding_box_height 
 
複数種類の物体を1つの画像で検出すると、マルチクラスの物体検出
の問題が発生する可能性があります。
図1-4

次章ではまず、物体検出器を訓練する一般論を見ていきます。
歴史的に、2001年にViolaとJonesによって提案されたHaarカスケードから始まる物体検出には、
多くのアプローチがありました。しかしここでは、ニューラルネットワークと Deep Learningを
使用する最先端の方法にフォーカスしたいと思います。
物体検出は、
1. 入力画像から固定サイズのウィンドウをすべての可能な位置で
　取得して、
2. これらのパッチ(領域)を画像分類器に入力する
という分類問題としてモデル化されます。
 
 
図1-5

各ウィンドウは、ウィンドウ内の物体のクラス（または存在しない場合はバックグラウンド）を
予測する分類器に渡されます。それにより、画像内の物体のクラスと位置の両方がわかります。
シンプルですが、果たしてどのようにしてウィンドウサイズを知ることが出来るのでしょうか？
次のサンプルでは1枚目は小さなサイズであり、 2枚目は大きなサイズです。
 
図1-6   図1-7

ダウンサンプリング
物体は様々なサイズにすることができます。この問題を解決するため、元の画像を複数サイズにサイズ変更し
た画像を用意します。これらの画像のいずれかで、選択したサイズのウィンドウ内に物体が
完全に含まれることになります。
一般的には、特定の条件（典型的には最小サイズに達する）が得られるまで、画像は
ダウンサンプリング（サイズが縮小）されます。これらの画像のそれぞれについて、
固定サイズのウィンドウ検出が実行されます。
このようなピラミッドには 64レベルまでのレベルがあるのが一般的です。
これらのウィンドウは全て、関心のあるオブジェクトを検出するために
分類器に入力され、サイズと場所の問題を解決します。
図1-8

アスペクト比
もう1つ、縦横比(アスペクト比、aspect ratio)の問題があります。
座っている人が立っている人や眠っている人とは異なるアスペクト比を持つように、多くの物体が
さまざまな形で存在します。アスペクト比については後述。

セマンティックセグメンテーション
セマンティックセグメンテーションとは、画像を画素レベルで把握することです。
つまり、画像内の各画素をオブジェクトクラスに割り当てようとすることです。
例を挙げましょう。以下の画像を見てください。
左：入力画像。右：これがセマンティックセグメンテーション出典

セマンティックセグメンテーション
オートバイと、それに乗車している人物を分けて識別し、
更に各オブジェクトの境界を示す輪郭線を描く必要があります。
そのため、クラス分類とは異なり、モデルから画素単位の高密度な予測をしなくてはなりません。
VOC2012とMSCOCOは、セマンティックセグメンテーションにおいて最も重要なデータセットです。
R-CNN、Faster R-CNN、SSDなどのような物体検出のためのさまざまな方法があります。
それぞれの特徴を見ていきます。

HOG機能を使用した物体検出

HOG機能を使用した物体検出
Navneet DalalとBill Triggsは、コンピュータビジョンの歴史の画期的な論文で、
2005年にHOG（Histogram of Oriented Gradients）機能を導入しました。Hog機能は計算コストが
安く、多くの現実世界の問題に適しています。
スライディングによって得られた各ウィンドウ上で、我々は分類器を作成するために
SVM（サポートベクターマシン）に供給される Hog Featureを計算します。
歩行者検出、顔検出、その他の多くの物体検出ユースケースのビデオでこれをリアルタイムで
実行することができました。

R-CNN
物体検出のタスクに対しても CNNのアルゴリズムを上手く応用できないか？という課題を解く
先駆けとなった論文 [3]です。
深層学習の登場後、物体検出はより正確な畳み込みニューラルネットワークに基づく分類器に置き換えられま
した。しかし、CNNは非常に遅く、計算上非常に高価で、スライディングウィンドウ検出器によって生成された非
常に多くのパッチでCNNを実行することは不可能でした。
R-CNNは、Selective Searchと呼ばれる物体候補 (object proposal)アルゴリズムを使用することで
この問題を解決しました。
R-CNNの目的は、画像を取り込み、画像内の主要な物体を bounding box を介して、正確に特定
することです。
● 入力：画像
● 出力：画像内の各物体の境界ボックス +ラベル
しかし、これらの bounding box がどこにあるのかをどのように見つけ出すのでしょうか？

R-CNN
R-CNNは画像の中にたくさんのボックスの候補をリストアップし (region proposal)、それらの
どれかが実際に物体に対応しているかどうかを調べます。
図2-2-1
Selective Search（画像参照）では、
複数のスケールのウィンドウを調べ
て、
テクスチャ、色、または強度を
共有する隣接ピクセルを探し
物体を識別します。

R-CNN
CNNの全結合層は固定サイズの入力を受け取るので、生成されたすべてのボックスを固定サイズ
（VGGの場合は224×224）にサイズ変更しCNN部分に渡します。
R-CNNのアルゴリズムは、以下の流れになります。
1. 物体らしさ(Objectness)を見つける既存手法 (Selective Search)を用いて、画像から領域候補 (Region
Proposals)を探します(2000個程度)
2. 領域候補の領域画像を全て一定の大きさにリサイズして CNNにかけて特徴量を取り出す
3. 取り出した特徴量を使って複数の SVMによって学習しカテゴリ識別、 regressorによってBounding Box の
正確な位置を推定

R-CNN
図2-2-3
このアルゴリズムにより、PASCAL VOC
2012のデータセットにおいて(Deepじゃない)
既存手法の精度を30%以上改善し、53.3%の
mAPを達成しました。

non-maximum suppression
IoU(Intersection over Union)値とは、画像の重なりの割合を表す値であり、
この値が大きいほど画像が重なっている状態ということになります。
逆に、小さいほど重なっていない状態ということになります。
例えば、IoU=0のときは全く重なっていない状態ということになります。
non-maximum suppressionは、このIoUを利用して、同じクラスとして認識された重なっている
状態の領域を抑制するためのアルゴリズムです。
IoU値の閾値を0.3という具合に定め、この閾値よりも大きいものを重複した物体領域の候補として
外し、閾値に満たないものは、物体領域の候補として残すことになります。

R-CNN の欠点
この手法の欠点としては下記のものが挙げられます。
● 学習を各目的ごとに別々に学習する必要がある : CNNのFine-tune / 複数のSVMによるクラス
分類 (Classification) /物体の詳細位置推定 (Bounding Box Regression)
● 実行時間がすごく遅い :GPUを使って10-45 s/image

SPP-net(spatial pyramid pooling)

SPP-netの特長
従来手法の問題
Selective Search によって生成された2000の領域候補(region proposal)上でCNNを実行すると、
多くの時間がかかる。
SPP-Net はこの改善を試みたもので、画像１枚から一回の CNNで大きな特徴マップを作成した後、
領域候補の特徴をSPPによってベクトル化し、スピードは GPU上にて24-102倍に高速化を実現。
(2000個の領域候補はかなり領域の重複が多いため、重複する画像領域を CNNで特徴抽出するのはかなり無
駄)
その領域に対応する最後の畳み込み層の特徴マップのその部分だけにプーリング操作を実行する
ことで実現。
中間層で起こるダウンサンプリング（ VGGの場合は座標を単に 16で割る）を考慮に入れて、
畳み込み層上の領域を投影することによって、領域に対応する畳み込み層の矩形部分は計算可能。

空間プーリング
R-CNNでは
固定サイズの画像を入力として識別していた。
SPPnetでは
Spatial Pyramid Pooling (SPP)という手法を用いることで、 CNNで畳み込んだ
最終層の特徴マップを縦横可変サイズで取り扱えるよう変更。
SPPは伝統的に使用されている max-pooling とは対照的に、
最後の畳み込みレイヤの後に空間的なプーリングを使用。
SPP層は、任意のサイズの領域を一定数のビンに分割し、各ビンに対して max-pooling を実行します。
ビンの数は同じであるため、次図に示すように、一定のサイズのベクトルが生成されます。

SPPの欠点
この手法の欠点としては下記のものが挙げられます。
● 学習がad hocなのは変わらず
● 最終的な学習時にSPP Layer以下のパラメータが更新できない

Fast R-CNNの特長
● RoI pooling layerという、SPPのpyramid構造を取り除いたシンプルな幅可変 poolingを行う
● classification/bounding box regressionを同時に学習させるための multi-task loss
によって1回で学習ができるようにする (ad hocでない)
● オンラインで教師データを生成する工夫
● multi-task lossの導入により、Back Propagationが全層に適用できるようになったため、
全ての層の学習が可能に。
● 実行速度は、VGG16を用いたR-CNNより9倍の学習速度、213倍の識別速度で、 SPPnetの3倍
の学習速度、10倍の識別速度を達成。

Fast R-CNN の改善点
1. RoI (Region of Interest) プーリング
2. すべてのモデルを1つのネットワークに統合

RoI (Region of Interest) プーリング
関心領域プーリング、又は RoIプーリング
畳み込みニューラルネットワークを使用する物体検出タスクで広く使用される操作です。
その目的は、不均一なサイズの入力に対して最大プールを実行して、固定サイズの特徴マップ
（たとえば7×7）を得ることです。2015年4月にRoss Girshickによって最初に提案されています。
オープンソースのRoIプーリング実装例
https://github.com/deepsense-ai/roi-pooling
画像の多くの領域候補が必ず重複し、同じ CNN計算を何度も(最大2000回)実行していました。
なので、画像を一回のみ CNN実行し、領域間で計算結果を共有しようと試みました。
CNNの特徴マップから対応する領域を選択することによって、各領域の CNN特徴がどのように
取得されるかを確認します。次に各領域の特徴がプーリングされます（通常 max poolingを使用）。
したがって、従来手法の最大 2000回とは対照的に、元の画像の 1回のパスのみCNNが実行されます。

すべてのモデルを1つのネットワークに統合
図2-4−1
Fast R-CNNの二つ目の改善点は、
CNN、分類器(classifier)、バウンディングボックス回帰
子(regressor)を単一のモデルで統合して
トレーニングすることです。

すべてのモデルを1つのネットワークに統合
フレームワークの最初の段階で、画像の特徴を抽出し（ CNN）、分類し（SVM）、より正確なバウンディングボック
スの位置の回帰子（ regressor）と異なるモデルを使用し、 Fast R-CNNでは単一のネットワークを使用して 3種類
の計算をします。SVM分類器をCNN上のsoftmax層で置き換えて分類を出力します。また、 bounding box 座標
を出力するためにsoftmax層に平行な線形回帰層を追加しています。
※1 End-to-end 学習
前処理かけたり複数のモデルを組み合わせたりすることなく、入力と出力の関係を直接単一のモデルで学習す
ること
● この変更により、SPPネットと比較してトレーニング時間全体を短縮し、精度を向上させます。
● Fast R-CNN では bounding box の走査に Selective Search を利用していることは変わらず。
全体モデルへの入力と出力は次のとおり。
● 入力：領域候補生成済みの画像情報。
● 出力：各領域の物体分類と bounding box 座標とサイズ

RoIプーリングは実際に何をするのかを見ていきます。
入力リストからすべての関心領域について、それに対応する入力特徴マップのセクションを取り、
それを予め定義されたサイズ（例えば、 7×7）にスケールします。スケーリングは次の方法で行います。
1. 領域候補を同じサイズのセクションに分割します（その数は出力の次元と同じ）
2. 各セクションで最大値を見つける
3. これらの最大値を出力バッファにコピーする
その結果、サイズの異なる長方形のリストから、固定サイズの対応する特徴マップのリストをすばやく取得できます。
RoIプーリング出力の次元は、実際には入力特徴マップのサイズや領域提案のサイズに依存しないことに注意。
領域候補を分割するセクションの数だけによって決定されます。

RoIプーリングのメリットの 1つは処理速度です。フレームに複数の物体候補がある場合
（通常はたくさんある）、それらのすべてに対して同じ入力特徴マップを使用できます。
ネットワーク処理の初期段階での畳み込み計算は非常にコストがかかるので、このアプローチは
時間を大幅に節約できます。
実際の動作を見てみましょう。今、 8×8の単一の特徴
マップの1つの関心領域に対して 2×2の出力サイズで
RoIプーリングを実行してみます。
入力特徴マップは次のようになります。
図2-4−2

領域候補（左上、右下座標）の情報(0,3)(7,8) があるとします。  
 
図2-4−3

通常は、それぞれに複数の特徴マップと複数の候補がありますが、この例では単純化
しています。出力サイズが 2×2であるため、（2×2）セクションに分割すると、
次のようになります。
図2-4-4
関心領域のサイズは、プールセクションの数に
よって完全に割り切れる必要はないことに注意。
この場合、RoIは7×5で、プールセクションは2×2
です。各セクションの最大値は右図のとおりで
す。
図2-4-5

ネットワーク概要
ネットワークを大別すると、 backend部、RPN部、head部に分かれます。
● backend部
入力画像の特徴を抽出する役割を担います。論文中では VGGとResNetを
採用しています。
● RPN部
「物体らしき領域候補」が抽出されます。
● head部
「物体らしい」と判定された領域について、 RoIプーリングを利用して物体のクラスの
確率と領域位置を推定します。

RPN(Region Proposal Network)の導入
Fast R-CNN のネットワーク全体のボトルネックは、 Selective Search を利用した領域候補の
生成部分でした。
Faster R-CNN では、ROI(region of interest)の生成のために、Selective Searchを
RPN(Region Proposal Network) と言われる小さな畳み込みネットワークに入れ替えました。
RPNへ渡す特徴マップの生成前に一度だけ CNNを実行します。

画像内の物体は特定の一般的なアスペクト比とサイズに調整が必要となります。
図2-5-3

例えば、上図のように、人なら人の形に似た縦長の長方形の箱が必要です。
このようにして、アンカーボックスと呼ばれ、k個のアスペクト比をもつボックスを作成します。
一つのアンカーボックスごとに、画像内の位置ごとのバウンディングボックスとスコアを出力します。
それぞれの位置で、
● スケール128×128, 256×256, 512×512の3種類のアンカーボックスを使用します。
● 同様に、アスペクト比では、 1:1, 2:1, 1:2 の3つのアスペクト比を使用します。
→したがって、各場所で合計で 9個(3×3)のアンカーボックスを保持します。

図2-5-4

図2-5-1で、アンカーボックスは RPNがバックグラウンドなのかフォアグラウンドなのか、即ち
物体でないのか、物体なのかの確率を予測します。
上図で示すように、アンカーボックス一つにつきアスペクト比が k 個分用意され、それぞれが
物体か背景かで2値分類のため、分類器に渡って、 2k個のスコアを算出します。
また、アンカーボックスの座標 (x,y)とサイズ(高さ、幅)の4つの情報を、正確な
バウンディングボックス回帰子（ regressor）で 4k の値を予測します。
Region Proposal Network への入力と出力は次のとおり。
● 入力: CNN 特徴マップ
● 出力: アンカーごとの bounding boxと物体か否かの2値スコア

各領域のアンカーボックスの予測器を改善するために、 bounding box 回帰を適用します。
そのため RPNは、各クラスの対応する確率でさまざまなサイズのバウンディングボックスを
提供します。
残りのネットワークは Fast R-CNN に似ています。Faster R-CNNは Fast R-CNNより10倍高速であり、
VOC-2007のようなデータセットの精度は同様です。
表2-5-5

Regressionベースの物体検出
これまでに説明したすべての手法では
・最初に物体候補が生成され
・次にこれらの候補を分類 /回帰に送る
というパイプラインを構築することで分類問題として検出を行っています。
回帰問題として検出を行う方法はいくつかあり、最も人気のある 2つはYOLOとSSDです。
これらの検出器は、シングルショット検出器とも呼ばれます。

YOLO(You only Look Once) の概要
YOLOは予め画像全体をグリッド分割しておき、各領域ごとに物体のクラスと bounding boxを求める、
という方法を採用。
CNNのアーキテクチャがシンプルになったため、 Faster R-CNNに識別精度は少し劣りますが
45-155FPSの検出速度を達成。
またスライディングウィンドウや領域候補 (Region Proposal)を使った手法と違い、
1枚の画像の全ての範囲を学習時に利用するため、周辺のコンテクストも同時に学習することが
できます。
これにより、背景の誤検出を抑えることができるようになり、背景の誤検出は Fast R-CNNの
約半分の抑えることが出来ました。

YOLO 詳細
画像全体をS×Sのグリッドに分割し、各グリッドは N個の bounding box と confidence を予測。confidence
は、
● bounding box の精度と
● bounding box が実際にオブジェクトを含むかどうか（クラスに関係なく）
を反映します。
YOLO はまた、トレーニング中の各クラスの各 bounding box の分類スコアを予測します。
両方のクラスを組み合わせて、各クラスが予測される bounding box に存在する確率を計算
することができます。
　↓
合計SxSxN 個の bounding box が予測されますが、
多くの bounding box は confidence スコアが低く、しきい値を30％と設定すると、
ほとんどのものが削除されます。

YOLO 詳細
図2-6
YOLOは超高速であり、リアルタイムで実行可能です。
● 従来手法では、生成された領域候補 (region proposals)のみを見ていたのに対して、
● YOLOは画像全体を一度のみ見ることです。
したがって、背景の誤検出回避に役立ちます。

YOLO の欠点
● 分割されたグリッドサイズは固定かつ、グリッド内で識別できるクラスは 1つ
● 検出できる物体の数は 2つ
という制約があるため、グリッド内に大量の物体がある場合に弱くなります。

SSD の概要
SDは様々な階層の出力層からマルチスケールな検出枠を出力できるよう設計されています。

SSDの主な特徴
 
● YOLOより高速で、Faster R-CNNと同等の精度を実現  
● 小さなフィルタサイズのCNNを特徴マップに適応することで、物体のカテゴリと位置を推定  
● マルチスケール特徴マップ：様々なスケールの特徴を利用し、アスペクト比ごとに識別する  
ことで、高精度の検出率を達成  
● 比較的低解像度でも高精度に検出できる  
● end-to-end のトレーニングが可能  
 
入力画像上で畳み込みネットワークを 1回だけ実行し、特徴マップを計算します。
特徴マップ上に小さな 3×3サイズの畳み込みカーネルを実行して、 bounding box と分類確率を
予測します。
SSDはまた、Faster R-CNN に類似した様々なアスペクト比でアンカーボックスを使用し、ボックス
を学習するのではなくオフセットを学習します。

SSDの主な特徴
図2-7-1
上図の様に異なる階層から特徴マップを使い、比較的小さなサイズの物体も検出可能なため、  
入力画像サイズを小さくしても、それなりの精度が出るため、高速化できています。

初期ボックスとアスペクト比
異なるアスペクト比に対応するために、アスペクト比ごとに出力を分けています。
k個のアスペクト比の異なるボックス、 c個の物体クラスと、4つのオフセットを出力する場合、
1つセルのサイズは(c+4)k になります。
特徴マップがm*nとすると、最終的な出力マップは、 (c+4)kmn になります。
閾値 0.5 を超えるJaccard係数でボックスを選択します。
Jaccard係数 
 
集合と集合の類似度を計算します。テキストマイニングの分野では 
文章の類似度で用いられ、文章Aに使われている単語と文章Bに 
使われている単語を抜き出して、その単語の和集合と共通部分 
から値を求めます。 
物体検出の場合は領域重複の度合いを表す。

損失関数
損失関数は
1. 物体の位置ずれである、 localization loss (loc) と
2. 物体のクラスである、 conﬁdence loss (conf)
を組み合わせたもの。各画像で出てきた全ての出力に対して、上式を計算する。
(Nはマッチしたボックスの数、重み αは実験では1.0)

損失関数
localization lossは予測されたボックス (l)と正解ボックス(g)のパラメータ間での
Smooth L1 lossです。
Faster R-CNNと同様、初期 bounding box(d)の中心(cx, xy)とその幅(w)と高さ(h)について
オフセットを回帰予測します。ここで、 Smooth L1 loss は以下の通り。

損失関数
conﬁdence loss は複数クラスの確信度(c)に対するソフトマックス誤差です。

単一の予測ネットワーク中の異なる層から特徴マップを利用することで，すべての物体スケールに
ついて同じパラメータを共有しながら，同様の効果を得ることが可能。
先行研究によると、以下が分かっています。
● 下位層が入力物体の詳細をより良く捉えているため，下位層からの特徴マップを使用することで
どの区画に何があるのかの認識 (semantic segmentation)の品質を向上できる
● 特徴マップからプールされた global context を加えることで分割結果をスムーズになる
1つのフレームワークの異なる階層からの特徴マップは異なる (経験的な)受容野サイズを持つことが
知られていますが、論文中では特定の特徴マップがある特定のスケールの物体を担当するように
学習するよう，初期ボックスの敷き詰めを設計しています。

m個の特徴マップを予測に使用するものとすると、各特徴マップについての初期ボックスのスケールは
次のように計算されます。
ここでsmin=0.2，smax=0.9 であり，最下位層は0.2，最上位層は0.9のスケールを持つこと  
意味します。 
その中間のすべての階層は等間隔に設定されます。

ハードネガティブマイニング
ハードネガティブマイニング (hard negative mining) 
マッチング工程後、特に初期ボックスの数が大きい場合、多くの初期ボックスは負(negatives)になり、  
正と負の訓練例の間に大きな不均衡となります。すべての負の訓練例を使わず、  
 
● 各初期ボックスについて confidence loss でソートして  
● 負と正の比率が最大でも3:1になるようにして選びます  
 
これにより，より速い最適化とより安定した訓練に繋がると報告されています。

データ拡張
モデルを様々な入力物体サイズと形状に対してロバストにするために、各訓練画像は次に示す  
オプションによってランダムにサンプリングしています。  
 
● 元の入力画像全体を使用  
● 物体との最小の jaccard overlap が0.1, 0.3, 0.4, 0.7, 0.9となるようにパッチをサンプリング  
● ランダムにパッチをサンプルする．  
 
各サンプルパッチのサイズは元の画像サイズの[0.1, 1]で，アスペクト比は1/2と2の間。  
サンプルパッチの中に正解ボックスの中心がある場合には，正解ボックスの重複部分は保持する  
ものとします。 
 
前述のサンプリングステップの後に，各サンプルパッチは，フォトメトリックな歪みを適用することに加えて，固定
サイズにリサイズされ，確率0.5で水平にフリップします。

● 精度を優先する場合 Faster R-CNN  
● 計算に制限がある場合 SSD  
● 超高速を求める場合　YOLO  
がオススメ。以下は速度と性能のトレードオフを視覚化したもの  
 
図2-7-2

下図は SSD、YOLO、Faster R-CNN のパフォーマンス比較グラフ  
検出物体のサイズが大きい場合は、SSDはFaster R-CNN と同等の精度ですが、  
物体サイズが小さい場合は、Faster R-CNN の精度はSSDより良く差が大きい。  
 
図2-7-3

SSDの成績
SSD のVOC2007のデータセットにおいての成績
● 300×300の画像サイズにおいて　 74.3% mAPという高精度を保ったまま、 59 FPSを達成
(YOLOは63.4% mAP)
● 512×512の画像サイズにおいては、 76.9% mAPを達成
(Faster R-CNNは73.2% mAP)

Mask R-CNNの概要
Facebook AIの研究結果。
Mask R-CNNでは、Faster R-CNNのCNN機能の上に全結合ネットワークが追加され、マスク
（セグメント化出力）が生成されます。
図2-8-1

Mask R-CNNの概要
Mask R-CNNは、Faster R-CNN に分岐（上記の画像の白い部分）を追加し、指定ピクセルが
物体の一部かどうかを示すバイナリマスクを出力します。
追加されたブランチ部は、 CNNベースの特徴マップの上にある完全畳み込みネットワークです。
ブランチ部の入力と出力
● 入力：CNN特徴マップ
● 出力：物体なら1, 物体でないなら 0 を表すバイナリマスク、を持つ行列
このパイプラインを期待どおりに動作させるために、小さな調整を行う必要がありました。

RoiAlign ：RoIPoolの再配置
図2-8-2 
  図2-4−４のように、関心領域のサイズは、
プールセクションの数によって 
完全に割り切れず、RoIPoolによって 
選択された特徴マップの領域が元の画像
の領域からわずかにずれていました。 
 
画像のセグメンテーションは、bounding box
とは異なり、 
ピクセルレベルで特定する必要がある 
ため、当然不正確でした。 
 
なので、元の画像の領域により正確に 
対応するように、RoIPoolの代わりに、
RoIAlignを通過させます。

RoiAlign：RoIPoolの再配置
図2-8-3

RoiAlign：RoIPoolの再配置
プールセクションのずれによる丸め誤差が発生していた RoIPoolの代わりに、RoIAlignでは、
このような丸め誤差を双線形補間 (biliear interpolation)（[12]）を使用して避けています。
補間処理した各セクションの値から Maxプーリングを行います。
これにより高いレベルで、 RoIPoolによって引き起こされる不整合を避けることができます。
これらのマスクが生成されると、 Mask R-CNNはそれらをFaster R-CNNの分類および bounding box
と組み合わせて、そのようなきわめて正確なセグメンテーションを生成します。

Bilinear補間
各セル内の4点の近傍4ピクセルからバイリニア補間(双線形補間,bilinear interpolation)を用いて  
各点の値を計算します。  
 
図2-8-4

Bilinear補間
Bilinear補間の処理フロー
周囲4セルの値を取得し、(I(x0,y0）,I(x0+1,y0）,I(x0,y0+1）,I(x0+1,y0+1）)
1. 補正後のセルの中央点 (x',y'）からの距離を求めます。
2. 距離によって重み付け（ 0～１）を行います。（距離が小さいほど重みは大きい）
3. 1.の値の加重平均をセルの中央点における値 I(x',y'）とします。
以下の式で求められます。

参考文献
[1] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
https://arxiv.org/abs/1406.4729
[2] SSD: Single Shot MultiBox Detector
https://arxiv.org/abs/1512.02325.
[3] R-CNN
[4] Fast R-CNN
[5] Faster R-CNN
[6] Mask R-CNN

参考文献
[7] Zero to Hero: Guide to Object Detection using Deep Learning: Faster R-CNN,YOLO,SSD
http://cv-tricks.com/object-detection/faster-r-cnn-yolo-ssd/
[8] A Brief History of CNNs in Image Segmentation: From R-CNN to Mask R-CNN
https://blog.athelas.com/a-brief-history-of-cnns-in-image-segmentation-from-r-cnn-to-mask-r-cnn-34ea83205de4
[9] Mask R-CNN
https://www.slideshare.net/windmdk/mask-rcnn
[10] Region of interest pooling explained
https://blog.deepsense.ai/region-of-interest-pooling-explained/
[11] Instance segmentation with Mask R-CNN
https://lmb.informatik.uni-freiburg.de/lectures/seminar_brox/seminar_ss17/maskrcnn_slides.pdf
[12] 線形補間、バイリニア補間
https://goo.gl/snAcXQ

参考文献
[13] A paper list of object detection using deep learning
https://github.com/hoya012/deep_learning_object_detection

物体検出の歴史まとめ(1) 20180417

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 物体検出の歴史まとめ(1) 20180417

Ähnlich wie 物体検出の歴史まとめ(1) 20180417 (20)

Mehr von Masakazu Shinoda

Mehr von Masakazu Shinoda (9)

物体検出の歴史まとめ(1) 20180417