2. Mobility Technologies Co., Ltd.2
1 About Me
Agenda
2 Kaggle and Open Images Challenge 2019
3 How to tackle Object Detection challenges
4 Schwert’s Solution
5 Take-Home Messages
7. Mobility Technologies Co., Ltd.
Val Data
7
Kaggleの進め方
Test data
→private leaderboard
→public leaderboard
Train Data
隠れたtest dataで最も性能を発
揮できるようにするには?
評価metrics
Evaluation に記載されている。例えばmAP、Dice Coefficient、など
特殊なmetricの場合も多く、Discussionで議論の対象になることも
Cross Validation and Test data
8. Mobility Technologies Co., Ltd.
Val Data
8
Kaggleの進め方
Test data
→private leaderboard
→public leaderboard
Train Data
Val Data
Train Data
隠れたtest dataで最も性能を発
揮できるようにするには?
評価metrics
Evaluation に記載されている。例えばmAP、Dice Coefficient、など
特殊なmetricの場合も多く、Discussionで議論の対象になることも
Cross Validation and Test data
9. Mobility Technologies Co., Ltd.
Val Data
9
Kaggleの進め方
Test data
→private leaderboard
→public leaderboard
Train Data
Val Data
Train Data
Train Data
Val Data
隠れたtest dataで最も性能を発
揮できるようにするには?
評価metrics
Evaluation に記載されている。例えばmAP、Dice Coefficient、など
特殊なmetricの場合も多く、Discussionで議論の対象になることも
Cross Validation and Test data
10. Mobility Technologies Co., Ltd.10
Open Images Dataset (v5)とは
Flickrから収集された900万枚の画像
・190万枚に1600万個、600クラスのbounding box アノテーション
・350クラスのセグメンテーションマスク
・329通りのrelationship
Open Imagesコンペの概要
kaggleサイト
https://www.kaggle.com/c/open-images-2019-object-detection/
open imagesサイト
https://storage.googleapis.com/openimages/web/challenge.html
22. Mobility Technologies Co., Ltd.22
ResNet50では学習できたぞ?
よし、ResNeXt101でやってみよう
ついでにRandomCropも入れてみよう
よくない例
model 1 (baseline)
new
feature
A
new
feature
B
model 2
独立なfeatureをひとつだけ追加(変化)させて実験することが大事。
Ablation Studyも同様
29. Mobility Technologies Co., Ltd.29
各featureがval、public LBにどの程度寄与しているかを可視化する
Ablation Study
Backbone Deformable
Convolutions
Parent
Expansion
Data Size val AP private LB
ResNeXt101 None Inference Time 4k per class 69.8 54.0
ResNeXt101 DCN v2 Inference Time 4k per class 72.2 (+2.4)
ResNeXt152 None Inference Time 4k per class 72.2 (+2.4)
ResNeXt152 None Inference Time 16k per class 72.4 (+2.6)
ResNeXt152 DCN v2 Inference Time 4k per class 73.2 (+3.4) 56.4 (best
single model)
ResNeXt152 None Training Time 4k per class 72.4 (+2.6)*
30. Mobility Technologies Co., Ltd.30
手法3:Enhanced (Voting) NMS [6]
Non-Maximum Suppression for Model Ensembling
多くのモデルの検出が重なっている場合scoreが高くなるようにする
31. Mobility Technologies Co., Ltd.31
結果
Backbone Deformable
Convolutions
Parent
Expansion
Data Size val AP private LB
ResNeXt152 DCN v2 Inference
Time
4k per class 73.2 (+3.4) 56.4 (best
single
model)
Ensemble of
8 models +
NMS tuned
60.23
13位相当
6位
37. Mobility Technologies Co., Ltd.37
[1] Hiroto Honda, “The 6th Place Solution for the Open Images 2019 Object Detection Track,”
presented at ICCVW 2019, https://hirotomusiker.github.io/files/schwert_open_images_6th_solution_v1.pdf
[2] Hiroto Honda, “6th place solution,” discussion in Open Images 2019 Object Detection Track,
https://www.kaggle.com/c/open-images-2019-object-detection/discussion/110953
[3] Hiroto Honda, “11th place solution,” discussion in Open Images 2019 Instance Segmentation
Track, https://www.kaggle.com/c/open-images-2019-instance-segmentation/discussion/111351
[4] kivajok, 1st place writeup, https://storage.googleapis.com/openimages/web/challenge.html
[5] Takuya Akiba et al., “PFDet: 2nd Place Solution to Open Images Challenge 2018 Object Detection
Track,” arXiv:1809.00778
[6] Yuan Gao et al., “Solution for Large-Scale Hierarchical Object Detection Datasets with Incomplete
Annotation and Data Imbalance,” arXiv:1810.06208
[7] Saining Xie et al., “Aggregated Residual Transformations for Deep Neural Networks,” CVPR 2017
[8] Xizhou Zhu et al., “Deformable ConvNets v2: More Deformable, Better Results,” CVPR 2019
[9] Tsung-Yi Lin et al., “Feature Pyramid Networks for Object Detection,” CVPR 2017
* All the photos used in this presentation were taken by Hiroto Honda
References