10. 導入
10
● Kinetics: The Kinetics Human Action Video
Dataset [Key+, arXiv]
○ 行動クラス → 400 クラス!!
○ 動画数 → 300K+ 動画!!
圧倒的なデータ量!
→ 2D CNNと比較してパラメータ数が
膨大な3Dの学習を成功!!
担当:若宮
https://arxiv.org/abs/1705.06950
11. 導入
11
● Can Spatiotemporal 3D CNNs Retrace the
History of 2D CNNs and ImageNet? [Hara+ ,
CVPR 2018]
○ 3D CNNが Kinetics を過学習せずに学習可能
○ Kinetics の学習済みモデルを使えば
UCF-101/HMDB-51やActivityNet も学習が可
能
事実上の 動画 × 3D CNN が可能となり、
動画認識の時代の開幕
担当:若宮
https://arxiv.org/abs/1711.09577
26. Action Proposal Generation
26
● どんなタスク?
○ CVPR workshop ActivityNet Challenge にて開催
○ 動画中の action が起こっていそうな時間区間 (Action Proposal) を予
測
○ action localization や dense-captioning のタスクにも使われる
● データセット
○ ActivityNet
■ 動画数 : 20k動画
■ 計 648 時間
● 評価指標
○ The area under the Average Recall vs Average Number of
Proposals per Video (AR-AN) with tIoU thresholds
担当:石川
27. Action Proposal Generation の主な手法 (1/2)
27
Anchor-based Approaches
● マルチスケールな anchor を用いて proposal を生成
● 主な手法
○ SSAD[1]
, CBR[2]
, TURN TAP[3]
● 長所
○ マルチスケールの proposal を効果的に生成できる
○ 全ての anchor の情報を同時に捉えるため,
○ confidence score が信頼できることが多い
● 短所
○ anchor の設計が難しい
○ 正確でないことが多い
○ 様々な時系列区間を捉えるのが難しい
担当:石川
[1] T. Lin, “Single Shot Temporal Action Detection”, in ACM Multimedia 2017
[2] J. Gao, “Cascaded Boundary Regression for Temporal Action Detection”, in BMVC 2017
[3] J. Gao, “TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals” in ICCV2017
28. Action Proposal Generation の主な手法 (2/2)
28
Anchor-free Approaches
● action boundary や actioness を評価して,proposal を生成
● 主な手法
○ TAG[1]
, BSN[2]
, BMN[3]
● 長所
○ 時系列方向の区間を柔軟に,かつ正確に proposal を生成可能
○ BSP (Boundary Sensitive Proposal) features を用いれば,
○ confidence score の信頼性が上がる
● 短所
○ feature の設計と confidence score の評価が別々で
行われるため,非効率的である
○ 特徴量が単純になりがちで,時系列方向のコンテキストを捉えるには不
十分である場合がある
○ multi-stage で,end2end なフレームワークではない
担当:石川
[1] Yue Zhao et al., “Temporal Action Detection with Structured Segment Networks” in ICCV 2017
[2] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation” in ECCV 2018
[3] T. Lin et al., “BMN: Boundary-Matching Network for Temporal Action Proposal Generation”, in ICCV 2019
43. Building a Size Constrained Predictive Model for Video Classification
[Skalic+, ECCV 2018 WS]
43
● 学会・順位
○ The 2nd YouTube-8M Large-Scale Video Understanding Challenge
の動画認識コンペの1位
● 手法
○ NetVLAD, Deep Bag of Frames, FVNet, RNNのモデルとモデルの蒸
留によって親と子を最小化するように学習
● 結果
○ GAP(評価方法) : 0.89053
担当:若宮
http://openaccess.thecvf.com/content_eccv_2018_workshops/w22/html/Skalic_Buildin
g_a_Size_Constrained_Predictive_Model_for_Video_Classification_ECCVW_2018_pa
per.html
44. Label Denoising with Large Ensembles of Heterogeneous Neural
Networks [Ostyakov+, ECCV 2018 WS]
44
● 学会・順位
○ The 2nd YouTube-8M
Large-Scale Video
Understanding Challengeの動
画認識コンペの2位
● 手法
○ 様々なモデルのアンサンブルし
た結果をLGBM勾配加速モデ
ルに入れて蒸留ラベルの生成
後に蒸留することで高い精度を
算出
● 結果
○ GAP : 0.88729
担当:若宮
https://arxiv.org/abs/1809.04403
45. NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for
Large-scale Video Classification [Lin+, ECCV 2018 WS]
45
● 学会・順位
○ The 2nd YouTube-8M Large-Scale Video Understanding Challenge
の動画認識コンペの3位
● 手法
○ 高速かつ効率的な NeXtVLAD を提案
● 結果
○ GAP : 0.8798 (val)
担当:若宮
https://arxiv.org/abs/1811.05014
65. 強者たち
65
● Ting Yao(ActivityNet)
○ 中国北京 JD AI Research
○ 様々なコンペでトップ
Rank 1 in Multi-Source Domain Adaptation Track and Rank 2 in Semi-Supervised Domain Adaptation Track of Visual Domain
Adaptation Challenge at ICCV 2019.
Rank 1 in Trimmed Activity Recognition (Kinetics) of ActivityNet Large Scale Activity Recognition Challenge at CVPR 2019.
Rank 1 in both Open-set Classification Track and Detection Track of Visual Domain Adaptation Challenge at ECCV 2018.
Rank 2 in three tasks of Dense-Captioning Events in Videos, Temporal Action Localization, and Trimmed Activity Recognition
(Kinetics) of ActivityNet Large Scale Activity Recognition Challenge at CVPR 2018.
Rank 1 in Segmentation Track of Visual Domain Adaptation Challenge at ICCV 2017.
Rank 1 in Dense-Captioning Events in Videos and Rank 2 in Temporal Action Proposals of ActivityNet Large Scale Activity
Recognition Challenge at CVPR 2017.
Rank 1 in COCO Image Captioning.
担当:全員
● JD AI Researchとは?
○ JD.COM が支持する研究団体
○ 特に最先端の AI を研究して実用化を図
るための団体
○ すでに実績はいくつか存在
66. 強者たち
66
● Dongliang He (ActivityNet)
○ 中国北京 Baidu, Inc.
○ 2018年のActivityNet Recognition Challenge (Kinetics) に
おいて1位
担当:全員