SlideShare ist ein Scribd-Unternehmen logo
1 von 20
Downloaden Sie, um offline zu lesen
!""#$%&'()*+*$,-$.//01'*"2$
3#'4+,04"5#,6'($
7"#6"*"&4'4+,&*$-,6$%84+,&$
7"8,9&+4+,&
!"#$%&#'()*+",-./'!"0$1'),2034,-'5,$.,1'6,$.,$'
),2,7-*3"$,$1')890-*8'&0-*31':8"$'!8"$1';#.0'<=*>,1'?#,$@#'
&,$1
!A5)BCBD
仁田智也 (名工大玉木研)
導入
n多くの動画認識モデルが提案
• BE!FFベース
• GE!FFベース
n多くの論文で公平な比較がされていない
• 実験方法
• バックボーン
• データセット
n実験で行ったこと
• 公平な比較
• 時空間情報に対する分析
• H<I;との比較
N [79]. Furthermore, SlowFast
ways to capture short-term and
tion [10] by processing a video
rates. Beyond that, Timecep-
oncept in the temporal domain
mporal dependencies [26]. Fe-
t networks by extending 2D ar-
Figure 2: Statistics collected from 37 action recognition papers
データセットの使用率 実験設定が異なる割合
Rogerio Feris1
, John Cohn1
, Aude Oliva2
, Quanfu Fan1,†
†: Equal Contribution
1
MIT-IBM Watson AI Lab, 2
Massachusetts Institute of Technology
Abstract
In recent years, a number of approaches based on 2D or
3D convolutional neural networks (CNN) have emerged for
video action recognition, achieving state-of-the-art results
on several large-scale benchmark datasets. In this paper,
we carry out in-depth comparative analysis to better un-
derstand the differences between these approaches and the
progress made by them. To this end, we develop an unified
framework for both 2D-CNN and 3D-CNN action models,
which enables us to remove bells and whistles and provides
a common ground for fair comparison. We then conduct
an effort towards a large-scale analysis involving over 300
action recognition models. Our comprehensive analysis re-
veals that a) a significant leap is made in efficiency for ac-
tion recognition, but not in accuracy; b) 2D-CNN and 3D-
CNN models behave similarly in terms of spatio-temporal
representation abilities and transferability. Our codes are
available at https://github.com/IBM/action-
recognition-pytorch.
1. Introduction
With the recent advances in convolutional neural net-
works (CNNs) [59, 24] and the availability of large-scale
Figure 1: Recent progress of action recognition on Kinetics-
400 (only models based on InceptionV1 and ResNet50 are in-
cluded). Models marked with ∗ are re-trained and evaluated (see
Section 6.2) while others are from the existing literature. The size
of a circle indicates the 1-clip FLOPs of a model. With temporal
pooling turned off, I3D performs on par with the state-of-the-art
approaches. Best viewed in color.
temporal representations of these recent approaches? Do
these approaches enable more effective temporal modeling,
the crux of the matter for action recognition? Furthermore,
there seems no clear winner between 2D-CNN and 3D-
CNN approaches in terms of accuracy. 3D models report
better performance than 2D models on Kinetics while the
関連研究
n最先端の手法
• H=84&,3J (&0*+"J0$"8@0-K1'L!!ABCDM/
nG次元畳み込み
• LGE'(!,--0-*,'N'O*330-2,$1'!A5)BCDP/
• バックボーン:L$+0QJ*8$AD'(L8@00'N'HR090.S1'5TU)BCDV/
• 入力サンプリング:密にサンプリング
• 時間プーリング:あり
• )GE'(W,-,K1'!A5)BCDP/
• バックボーン:)03F0J (W0K1'!A5)BCDX/
• 入力サンプリング:密にサンプリング
• 時間プーリング:あり
(Carreria & Zisserman, CVPR2017)
関連研究
nBKD次元畳み込み
• HGE'(Y*0K1'Z!!ABCD[/
• バックボーン:L$+0QJ*8$AD'(L8@00'N'HR090.S1'5TU)BCDV/
• 入力サンプリング:密にサンプリング
• 時間プーリング:あり
• )(BKD/E'(I-,$K1'!A5)BCD[/
• バックボーン:)03F0J'(W0K1'!A5)BCDX/
• 入力サンプリング:密にサンプリング
• 時間プーリング:あり
(Tran+, CVPR2018)
畳み込みを2回に分ける
関連研究
nB次元畳み込み
• IHF'(,$9K1'Z!!ABCDX/
• バックボーン:L$+0QJ*8$AD'(L8@00'N'HR090.S1'5TU)BCDV/
• 入力サンプリング:一様にサンプリング
• 時間プーリング:なし
• 時間情報の処理:畳み込みの出力の平均
• 畳み込み処理では空間情報のみを考慮
• I;T'(&,$K1'F0#-L5HBCDM/
• バックボーン:]U)03F0J'(!"0$K1'L!U)BCDM/
• 入力サンプリング:一様にサンプリング
• 時間プーリング:なし
• 時間情報の処理:中間特徴量で時間方向に畳み込み
実験設定
nモデル (MX通り)
• 時空間処理
• GE畳み込み (LGEベース)
• BKDE畳み込み (HGEベース)
• I;Tベース
• IHFベース
• バックボーン
• L$+0QJ*8$AD
• )03F0JD[
• )03F0JVC
• 時間プーリングの有無
• 入力フレーム
• [1'DX1'GB1'X^
nデータセット
• 6*$0J*+3%^CC'(6,SK1',-Y*>/
• T820$J3%*$%J*20'(T8$@8-JK1'I5;TL/
• H820J"*$9%H820J"*$9'AB'(_8S,=1'
L!!ABCDP/
• Gつのデータセットのクラス数を減らし
た2*$*データセット
n学習
• [フレームはL2,90F0Jで事前学習
• DXフレーム以上は1つ下の入力フ
レームで事前学習
n推論
• 密なサンプリングと一様サンプリング
• Dクリップと複数クリップ
実験結果
n入力フレームと各モデルの認識率
• 時空間処理
• 赤:BKDE畳み込み
• 緑:GE畳み込み
• 青:I;Tベース
• バックボーン
• 丸:L$+0QJ*8$AD
• 三角:)03F0JD[
• 四角:)03F0JVC
時空間処理に関係なく!"#$"%&'が高い
認識率があまり伸びない
実験結果
n時間プーリングによる認識率の変化
• 時空間処理
• 水色:IHFベース
• 赤:BKDE畳み込み
• 緑:GE畳み込み
• 青:I;Tベース
• バックボーン
• 丸:L$+0QJ*8$AD
• 三角:)03F0JD[
• 四角:)03F0JVC
e compared models without
sets. The video architectures
bones by symbol.
Figure 6: Accuracy gain of the models with temporal pooling
w.r.t. the models without temporal pooling. Temporal pooling
• ()$ベース以外の多くのモデルで低下
• プーリングによって*+,"%+-#の性能低下
• 時間モデリングの重要性
最先端の手法との比較
s by changing the back-
pooling (I3D-R50-tp) and
-SE-R50) on Kinetics and
nce changes. All models
ed using 3 × 10 clips on
ctively.
ults of I3D on the mini
y significant impact of
hat the spatio-temporal
Model
Pretrain
FLOPs
Dataset
dataset Kinetics SSV2 MiT
I3D-ResNet50 ImageNet 335.3G 76.61 62.84 31.21
I3D-ResNet50 None 335.3G 76.54 − −
TAM-ResNet50 ImageNet 171.5G 76.18 63.83 30.80
SlowFast-ResNet50-8×8†
[10] None∗
65.7G 76.40 60.10 31.20
I3D-ResNet101 ImageNet 654.7G 77.80 64.29 −
TAM-ResNet101 ImageNet 327.1G 77.61 65.32 −
SlowFast-ResNet50-8×8‡
[10] None∗
65.7G 77.00 − −
SlowFast-ResNet50-16×8‡
[10] Kinetics 124.5G − 63.0 −
CorrNet-ResNet50‡
[64] None∗
115G 77.20 − −
SlowFast-ResNet101-8×8†
[10] None 125.9G 76.72 − −
SlowFast-ResNet101-8×8‡
[10] None 125.9G 78.00 − −
SlowFast-ResNet101-16×8‡
[10] None 213G 78.90 − −
CSN-ResNet101‡
[61] None∗
83G 76.70 − −
CorrNet-ResNet101‡
[64] None∗
224G 79.20 − −
X3D-L‡
[9] None∗
24.8G 77.50 − −
X3D-XL‡
[9] None∗
48.4G 79.10 − −
AssembleNet-501
[51] − − − − 31.41
GST-ResNet101 [36] ImageNet − − − 32.40
∗: Those networks cannot be initialized from ImageNet due to its structure.
†: Retrained by ourselves. ‡: reported by the authors of the paper. 1: Use RGB + Flow.
Table 2: Performance of SOTA models.
再学習した結果
提案論文で
報告されてる結果
./0と)12345#%は同等
./0は計算量で劣る
)12345#%678/0などは
時間プーリングなしで軽量化
入力サンプリング手法
n入力サンプリング手法
• 一様サンプリング (`%H,2Q=*$9/
• 密なサンプリング (E%H,2Q=*$9/
n推論時のクリップ数と計算量
• 青:H=84&,3J1'密なサンプリング
• 黄:LGEベース1'密なサンプリング
• 緑:H=84&,3J1'一様サンプリング
• 赤:LGEベース1'一様サンプリング
ogress. However, the results of I3D on the mini
ecially the unexpectedly significant impact of
oling, seem to suggest that the spatio-temporal
pability of I3D has been underestimated by the
ore precisely understand the recent progress
ognition, we further conduct a more rigorous
g effort including I3D, TAM and SlowFast on
sets. I3D was the prior SOTA method while
0] and TAM [8], both of which have official
ed, are competitively comparable with existing
ds. To ensure apple-to-apple comparison, we
me training settings of SlowFast to train all the
32 frames as input. During evaluation, we use
or Kinetics and MiT, and 3 × 2 clips for SSV2.
ugment original I3D by a stronger backbone
d turning off temporal pooling. As shown in
sNet50 alone pushes up the accuracy of I3D by
etics, and removing temporal pooling adds an-
erformance gain, putting I3D on par with Slow-
of top-1 accuracy. Further inserting Squeeze-
odules into I3D makes it surpass SlowFast by
GST-ResNet101 [36] ImageNet − − − 32.40
∗: Those networks cannot be initialized from ImageNet due to its structure.
†: Retrained by ourselves. ‡: reported by the authors of the paper. 1: Use RGB + Flow.
Table 2: Performance of SOTA models.
Model Pretrain U-Sampling D-Sampling
I3D-ResNet50 ImageNet 76.07 76.61
TAM-ResNet50 ImageNet 76.45 76.18
SlowFast-ResNet50-8×8 − 71.85 76.40
Table 3: Model performance on Kinetics based on uniform and
dense sampling. Uniform sampling trained models are evaluated
under 3 256×256 spatial crops and 2 clips.
weakens its temporal modeling capability; and (II) that the
two-stream architecture is less effective in capturing tempo-
ral dependencies in such a highly temporal dataset.
Uniform Sampling vs Dense Sampling. We revisit the ef-
fect of input sampling on model performance and retrain all
three approaches using uniform sampling on Kinetics. As
shown in Table 3, the small difference between uniform and
dense sampling results indicates that both I3D and TAM are
flexible w.r.t model input. In contrast, uniform sampling is
)12345#%大幅に変化
同等の計算量で同等の精度
時空間処理の分析
nモデルの空間的寄与と時間的改善
• 空間的寄与:Φ!
" = 𝑆#$%
"
/max(𝑆!
", 𝑆#$%
"
)
• 𝑆!
":時空間処理𝑎, バックボーン𝑏の認識率
• 𝑆#$%
"
:IHFは空間情報のみを考慮
• 時間的改善:Ψ!
" = (𝑆!
" − 𝑆#$%
"
)/(100 − 𝑆#$%
"
)
n時空間処理の空間的寄与と時間的改善
• 空間的寄与:Φ! =
&
'!
∑"∈) ∑*∈+ Φ!
"(𝑘)
• 𝑍,:正規化係数
• 𝑘:入力フレーム数
• 時間的改善: Ψ! =
&
'"
∑"∈) ∑*∈+ Ψ!
"(𝑘)
Top-1 Acc.
# of TAMs locations Mini-SSV2 Mini-Kinetics
8 All 59.1 69.08
4 Top-half 59.7 69.21
4 Bottom-half 56.5 69.27
4 Uniform-half 59.4 69.14
Top and bottom mean the residual blocks closer to output and input respectively.
Table 6: Performance comparison by using different numbers and
locations of TAMs in ResNet18 (w/o temporal pooling).
of different ways by keeping: a) half of the temporal mod-
ules only in the bottom network layers (Bottom-Half); b)
half of the temporal modules only in the top network lay-
ers (Top-Half); c) every other temporal module (Uniform-
Half); and d) all the temporal modules (All). As observed
in Table 6, only half of the temporal modules (Top-Half)
is needed to achieve the best accuracy on Mini-SSV2 while
the accuracy on Mini-Kinetics is not sensitive to the num-
ber and locations of temporal modules. It is thus interesting
Datasets Metrics I3D S3D TAM
Φ̄a 0.53 0.53 0.52
Mini-SSV2 Ψ̄ta
a 0.46 0.45 0.47
Ψ̄ta+tp
a 0.38 0.38 0.37
Φ̄a 0.97 0.97 0.96
Mini-Kinetics Ψ̄ta
a 0.06 0.08 0.09
Ψ̄ta+tp
a -0.08 -0.10 -0.12
Φ̄a 0.89 0.91 0.87
Mini-MiT Ψ̄ta
a 0.04 0.03 0.04
Ψ̄ta+tp
a 0.02 0.02 0.04
Ψ̄ta
a : the improvement from temporal aggregation only.
Ψ̄ta+tp
a : the improvement from combining temporal
Table 7: Effects of spatio-temporal modeling.
Table 7 shows the results of Φ̄a and Ψ̄a for three spa
temporal representations. All three representations beh
similarly, namely their spatial modeling contributes sligh
more than temporal modeling on Mini-SSV2, much hig
!" #$%"
9%:は時間プーリングを含める
• HHABは時間モデリングが重要
• 時間プーリングは精度の低下を招く
まとめ
n動画認識の既存手法での比較実験を行った
• LGEベースのモデルはH<I;のH=84&,3Jと同等の性能がある
• 認識率
• 計算量
• 動画のサンプリング手法による認識率の変化
• 推論のクリップ数による影響
• 時間プーリングによる影響
• バックボーンによる影響
補足スライド
!"#
Figure 3. The Inflated Inception-V1 architecture (left) and its detailed inception submodule (right). The strides of convolution and pooling
operators are 1 where not specified, and batch normalization layers, ReLu’s and the softmax at the end are not shown. The theoretical
sizes of receptive field sizes for a few layers in the network are provided in the format “time,x,y” – the units are frames and pixels. The
バックボーン
(Carreria & Zisserman, CVPR2017)
$%&
TSNs: Towards Good Practices for Deep Action Recognition 25
Fig. 1. Temporal segment network: One input video is divided into K segments and
a short snippet is randomly selected from each segment. The class scores of different
動画を分割 分割したクリップ
から;フレーム使用
2:%+-517<123や差分を使用
平均
(Wang+, ECCV2016)
$'(
2DConvBlock
2DConvNet
2DConvNet 2DConvNet
A*.08
@-,20
@-,20
@-,20
frame
prediction
frame
prediction
frame
prediction
video
prediction
A*.08
@-,20
@-,20
@-,20
2DConvBlock 2DConvBlock
2DConvBlock 2DConvBlock 2DConvBlock
frame
prediction
frame
prediction
frame
prediction
video
prediction
;次元
畳み込み
IHF I;T
入力サンプリング
n入力フレーム数とサンプリング手法による認識率
• サンプリング手法
• 青:一様サンプリング
• オレンジ:密なサンプリング
• 濃い色:Dクリップ
• 薄い色:複数
• 入力フレーム数
• 横軸
Figure 4: Top-1 accuracy of all the compared models without
temporal pooling on three mini-datasets. The video architectures
are separated by color while the backbones by symbol.
(a) I3D-ResNet18 (b) TAM-ResNet18
密なサンプリングではクリップ数による変化大
!"# 認識率変化
Figure 7: Performance of I3D models by changing the back-
bone (I3D-R50-tp), removing temporal pooling (I3D-R50-tp) and
LGE バックボーン
変更
時間プーリング
除去
HZブロック
追加
バックボーンの影響大
時間プーリングの影響大
時間情報処理
n時間情報処理に関する認識率
• 時間情報処理
• F8$0a'IHF
• LGEa'GE畳み込み
• !8$>ba'BKDE畳み込み
• I;Ta'I;Tベース
• IHTa'I02Q8-,='H"*@J'T8.#=0'(U*$K1'!A5)BCDM/
• FUFa'F8$%U8+,='F0#-,='F0J48-7'(,$9K1'!A5)BCD[/
Dataset Frames
InceptionV1 ResNet50
None I3D Conv. TAM None I3D Conv. TAM TSM NLN
Mini-SSV2
f=8 33.1 56.4 58.2 59.7 33.9 62.6 61.6 65.4 64.1 53.0
f=16 34.7 61.8 63.7 63.9 35.3 66.2 65.7 68.6 67.4 55.0
Mini-Kinetics
f=8 70.4 68.1 68.3 68.8 72.1 73.3 71.5 74.1 74.1 73.7
f=16 70.5 70.9 70.7 70.0 72.5 75.5 73.4 76.4 75.6 74.5
$'(比較実験
n時間方向畳み込みの場所を変更
• ;==:全てのブロックの間
• I8Q%",=@:出力に近い層
• c8JJ82%",=@:入力に近い層
• `$*@8-2%",=@:均一
Top-1 Acc.
# of TAMs locations Mini-SSV2 Mini-Kinetics
8 All 59.1 69.08
4 Top-half 59.7 69.21
4 Bottom-half 56.5 69.27
4 Uniform-half 59.4 69.14
Top and bottom mean the residual blocks closer to output and input respectively.
HHABではI8Q部分が重要となる
6*$0J*+3では場所は関係ない

Weitere ähnliche Inhalte

Ähnlich wie 文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Recognition

2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
智啓 出川
 

Ähnlich wie 文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Recognition (20)

第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)
 
文献紹介:Video Transformer Network
文献紹介:Video Transformer Network文献紹介:Video Transformer Network
文献紹介:Video Transformer Network
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
 
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
 
入門機械学習読書会9章
入門機械学習読書会9章入門機械学習読書会9章
入門機械学習読書会9章
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
PBL1-v1-008j.pptx
PBL1-v1-008j.pptxPBL1-v1-008j.pptx
PBL1-v1-008j.pptx
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
 
Rを用いたGIS
Rを用いたGISRを用いたGIS
Rを用いたGIS
 
文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical Flow文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical Flow
 
CSS Grid Layout の基礎
CSS Grid Layout の基礎CSS Grid Layout の基礎
CSS Grid Layout の基礎
 
文献紹介:Tell Me Where to Look: Guided Attention Inference Network
文献紹介:Tell Me Where to Look: Guided Attention Inference Network文献紹介:Tell Me Where to Look: Guided Attention Inference Network
文献紹介:Tell Me Where to Look: Guided Attention Inference Network
 
文献紹介:Prior Guided GAN Based Semantic Inpainting
文献紹介:Prior Guided GAN Based Semantic Inpainting文献紹介:Prior Guided GAN Based Semantic Inpainting
文献紹介:Prior Guided GAN Based Semantic Inpainting
 
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsPL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
 
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
 
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRRとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
 
画像処理の高性能計算
画像処理の高性能計算画像処理の高性能計算
画像処理の高性能計算
 
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
 
文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...
文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...
文献紹介:Rethinking Data Augmentation for Image Super-resolution: A Comprehensive...
 

Mehr von Toru Tamaki

Mehr von Toru Tamaki (20)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion
 

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 

文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Recognition

  • 2. 導入 n多くの動画認識モデルが提案 • BE!FFベース • GE!FFベース n多くの論文で公平な比較がされていない • 実験方法 • バックボーン • データセット n実験で行ったこと • 公平な比較 • 時空間情報に対する分析 • H<I;との比較 N [79]. Furthermore, SlowFast ways to capture short-term and tion [10] by processing a video rates. Beyond that, Timecep- oncept in the temporal domain mporal dependencies [26]. Fe- t networks by extending 2D ar- Figure 2: Statistics collected from 37 action recognition papers データセットの使用率 実験設定が異なる割合 Rogerio Feris1 , John Cohn1 , Aude Oliva2 , Quanfu Fan1,† †: Equal Contribution 1 MIT-IBM Watson AI Lab, 2 Massachusetts Institute of Technology Abstract In recent years, a number of approaches based on 2D or 3D convolutional neural networks (CNN) have emerged for video action recognition, achieving state-of-the-art results on several large-scale benchmark datasets. In this paper, we carry out in-depth comparative analysis to better un- derstand the differences between these approaches and the progress made by them. To this end, we develop an unified framework for both 2D-CNN and 3D-CNN action models, which enables us to remove bells and whistles and provides a common ground for fair comparison. We then conduct an effort towards a large-scale analysis involving over 300 action recognition models. Our comprehensive analysis re- veals that a) a significant leap is made in efficiency for ac- tion recognition, but not in accuracy; b) 2D-CNN and 3D- CNN models behave similarly in terms of spatio-temporal representation abilities and transferability. Our codes are available at https://github.com/IBM/action- recognition-pytorch. 1. Introduction With the recent advances in convolutional neural net- works (CNNs) [59, 24] and the availability of large-scale Figure 1: Recent progress of action recognition on Kinetics- 400 (only models based on InceptionV1 and ResNet50 are in- cluded). Models marked with ∗ are re-trained and evaluated (see Section 6.2) while others are from the existing literature. The size of a circle indicates the 1-clip FLOPs of a model. With temporal pooling turned off, I3D performs on par with the state-of-the-art approaches. Best viewed in color. temporal representations of these recent approaches? Do these approaches enable more effective temporal modeling, the crux of the matter for action recognition? Furthermore, there seems no clear winner between 2D-CNN and 3D- CNN approaches in terms of accuracy. 3D models report better performance than 2D models on Kinetics while the
  • 3. 関連研究 n最先端の手法 • H=84&,3J (&0*+"J0$"8@0-K1'L!!ABCDM/ nG次元畳み込み • LGE'(!,--0-*,'N'O*330-2,$1'!A5)BCDP/ • バックボーン:L$+0QJ*8$AD'(L8@00'N'HR090.S1'5TU)BCDV/ • 入力サンプリング:密にサンプリング • 時間プーリング:あり • )GE'(W,-,K1'!A5)BCDP/ • バックボーン:)03F0J (W0K1'!A5)BCDX/ • 入力サンプリング:密にサンプリング • 時間プーリング:あり (Carreria & Zisserman, CVPR2017)
  • 4. 関連研究 nBKD次元畳み込み • HGE'(Y*0K1'Z!!ABCD[/ • バックボーン:L$+0QJ*8$AD'(L8@00'N'HR090.S1'5TU)BCDV/ • 入力サンプリング:密にサンプリング • 時間プーリング:あり • )(BKD/E'(I-,$K1'!A5)BCD[/ • バックボーン:)03F0J'(W0K1'!A5)BCDX/ • 入力サンプリング:密にサンプリング • 時間プーリング:あり (Tran+, CVPR2018) 畳み込みを2回に分ける
  • 5. 関連研究 nB次元畳み込み • IHF'(,$9K1'Z!!ABCDX/ • バックボーン:L$+0QJ*8$AD'(L8@00'N'HR090.S1'5TU)BCDV/ • 入力サンプリング:一様にサンプリング • 時間プーリング:なし • 時間情報の処理:畳み込みの出力の平均 • 畳み込み処理では空間情報のみを考慮 • I;T'(&,$K1'F0#-L5HBCDM/ • バックボーン:]U)03F0J'(!"0$K1'L!U)BCDM/ • 入力サンプリング:一様にサンプリング • 時間プーリング:なし • 時間情報の処理:中間特徴量で時間方向に畳み込み
  • 6. 実験設定 nモデル (MX通り) • 時空間処理 • GE畳み込み (LGEベース) • BKDE畳み込み (HGEベース) • I;Tベース • IHFベース • バックボーン • L$+0QJ*8$AD • )03F0JD[ • )03F0JVC • 時間プーリングの有無 • 入力フレーム • [1'DX1'GB1'X^ nデータセット • 6*$0J*+3%^CC'(6,SK1',-Y*>/ • T820$J3%*$%J*20'(T8$@8-JK1'I5;TL/ • H820J"*$9%H820J"*$9'AB'(_8S,=1' L!!ABCDP/ • Gつのデータセットのクラス数を減らし た2*$*データセット n学習 • [フレームはL2,90F0Jで事前学習 • DXフレーム以上は1つ下の入力フ レームで事前学習 n推論 • 密なサンプリングと一様サンプリング • Dクリップと複数クリップ
  • 7. 実験結果 n入力フレームと各モデルの認識率 • 時空間処理 • 赤:BKDE畳み込み • 緑:GE畳み込み • 青:I;Tベース • バックボーン • 丸:L$+0QJ*8$AD • 三角:)03F0JD[ • 四角:)03F0JVC 時空間処理に関係なく!"#$"%&'が高い 認識率があまり伸びない
  • 8. 実験結果 n時間プーリングによる認識率の変化 • 時空間処理 • 水色:IHFベース • 赤:BKDE畳み込み • 緑:GE畳み込み • 青:I;Tベース • バックボーン • 丸:L$+0QJ*8$AD • 三角:)03F0JD[ • 四角:)03F0JVC e compared models without sets. The video architectures bones by symbol. Figure 6: Accuracy gain of the models with temporal pooling w.r.t. the models without temporal pooling. Temporal pooling • ()$ベース以外の多くのモデルで低下 • プーリングによって*+,"%+-#の性能低下 • 時間モデリングの重要性
  • 9. 最先端の手法との比較 s by changing the back- pooling (I3D-R50-tp) and -SE-R50) on Kinetics and nce changes. All models ed using 3 × 10 clips on ctively. ults of I3D on the mini y significant impact of hat the spatio-temporal Model Pretrain FLOPs Dataset dataset Kinetics SSV2 MiT I3D-ResNet50 ImageNet 335.3G 76.61 62.84 31.21 I3D-ResNet50 None 335.3G 76.54 − − TAM-ResNet50 ImageNet 171.5G 76.18 63.83 30.80 SlowFast-ResNet50-8×8† [10] None∗ 65.7G 76.40 60.10 31.20 I3D-ResNet101 ImageNet 654.7G 77.80 64.29 − TAM-ResNet101 ImageNet 327.1G 77.61 65.32 − SlowFast-ResNet50-8×8‡ [10] None∗ 65.7G 77.00 − − SlowFast-ResNet50-16×8‡ [10] Kinetics 124.5G − 63.0 − CorrNet-ResNet50‡ [64] None∗ 115G 77.20 − − SlowFast-ResNet101-8×8† [10] None 125.9G 76.72 − − SlowFast-ResNet101-8×8‡ [10] None 125.9G 78.00 − − SlowFast-ResNet101-16×8‡ [10] None 213G 78.90 − − CSN-ResNet101‡ [61] None∗ 83G 76.70 − − CorrNet-ResNet101‡ [64] None∗ 224G 79.20 − − X3D-L‡ [9] None∗ 24.8G 77.50 − − X3D-XL‡ [9] None∗ 48.4G 79.10 − − AssembleNet-501 [51] − − − − 31.41 GST-ResNet101 [36] ImageNet − − − 32.40 ∗: Those networks cannot be initialized from ImageNet due to its structure. †: Retrained by ourselves. ‡: reported by the authors of the paper. 1: Use RGB + Flow. Table 2: Performance of SOTA models. 再学習した結果 提案論文で 報告されてる結果 ./0と)12345#%は同等 ./0は計算量で劣る )12345#%678/0などは 時間プーリングなしで軽量化
  • 10. 入力サンプリング手法 n入力サンプリング手法 • 一様サンプリング (`%H,2Q=*$9/ • 密なサンプリング (E%H,2Q=*$9/ n推論時のクリップ数と計算量 • 青:H=84&,3J1'密なサンプリング • 黄:LGEベース1'密なサンプリング • 緑:H=84&,3J1'一様サンプリング • 赤:LGEベース1'一様サンプリング ogress. However, the results of I3D on the mini ecially the unexpectedly significant impact of oling, seem to suggest that the spatio-temporal pability of I3D has been underestimated by the ore precisely understand the recent progress ognition, we further conduct a more rigorous g effort including I3D, TAM and SlowFast on sets. I3D was the prior SOTA method while 0] and TAM [8], both of which have official ed, are competitively comparable with existing ds. To ensure apple-to-apple comparison, we me training settings of SlowFast to train all the 32 frames as input. During evaluation, we use or Kinetics and MiT, and 3 × 2 clips for SSV2. ugment original I3D by a stronger backbone d turning off temporal pooling. As shown in sNet50 alone pushes up the accuracy of I3D by etics, and removing temporal pooling adds an- erformance gain, putting I3D on par with Slow- of top-1 accuracy. Further inserting Squeeze- odules into I3D makes it surpass SlowFast by GST-ResNet101 [36] ImageNet − − − 32.40 ∗: Those networks cannot be initialized from ImageNet due to its structure. †: Retrained by ourselves. ‡: reported by the authors of the paper. 1: Use RGB + Flow. Table 2: Performance of SOTA models. Model Pretrain U-Sampling D-Sampling I3D-ResNet50 ImageNet 76.07 76.61 TAM-ResNet50 ImageNet 76.45 76.18 SlowFast-ResNet50-8×8 − 71.85 76.40 Table 3: Model performance on Kinetics based on uniform and dense sampling. Uniform sampling trained models are evaluated under 3 256×256 spatial crops and 2 clips. weakens its temporal modeling capability; and (II) that the two-stream architecture is less effective in capturing tempo- ral dependencies in such a highly temporal dataset. Uniform Sampling vs Dense Sampling. We revisit the ef- fect of input sampling on model performance and retrain all three approaches using uniform sampling on Kinetics. As shown in Table 3, the small difference between uniform and dense sampling results indicates that both I3D and TAM are flexible w.r.t model input. In contrast, uniform sampling is )12345#%大幅に変化 同等の計算量で同等の精度
  • 11. 時空間処理の分析 nモデルの空間的寄与と時間的改善 • 空間的寄与:Φ! " = 𝑆#$% " /max(𝑆! ", 𝑆#$% " ) • 𝑆! ":時空間処理𝑎, バックボーン𝑏の認識率 • 𝑆#$% " :IHFは空間情報のみを考慮 • 時間的改善:Ψ! " = (𝑆! " − 𝑆#$% " )/(100 − 𝑆#$% " ) n時空間処理の空間的寄与と時間的改善 • 空間的寄与:Φ! = & '! ∑"∈) ∑*∈+ Φ! "(𝑘) • 𝑍,:正規化係数 • 𝑘:入力フレーム数 • 時間的改善: Ψ! = & '" ∑"∈) ∑*∈+ Ψ! "(𝑘) Top-1 Acc. # of TAMs locations Mini-SSV2 Mini-Kinetics 8 All 59.1 69.08 4 Top-half 59.7 69.21 4 Bottom-half 56.5 69.27 4 Uniform-half 59.4 69.14 Top and bottom mean the residual blocks closer to output and input respectively. Table 6: Performance comparison by using different numbers and locations of TAMs in ResNet18 (w/o temporal pooling). of different ways by keeping: a) half of the temporal mod- ules only in the bottom network layers (Bottom-Half); b) half of the temporal modules only in the top network lay- ers (Top-Half); c) every other temporal module (Uniform- Half); and d) all the temporal modules (All). As observed in Table 6, only half of the temporal modules (Top-Half) is needed to achieve the best accuracy on Mini-SSV2 while the accuracy on Mini-Kinetics is not sensitive to the num- ber and locations of temporal modules. It is thus interesting Datasets Metrics I3D S3D TAM Φ̄a 0.53 0.53 0.52 Mini-SSV2 Ψ̄ta a 0.46 0.45 0.47 Ψ̄ta+tp a 0.38 0.38 0.37 Φ̄a 0.97 0.97 0.96 Mini-Kinetics Ψ̄ta a 0.06 0.08 0.09 Ψ̄ta+tp a -0.08 -0.10 -0.12 Φ̄a 0.89 0.91 0.87 Mini-MiT Ψ̄ta a 0.04 0.03 0.04 Ψ̄ta+tp a 0.02 0.02 0.04 Ψ̄ta a : the improvement from temporal aggregation only. Ψ̄ta+tp a : the improvement from combining temporal Table 7: Effects of spatio-temporal modeling. Table 7 shows the results of Φ̄a and Ψ̄a for three spa temporal representations. All three representations beh similarly, namely their spatial modeling contributes sligh more than temporal modeling on Mini-SSV2, much hig !" #$%" 9%:は時間プーリングを含める • HHABは時間モデリングが重要 • 時間プーリングは精度の低下を招く
  • 12. まとめ n動画認識の既存手法での比較実験を行った • LGEベースのモデルはH<I;のH=84&,3Jと同等の性能がある • 認識率 • 計算量 • 動画のサンプリング手法による認識率の変化 • 推論のクリップ数による影響 • 時間プーリングによる影響 • バックボーンによる影響
  • 14. !"# Figure 3. The Inflated Inception-V1 architecture (left) and its detailed inception submodule (right). The strides of convolution and pooling operators are 1 where not specified, and batch normalization layers, ReLu’s and the softmax at the end are not shown. The theoretical sizes of receptive field sizes for a few layers in the network are provided in the format “time,x,y” – the units are frames and pixels. The バックボーン (Carreria & Zisserman, CVPR2017)
  • 15. $%& TSNs: Towards Good Practices for Deep Action Recognition 25 Fig. 1. Temporal segment network: One input video is divided into K segments and a short snippet is randomly selected from each segment. The class scores of different 動画を分割 分割したクリップ から;フレーム使用 2:%+-517<123や差分を使用 平均 (Wang+, ECCV2016)
  • 17. 入力サンプリング n入力フレーム数とサンプリング手法による認識率 • サンプリング手法 • 青:一様サンプリング • オレンジ:密なサンプリング • 濃い色:Dクリップ • 薄い色:複数 • 入力フレーム数 • 横軸 Figure 4: Top-1 accuracy of all the compared models without temporal pooling on three mini-datasets. The video architectures are separated by color while the backbones by symbol. (a) I3D-ResNet18 (b) TAM-ResNet18 密なサンプリングではクリップ数による変化大
  • 18. !"# 認識率変化 Figure 7: Performance of I3D models by changing the back- bone (I3D-R50-tp), removing temporal pooling (I3D-R50-tp) and LGE バックボーン 変更 時間プーリング 除去 HZブロック 追加 バックボーンの影響大 時間プーリングの影響大
  • 19. 時間情報処理 n時間情報処理に関する認識率 • 時間情報処理 • F8$0a'IHF • LGEa'GE畳み込み • !8$>ba'BKDE畳み込み • I;Ta'I;Tベース • IHTa'I02Q8-,='H"*@J'T8.#=0'(U*$K1'!A5)BCDM/ • FUFa'F8$%U8+,='F0#-,='F0J48-7'(,$9K1'!A5)BCD[/ Dataset Frames InceptionV1 ResNet50 None I3D Conv. TAM None I3D Conv. TAM TSM NLN Mini-SSV2 f=8 33.1 56.4 58.2 59.7 33.9 62.6 61.6 65.4 64.1 53.0 f=16 34.7 61.8 63.7 63.9 35.3 66.2 65.7 68.6 67.4 55.0 Mini-Kinetics f=8 70.4 68.1 68.3 68.8 72.1 73.3 71.5 74.1 74.1 73.7 f=16 70.5 70.9 70.7 70.0 72.5 75.5 73.4 76.4 75.6 74.5
  • 20. $'(比較実験 n時間方向畳み込みの場所を変更 • ;==:全てのブロックの間 • I8Q%",=@:出力に近い層 • c8JJ82%",=@:入力に近い層 • `$*@8-2%",=@:均一 Top-1 Acc. # of TAMs locations Mini-SSV2 Mini-Kinetics 8 All 59.1 69.08 4 Top-half 59.7 69.21 4 Bottom-half 56.5 69.27 4 Uniform-half 59.4 69.14 Top and bottom mean the residual blocks closer to output and input respectively. HHABではI8Q部分が重要となる 6*$0J*+3では場所は関係ない