[DL輪読会]MetaFormer is Actually What You Need for Vision

DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
MetaFormer is Actually What You Need for Vision
Takumi Ohkuma
1

経歴
• 2019年 3月東京大学工学部計数工学科卒業
• 2021年 3月東京大学情報理工学系研究科創造情報学専攻修士課程修了
（修了時に研究科長賞受賞）
• 2021年 4月同博士課程進学（在籍中）
• 2021年 6月株式会社Bluezone共同創業 CTO就任
専門分野
• 画像認識（Few-shot Learning、Human Pose Estimation)
その他
• 東京大学工学系研究科講義「深層学習」講師（2020年度-）
• 松尾研サマースクール講義監修 (画像認識)・講師 (画像認識/生成モデル)
• 2021年度未踏アドバンスト事業採択
• Twitter: @shien5963（資料に関するご質問等はこちらまで）
2
自己紹介
大熊拓海
株式会社Bluezone CTO
東京大学
情報理工学系研究科
創造情報学専攻
博士課程

書誌情報
• 題名：MetaFormer is Actually What You Need for Vision [1]
• 著者：Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao
Wang, Jiashi Feng, Shuicheng Yan（シンガポールの研究チーム）
• URL：https://arxiv.org/abs/2111.11418
※本資料における出典の記載の無い図表は全て上記論文より引用
3

概要
• Attentionを用いたVision Transformer (ViT) [2] のみならず、MLPのみを用いた
MLP-Mixer (Mixer) [3] も画像認識において高い精度を達成したことを受け、こ
れらを包括する上位概念としてMetaFormerを定義。
• MetaFormerは、Embedding、Tokenの混合、Channel毎のMLP の3つを基本構成
要素として持つ左図のモデル群である。
• ViTはToken MixerにAttentionを用いたMetaFormer
• MixerはToken MixerにMLPを用いたMetaFormer
• ViTやMixerが高い精度を実現できた要因はAttentionやMLPの活用ではなく、
MetaFormerの構造によるものであると主張。
• 上記主張を裏付けるために、より簡単なモデルとしてToken Mixerに単純な
Poolingを用いたPoolFormerを提案、他のモデルに劣らない精度を達成。
4

目次
1. 研究の背景
2. MetaFormer
3. PoolFormerのモデル
4. PoolFormerを用いた実験
5. まとめ
5

目次
1. 研究の背景
2. MetaFormerとは
3. PoolFormerとは
4. PoolFormerに関する実験
5. まとめ
6

研究の背景 (Transformer)
• 画像認識において、従来のCNNを全く用いず、代わりに自然言語処理 (NLP) で
使われるAttention機構を用いた Vision Transformer (ViT) [2] が CNNに匹敵す
る精度を達成 (2020年10月)。
• やはり画像でもTransformerなのか？という空気になる。
• TransformerはNLP分野において再帰型NNから主役の座を奪った実績がある。
• 画像 × Transformer (Attention) に関する研究が盛んにおこなわれる
• DeiT [4] : 大規模データが必要というViTの弱点を克服（2021年1月）
• Pyramid Vision Transformer [5] : CNNに用いられる空間方向の階層構造をTransformerに活用
（2021年2月）
7

研究の背景 (Mixer)
• Attentionすら用いず、MLPのみを用いたモデルである MLP-Mixer (Mixer) [3]
がかなり高い精度を達成 (2021年5月)。
• ViTを提案したチームと殆ど同じ研究チームによる提案
• 当然、Mixer以降MLP系の画像認識モデルの研究も盛んになる
• CNNもTransformerも用いずに高い精度が実現できてしまったので、
結局高い精度の為に必要な要素って何なんだろう？となる。
• 本研究は上記の問に対し、MetaFormerという形で一つの答えを与える。
（2021年11月）
8

目次
1. 研究の背景
2. MetaFormerとは
3. PoolFormerとは
5. まとめ
9

MetaFormer
• 本研究ではMetaFormerという概念を提案する。
• MetaFormerは特定のモデルを指すのではなく、
1. Embedding
2. Tokenの混合
3. Chennel毎のMLP
の3要素をからなる左図のモデルの総称である。
• ViTやMixerはこのMetaFormerに属するモデルであり、
本研究ではViTやMixer等のモデルの成功要因はMetaFormer
であると主張している。
10

MetaFormer系のモデル
11
• 前スライドでViT等のTransformerやMixer等のMLPモ
デルはMetaFormerに属すると説明した。
• これらのモデルは、左図に示す様に「Tokenの混合」
がAttentionであるか、空間方向のMLPであるかの違
いで説明できる。
• 本研究は「Tokenの混合が行われる」事が重要であり、
AttentionかMLPかは本質的な問題ではないと主張。
• CNNにおいて重要なのは畳み込みであり、ResNetか
EfficientNetかは本質ではないのと同じ様な考え。

MetaFormerの定式化
1. MetaFomer系のモデルでは、まず入力画像 𝑰 に対しEmbeddingを行う。
𝑋 = InputEmb 𝐼
この際に入力画像を𝑁個のパッチに分割し、それぞれが一つのTokenとして
Embeddingされ、出力 𝑋 ∊ ℝ𝑁×𝐶
を得る（𝐶はTokenの次元数）。
2. 次に得られた 𝑿（𝑵個のToken）に対し、正則化・Tokenの混合を行う。
𝑌 = TokenMixer Norm 𝑋 + X
TransformerではこのTokenMixerがAttention、MLP系モデルではこのTokenMixer
がSpatialMLP（空間方向のMLP）となる。
3. 最後に、 𝒀 に対して以下で表される正則化・Token毎の変換を行う。
𝑍 = σ Norm 𝑌 𝑊1 𝑊2 + Y
なお、上記変換は𝑊1 ∊ ℝ𝐶×𝑟𝐶
, 𝑊2 ∊ ℝ𝑟𝐶×𝐶
をパラメータ、 σを活性化関数とする
二層MLPである（左図のChannel MLP）。
4. 2, 3を多層に積み上げることで深いネットワークを構成する
• 途中の層で再度Embeddingを行うタイプのモデルも存在する
12

（補足）階層構造
• ViTやMixerではEmbeddingの際に、𝑋 ∊ ℝ𝑁×𝐶と𝑁 個のTokenを一列に並べるが、 Pyramid
Vision Transformer [5] や、後述のPoolFormerでは 𝑋 ∊ ℝ
𝐻
𝑛
×
𝑊
𝑛
×𝐶
の様にToken同士の位置関係
を保持し、局所的な演算を可能としている（計算量の観点で有利）。
• またこのようなモデルでは、大域的な特徴量を獲得する為に、下図の例の様に段階的に空
間方向の解像度を落としていく階層構造が用いられる（これはCNNと同様である）。
• 空間方向の解像度を落とす際に、再度Embeddingが行われる
13
図は[5]より引用

MetaFormerのまとめ
• ViTやMixer等のCNNを用いずとも高い精度を実現できるモデルが登場
• 一方で、高い精度を実現した本質的要因が不明瞭に
• ViTやMixer等の Embedding、Tokenの混合、Chennel毎のMLP の3要素を持つ非CNN
系モデルをMetaFormerとして一般化し、このMetaFormerの構造が高精度達成の本
質的な要因であると主張。
• MetaFormerにおけるTransformerとMLP系モデルの違いは、Tokenの混合方式の違い
として説明でき、AttentionやMLPは高精度達成の本質ではないと主張。
14

目次
1. 研究の背景
2. MetaFormerとは
3. PoolFormerとは
5. まとめ
15

PoolFormer
• ここまで「高精度の本質はMetaFormerである」と説明してきたが、
あくまで「高精度を達成したモデルがMetaFormerに含まれる」という事しか
示しておらず、MetaFormerの優位性を主張するにはやや弱い。
• 単にTransformerとMLPベースのモデルが優れているだけかもしれない。
• そこでMetaFormerの構造自体の優位性を示す為に、MetaFormerに属するモ
デルで極力余計な要素の少ないシンプルなもので精度検証を行う。
• 上記を受けて、極力シンプルなものとして提案されたモデルこそがTokenの
混合にPoolingを用いたPoolFormerである。
• ノンパラメトリックで学習を必要としないPoolingだが、平均等の代表値の計算を通じて
Tokenの混合の役割を果たすことが出来る。
16

PoolFormerのモデル構造１
• PoolFormerでは、局所的なTokenの代表値を計算するPoolingを行うので、 Token同士の位置
関係を保持する必要があり、以下の様な階層構造を取っている（詳しくはスライド13）。
• 具体的には以下の4階層構造であり、Stage1のEmbeddingでは入力画像の縦と横の解像度を
それぞれ4分の1に、Stage2以降のEmbeddingでは2分の1にする。
• 各Stageは下図のPoolFormerブロックの繰り返しで構成され、全体のブロック数を𝐿とすると、
順番に 𝐿 6 , 𝐿 6, 𝐿 2, 𝐿 6 の繰り返しを持つ。
17

PoolFormerのモデル構造２
• 左の表に具体的なPoolFormerのパラメータを示す。
• Patch Embeddingは畳み込み演算を用いて実装され、
Stage1は7×7のストライド4、それ以外は3×3のスト
ライド2である。
• Poolingの窓サイズは3×3、ストライドは1であり、
平均値Pooling（正確には平均値から、自身の値を
ひいたもの）を用いる。
• 活性化関数は GELU、正則化は Group Normalization
• モデルのサイズはS12からM48まで存在する。
18

PoolFormerのまとめ
• PoolFormerは、Tokenの混合をPoolingによって行うMetaFormerに属するモ
デルである。
• MetaFormerの枠組みの有効性を示す為、極力余計な要素の少ないシンプル
なモデルを用いたい、というモチベーションで設計された。
• 局所的なTokenの代表値の計算であるPooling演算を行う為、PoolFormerは
Token同士の位置関係を保持しており、更に大域的な特徴量を捉えるための
（CNNで見られるような）階層構造を導入している。
19

目次
1. 研究の背景
2. MetaFormerとは
3. PoolFormerとは
5. まとめ
20

実験（画像分類）
• 画像分類用データセットImageNet-1Kに対する実験を行う
• 大規模データセットを用いだ事前学習等は行わない
• 学習の詳細条件は論文を参照
• 公式のPytorch実装、及び学習済みモデルが公開
https://github.com/sail-sg/poolformer
• 比較対象として以下のモデルも用いる
• CNN系のモデル：RSB-ResNet [6]
• Transformer：ViT [2], DeiT [4], Pyramid Vision Transformer (PVT) [5]
• MLP：MLP-Mixer [3], ResMLP [7], Swin-Mixer [8], g-MLP [9]
21

実験結果（画像分類）
• ImageNet-1Kに対する以下の結果（計算量・モデルサイズと精度の関係性）が得られた。
• 計算量・モデルサイズの両方の観点で、PoolFormerが比較に用いたその他のモデルよりも
優れていることがわかる。
• PoolFormerは非常にシンプルなMetaFormerでありながら高い性能を発揮することが確かめ
られた為、MetaFormerは画像認識精度を高める為の有効な枠組みであると言えそうだ。
22

実験結果（Ablation Study）
• Poolingを除去（恒等変換とする）し
た場合、精度が77.2⇒74.3と低下。
• Tokenの混合が無くなりMetaFormer
の条件を満たしていない。
• 階層構造やEmbeddingに際する畳み
込みは残っているので、ある程度の
精度を保ってはいる。
• Stage3,4のPoolingをAttentionとする
と、多少計算コストは増える一方、
それ以上に精度が向上する。
• MetaFormerの枠組み内でのアーキ
テクチャの改善余地あり。
23

実験（物体検出）
• 物体検出用データセットCOCO2017に対する実験を行う。
• モデルのバックボーンにImageNet PretrainのPoolFormer、比較用にResNet [10]を用い、
DetectorはRetinaNet [11]のアーキテクチャを用いた。
• 結果としてPoolFormerの精度がResNetの精度を上回った。
24

実験（Instance Segmentation）
• COCO2017のInstance Segmentaion用のデータを用いて同じ様に実験を行う。
• モデルアーキテクチャは Mask R-CNN [12]に基づく。
• 結果としてPoolFormerの精度がResNetを上回った。
25

実験（Semantic Segmentation）
• Semantic Segmentation用データ ADE20K を
用いた実験を行う。
• アーキテクチャはSemantic FPN [13]を用いた。
• モデルのバックボーンにはImageNet Pretrain
のPoolFormer、比較用にResNet [10], ResNeXt
[14], Pramid Vision Transformer [5]を用いた。
• 結果として、PoolFormerの精度が最も高い精
度を達成した。
26

実験のまとめ
• 画像分類、物体検出、Instance Segmentation、Semantic Segmentationに対して
Poolformerを用いた実験を行った。
• 全てのタスクにおいて、PoolFormerは比較対象となるモデルよりも優れた計算コス
トと精度のトレードオフを実現した。
• PoolFormerは非常にシンプルなMetaFormerでありながら高い性能を発揮すること
が確かめられた為、MetaFormerは画像認識精度を高める為の有効な枠組みである
と言えそうだ。
27

目次
1. 研究の背景
2. MetaFormerとは
3. PoolFormerとは
5. まとめ
28

まとめ
• 近年の画像認識において、非CNN系のTransformerやMLP系のモデルが高い精度を達成して
いる要因が、 Embedding、Tokenの混合、Chennel毎のMLP の3要素を持つ MetaFormerに
あると主張。
• TransformerとMLPの違いは、Tokenの混合方式の違いに過ぎない
• Poolingを用いてTokenの混合を行う非常にシンプルなモデルであるPoolFormerを定義、
複数の画像認識タスクにおいて従来のモデルを上回る性能を実現したことで、MetaFormer
の枠組みの優位性を示した。
• 今後の展望として、PoolFormerを自己教師あり学習や自然言語処理タスク等に応用し、
より広い範囲でMetaFormerの強さを示していきたいと考えている。
29

引用
1. Yu, Weihao, et al. "Metaformer is actually what you need for vision." arXiv preprint arXiv:2111.11418 (2021).
2. Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint
arXiv:2010.11929 (2020)
3. Tolstikhin, Ilya, et al. "Mlp-mixer: An all-mlp architecture for vision." arXiv preprint arXiv:2105.01601 (2021).
4. Touvron, Hugo, et al. "Training data-efficient image transformers & distillation through attention." International Conference on
Machine Learning. PMLR, 2021.
5. Wang, Wenhai, et al. "Pyramid vision transformer: A versatile backbone for dense prediction without convolutions." arXiv preprint
arXiv:2102.12122 (2021).
6. Wightman, Ross, Hugo Touvron, and Hervé Jégou. "Resnet strikes back: An improved training procedure in timm." arXiv preprint
arXiv:2110.00476 (2021).
7. Touvron, Hugo, et al. "Resmlp: Feedforward networks for image classification with data-efficient training." arXiv preprint
arXiv:2105.03404 (2021).
8. Liu, Ze, et al. "Swin transformer: Hierarchical vision transformer using shifted windows." arXiv preprint arXiv:2103.14030 (2021).
9. Liu, Hanxiao, et al. "Pay Attention to MLPs." arXiv preprint arXiv:2105.08050 (2021).
10. He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and
pattern recognition. 2016.
30

引用
11. Lin, Tsung-Yi, et al. "Focal loss for dense object detection." Proceedings of the IEEE international conference on computer vision.
2017.
12. He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017.
13. Kirillov, Alexander, et al. "Panoptic feature pyramid networks." Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. 2019.
14. Xie, Saining, et al. "Aggregated residual transformations for deep neural networks." Proceedings of the IEEE conference on
computer vision and pattern recognition. 2017.
31

[DL輪読会]MetaFormer is Actually What You Need for Vision

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]MetaFormer is Actually What You Need for Vision

Similar to [DL輪読会]MetaFormer is Actually What You Need for Vision (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (11)

[DL輪読会]MetaFormer is Actually What You Need for Vision