【DL輪読会】Patches Are All You Need? （ConvMixer）

http://deeplearning.jp/
Patches Are All You Need? （ConvMixer）
小林範久 Present Square Co.,Ltd.
DEEP LEARNING JP
[DL Papers]
1

Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
Patches Are All You Need? （ConvMixer）
https://openreview.net/pdf?id=TVHS5Y4dNvM
タイトル：
著者： Anonymous authors
• 入力画像に対して、パッチサイズに分割しエンベディングすることは、Attention 機構と同じくらい重要である
と提唱。
• 入力画像をパッチ単位に分割するだけのCNNをベースとしたシンプルなモデル ConvMixer を開発。
• シンプルなモデルにもかかわらず、ImageNet-1Kにて、 ResNet 、ViT、MLP-Mixer、といったモデルを上
回る精度を達成。
概要：
2
選定理由： • MLP、Conv、Transformerなど、それぞれ「良いモデルにはどのような機構が必要なのか？」を理解したい。
(ICLR2022 査読中)

アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
3

１. 導入
背景
4
• 画像処理の世界は長らくCNNベースのモデルが主流であった。（ResNet やVGG など）
• 自然言語処理の世界では、Attention機構を利用したTransformerベースのモデルが目覚ましい性能を発揮し、
現在ではTransformerをベースに設計することがデファクトスタンダードであると言える。
• Vision Transformer（ViT）をはじめとしてTransformer を利用したモデルが画像処理の世界でも作られるよう
になった。それらは特に巨大なデータセットで優れた性能を発揮したことで大きな注目を集めている。
• 本論文は、そうした潮流が前提としている Transformer の骨格である Attention 機構が重要であるという論に対し
て疑問を投げかけたことで新たな可能性を提示。
• Attention 機構ではなく、Transformer を画像に対して利用するために必要な「画像をパッチ単位に分割すること」が
重要であると仮定し、それらを実証するために、入力画像をパッチ単位に分割すること以外は普通のCNNモデルとほとんど
変わらない ConvMixer を開発。

Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5
Vision Transformer（ViT, Dosovitskiy et al. 2020）
• 画像処理で一般的なCNNなどを利用せずに純粋に
Transformerのみを利用しているモデル。
• 画像を「画像パッチが連なったシーケンスデータ」として
扱うことで画像処理にTransformerを適用することに
成功。
• Transformerの「計算効率の良さ」と「スケーラビリ
ティ」を画像処理タスクにもたらすことを成功。
• 最先端のCNN型モデルよりも優れた結果（もしくは
同程度）を出したうえで、学習に必要な計算コストを
大幅に減少。
画像パッチ（9つのパッチ）として入力
出典：https://arxiv.org/pdf/2010.11929.pdf
２. 先行研究

MLP-Mixer: An all-MLP Architecture for Vision （ Tolstikhin et al. 2021）
• 畳み込み層やTransformerのような
Attention機構を使わず、MLPだけで⾼精
度の画像分類を実現。
• 入力画像を画像パッチに分割し、それらの
パッチを、チャンネル方向及び空間方向に関
してMLPで変換する。
• 従来のCNNは、 (1)特定の空間位置での
特徴、(2)異なる空間位置間での特徴、ある
いはその両方を一度に混合する層で構成さ
れている。
• MLP-Mixerの背景にある考え方は、特定の
位置ごとの操作(channel-mixing)と、ロ
ケーションをまたいだ操作（token-
mixing）を明確に分けることにある。
出典：https://arxiv.org/pdf/2105.01601.pdf
２. 先行研究

３. 手法
ConvMixer の概要
7
パッチサイズ：𝑝 埋め込み次元：ℎ 入力チャンネル数：𝑐𝑖𝑛 出力チャンネル数：ℎ
カーネルサイズ：𝑝 ストライド：𝑝
入力画像をパッチサイズp に分割し、Patch Embeddingを行う。
ConvMixer Layer 自体は Depthwise ConvolutionやPointwise Convolutionのシンプルな畳み込みで構成。

３. 手法
ConvMixer のモデル詳細
パッチエンベディング Patch embedding
パッチサイズがｐ，エンベディング次元がｈ、ストライドｐ、
カーネルサイズｐ、アウトプット次元がｈのような畳み込みと
同じ。なお、通常よりも大きいカーネルサイズが深さ方向の
畳み込みでは有効であることが確認されている。
ConvMixer は基本的にDepthwise Convolution と Pointwise Convolution を利用したものになる。加えて、
ResNet などで使われる残差接続と、Batch Normalizationが適用されている。
最終的に、SoftMax分類機にわたすサイズｈの特徴量ベクトルを取得するためにGlobal Average Poolingを行って
いる。
ConvMixer

３. 手法
ConvMixer の実装
9

３. 手法
ConvMixer の280文字で実装
10

３. 手法
ViTとの共通事項
１．パッチ単位で処理すること。
２．解像度とサイズの表現を各層を通して維持すること。
３．連続する層で表現をダウンサンプリングしないこと。
４．情報の空間的融合からチャンネル単位の融合を切り離すこと。
ConvMixer のモデル概要
Transformerを利用せず、一般的な畳み込みのみ利用。
ViT との相違点

３. 手法
ConvMixer のパラメータ
ConvMixer で重要となるパラメータは以下の４つ。
(1) パッチエンベッディングの次元。
(2) 深さd（ConvMixerレイヤーの繰り返し数）。
(3) パッチサイズp（モデルの内部解像度を制御する）。
(4) 深さ方向の畳み込みレイヤーのカーネルサイズk。
ConvMixer-h／dのように、ConvMixer に隠れた次元と深さの名前をつけている。
ここでは、元の入力サイズnをパッチサイズpで割ったものを内部解像度としているが、ConvMixer は可変サイズの
入力にも対応している。
ConvMixer のポイント
• MLPs と Self-Attention は距離のある空間的位置を効果的に調整する＝任意の大きさの受容野になるということ
が有用であるとされていますが、ConvMixer も同じように、大きなカーネルサイズの畳み込みを利用することで、距離の
ある空間的位相を効果的に調整することが可能となっている。
• Transfomrer系は理論的により柔軟で、より大きな受容野でコンテンツを意識した挙動が可能であることがメリットであ
るが、CNNベースのモデルには、画像タスクと⾼いデータ効率性という点で大きなメリットがある。
• ConvMixer は畳み込みの基本的な処理をしているだけであり、このことは畳み込みネットワークの従来のピラミッド型の
プログレッシブダウンサンプリング設計とは対照的に、パッチ表現自体の効果も垣間見ることができることを指摘している。

CIFAR-10 を用いた実験
13
４. 実験
• CIFAR-10 を用いて行われ、0.7 M パラメータで約96％の精度を達成。
• なお、その際にアブレーション実験が行われ、最適な設定が確認されている。

ImageNet-1Kを用いた実験
14
• データセット：ImageNet-1K
• データ拡張：RandAugment、mixup、CutMix、
• random erasing、勾配ノルムクリッピング
• 最適化関数：AdamW（学習率スケジュールラーも利用）
４. 実験
実験のセットアップ
結果
ConvMixer-1536/20 with 52M parameters：81.37%
（なお、ｋ＝９→ｋ＝３にすると、１％精度が下がる）
ConvMixer-768/32 with 21M parameters：80.16%
シンプルなモデルにもかかわらず、ImageNet-1Kにて、 ResNet 、
ViT、MLP-Mixer、といったモデルを上回る精度を達成。

５. まとめ
結論
• ConvMixerは最初に「パッチ単位のエンベディング」をすることにより、通常のCNNで段階的に行われるダウンサンプリ
ングを一度に実行できるため、内部解像度がすぐに低下し、有効な受容野サイズが増加して、離れた空間情報を簡
単に混合（＝Mixer）できるようになる。そのため、パッチエンベディングの使用も、強力で重要なポイントであるといえ
る。
• ConvMixer はネットワークを通じて、同じサイズ、シェイプを維持する等方的アーキテクチャ。（等方的とは、ある対
象の性質や分布が方向に依存しないこと。）系統的には、MobileNetに近いもので、ConvMixerのほうがよりシン
プルになっているといえる。シンプルなパッチエンベディングを備える「等方性」アーキテクチャ自体が、ディープラーニングの
強力なベースであることを論文は示唆している。
15

Appendix
参考文献
• Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa
Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for
image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
• Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung,
Daniel Keysers, Jakob Uszkoreit, Mario Lucic, et al. Mlp-mixer: An all-mlp architecture for vision. arXiv preprint
arXiv:2105.01601, 2021.
• Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. Training
data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877, 2020.
• Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, and Jonathon Shlens. Stand-alone
self-attention in vision models. arXiv preprint arXiv:1906.05909, 2019.
16

【DL輪読会】Patches Are All You Need? （ConvMixer）

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 【DL輪読会】Patches Are All You Need? （ConvMixer）

Ähnlich wie 【DL輪読会】Patches Are All You Need? （ConvMixer） (20)

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

【DL輪読会】Patches Are All You Need? （ConvMixer）