[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)

Deep Learning JP
Deep Learning JPDeep Learning JP
http://deeplearning.jp/
Vision Transformer with Deformable Attention
(Deformable Attention Transformer:DAT)
小林 範久 Present Square Co.,Ltd.
DEEP LEARNING JP
[DL Papers]
1
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
Vision Transformer with Deformable Attention
(Deformable Attention Transformer:DAT)
https://arxiv.org/abs/2201.00520
タイトル:
著者: Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang
• Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識
分野に導入したモデル。
• Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが
可能となり、効率的かつより優位性のある処理が可能となった。
• ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなど
のSOTAとされるモデルよりも高い精度を記録した。
概要:
2
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
3
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. 導入
背景
4
• Vision Transformer(ViT)が発表されて以降、画像処理でも Transformer ベースのモデル開発が進んでいる。
• Transformer を画像処理に利用した際のメリットは、受容野の広さにある。CNNなどよりも広範の領域を抑えることで、
より良い特徴量を取得することが可能となる。
• 一方で、ViT のような通常のTransformer のみを利用した場合、以下のデメリットがある。
• 必要とするメモリが大きい
• 高い計算コスト
• 学習の収束の遅延
• 過学習の危険性
• これらの問題に対応するため、Transofmer に対して様々な工夫が行われてきたが、その中でも有力な手法として、
Pyramid Vision Transformer (PVT)や Swin Transformer などがある。
ViTのデメリット
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. 導入
背景
5
• PVT や SwinTransformer は、画像内の領域をある程度絞り
込んだ箇所に対して Attention を行うことでメモリ効率や計算効
率を向上。
• 一方で、画像内の領域を絞り込むため、本来の領域から取得で
きた広範な関係性の情報を失っている可能性がある。
• 領域を絞り込む際に、より影響関係がある領域を選択できるよう
な Deformable self-attention を利用するDeformable
Attention Transformer(DAT) を提案。
• 従来の画像処理モデルよりも効率や性能を向上させることに成功。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6
Vision Transformer(ViT, Dosovitskiy et al. 2020)
• 画像処理で一般的なCNNなどを利用せずに純粋に
Transformerのみを利用しているモデル。
• 画像を「画像パッチが連なったシーケンスデータ」として
扱うことで画像処理にTransformerを適用すること
に成功。
• Transformerの「計算効率の良さ」と「スケーラビリ
ティ」を画像処理タスクにもたらすことを成功。
画像パッチ(9つのパッチ)として入力
出典:https://arxiv.org/pdf/2010.11929.pdf
2. 先行研究
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7
Pyramid Vision Transformer (PVT)
• 計算コストを抑えるためにダウンサンプリングする
出典:https://arxiv.org/pdf/2102.12122.pdf
2. 先行研究
Swin Transformer
• これらのモデルは、それぞれの目的をうまく果たし、ViTから性能を向上させることに成功した。
• ただし、Swin Transformer のような人力で構築された Attention 範囲は、効率の面から最適化されていない可
能性がある。また、重要なKey/Value 関係を落とした一方で、不要なものを利用している可能性がある。
• 理想は、各入力画像ごとに Attention 範囲を自由に変形しながら、重要な領域のみを利用できるようになること。
• ローカルウィンドウを利用することで Attention 範囲を
制限する
https://arxiv.org/pdf/2103.14030.pdf
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8
Deformable Convolution Networks(DCN)
• このDCNで行われていることを Transformer に単純に応用しようとすると、高いメモリと計算コストが必要となり、
実用的ではなくなるという問題があった。
出典:https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf
2. 先行研究
• 受容野を画像にあわせて柔軟に変形するモデル。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9
Deformable DETR
• 情報ロスがあるためバックボーンネットワークとしては劣ってしまうという問題がある。
出典:https://arxiv.org/pdf/2010.04159.pdf
2. 先行研究
• Transformer とCNN を組み合わせたことで高精度
を達成した DETR に Deformable モジュールを組み
込んだモデル。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attention Transformer(DAT)
10
• 画像分類や物体検出、セグメンテーションなどのバックボーンネットワークとして利用できるモデル。
• 画像認識領域に対して初めて「deformable self-attention backborn」を提案し、柔軟性と効率性を可能にした。
Deformable Attention(DA)
• Deformable Attention が、DAT の軸となるモジュール。特徴量マップ内の重要な領域に対して Attention を
行うことで、効率よくトークン間の関係性をモデリングすることが可能。
• オフセットネットワークによるクエリから学習された変形可能なサンプリングポイントを利用することで対象となる
Attention 領域を決定する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11
3. 手法
DCNとの違い
• DCNでは、特徴量マップの中の異なるピクセルに対して、異なる領域を学習するようになっている。
• DATでは、query-agnosticな領域グループを学習するように作成されている。領域グループで問題ないのは、近年
の研究から、グローバルアテンションの結果が、異なるクエリに対してほぼ同じアテンションパターンになるということが知ら
れているため。
• このことで、Key/Values を重要な領域に焦点を合わせることが可能となる。各クエリに対して共有されシフトされた
キーとバリューから似たような解を得ることで、より効率的なトレードオフが可能となっている。
3×3のDC(画像が𝐻 × 𝑊 × 𝐶)
→ 9 × 𝐻 × 𝑊 × 𝐶
Deformable Attention Transformer(DAT)
Transformerに適用した場合
→𝑁𝑞 × 𝑁𝑘 × 𝐶( 𝑁𝑞 = 𝑁𝑘 = 𝐻 × 𝑊)
※計算コストが高すぎて、実用的でない。
計算コスト
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attentionの流れ
12
① 入力として特徴量マップ 𝑥 ( 𝐻 × 𝑊 × 𝐶 ) を受け取る。
② 一様格子のピクセル 𝑝 (𝐻𝐺 × 𝑊𝐺 × 2 (𝐻𝐺 = 𝐻/𝑟, 𝑊𝐺 = 𝑊/𝑟 でダウンサンプリングする)内の点)が参照点
(Reference Points)として生成される。
③ 参照点は二次元座標{(0,0), …., (𝐻𝐺 − 1, 𝑊𝐺 − 1)}上に線形射影され、[-1, +1]の間に正規化される。
(Top-left=(-1,-1))
④ 各参照点からオフセットを獲得するために、特徴量マップを線形射影し、クエリトークン 𝑞 = 𝑥𝑊𝑞 を取得する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attentionの流れ
13
⑤ クエリトークン 𝑞 は、サブネットワークθ𝑜𝑓𝑓𝑠𝑒𝑡に投入され、オフセット を生成する。
※学習過程を安定させるために、事前定義した値 𝑠 を用いて∆𝑝 が大きすぎるサブセットになるのを制限する。
(∆𝑝 ← 𝑠 tanh(∆𝑝))
⑥ 参照点とオフセットの情報を足して、変形した参照点(Deformed Points)を得る。
⑦ 変形した参照点に対してバイリニア補完を行い、特徴量 𝑥 をサンプルする。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attentionの流れ
14
⑧ ⑦の出力に対して、線形射影を行い、キートークン 𝑘 = 𝑥𝑊𝑘 と バリュートークン 𝑣= 𝑥 𝑊
𝑣 を得る。
⑨ ポジションエンベディングに相当する情報を組み込んだ形で、Attention を行い最終的な値を出力する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
オフセット生成
15
Deformable Attention
• Deformable Attention では、オフセット生成のために、サブネットワークを利用し
ている。
• このサブネットワークでは、クエリを利用して参照点ごとにオフセット値を算出する。
• 各参照点が 𝑆 × 𝑆 の領域をカバーしていると考えると、サブネットワークは妥当なオ
フセットを学習するためにローカル特徴量の知覚を必要とすると考えられる。
• そのため、非線形活性化関数を用いた2つの畳み込みモジュールをもつサブネット
ワークを実装している。
サブネットワークの流れ
① k × k (論文では5×5)のデプスワイズ畳み込みによりローカル特徴量を獲得する。
② GELU活性化関数に通す。
③1×1の畳み込みを行い、オフセット値を獲得する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
16
Deformable Attention
オフセットグループ
• Deformed Points の多様性を促進するために、特徴量チャネルをG個のグループに分割する。(これは、
Multi-Head Self-Attention (MHSA)の手法と同様の考え方に基づくもの。)
• 各グループに基づく特徴量は、妥当に対応しているオフセットを生成するために共有されたサブネットワークを利用
している。
• 実践的には、Multi Head Attention の個数 M は、オフセットグループの数であるG倍であるようにすることで、
確実に変形されたキーとバリューのトークンのグループの一つに対して、多重の Attention Head がアサインされ
るような作りとなっている。
Deformable relative position bias
• 相対位置バイアスは、クエリとキーのすべてのペア間の相対位置
をエンコードする。これにより、空間情報で通常の Attention
が強化されることになる。
• DATでは、正規化の値、ポジションエンベディングとして、可能な
すべてのオフセット値をカバーするための連続的な相対変位が行
われている。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
17
計算コストについて
• Deformable multi-head atten-tion (DMHA)は、PVT や Swin Transformer など
似たような計算コストになる。異なる点は、オフセットネットワークの計算量。
• 𝑁𝑠 = 𝐻𝐺 × 𝑊𝐺 = 𝐻 × 𝑊/𝑟2
• Swin-T(H=W = 14, Ns= 49, C= 384)との比較
• Swin-T が 79.63M FLOPsのとき、サブネットワークの追加によって生じる計算コストは、およそ 5.08M Flops 程
度となる。なお、ダウンサンプリングファクターである r の値を大きくすることで、より計算コストを削減することができる。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
18
モデルアーキテクチャ
• DAT では、画像タスクではマルチスケール特徴量マップを必要とするため、これまでの PVT などと同じような階層的
特徴量ピラミッドを形成する。
• Stage1及びStage2では、よりローカルな特徴を学習することを目的とするため、DAはあまり役にたたない。また空間も
広いため、計算コストのオーバーヘッドになるため、採用していない。代わりに、Swin Transformer で利用されるウィンド
ウベースのローカルアテンション(Shift-Window Attention)でローカル部分の情報を統合している。
• Stage3及びStage4で Deformable Attention を利用している。このことで、ローカルから拡張されたトーク間のより
広域の関係性をモデリングすることが可能となる。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19
3. 手法
モデルアーキテクチャ
• 分類タスクでは、最初に最終段階から出力された特徴マップを正規
化し、次にロジットを予測するためにプールされた特徴を持つ線形
分類器を採用している。
• 物体検出、セグメンテーションタスクでは、DATはモデルのバックボー
ンの役割を果たし、マルチスケールの特徴を抽出している。
• 物体検出、セマンティックセグメンテーションのデコーダーなどでは、
FPN のように次のモジュールにフィードする前に、各ステージの機能
に正規化レイヤーを追加している。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
ImageNet1K を用いた実験
20
4. 実験
画像枚数:学習用1.28M 検証用50K
オプティマイザ:AdamW
エポック:300
初期学習率:1 × 10−3
(ウオームアップ 1 × 10−6→1 × 10−3)
(cosine learning rate decay)
データ拡張:RandAugment 、 Mixup、CutMix
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
COCO Object Detection を用いた実験
21
4. 実験
• RetinaNet、Mask R-CNN、Cascade Mask R-CNNのバックボーンネットワークとして利用し、比較。
• Swin Transformer モデルなどと比べよい成果を出している。
• 特により大きな物体の検出が得意であることがわかった。
画像枚数:学習用118K 検証用5K
実験設定
事前学習:ImageNet-1K(300エポック)
パラメータ:SwinTransformerと同じ
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
ADE20K
22
4. 実験
画像枚数:学習用20K 検証用2K
• SemanticFPN と UperNet のバックボーンネットワークとして利用して、比較。
• mIOU スコアで比較され、全体としてよりよい精度を出した。
• 特にPVT の Tiny モデルと比較すると、大きな改善がみられる。
SemanticFPN と UperNet のバックボーンネットワークとして利用
事前学習:ImageNet-1K
学習:SemanticFPN 40ステップ、UperNet 160K
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
アブレーションスタディ
23
4. 実験
• オフセットとポジションエンベディングの必要性の確認
• Deformable Attention の有効なステージの確認
P:SRA attention
S:Shift Window attention
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
可視化実験
24
4. 実験
• より重要な領域に対して参照点が変形されていることを確認。
(各点が格子上の状態をベースとして、対象物体に対して寄っていることが確認できる。)
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. まとめ
結論
• Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識分野に
導入したモデル。
• Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが可能と
なり、効率的かつより優位性のある処理が可能となった。
• ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなどの
SOTAとされるモデルよりも高い精度を記録した。
25
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Appendix
参考文献
• Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia
Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017.
• Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa
Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image
recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
• Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer:
Hierarchical vision transformer using shifted windows. ICCV, 2021.
• Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks.
In ICCV, pages 764–773, 2017.
• Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid
vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV, 2021
• Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for
end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020.
26
1 von 26

Recomendados

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 von
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
16K views38 Folien
自己教師学習(Self-Supervised Learning) von
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
12.8K views177 Folien
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows von
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
3.7K views27 Folien
全力解説!Transformer von
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
9.6K views43 Folien
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin... von
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
1.7K views16 Folien
近年のHierarchical Vision Transformer von
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
13.9K views46 Folien

Más contenido relacionado

Was ist angesagt?

畳み込みニューラルネットワークの高精度化と高速化 von
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
64.5K views133 Folien
backbone としての timm 入門 von
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
7.4K views19 Folien
【メタサーベイ】Video Transformer von
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
2.2K views42 Folien
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc) von
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
3.7K views52 Folien
[DL輪読会]相互情報量最大化による表現学習 von
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
7.6K views43 Folien
【メタサーベイ】数式ドリブン教師あり学習 von
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
5.9K views33 Folien

Was ist angesagt?(20)

畳み込みニューラルネットワークの高精度化と高速化 von Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida64.5K views
backbone としての timm 入門 von Takuji Tahara
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara7.4K views
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc) von Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP3.7K views
[DL輪読会]相互情報量最大化による表現学習 von Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP7.6K views
【メタサーベイ】数式ドリブン教師あり学習 von cvpaper. challenge
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge5.9K views
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話 von Yusuke Uchida
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida9.4K views
これからの Vision & Language ~ Acadexit した4つの理由 von Yoshitaka Ushiku
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku6.6K views
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ... von Deep Learning JP
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP2.6K views
Domain Adaptation 発展と動向まとめ(サーベイ資料) von Yamato OKAMOTO
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO8.5K views
Transformerを雰囲気で理解する von AtsukiYamaguchi1
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi14.8K views
ICCV 2019 論文紹介 (26 papers) von Hideki Okada
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
Hideki Okada2.9K views
[DL輪読会]Pay Attention to MLPs (gMLP) von Deep Learning JP
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP16.9K views
Deep Learningによる超解像の進歩 von Hiroto Honda
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda29.6K views
モデルアーキテクチャ観点からのDeep Neural Network高速化 von Yusuke Uchida
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida38.7K views
【DL輪読会】ViT + Self Supervised Learningまとめ von Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP4K views
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi... von Deep Learning JP
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP973 views
[DL輪読会]ドメイン転移と不変表現に関するサーベイ von Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP6.9K views
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs von Deep Learning JP
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP1.5K views
【DL輪読会】Patches Are All You Need? (ConvMixer) von Deep Learning JP
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
Deep Learning JP2.3K views

Similar a [DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S... von
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
31.4K views30 Folien
アジャイルにモデリングは必要か von
アジャイルにモデリングは必要かアジャイルにモデリングは必要か
アジャイルにモデリングは必要かHiromasa Oka
11.6K views58 Folien
論文紹介 : Vision Transformer with Deformable Attention von
論文紹介 : Vision Transformer with Deformable Attention論文紹介 : Vision Transformer with Deformable Attention
論文紹介 : Vision Transformer with Deformable AttentionKazunariHemmi
60 views10 Folien
Mvpvm pattern von
Mvpvm patternMvpvm pattern
Mvpvm patternMami Shiino
2.7K views28 Folien
概念モデリングワークショップ 設計編 von
概念モデリングワークショップ 設計編概念モデリングワークショップ 設計編
概念モデリングワークショップ 設計編Knowledge & Experience
17 views37 Folien
DRIVE CHARTを支えるAI技術 von
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術Yusuke Uchida
2.3K views44 Folien

Similar a [DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)(20)

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S... von Deep Learning JP
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
Deep Learning JP31.4K views
アジャイルにモデリングは必要か von Hiromasa Oka
アジャイルにモデリングは必要かアジャイルにモデリングは必要か
アジャイルにモデリングは必要か
Hiromasa Oka11.6K views
論文紹介 : Vision Transformer with Deformable Attention von KazunariHemmi
論文紹介 : Vision Transformer with Deformable Attention論文紹介 : Vision Transformer with Deformable Attention
論文紹介 : Vision Transformer with Deformable Attention
KazunariHemmi60 views
DRIVE CHARTを支えるAI技術 von Yusuke Uchida
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
Yusuke Uchida2.3K views
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern von Mami Shiino
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm patternRIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
Mami Shiino1.2K views
市場動向並びに弊社製品の今後の展望について von Ken Azuma
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について
Ken Azuma1K views
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ von Shumpei Shiraishi
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶjQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
Shumpei Shiraishi4.3K views
増加するコアを使い切れ!! von guestc06e54
増加するコアを使い切れ!!増加するコアを使い切れ!!
増加するコアを使い切れ!!
guestc06e541.7K views
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned von Daiki Kawanuma
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learnedエンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
Daiki Kawanuma11.3K views
アテンションモデルの注意深い調査 von MichihiroSHONAI
アテンションモデルの注意深い調査アテンションモデルの注意深い調査
アテンションモデルの注意深い調査
MichihiroSHONAI240 views
オブジェクトストレージのユースケース (Cloudweek2014 講演資料) von CLOUDIAN KK
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
CLOUDIAN KK3.6K views
[DL輪読会]Deep Face Recognition: A Survey von Deep Learning JP
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP23K views
20180729 Preferred Networksの機械学習クラスタを支える技術 von Preferred Networks
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
Preferred Networks32.8K views
Monadic Programmingのススメ - Functional Reactive Programmingへのアプローチ von Tomoharu ASAMI
Monadic Programmingのススメ - Functional Reactive ProgrammingへのアプローチMonadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
Monadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
Tomoharu ASAMI16.2K views
OpenStackプロジェクトの全体像~詳細編~ von Masanori Itoh
OpenStackプロジェクトの全体像~詳細編~OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~
Masanori Itoh3.8K views
ユーザー企業における標準化のあり方 : QCon Tokyo 2010 von Yusuke Suzuki
ユーザー企業における標準化のあり方 : QCon Tokyo 2010ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
Yusuke Suzuki5.4K views
成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現- von Hiroki Kondo
成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-
成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-
Hiroki Kondo2.1K views

Más de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners von
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
265 views28 Folien
【DL輪読会】事前学習用データセットについて von
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
276 views20 Folien
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP... von
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
186 views26 Folien
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition von
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
256 views30 Folien
【DL輪読会】Can Neural Network Memorization Be Localized? von
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
516 views15 Folien
【DL輪読会】Hopfield network 関連研究について von
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
1.4K views29 Folien

Más de Deep Learning JP(20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners von Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP265 views
【DL輪読会】事前学習用データセットについて von Deep Learning JP
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP276 views
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP... von Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP186 views
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition von Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP256 views
【DL輪読会】Can Neural Network Memorization Be Localized? von Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP516 views
【DL輪読会】Hopfield network 関連研究について von Deep Learning JP
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP1.4K views
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 ) von Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP342 views
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M... von Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP234 views
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO" von Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP805 views
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination " von Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP448 views
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models von Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP1.4K views
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware" von Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP416 views
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo... von Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP408 views
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ... von Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP693 views
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive... von Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP826 views
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil... von Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP379 views
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait... von Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP330 views
【DL輪読会】マルチモーダル 基盤モデル von Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP1.1K views
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine... von Deep Learning JP
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP757 views
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif... von Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP251 views

Último

光コラボは契約してはいけない von
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけないTakuya Matsunaga
30 views17 Folien
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可 von
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可Hitachi, Ltd. OSS Solution Center.
13 views22 Folien
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 von
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Hitachi, Ltd. OSS Solution Center.
110 views26 Folien
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 von
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PC Cluster Consortium
29 views36 Folien
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 von
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PC Cluster Consortium
68 views12 Folien

Último(7)

光コラボは契約してはいけない von Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga30 views
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 von PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 von PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」

[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)

  • 1. http://deeplearning.jp/ Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT) 小林 範久 Present Square Co.,Ltd. DEEP LEARNING JP [DL Papers] 1
  • 2. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 書誌情報 Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT) https://arxiv.org/abs/2201.00520 タイトル: 著者: Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識 分野に導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが 可能となり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなど のSOTAとされるモデルよりも高い精度を記録した。 概要: 2
  • 3. Copyright (C) Present Square Co., Ltd. All Rights Reserved. アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 3
  • 4. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. 導入 背景 4 • Vision Transformer(ViT)が発表されて以降、画像処理でも Transformer ベースのモデル開発が進んでいる。 • Transformer を画像処理に利用した際のメリットは、受容野の広さにある。CNNなどよりも広範の領域を抑えることで、 より良い特徴量を取得することが可能となる。 • 一方で、ViT のような通常のTransformer のみを利用した場合、以下のデメリットがある。 • 必要とするメモリが大きい • 高い計算コスト • 学習の収束の遅延 • 過学習の危険性 • これらの問題に対応するため、Transofmer に対して様々な工夫が行われてきたが、その中でも有力な手法として、 Pyramid Vision Transformer (PVT)や Swin Transformer などがある。 ViTのデメリット
  • 5. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. 導入 背景 5 • PVT や SwinTransformer は、画像内の領域をある程度絞り 込んだ箇所に対して Attention を行うことでメモリ効率や計算効 率を向上。 • 一方で、画像内の領域を絞り込むため、本来の領域から取得で きた広範な関係性の情報を失っている可能性がある。 • 領域を絞り込む際に、より影響関係がある領域を選択できるよう な Deformable self-attention を利用するDeformable Attention Transformer(DAT) を提案。 • 従来の画像処理モデルよりも効率や性能を向上させることに成功。
  • 6. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6 Vision Transformer(ViT, Dosovitskiy et al. 2020) • 画像処理で一般的なCNNなどを利用せずに純粋に Transformerのみを利用しているモデル。 • 画像を「画像パッチが連なったシーケンスデータ」として 扱うことで画像処理にTransformerを適用すること に成功。 • Transformerの「計算効率の良さ」と「スケーラビリ ティ」を画像処理タスクにもたらすことを成功。 画像パッチ(9つのパッチ)として入力 出典:https://arxiv.org/pdf/2010.11929.pdf 2. 先行研究
  • 7. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7 Pyramid Vision Transformer (PVT) • 計算コストを抑えるためにダウンサンプリングする 出典:https://arxiv.org/pdf/2102.12122.pdf 2. 先行研究 Swin Transformer • これらのモデルは、それぞれの目的をうまく果たし、ViTから性能を向上させることに成功した。 • ただし、Swin Transformer のような人力で構築された Attention 範囲は、効率の面から最適化されていない可 能性がある。また、重要なKey/Value 関係を落とした一方で、不要なものを利用している可能性がある。 • 理想は、各入力画像ごとに Attention 範囲を自由に変形しながら、重要な領域のみを利用できるようになること。 • ローカルウィンドウを利用することで Attention 範囲を 制限する https://arxiv.org/pdf/2103.14030.pdf
  • 8. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8 Deformable Convolution Networks(DCN) • このDCNで行われていることを Transformer に単純に応用しようとすると、高いメモリと計算コストが必要となり、 実用的ではなくなるという問題があった。 出典:https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf 2. 先行研究 • 受容野を画像にあわせて柔軟に変形するモデル。
  • 9. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9 Deformable DETR • 情報ロスがあるためバックボーンネットワークとしては劣ってしまうという問題がある。 出典:https://arxiv.org/pdf/2010.04159.pdf 2. 先行研究 • Transformer とCNN を組み合わせたことで高精度 を達成した DETR に Deformable モジュールを組み 込んだモデル。
  • 10. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attention Transformer(DAT) 10 • 画像分類や物体検出、セグメンテーションなどのバックボーンネットワークとして利用できるモデル。 • 画像認識領域に対して初めて「deformable self-attention backborn」を提案し、柔軟性と効率性を可能にした。 Deformable Attention(DA) • Deformable Attention が、DAT の軸となるモジュール。特徴量マップ内の重要な領域に対して Attention を 行うことで、効率よくトークン間の関係性をモデリングすることが可能。 • オフセットネットワークによるクエリから学習された変形可能なサンプリングポイントを利用することで対象となる Attention 領域を決定する。
  • 11. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11 3. 手法 DCNとの違い • DCNでは、特徴量マップの中の異なるピクセルに対して、異なる領域を学習するようになっている。 • DATでは、query-agnosticな領域グループを学習するように作成されている。領域グループで問題ないのは、近年 の研究から、グローバルアテンションの結果が、異なるクエリに対してほぼ同じアテンションパターンになるということが知ら れているため。 • このことで、Key/Values を重要な領域に焦点を合わせることが可能となる。各クエリに対して共有されシフトされた キーとバリューから似たような解を得ることで、より効率的なトレードオフが可能となっている。 3×3のDC(画像が𝐻 × 𝑊 × 𝐶) → 9 × 𝐻 × 𝑊 × 𝐶 Deformable Attention Transformer(DAT) Transformerに適用した場合 →𝑁𝑞 × 𝑁𝑘 × 𝐶( 𝑁𝑞 = 𝑁𝑘 = 𝐻 × 𝑊) ※計算コストが高すぎて、実用的でない。 計算コスト
  • 12. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 12 ① 入力として特徴量マップ 𝑥 ( 𝐻 × 𝑊 × 𝐶 ) を受け取る。 ② 一様格子のピクセル 𝑝 (𝐻𝐺 × 𝑊𝐺 × 2 (𝐻𝐺 = 𝐻/𝑟, 𝑊𝐺 = 𝑊/𝑟 でダウンサンプリングする)内の点)が参照点 (Reference Points)として生成される。 ③ 参照点は二次元座標{(0,0), …., (𝐻𝐺 − 1, 𝑊𝐺 − 1)}上に線形射影され、[-1, +1]の間に正規化される。 (Top-left=(-1,-1)) ④ 各参照点からオフセットを獲得するために、特徴量マップを線形射影し、クエリトークン 𝑞 = 𝑥𝑊𝑞 を取得する。
  • 13. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 13 ⑤ クエリトークン 𝑞 は、サブネットワークθ𝑜𝑓𝑓𝑠𝑒𝑡に投入され、オフセット を生成する。 ※学習過程を安定させるために、事前定義した値 𝑠 を用いて∆𝑝 が大きすぎるサブセットになるのを制限する。 (∆𝑝 ← 𝑠 tanh(∆𝑝)) ⑥ 参照点とオフセットの情報を足して、変形した参照点(Deformed Points)を得る。 ⑦ 変形した参照点に対してバイリニア補完を行い、特徴量 𝑥 をサンプルする。
  • 14. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 14 ⑧ ⑦の出力に対して、線形射影を行い、キートークン 𝑘 = 𝑥𝑊𝑘 と バリュートークン 𝑣= 𝑥 𝑊 𝑣 を得る。 ⑨ ポジションエンベディングに相当する情報を組み込んだ形で、Attention を行い最終的な値を出力する。
  • 15. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 オフセット生成 15 Deformable Attention • Deformable Attention では、オフセット生成のために、サブネットワークを利用し ている。 • このサブネットワークでは、クエリを利用して参照点ごとにオフセット値を算出する。 • 各参照点が 𝑆 × 𝑆 の領域をカバーしていると考えると、サブネットワークは妥当なオ フセットを学習するためにローカル特徴量の知覚を必要とすると考えられる。 • そのため、非線形活性化関数を用いた2つの畳み込みモジュールをもつサブネット ワークを実装している。 サブネットワークの流れ ① k × k (論文では5×5)のデプスワイズ畳み込みによりローカル特徴量を獲得する。 ② GELU活性化関数に通す。 ③1×1の畳み込みを行い、オフセット値を獲得する。
  • 16. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 16 Deformable Attention オフセットグループ • Deformed Points の多様性を促進するために、特徴量チャネルをG個のグループに分割する。(これは、 Multi-Head Self-Attention (MHSA)の手法と同様の考え方に基づくもの。) • 各グループに基づく特徴量は、妥当に対応しているオフセットを生成するために共有されたサブネットワークを利用 している。 • 実践的には、Multi Head Attention の個数 M は、オフセットグループの数であるG倍であるようにすることで、 確実に変形されたキーとバリューのトークンのグループの一つに対して、多重の Attention Head がアサインされ るような作りとなっている。 Deformable relative position bias • 相対位置バイアスは、クエリとキーのすべてのペア間の相対位置 をエンコードする。これにより、空間情報で通常の Attention が強化されることになる。 • DATでは、正規化の値、ポジションエンベディングとして、可能な すべてのオフセット値をカバーするための連続的な相対変位が行 われている。
  • 17. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 17 計算コストについて • Deformable multi-head atten-tion (DMHA)は、PVT や Swin Transformer など 似たような計算コストになる。異なる点は、オフセットネットワークの計算量。 • 𝑁𝑠 = 𝐻𝐺 × 𝑊𝐺 = 𝐻 × 𝑊/𝑟2 • Swin-T(H=W = 14, Ns= 49, C= 384)との比較 • Swin-T が 79.63M FLOPsのとき、サブネットワークの追加によって生じる計算コストは、およそ 5.08M Flops 程 度となる。なお、ダウンサンプリングファクターである r の値を大きくすることで、より計算コストを削減することができる。
  • 18. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 18 モデルアーキテクチャ • DAT では、画像タスクではマルチスケール特徴量マップを必要とするため、これまでの PVT などと同じような階層的 特徴量ピラミッドを形成する。 • Stage1及びStage2では、よりローカルな特徴を学習することを目的とするため、DAはあまり役にたたない。また空間も 広いため、計算コストのオーバーヘッドになるため、採用していない。代わりに、Swin Transformer で利用されるウィンド ウベースのローカルアテンション(Shift-Window Attention)でローカル部分の情報を統合している。 • Stage3及びStage4で Deformable Attention を利用している。このことで、ローカルから拡張されたトーク間のより 広域の関係性をモデリングすることが可能となる。
  • 19. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19 3. 手法 モデルアーキテクチャ • 分類タスクでは、最初に最終段階から出力された特徴マップを正規 化し、次にロジットを予測するためにプールされた特徴を持つ線形 分類器を採用している。 • 物体検出、セグメンテーションタスクでは、DATはモデルのバックボー ンの役割を果たし、マルチスケールの特徴を抽出している。 • 物体検出、セマンティックセグメンテーションのデコーダーなどでは、 FPN のように次のモジュールにフィードする前に、各ステージの機能 に正規化レイヤーを追加している。
  • 20. Copyright (C) Present Square Co., Ltd. All Rights Reserved. ImageNet1K を用いた実験 20 4. 実験 画像枚数:学習用1.28M 検証用50K オプティマイザ:AdamW エポック:300 初期学習率:1 × 10−3 (ウオームアップ 1 × 10−6→1 × 10−3) (cosine learning rate decay) データ拡張:RandAugment 、 Mixup、CutMix
  • 21. Copyright (C) Present Square Co., Ltd. All Rights Reserved. COCO Object Detection を用いた実験 21 4. 実験 • RetinaNet、Mask R-CNN、Cascade Mask R-CNNのバックボーンネットワークとして利用し、比較。 • Swin Transformer モデルなどと比べよい成果を出している。 • 特により大きな物体の検出が得意であることがわかった。 画像枚数:学習用118K 検証用5K 実験設定 事前学習:ImageNet-1K(300エポック) パラメータ:SwinTransformerと同じ
  • 22. Copyright (C) Present Square Co., Ltd. All Rights Reserved. ADE20K 22 4. 実験 画像枚数:学習用20K 検証用2K • SemanticFPN と UperNet のバックボーンネットワークとして利用して、比較。 • mIOU スコアで比較され、全体としてよりよい精度を出した。 • 特にPVT の Tiny モデルと比較すると、大きな改善がみられる。 SemanticFPN と UperNet のバックボーンネットワークとして利用 事前学習:ImageNet-1K 学習:SemanticFPN 40ステップ、UperNet 160K
  • 23. Copyright (C) Present Square Co., Ltd. All Rights Reserved. アブレーションスタディ 23 4. 実験 • オフセットとポジションエンベディングの必要性の確認 • Deformable Attention の有効なステージの確認 P:SRA attention S:Shift Window attention
  • 24. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 可視化実験 24 4. 実験 • より重要な領域に対して参照点が変形されていることを確認。 (各点が格子上の状態をベースとして、対象物体に対して寄っていることが確認できる。)
  • 25. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5. まとめ 結論 • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識分野に 導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが可能と なり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなどの SOTAとされるモデルよりも高い精度を記録した。 25
  • 26. Copyright (C) Present Square Co., Ltd. All Rights Reserved. Appendix 参考文献 • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. • Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. ICCV, 2021. • Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, pages 764–773, 2017. • Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV, 2021 • Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020. 26