SlideShare a Scribd company logo
Suche senden
Hochladen
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)
Melden
Teilen
Deep Learning JP
Deep Learning JP
Folgen
•
1 gefällt mir
•
8,884 views
1
von
26
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)
•
1 gefällt mir
•
8,884 views
Melden
Teilen
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Technologie
2022/01/14 Deep Learning JP: http://deeplearning.jp/seminar-2/
Mehr lesen
Deep Learning JP
Deep Learning JP
Folgen
Recomendados
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 von
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
16K views
•
38 Folien
自己教師学習(Self-Supervised Learning) von
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
12.8K views
•
177 Folien
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows von
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
3.7K views
•
27 Folien
全力解説!Transformer von
全力解説!Transformer
Arithmer Inc.
9.6K views
•
43 Folien
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin... von
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
1.7K views
•
16 Folien
近年のHierarchical Vision Transformer von
近年のHierarchical Vision Transformer
Yusuke Uchida
13.9K views
•
46 Folien
Más contenido relacionado
Was ist angesagt?
畳み込みニューラルネットワークの高精度化と高速化 von
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
64.5K views
•
133 Folien
backbone としての timm 入門 von
backbone としての timm 入門
Takuji Tahara
7.4K views
•
19 Folien
【メタサーベイ】Video Transformer von
【メタサーベイ】Video Transformer
cvpaper. challenge
2.2K views
•
42 Folien
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc) von
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
3.7K views
•
52 Folien
[DL輪読会]相互情報量最大化による表現学習 von
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
7.6K views
•
43 Folien
【メタサーベイ】数式ドリブン教師あり学習 von
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
5.9K views
•
33 Folien
Was ist angesagt?
(20)
畳み込みニューラルネットワークの高精度化と高速化 von Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
•
64.5K views
backbone としての timm 入門 von Takuji Tahara
backbone としての timm 入門
Takuji Tahara
•
7.4K views
【メタサーベイ】Video Transformer von cvpaper. challenge
【メタサーベイ】Video Transformer
cvpaper. challenge
•
2.2K views
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc) von Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
•
3.7K views
[DL輪読会]相互情報量最大化による表現学習 von Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
•
7.6K views
【メタサーベイ】数式ドリブン教師あり学習 von cvpaper. challenge
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
•
5.9K views
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話 von Yusuke Uchida
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
•
9.4K views
これからの Vision & Language ~ Acadexit した4つの理由 von Yoshitaka Ushiku
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
•
6.6K views
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ... von Deep Learning JP
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
•
2.6K views
Domain Adaptation 発展と動向まとめ(サーベイ資料) von Yamato OKAMOTO
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
•
8.5K views
Transformerを雰囲気で理解する von AtsukiYamaguchi1
Transformerを雰囲気で理解する
AtsukiYamaguchi1
•
4.8K views
ICCV 2019 論文紹介 (26 papers) von Hideki Okada
ICCV 2019 論文紹介 (26 papers)
Hideki Okada
•
2.9K views
[DL輪読会]Pay Attention to MLPs (gMLP) von Deep Learning JP
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
•
16.9K views
Deep Learningによる超解像の進歩 von Hiroto Honda
Deep Learningによる超解像の進歩
Hiroto Honda
•
29.6K views
モデルアーキテクチャ観点からのDeep Neural Network高速化 von Yusuke Uchida
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
•
38.7K views
【DL輪読会】ViT + Self Supervised Learningまとめ von Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
•
4K views
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi... von Deep Learning JP
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
•
973 views
[DL輪読会]ドメイン転移と不変表現に関するサーベイ von Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
•
6.9K views
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs von Deep Learning JP
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
•
1.5K views
【DL輪読会】Patches Are All You Need? (ConvMixer) von Deep Learning JP
【DL輪読会】Patches Are All You Need? (ConvMixer)
Deep Learning JP
•
2.3K views
Similar a [DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S... von
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
Deep Learning JP
31.4K views
•
30 Folien
アジャイルにモデリングは必要か von
アジャイルにモデリングは必要か
Hiromasa Oka
11.6K views
•
58 Folien
論文紹介 : Vision Transformer with Deformable Attention von
論文紹介 : Vision Transformer with Deformable Attention
KazunariHemmi
60 views
•
10 Folien
Mvpvm pattern von
Mvpvm pattern
Mami Shiino
2.7K views
•
28 Folien
概念モデリングワークショップ 設計編 von
概念モデリングワークショップ 設計編
Knowledge & Experience
17 views
•
37 Folien
DRIVE CHARTを支えるAI技術 von
DRIVE CHARTを支えるAI技術
Yusuke Uchida
2.3K views
•
44 Folien
Similar a [DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)
(20)
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S... von Deep Learning JP
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
Deep Learning JP
•
31.4K views
アジャイルにモデリングは必要か von Hiromasa Oka
アジャイルにモデリングは必要か
Hiromasa Oka
•
11.6K views
論文紹介 : Vision Transformer with Deformable Attention von KazunariHemmi
論文紹介 : Vision Transformer with Deformable Attention
KazunariHemmi
•
60 views
Mvpvm pattern von Mami Shiino
Mvpvm pattern
Mami Shiino
•
2.7K views
概念モデリングワークショップ 設計編 von Knowledge & Experience
概念モデリングワークショップ 設計編
Knowledge & Experience
•
17 views
DRIVE CHARTを支えるAI技術 von Yusuke Uchida
DRIVE CHARTを支えるAI技術
Yusuke Uchida
•
2.3K views
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern von Mami Shiino
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
Mami Shiino
•
1.2K views
市場動向並びに弊社製品の今後の展望について von Ken Azuma
市場動向並びに弊社製品の今後の展望について
Ken Azuma
•
1K views
SAS Viya Deep Dive: 予測モデリング von SAS Institute Japan
SAS Viya Deep Dive: 予測モデリング
SAS Institute Japan
•
1.1K views
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ von Shumpei Shiraishi
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
Shumpei Shiraishi
•
4.3K views
増加するコアを使い切れ!! von guestc06e54
増加するコアを使い切れ!!
guestc06e54
•
1.7K views
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned von Daiki Kawanuma
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
Daiki Kawanuma
•
11.3K views
アテンションモデルの注意深い調査 von MichihiroSHONAI
アテンションモデルの注意深い調査
MichihiroSHONAI
•
240 views
オブジェクトストレージのユースケース (Cloudweek2014 講演資料) von CLOUDIAN KK
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
CLOUDIAN KK
•
3.6K views
[DL輪読会]Deep Face Recognition: A Survey von Deep Learning JP
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP
•
23K views
20180729 Preferred Networksの機械学習クラスタを支える技術 von Preferred Networks
20180729 Preferred Networksの機械学習クラスタを支える技術
Preferred Networks
•
32.8K views
Monadic Programmingのススメ - Functional Reactive Programmingへのアプローチ von Tomoharu ASAMI
Monadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
Tomoharu ASAMI
•
16.2K views
OpenStackプロジェクトの全体像~詳細編~ von Masanori Itoh
OpenStackプロジェクトの全体像~詳細編~
Masanori Itoh
•
3.8K views
ユーザー企業における標準化のあり方 : QCon Tokyo 2010 von Yusuke Suzuki
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
Yusuke Suzuki
•
5.4K views
成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現- von Hiroki Kondo
成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-
Hiroki Kondo
•
2.1K views
Más de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners von
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
265 views
•
28 Folien
【DL輪読会】事前学習用データセットについて von
【DL輪読会】事前学習用データセットについて
Deep Learning JP
276 views
•
20 Folien
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP... von
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
186 views
•
26 Folien
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition von
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
256 views
•
30 Folien
【DL輪読会】Can Neural Network Memorization Be Localized? von
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
516 views
•
15 Folien
【DL輪読会】Hopfield network 関連研究について von
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
1.4K views
•
29 Folien
Más de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners von Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
•
265 views
【DL輪読会】事前学習用データセットについて von Deep Learning JP
【DL輪読会】事前学習用データセットについて
Deep Learning JP
•
276 views
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP... von Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
•
186 views
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition von Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
•
256 views
【DL輪読会】Can Neural Network Memorization Be Localized? von Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
•
516 views
【DL輪読会】Hopfield network 関連研究について von Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
•
1.4K views
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 ) von Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
•
342 views
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M... von Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
•
234 views
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO" von Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
•
805 views
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination " von Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
•
448 views
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models von Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
•
1.4K views
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware" von Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
•
416 views
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo... von Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
•
408 views
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ... von Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
•
693 views
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive... von Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
•
826 views
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil... von Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
•
379 views
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait... von Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
•
330 views
【DL輪読会】マルチモーダル 基盤モデル von Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
•
1.1K views
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine... von Deep Learning JP
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
•
757 views
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif... von Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
•
251 views
Último
IPsec VPNとSSL-VPNの違い von
IPsec VPNとSSL-VPNの違い
富士通クラウドテクノロジーズ株式会社
610 views
•
8 Folien
光コラボは契約してはいけない von
光コラボは契約してはいけない
Takuya Matsunaga
30 views
•
17 Folien
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可 von
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可
Hitachi, Ltd. OSS Solution Center.
13 views
•
22 Folien
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 von
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Hitachi, Ltd. OSS Solution Center.
110 views
•
26 Folien
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 von
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PC Cluster Consortium
29 views
•
36 Folien
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 von
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PC Cluster Consortium
68 views
•
12 Folien
Último
(7)
IPsec VPNとSSL-VPNの違い von 富士通クラウドテクノロジーズ株式会社
IPsec VPNとSSL-VPNの違い
富士通クラウドテクノロジーズ株式会社
•
610 views
光コラボは契約してはいけない von Takuya Matsunaga
光コラボは契約してはいけない
Takuya Matsunaga
•
30 views
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可 von Hitachi, Ltd. OSS Solution Center.
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可
Hitachi, Ltd. OSS Solution Center.
•
13 views
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 von Hitachi, Ltd. OSS Solution Center.
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Hitachi, Ltd. OSS Solution Center.
•
110 views
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 von PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PC Cluster Consortium
•
29 views
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 von PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PC Cluster Consortium
•
68 views
定例会スライド_キャチs 公開用.pdf von Keio Robotics Association
定例会スライド_キャチs 公開用.pdf
Keio Robotics Association
•
154 views
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)
1.
http://deeplearning.jp/ Vision Transformer with
Deformable Attention (Deformable Attention Transformer:DAT) 小林 範久 Present Square Co.,Ltd. DEEP LEARNING JP [DL Papers] 1
2.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 書誌情報 Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT) https://arxiv.org/abs/2201.00520 タイトル: 著者: Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識 分野に導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが 可能となり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなど のSOTAとされるモデルよりも高い精度を記録した。 概要: 2
3.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 3
4.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 1. 導入 背景 4 • Vision Transformer(ViT)が発表されて以降、画像処理でも Transformer ベースのモデル開発が進んでいる。 • Transformer を画像処理に利用した際のメリットは、受容野の広さにある。CNNなどよりも広範の領域を抑えることで、 より良い特徴量を取得することが可能となる。 • 一方で、ViT のような通常のTransformer のみを利用した場合、以下のデメリットがある。 • 必要とするメモリが大きい • 高い計算コスト • 学習の収束の遅延 • 過学習の危険性 • これらの問題に対応するため、Transofmer に対して様々な工夫が行われてきたが、その中でも有力な手法として、 Pyramid Vision Transformer (PVT)や Swin Transformer などがある。 ViTのデメリット
5.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 1. 導入 背景 5 • PVT や SwinTransformer は、画像内の領域をある程度絞り 込んだ箇所に対して Attention を行うことでメモリ効率や計算効 率を向上。 • 一方で、画像内の領域を絞り込むため、本来の領域から取得で きた広範な関係性の情報を失っている可能性がある。 • 領域を絞り込む際に、より影響関係がある領域を選択できるよう な Deformable self-attention を利用するDeformable Attention Transformer(DAT) を提案。 • 従来の画像処理モデルよりも効率や性能を向上させることに成功。
6.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 6 Vision Transformer(ViT, Dosovitskiy et al. 2020) • 画像処理で一般的なCNNなどを利用せずに純粋に Transformerのみを利用しているモデル。 • 画像を「画像パッチが連なったシーケンスデータ」として 扱うことで画像処理にTransformerを適用すること に成功。 • Transformerの「計算効率の良さ」と「スケーラビリ ティ」を画像処理タスクにもたらすことを成功。 画像パッチ(9つのパッチ)として入力 出典:https://arxiv.org/pdf/2010.11929.pdf 2. 先行研究
7.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 7 Pyramid Vision Transformer (PVT) • 計算コストを抑えるためにダウンサンプリングする 出典:https://arxiv.org/pdf/2102.12122.pdf 2. 先行研究 Swin Transformer • これらのモデルは、それぞれの目的をうまく果たし、ViTから性能を向上させることに成功した。 • ただし、Swin Transformer のような人力で構築された Attention 範囲は、効率の面から最適化されていない可 能性がある。また、重要なKey/Value 関係を落とした一方で、不要なものを利用している可能性がある。 • 理想は、各入力画像ごとに Attention 範囲を自由に変形しながら、重要な領域のみを利用できるようになること。 • ローカルウィンドウを利用することで Attention 範囲を 制限する https://arxiv.org/pdf/2103.14030.pdf
8.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 8 Deformable Convolution Networks(DCN) • このDCNで行われていることを Transformer に単純に応用しようとすると、高いメモリと計算コストが必要となり、 実用的ではなくなるという問題があった。 出典:https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf 2. 先行研究 • 受容野を画像にあわせて柔軟に変形するモデル。
9.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 9 Deformable DETR • 情報ロスがあるためバックボーンネットワークとしては劣ってしまうという問題がある。 出典:https://arxiv.org/pdf/2010.04159.pdf 2. 先行研究 • Transformer とCNN を組み合わせたことで高精度 を達成した DETR に Deformable モジュールを組み 込んだモデル。
10.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attention Transformer(DAT) 10 • 画像分類や物体検出、セグメンテーションなどのバックボーンネットワークとして利用できるモデル。 • 画像認識領域に対して初めて「deformable self-attention backborn」を提案し、柔軟性と効率性を可能にした。 Deformable Attention(DA) • Deformable Attention が、DAT の軸となるモジュール。特徴量マップ内の重要な領域に対して Attention を 行うことで、効率よくトークン間の関係性をモデリングすることが可能。 • オフセットネットワークによるクエリから学習された変形可能なサンプリングポイントを利用することで対象となる Attention 領域を決定する。
11.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 11 3. 手法 DCNとの違い • DCNでは、特徴量マップの中の異なるピクセルに対して、異なる領域を学習するようになっている。 • DATでは、query-agnosticな領域グループを学習するように作成されている。領域グループで問題ないのは、近年 の研究から、グローバルアテンションの結果が、異なるクエリに対してほぼ同じアテンションパターンになるということが知ら れているため。 • このことで、Key/Values を重要な領域に焦点を合わせることが可能となる。各クエリに対して共有されシフトされた キーとバリューから似たような解を得ることで、より効率的なトレードオフが可能となっている。 3×3のDC(画像が𝐻 × 𝑊 × 𝐶) → 9 × 𝐻 × 𝑊 × 𝐶 Deformable Attention Transformer(DAT) Transformerに適用した場合 →𝑁𝑞 × 𝑁𝑘 × 𝐶( 𝑁𝑞 = 𝑁𝑘 = 𝐻 × 𝑊) ※計算コストが高すぎて、実用的でない。 計算コスト
12.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 12 ① 入力として特徴量マップ 𝑥 ( 𝐻 × 𝑊 × 𝐶 ) を受け取る。 ② 一様格子のピクセル 𝑝 (𝐻𝐺 × 𝑊𝐺 × 2 (𝐻𝐺 = 𝐻/𝑟, 𝑊𝐺 = 𝑊/𝑟 でダウンサンプリングする)内の点)が参照点 (Reference Points)として生成される。 ③ 参照点は二次元座標{(0,0), …., (𝐻𝐺 − 1, 𝑊𝐺 − 1)}上に線形射影され、[-1, +1]の間に正規化される。 (Top-left=(-1,-1)) ④ 各参照点からオフセットを獲得するために、特徴量マップを線形射影し、クエリトークン 𝑞 = 𝑥𝑊𝑞 を取得する。
13.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 13 ⑤ クエリトークン 𝑞 は、サブネットワークθ𝑜𝑓𝑓𝑠𝑒𝑡に投入され、オフセット を生成する。 ※学習過程を安定させるために、事前定義した値 𝑠 を用いて∆𝑝 が大きすぎるサブセットになるのを制限する。 (∆𝑝 ← 𝑠 tanh(∆𝑝)) ⑥ 参照点とオフセットの情報を足して、変形した参照点(Deformed Points)を得る。 ⑦ 変形した参照点に対してバイリニア補完を行い、特徴量 𝑥 をサンプルする。
14.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 14 ⑧ ⑦の出力に対して、線形射影を行い、キートークン 𝑘 = 𝑥𝑊𝑘 と バリュートークン 𝑣= 𝑥 𝑊 𝑣 を得る。 ⑨ ポジションエンベディングに相当する情報を組み込んだ形で、Attention を行い最終的な値を出力する。
15.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 3. 手法 オフセット生成 15 Deformable Attention • Deformable Attention では、オフセット生成のために、サブネットワークを利用し ている。 • このサブネットワークでは、クエリを利用して参照点ごとにオフセット値を算出する。 • 各参照点が 𝑆 × 𝑆 の領域をカバーしていると考えると、サブネットワークは妥当なオ フセットを学習するためにローカル特徴量の知覚を必要とすると考えられる。 • そのため、非線形活性化関数を用いた2つの畳み込みモジュールをもつサブネット ワークを実装している。 サブネットワークの流れ ① k × k (論文では5×5)のデプスワイズ畳み込みによりローカル特徴量を獲得する。 ② GELU活性化関数に通す。 ③1×1の畳み込みを行い、オフセット値を獲得する。
16.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 3. 手法 16 Deformable Attention オフセットグループ • Deformed Points の多様性を促進するために、特徴量チャネルをG個のグループに分割する。(これは、 Multi-Head Self-Attention (MHSA)の手法と同様の考え方に基づくもの。) • 各グループに基づく特徴量は、妥当に対応しているオフセットを生成するために共有されたサブネットワークを利用 している。 • 実践的には、Multi Head Attention の個数 M は、オフセットグループの数であるG倍であるようにすることで、 確実に変形されたキーとバリューのトークンのグループの一つに対して、多重の Attention Head がアサインされ るような作りとなっている。 Deformable relative position bias • 相対位置バイアスは、クエリとキーのすべてのペア間の相対位置 をエンコードする。これにより、空間情報で通常の Attention が強化されることになる。 • DATでは、正規化の値、ポジションエンベディングとして、可能な すべてのオフセット値をカバーするための連続的な相対変位が行 われている。
17.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 3. 手法 17 計算コストについて • Deformable multi-head atten-tion (DMHA)は、PVT や Swin Transformer など 似たような計算コストになる。異なる点は、オフセットネットワークの計算量。 • 𝑁𝑠 = 𝐻𝐺 × 𝑊𝐺 = 𝐻 × 𝑊/𝑟2 • Swin-T(H=W = 14, Ns= 49, C= 384)との比較 • Swin-T が 79.63M FLOPsのとき、サブネットワークの追加によって生じる計算コストは、およそ 5.08M Flops 程 度となる。なお、ダウンサンプリングファクターである r の値を大きくすることで、より計算コストを削減することができる。
18.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 3. 手法 18 モデルアーキテクチャ • DAT では、画像タスクではマルチスケール特徴量マップを必要とするため、これまでの PVT などと同じような階層的 特徴量ピラミッドを形成する。 • Stage1及びStage2では、よりローカルな特徴を学習することを目的とするため、DAはあまり役にたたない。また空間も 広いため、計算コストのオーバーヘッドになるため、採用していない。代わりに、Swin Transformer で利用されるウィンド ウベースのローカルアテンション(Shift-Window Attention)でローカル部分の情報を統合している。 • Stage3及びStage4で Deformable Attention を利用している。このことで、ローカルから拡張されたトーク間のより 広域の関係性をモデリングすることが可能となる。
19.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 19 3. 手法 モデルアーキテクチャ • 分類タスクでは、最初に最終段階から出力された特徴マップを正規 化し、次にロジットを予測するためにプールされた特徴を持つ線形 分類器を採用している。 • 物体検出、セグメンテーションタスクでは、DATはモデルのバックボー ンの役割を果たし、マルチスケールの特徴を抽出している。 • 物体検出、セマンティックセグメンテーションのデコーダーなどでは、 FPN のように次のモジュールにフィードする前に、各ステージの機能 に正規化レイヤーを追加している。
20.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. ImageNet1K を用いた実験 20 4. 実験 画像枚数:学習用1.28M 検証用50K オプティマイザ:AdamW エポック:300 初期学習率:1 × 10−3 (ウオームアップ 1 × 10−6→1 × 10−3) (cosine learning rate decay) データ拡張:RandAugment 、 Mixup、CutMix
21.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. COCO Object Detection を用いた実験 21 4. 実験 • RetinaNet、Mask R-CNN、Cascade Mask R-CNNのバックボーンネットワークとして利用し、比較。 • Swin Transformer モデルなどと比べよい成果を出している。 • 特により大きな物体の検出が得意であることがわかった。 画像枚数:学習用118K 検証用5K 実験設定 事前学習:ImageNet-1K(300エポック) パラメータ:SwinTransformerと同じ
22.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. ADE20K 22 4. 実験 画像枚数:学習用20K 検証用2K • SemanticFPN と UperNet のバックボーンネットワークとして利用して、比較。 • mIOU スコアで比較され、全体としてよりよい精度を出した。 • 特にPVT の Tiny モデルと比較すると、大きな改善がみられる。 SemanticFPN と UperNet のバックボーンネットワークとして利用 事前学習:ImageNet-1K 学習:SemanticFPN 40ステップ、UperNet 160K
23.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. アブレーションスタディ 23 4. 実験 • オフセットとポジションエンベディングの必要性の確認 • Deformable Attention の有効なステージの確認 P:SRA attention S:Shift Window attention
24.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 可視化実験 24 4. 実験 • より重要な領域に対して参照点が変形されていることを確認。 (各点が格子上の状態をベースとして、対象物体に対して寄っていることが確認できる。)
25.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. 5. まとめ 結論 • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識分野に 導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが可能と なり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなどの SOTAとされるモデルよりも高い精度を記録した。 25
26.
Copyright (C) Present
Square Co., Ltd. All Rights Reserved. Appendix 参考文献 • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. • Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. ICCV, 2021. • Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, pages 764–773, 2017. • Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV, 2021 • Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020. 26