Suche senden
Hochladen
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
•
Als PPTX, PDF herunterladen
•
4 gefällt mir
•
3,800 views
Deep Learning JP
Folgen
2021/05/14 Deep Learning JP: http://deeplearning.jp/seminar-2/
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 27
Jetzt herunterladen
Empfohlen
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
Kento Doi
Empfohlen
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
Kento Doi
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
Semantic segmentation
Semantic segmentation
Takuya Minagawa
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
Deep Learning JP
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
Rei Takami
Weitere ähnliche Inhalte
Was ist angesagt?
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
Semantic segmentation
Semantic segmentation
Takuya Minagawa
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
Deep Learning JP
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
Was ist angesagt?
(20)
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
backbone としての timm 入門
backbone としての timm 入門
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Semantic segmentation
Semantic segmentation
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Ähnlich wie [DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
Rei Takami
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜
SSII
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
Michiharu Niimi
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
Cs中間報告
Cs中間報告
Tomoki Itou
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
de:code 2017
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
2012-03-08 MSS研究会
2012-03-08 MSS研究会
Kimikazu Kato
点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
Densely Connected Convolutional Networks
Densely Connected Convolutional Networks
harmonylab
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
Graph Clustering on Missing Data
Graph Clustering on Missing Data
Yuma Inoue
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
Masayoshi Kondo
Or seminar2011final
Or seminar2011final
Mikio Kubo
文献紹介:Video Transformer Network
文献紹介:Video Transformer Network
Toru Tamaki
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
Toru Tamaki
Ähnlich wie [DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
(20)
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Cs中間報告
Cs中間報告
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
2012-03-08 MSS研究会
2012-03-08 MSS研究会
点群深層学習 Meta-study
点群深層学習 Meta-study
Densely Connected Convolutional Networks
Densely Connected Convolutional Networks
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Graph Clustering on Missing Data
Graph Clustering on Missing Data
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
Or seminar2011final
Or seminar2011final
文献紹介:Video Transformer Network
文献紹介:Video Transformer Network
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
Mehr von Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
Mehr von Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Kürzlich hochgeladen
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
Kürzlich hochgeladen
(10)
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ Swin Transformer: Hierarchical Vision Transformer using ShiftedWindows Kazuki Fujikawa
2.
サマリ • 書誌情報 – Swin
Transformer: Hierarchical Vision Transformer using Shifted Windows • Arxiv:2103.14030 • Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo (Microsoft Research Asia) • 概要 – CVの汎用バックボーン: Swin Transformerを提案 • Transformerの画像への適用で課題になる、画像サイズ対して二乗で計算量が増える問題を 線形の増加に緩和 – モデルの複雑度・速度のトレードオフで良好な結果を確認 • Object Detection, Semantic Segmentation タスクで SoTA 2
3.
アウトライン • 背景 • 関連研究 •
提案手法 • 実験・結果 3
4.
アウトライン • 背景 • 関連研究 •
提案手法 • 実験・結果 4
5.
背景 • Tranformerベースのアーキテクチャは、NLPではデファクトスタンダードと なり、CVの世界でも活用可能であることが報告されている • Transformerを言語から画像へ適用する際の課題として、解像度の問題が 挙げられる –
画像における解像度は、自然言語におけるトークン数と比較して、スケールの変化が大きい – Self-Attentionは解像度に対して二乗の計算コストを要する 5 画像サイズに対してスケーラブルな Transformerアーキテクチャを考えたい!
6.
アウトライン • 背景 • 関連研究 •
提案手法 • 実験・結果 6
7.
関連研究 • Vision Transformer
[Dosovitskiy+, ICLR2021] – 入力画像をパッチ(画像の断片)に分割し、Transformerへ入力 • Patch Embedding: パッチ内のピクセルを1次元に並び替えた上で線形写像を取る • Patch Embedding に Positional Encoding を加えることで、パッチの元画像内での位置を表現 7
8.
関連研究 • Vision Transformer
[Dosovitskiy+, ICLR2021] – 課題: Self-Attention の計算コスト • 画像内のすべてのPatchに対してAttentionの計算を行うため、計算コストは画像サイズに対して 二乗で増加する 8
9.
アウトライン • 背景 • 関連研究 •
提案手法 • 実験・結果 9
10.
提案手法: Swin Transformer •
以下の3モジュールで構成 – Patch Partition + Linear embedding – Swin Transformer Block • Window based Multihead Self-Attention (W-MSA) • Shifted window based Multihead Self-Attention (SW-MSA) – Patch Merging 10
11.
提案手法: Swin Transformer •
Patch Partition + Linear embedding – Patch Embedding の 計算は Vision Transformer と同様 • パッチへの分割 → 線形写像 11
12.
提案手法: Swin Transformer •
Window based Multihead Self-Attention(W-MSA) – 画像をパッチに分割後、パッチの集合であるウィンドウを定義 – Window内のパッチに対してのみ、Self-Attentionで参照する • → Self-Attentionの計算コストは画像サイズの大きさに対して線形に増加 12 Patch (e.g. 4x4 pixel) Window (e.g. 4x4 patch) Swin Transformer Block
13.
提案手法: Swin Transformer •
Shifted window based Multihead Self-Attention (SW-MSA) – W-MSA では、ウィンドウ間の関係性をモデリングできない • → ウィンドウをシフトさせ、ウィンドウ間の関係性をモデリングできるようにした • (下図: 縦方向に2patch, 横方向に2patch, ウィンドウをシフトしている) 13 Swin Transformer Block
14.
提案手法: Swin Transformer •
Shifted window based Multihead Self-Attention (SW-MSA) – 単純なウィンドウシフトでは、端に半端なウィンドウを発生させる関係で、 計算コストが増加する(下図: 2x2 window → 3x3 window) • → 端数を逆側に回してウィンドウ数を一定にする(cyclic shift)ことで、計算コストを削減 • → 同じウィンドウ内に隣接しない patch が存在する問題はSelf-Attentionのマスクで対処 14
15.
提案手法: Swin Transformer •
Patch Merging – Swin Transformer Block を数層重ねた後、隣接する 2x2 の patch を統合する • Pixel embedding 同様、2x2 の patch を 1次元に並び替えて線形写像を取る • その後の Swin Transformer Blockでは Window 内の patch 数は一定に保つため、 計算コストはそのままで広範な範囲に対して Self-Attention を計算することになる 15
16.
アウトライン • 背景 • 関連研究 •
提案手法 • 実験・結果 16
17.
実験: Image Classification •
実験設定 – アーキテクチャ: レイヤー数、チャネル数の異なる複数のモデルを定義 • Swin-T: C = 96, layer numbers = {2, 2, 6, 2} • Swin-S: C = 96, layer numbers = {2, 2, 18, 2} • Swin-B: C = 128, layer numbers = {2, 2, 18, 2} • Swin-L: C = 192, layer numbers = {2, 2, 18, 2} – タスク • ImageNet 1000クラス分類のタスク(train: 1.23M)をスクラッチで学習 • 他のモデルで同様の複雑度(パラメータ数・速度)のものと比較して評価 17
18.
実験: Image Classification •
実験結果 – SoTA の Transformer ベースのアーキテクチャ(DeiT)に対し、同様の複雑度で良い パフォーマンスを実現 – SoTA の CNN ベースのアーキテクチャ(RegNet, EfficientNet)に対し、速度-精度の トレードオフでわずかに改善 18
19.
実験: Image Classification •
実験結果 – SoTA の Transformer ベースのアーキテクチャ(DeiT)に対し、同様の複雑度で良い パフォーマンスを実現 – SoTA の CNN ベースのアーキテクチャ(RegNet, EfficientNet)に対し、速度-精度の トレードオフでわずかに改善 19
20.
実験: Object Detection •
実験設定 – タスク • COCO Object Detection • 4種の主要な物体検出フレームワークのバックボーンに採用して実験 – Cascade Mask R-CNN [He+, 2016] – ATSS [Zagoruyko+, 2016] – RedPoints v2 [Chen+, 2020] – Sparse RCNN [Sun+, 2020] 20
21.
実験: Object Detection •
実験結果 – いずれの物体検出フレームワークでもベースライン(ResNet50)からの改善を確認 – Transformerベースのバックボーン: DeiT と比較して、精度と共に速度も改善 – SoTAモデルとの比較でも改善を確認 21
22.
実験: Object Detection •
実験結果 – いずれの物体検出フレームワークでもベースライン(ResNet50)からの改善を確認 – Transformerベースのバックボーン: DeiT と比較して、精度と共に速度も改善 – SoTAモデルとの比較でも改善を確認 22
23.
実験: Object Detection •
実験結果 – いずれの物体検出フレームワークでもベースライン(ResNet50)からの改善を確認 – Transformerベースのバックボーン: DeiT と比較して、精度と共に速度も改善 – SoTAモデルとの比較でも改善を確認 23
24.
実験: Semantic Segmentation •
実験設定 – タスク: ADE20K • 実験結果 – DeiTの同等の複雑度のモデルより高速で、高精度の予測ができることを確認 – SoTAモデル(SETR)より少ないパラメータで、高精度な予測ができることを確認 24
25.
実験: Semantic Segmentation •
実験設定 – タスク: ADE20K • 実験結果 – DeiTの同等の複雑度のモデルより高速で、高精度の予測ができることを確認 – SoTAモデル(SETR)より少ないパラメータで、高精度な予測ができることを確認 25
26.
結論 • CVの汎用バックボーン: Swin
Transformerを提案 – Transformerの画像への適用で課題になる、画像サイズの増加に対して二乗で計算量が 増える問題を線形の増加に緩和 • モデルの複雑度・速度のトレードオフで良好な結果を確認 – Object Detection, Semantic Segmentation タスクで SoTA 26
27.
References • Liu, Ze,
et al. "Swin transformer: Hierarchical vision transformer using shifted windows." arXiv preprint arXiv:2103.14030 (2021). • Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." In ICLR2021. 27
Jetzt herunterladen