SlideShare ist ein Scribd-Unternehmen logo
1 von 18
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
SegFormer: Simple and Efficient
Design for Semantic Segmentation
with Transformers
2022/06/27
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
修士1年 大倉博貴
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報
• 著者
– Enze Xie, Wenhai Wang, Zhiding Yu, Anima
Anandkumar, Jose M. Alvarez, Ping Luo
• 発表
– NeurIPS 2021
• ジャーナル
– CoRR
• リンク
– 論文:https://arxiv.org/abs/2105.15203
– Github:https://github.com/NVlabs/SegFormer
2
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要
• SegFormerとは
– TransformerとMLPデコーダを統合した、シンプルだが強力なセマ
ンティックセグメンテーションフレームワーク
• 2つの特徴
– エンコーダ部分は,固定サイズの位置埋め込みを用いない階層型
Transformerの構造
– デコーダ部分は,複雑性や計算コスト
を抑えるAll-MLP構造
• SegFormerの評価
– 計算コストが低いにも関わらず、
SoTAを記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
背景
• ViT[1]のようなTransformerを用いた画像認識がSoTA
を記録
• Transformerベースモデルの2つの課題
– 固定長の位置埋め込みにより,出力が単一スケールの低解
像度な特徴量
– Attention機構の計算コストが高く,高解像度になるほど高
くなる
• 課題を解決し精度を向上させたモデル設計を目指す
[1] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani,
Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv,
2020
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
提案手法
• SegFormer
– エンコーダ:階層型Transformerの構造
– デコーダ:MLPのみで構成されるAll-MLP
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
エンコーダ
• 階層型Transformer
– 4つの階層で構成され,階層が進むと解像度が下がる
– 高解像度の細かい特徴と低解像度の粗い特徴の両方を抽出
• 以下3つの技術で構成
– Overlap Patch Merging
– Efficient Self-Attention
– Mix-FFN
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
Overlap Patch Merging
• 階層𝑖の特徴マップ𝐹𝑖を解像度を下げ,階層𝑖 + 1の特
徴マップ𝐹𝑖+1に変換する技術
– 𝐹𝑖
𝐻
2𝑖+1 ×
𝑊
2𝑖+1 × 𝐶𝑖 , 𝑖 ∈ 1, 2, 3, 4 , 𝐶𝑖+1 > 𝐶𝑖
• パッチの連続性を保持するためにパッチサイズ𝐾,ス
トライド幅𝑆,パディングサイズ𝑃を指定
– 入力の場合,1パッチが特徴マップ4×4に対応
• 𝐾 = 7, 𝑆 = 4, 𝑃 = 3
– それ以外,1パッチが特徴マップ2×2に対応
• 𝐾 = 3, 𝑆 = 2, 𝑃 = 1
高さ 幅 次元数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
Efficient Self-Attention
• Self-Attentionの計算コストを削減する技術
Self-Attentionは以下の式となり,クエリとキーの次元数が
𝑁 × 𝐶であることから,計算量𝑶(𝑵𝟐
)となる
𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥
𝑄𝐾𝑇
𝑑ℎ𝑒𝑎𝑑
𝑉
𝑄:クエリ
𝐾:キー
𝑉:値
𝐻:入力画像の高さ
𝑊:入力画像の幅
𝑁 = 𝐻 × 𝑊:シーケンス長
𝐶:特徴マップの次元数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
Efficient Self-Attention
• Self-Attentionの計算コストを削減する技術
ここで、PVT[2]で導入された以下の手法を取り入れる
𝐾 = 𝑅𝑒𝑠ℎ𝑎𝑝𝑒
𝑁
𝑅
, 𝐶・𝑅 𝐾
𝐾 = 𝐿𝑖𝑛𝑒𝑎𝑟(𝐶・𝑅, 𝐶)(𝐾)
削減率𝑅 = [64,16,4,1]を階層ごとに用いることで,キー𝐾の次
元数を𝑁 × 𝐶から
𝑵
𝑹
× 𝑪に変換し,計算量を𝑶(
𝑵𝟐
𝑹
)に削減
𝐾:キー
𝐻:入力画像の高さ
𝑊:入力画像の幅
𝑁 = 𝐻 × 𝑊:シーケンス長
𝐶:特徴マップの次元数
[2] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision
transformer: A versatile backbone for dense prediction without convolutions. arXiv, 2021
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
Mix-FFN
• FFN (Feed-Forward Network)の畳み込みで動
的に位置埋め込みを行う技術
𝑥𝑜𝑢𝑡 = 𝑀𝐿𝑃 𝐺𝐸𝐿𝑈 𝐶𝑜𝑛𝑣3×3 𝑀𝐿𝑃 𝑥𝑖𝑛 + 𝑥𝑖𝑛
– 畳み込み層で位置情報を集約可能
• CPVT[3]やPosENet[4]からinspire
𝑥𝑖𝑛 :入力
𝑥𝑜𝑢𝑡 :出力
𝑀𝐿𝑃 :多重線形層
𝐺𝐸𝐿𝑈 :GELU活性化関数
𝐶𝑜𝑛𝑣 :畳み込み層
[3] Xiangxiang Chu, Zhi Tian, Bo Zhang, Xinlong Wang, Xiaolin Wei, Huaxia Xia, and Chunhua Shen. Conditional positional encodings for
vision transformers. arXiv, 2021
[4] Md Amirul Islam, Sen Jia, and Neil DB Bruce. How much position information do convolutional neural networks encode? arXiv, 2020
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
デコーダ
• MLPのみで構成されるAll-MLP
– 4つのステップで構成
𝐹𝑖 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶𝑖, 𝐶 𝐹𝑖 , ∀𝑖
𝐹𝑖 = 𝑈𝑝𝑠𝑎𝑚𝑝𝑙𝑒
𝐻
4
×
𝑊
4
𝐹𝑖 , ∀𝑖
𝐹 = 𝐿𝑖𝑛𝑒𝑎𝑟 4𝐶, 𝐶 𝐶𝑜𝑛𝑐𝑎𝑡(𝐹𝑖) , ∀𝑖
𝑀 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶, 𝑁𝑐𝑙𝑠 𝐹
出力される𝑀はクラス数𝑁𝑐𝑙𝑠でマスクされた推測結果となる
𝐶:MLPの次元数
𝐶𝑖:特徴マップの次元数
𝐹𝑖:階層𝑖の出力
𝐻:入力画像の高さ
𝑊:入力画像の幅
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
All-MLPの効果
• ERF(Effective Receptive Field)を可視化
– ERFとは
• 保持している特徴マップの情報度合い
– CNNベースのDeepLabV3+[5]と提案手法を比較
• 提案手法はStage-4で広範囲を抽出できる
• 提案手法はMLPを通すことでより局所的な特徴を抽出
以上より提案手法はシンプルな構造に関わらず,局所的な特徴と
広域的な特徴を両方抽出可能
データセット:Cityscapes[6]
Stage1~4:エンコーダの段階
Head:デコーダ後
[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable
convolution for semantic image segmentation. In ECCV, 2018
[6] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth,
and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
実験設定
• 使用データセット
– Cityscapes,ADE20K[7],COCO-Stuff[8]
• 事前学習
– エンコーダ:Imagenet-1K[9]のデータセット
– デコーダ:ランダムに初期化
• MiT(Mix Transformer encoders)
– 同じSegFormer構造でパラメータ数が異なるモデルを
MiT0~5まで用意
• 評価指標
– mIoU
[7] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Scene parsing through ade20k dataset. In
CVPR, 2017
[8] Holger Caesar, Jasper Uijlings, and Vittorio Ferrari. Coco-stuff: Thing and stuff classes in context. In CVPR, 2018
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
実験①モデルサイズの影響
• MiT0~5を比較
– デコーダのパラメータ数が小さく軽量
– どのデータセットに対しても,パラメータが多い
ほど高性能
mIoUのSS/MSはシングルスケールとマルチスケールを示す
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験②動的位置埋め込みの有効性
• Mix-FFNとViTの位置埋め込みを比較
– どちらの解像度も提案手法が高性能
– 提案手法の方が入力の解像度に対するロバスト性が高い
PE:ViTの位置埋め込み
Mix-FFN:提案手法の動的位置埋め込み
・Cityscapesを1024×1024サイズで学習させる
・PEは入力サイズに合わせて伸縮させる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験③提案手法の性能
• SoTAとの比較
– MiT-B0を見ると,スピードと性能はトレードオフ
– 提案手法は軽量だが,高性能
MiT-B0は入力画像の高さを{1024,768,640,512}と変化
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験④様々な環境下でのロバスト性
• ブラー,ノイズ,デジタル,天候要因の入力に対し
て,DeepLabV3+や他の手法と比較
– 提案手法は様々な環境下で強いロバスト性を持つ
• 自動運転のような,ロバスト性が重要なタスクで活きる
Cityscapes-C[9]というCityscapesを拡張したデータセットを使用
[9] Christoph Kamann and Carsten Rother. Benchmarking the robustness of semantic segmentation models. In CVPR, 2020
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
まとめ
• SegFormerとは
– TransformerとMLPデコーダを統合した、シンプルだが強力
なセマンティックセグメンテーションフレームワーク
• 2つの特徴
– エンコーダ部分は,固定サイズの位置埋め込みを用いない
階層型Transformerの構造
– デコーダ部分は,複雑性や計算コストを抑えるAll-MLP構造
• SegFormerの評価
– 計算コストが低いにも関わらず、SoTAを記録

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
分散深層学習 @ NIPS'17
分散深層学習 @ NIPS'17分散深層学習 @ NIPS'17
分散深層学習 @ NIPS'17
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 

Ähnlich wie SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 

Ähnlich wie SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (20)

You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
RAPiD
RAPiDRAPiD
RAPiD
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
修士論文
修士論文修士論文
修士論文
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 

Mehr von harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Mehr von harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers 2022/06/27 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 修士1年 大倉博貴
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 • 著者 – Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo • 発表 – NeurIPS 2021 • ジャーナル – CoRR • リンク – 論文:https://arxiv.org/abs/2105.15203 – Github:https://github.com/NVlabs/SegFormer 2
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要 • SegFormerとは – TransformerとMLPデコーダを統合した、シンプルだが強力なセマ ンティックセグメンテーションフレームワーク • 2つの特徴 – エンコーダ部分は,固定サイズの位置埋め込みを用いない階層型 Transformerの構造 – デコーダ部分は,複雑性や計算コスト を抑えるAll-MLP構造 • SegFormerの評価 – 計算コストが低いにも関わらず、 SoTAを記録
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 背景 • ViT[1]のようなTransformerを用いた画像認識がSoTA を記録 • Transformerベースモデルの2つの課題 – 固定長の位置埋め込みにより,出力が単一スケールの低解 像度な特徴量 – Attention機構の計算コストが高く,高解像度になるほど高 くなる • 課題を解決し精度を向上させたモデル設計を目指す [1] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv, 2020
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 提案手法 • SegFormer – エンコーダ:階層型Transformerの構造 – デコーダ:MLPのみで構成されるAll-MLP
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 エンコーダ • 階層型Transformer – 4つの階層で構成され,階層が進むと解像度が下がる – 高解像度の細かい特徴と低解像度の粗い特徴の両方を抽出 • 以下3つの技術で構成 – Overlap Patch Merging – Efficient Self-Attention – Mix-FFN
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 Overlap Patch Merging • 階層𝑖の特徴マップ𝐹𝑖を解像度を下げ,階層𝑖 + 1の特 徴マップ𝐹𝑖+1に変換する技術 – 𝐹𝑖 𝐻 2𝑖+1 × 𝑊 2𝑖+1 × 𝐶𝑖 , 𝑖 ∈ 1, 2, 3, 4 , 𝐶𝑖+1 > 𝐶𝑖 • パッチの連続性を保持するためにパッチサイズ𝐾,ス トライド幅𝑆,パディングサイズ𝑃を指定 – 入力の場合,1パッチが特徴マップ4×4に対応 • 𝐾 = 7, 𝑆 = 4, 𝑃 = 3 – それ以外,1パッチが特徴マップ2×2に対応 • 𝐾 = 3, 𝑆 = 2, 𝑃 = 1 高さ 幅 次元数
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 Efficient Self-Attention • Self-Attentionの計算コストを削減する技術 Self-Attentionは以下の式となり,クエリとキーの次元数が 𝑁 × 𝐶であることから,計算量𝑶(𝑵𝟐 )となる 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝐾𝑇 𝑑ℎ𝑒𝑎𝑑 𝑉 𝑄:クエリ 𝐾:キー 𝑉:値 𝐻:入力画像の高さ 𝑊:入力画像の幅 𝑁 = 𝐻 × 𝑊:シーケンス長 𝐶:特徴マップの次元数
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 Efficient Self-Attention • Self-Attentionの計算コストを削減する技術 ここで、PVT[2]で導入された以下の手法を取り入れる 𝐾 = 𝑅𝑒𝑠ℎ𝑎𝑝𝑒 𝑁 𝑅 , 𝐶・𝑅 𝐾 𝐾 = 𝐿𝑖𝑛𝑒𝑎𝑟(𝐶・𝑅, 𝐶)(𝐾) 削減率𝑅 = [64,16,4,1]を階層ごとに用いることで,キー𝐾の次 元数を𝑁 × 𝐶から 𝑵 𝑹 × 𝑪に変換し,計算量を𝑶( 𝑵𝟐 𝑹 )に削減 𝐾:キー 𝐻:入力画像の高さ 𝑊:入力画像の幅 𝑁 = 𝐻 × 𝑊:シーケンス長 𝐶:特徴マップの次元数 [2] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. arXiv, 2021
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 Mix-FFN • FFN (Feed-Forward Network)の畳み込みで動 的に位置埋め込みを行う技術 𝑥𝑜𝑢𝑡 = 𝑀𝐿𝑃 𝐺𝐸𝐿𝑈 𝐶𝑜𝑛𝑣3×3 𝑀𝐿𝑃 𝑥𝑖𝑛 + 𝑥𝑖𝑛 – 畳み込み層で位置情報を集約可能 • CPVT[3]やPosENet[4]からinspire 𝑥𝑖𝑛 :入力 𝑥𝑜𝑢𝑡 :出力 𝑀𝐿𝑃 :多重線形層 𝐺𝐸𝐿𝑈 :GELU活性化関数 𝐶𝑜𝑛𝑣 :畳み込み層 [3] Xiangxiang Chu, Zhi Tian, Bo Zhang, Xinlong Wang, Xiaolin Wei, Huaxia Xia, and Chunhua Shen. Conditional positional encodings for vision transformers. arXiv, 2021 [4] Md Amirul Islam, Sen Jia, and Neil DB Bruce. How much position information do convolutional neural networks encode? arXiv, 2020
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 デコーダ • MLPのみで構成されるAll-MLP – 4つのステップで構成 𝐹𝑖 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶𝑖, 𝐶 𝐹𝑖 , ∀𝑖 𝐹𝑖 = 𝑈𝑝𝑠𝑎𝑚𝑝𝑙𝑒 𝐻 4 × 𝑊 4 𝐹𝑖 , ∀𝑖 𝐹 = 𝐿𝑖𝑛𝑒𝑎𝑟 4𝐶, 𝐶 𝐶𝑜𝑛𝑐𝑎𝑡(𝐹𝑖) , ∀𝑖 𝑀 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶, 𝑁𝑐𝑙𝑠 𝐹 出力される𝑀はクラス数𝑁𝑐𝑙𝑠でマスクされた推測結果となる 𝐶:MLPの次元数 𝐶𝑖:特徴マップの次元数 𝐹𝑖:階層𝑖の出力 𝐻:入力画像の高さ 𝑊:入力画像の幅
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 All-MLPの効果 • ERF(Effective Receptive Field)を可視化 – ERFとは • 保持している特徴マップの情報度合い – CNNベースのDeepLabV3+[5]と提案手法を比較 • 提案手法はStage-4で広範囲を抽出できる • 提案手法はMLPを通すことでより局所的な特徴を抽出 以上より提案手法はシンプルな構造に関わらず,局所的な特徴と 広域的な特徴を両方抽出可能 データセット:Cityscapes[6] Stage1~4:エンコーダの段階 Head:デコーダ後 [5] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In ECCV, 2018 [6] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 実験設定 • 使用データセット – Cityscapes,ADE20K[7],COCO-Stuff[8] • 事前学習 – エンコーダ:Imagenet-1K[9]のデータセット – デコーダ:ランダムに初期化 • MiT(Mix Transformer encoders) – 同じSegFormer構造でパラメータ数が異なるモデルを MiT0~5まで用意 • 評価指標 – mIoU [7] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Scene parsing through ade20k dataset. In CVPR, 2017 [8] Holger Caesar, Jasper Uijlings, and Vittorio Ferrari. Coco-stuff: Thing and stuff classes in context. In CVPR, 2018
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 実験①モデルサイズの影響 • MiT0~5を比較 – デコーダのパラメータ数が小さく軽量 – どのデータセットに対しても,パラメータが多い ほど高性能 mIoUのSS/MSはシングルスケールとマルチスケールを示す
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 実験②動的位置埋め込みの有効性 • Mix-FFNとViTの位置埋め込みを比較 – どちらの解像度も提案手法が高性能 – 提案手法の方が入力の解像度に対するロバスト性が高い PE:ViTの位置埋め込み Mix-FFN:提案手法の動的位置埋め込み ・Cityscapesを1024×1024サイズで学習させる ・PEは入力サイズに合わせて伸縮させる
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験③提案手法の性能 • SoTAとの比較 – MiT-B0を見ると,スピードと性能はトレードオフ – 提案手法は軽量だが,高性能 MiT-B0は入力画像の高さを{1024,768,640,512}と変化
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験④様々な環境下でのロバスト性 • ブラー,ノイズ,デジタル,天候要因の入力に対し て,DeepLabV3+や他の手法と比較 – 提案手法は様々な環境下で強いロバスト性を持つ • 自動運転のような,ロバスト性が重要なタスクで活きる Cityscapes-C[9]というCityscapesを拡張したデータセットを使用 [9] Christoph Kamann and Carsten Rother. Benchmarking the robustness of semantic segmentation models. In CVPR, 2020
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 まとめ • SegFormerとは – TransformerとMLPデコーダを統合した、シンプルだが強力 なセマンティックセグメンテーションフレームワーク • 2つの特徴 – エンコーダ部分は,固定サイズの位置埋め込みを用いない 階層型Transformerの構造 – デコーダ部分は,複雑性や計算コストを抑えるAll-MLP構造 • SegFormerの評価 – 計算コストが低いにも関わらず、SoTAを記録