Weitere ähnliche Inhalte
Ähnlich wie SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (20)
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
- 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
SegFormer: Simple and Efficient
Design for Semantic Segmentation
with Transformers
2022/06/27
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
修士1年 大倉博貴
- 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報
• 著者
– Enze Xie, Wenhai Wang, Zhiding Yu, Anima
Anandkumar, Jose M. Alvarez, Ping Luo
• 発表
– NeurIPS 2021
• ジャーナル
– CoRR
• リンク
– 論文:https://arxiv.org/abs/2105.15203
– Github:https://github.com/NVlabs/SegFormer
2
- 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要
• SegFormerとは
– TransformerとMLPデコーダを統合した、シンプルだが強力なセマ
ンティックセグメンテーションフレームワーク
• 2つの特徴
– エンコーダ部分は,固定サイズの位置埋め込みを用いない階層型
Transformerの構造
– デコーダ部分は,複雑性や計算コスト
を抑えるAll-MLP構造
• SegFormerの評価
– 計算コストが低いにも関わらず、
SoTAを記録
- 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
背景
• ViT[1]のようなTransformerを用いた画像認識がSoTA
を記録
• Transformerベースモデルの2つの課題
– 固定長の位置埋め込みにより,出力が単一スケールの低解
像度な特徴量
– Attention機構の計算コストが高く,高解像度になるほど高
くなる
• 課題を解決し精度を向上させたモデル設計を目指す
[1] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani,
Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv,
2020
- 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
提案手法
• SegFormer
– エンコーダ:階層型Transformerの構造
– デコーダ:MLPのみで構成されるAll-MLP
- 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
エンコーダ
• 階層型Transformer
– 4つの階層で構成され,階層が進むと解像度が下がる
– 高解像度の細かい特徴と低解像度の粗い特徴の両方を抽出
• 以下3つの技術で構成
– Overlap Patch Merging
– Efficient Self-Attention
– Mix-FFN
- 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
Overlap Patch Merging
• 階層𝑖の特徴マップ𝐹𝑖を解像度を下げ,階層𝑖 + 1の特
徴マップ𝐹𝑖+1に変換する技術
– 𝐹𝑖
𝐻
2𝑖+1 ×
𝑊
2𝑖+1 × 𝐶𝑖 , 𝑖 ∈ 1, 2, 3, 4 , 𝐶𝑖+1 > 𝐶𝑖
• パッチの連続性を保持するためにパッチサイズ𝐾,ス
トライド幅𝑆,パディングサイズ𝑃を指定
– 入力の場合,1パッチが特徴マップ4×4に対応
• 𝐾 = 7, 𝑆 = 4, 𝑃 = 3
– それ以外,1パッチが特徴マップ2×2に対応
• 𝐾 = 3, 𝑆 = 2, 𝑃 = 1
高さ 幅 次元数
- 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
Efficient Self-Attention
• Self-Attentionの計算コストを削減する技術
Self-Attentionは以下の式となり,クエリとキーの次元数が
𝑁 × 𝐶であることから,計算量𝑶(𝑵𝟐
)となる
𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥
𝑄𝐾𝑇
𝑑ℎ𝑒𝑎𝑑
𝑉
𝑄:クエリ
𝐾:キー
𝑉:値
𝐻:入力画像の高さ
𝑊:入力画像の幅
𝑁 = 𝐻 × 𝑊:シーケンス長
𝐶:特徴マップの次元数
- 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
Efficient Self-Attention
• Self-Attentionの計算コストを削減する技術
ここで、PVT[2]で導入された以下の手法を取り入れる
𝐾 = 𝑅𝑒𝑠ℎ𝑎𝑝𝑒
𝑁
𝑅
, 𝐶・𝑅 𝐾
𝐾 = 𝐿𝑖𝑛𝑒𝑎𝑟(𝐶・𝑅, 𝐶)(𝐾)
削減率𝑅 = [64,16,4,1]を階層ごとに用いることで,キー𝐾の次
元数を𝑁 × 𝐶から
𝑵
𝑹
× 𝑪に変換し,計算量を𝑶(
𝑵𝟐
𝑹
)に削減
𝐾:キー
𝐻:入力画像の高さ
𝑊:入力画像の幅
𝑁 = 𝐻 × 𝑊:シーケンス長
𝐶:特徴マップの次元数
[2] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision
transformer: A versatile backbone for dense prediction without convolutions. arXiv, 2021
- 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
Mix-FFN
• FFN (Feed-Forward Network)の畳み込みで動
的に位置埋め込みを行う技術
𝑥𝑜𝑢𝑡 = 𝑀𝐿𝑃 𝐺𝐸𝐿𝑈 𝐶𝑜𝑛𝑣3×3 𝑀𝐿𝑃 𝑥𝑖𝑛 + 𝑥𝑖𝑛
– 畳み込み層で位置情報を集約可能
• CPVT[3]やPosENet[4]からinspire
𝑥𝑖𝑛 :入力
𝑥𝑜𝑢𝑡 :出力
𝑀𝐿𝑃 :多重線形層
𝐺𝐸𝐿𝑈 :GELU活性化関数
𝐶𝑜𝑛𝑣 :畳み込み層
[3] Xiangxiang Chu, Zhi Tian, Bo Zhang, Xinlong Wang, Xiaolin Wei, Huaxia Xia, and Chunhua Shen. Conditional positional encodings for
vision transformers. arXiv, 2021
[4] Md Amirul Islam, Sen Jia, and Neil DB Bruce. How much position information do convolutional neural networks encode? arXiv, 2020
- 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
デコーダ
• MLPのみで構成されるAll-MLP
– 4つのステップで構成
𝐹𝑖 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶𝑖, 𝐶 𝐹𝑖 , ∀𝑖
𝐹𝑖 = 𝑈𝑝𝑠𝑎𝑚𝑝𝑙𝑒
𝐻
4
×
𝑊
4
𝐹𝑖 , ∀𝑖
𝐹 = 𝐿𝑖𝑛𝑒𝑎𝑟 4𝐶, 𝐶 𝐶𝑜𝑛𝑐𝑎𝑡(𝐹𝑖) , ∀𝑖
𝑀 = 𝐿𝑖𝑛𝑒𝑎𝑟 𝐶, 𝑁𝑐𝑙𝑠 𝐹
出力される𝑀はクラス数𝑁𝑐𝑙𝑠でマスクされた推測結果となる
𝐶:MLPの次元数
𝐶𝑖:特徴マップの次元数
𝐹𝑖:階層𝑖の出力
𝐻:入力画像の高さ
𝑊:入力画像の幅
- 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
All-MLPの効果
• ERF(Effective Receptive Field)を可視化
– ERFとは
• 保持している特徴マップの情報度合い
– CNNベースのDeepLabV3+[5]と提案手法を比較
• 提案手法はStage-4で広範囲を抽出できる
• 提案手法はMLPを通すことでより局所的な特徴を抽出
以上より提案手法はシンプルな構造に関わらず,局所的な特徴と
広域的な特徴を両方抽出可能
データセット:Cityscapes[6]
Stage1~4:エンコーダの段階
Head:デコーダ後
[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable
convolution for semantic image segmentation. In ECCV, 2018
[6] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth,
and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016
- 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
実験設定
• 使用データセット
– Cityscapes,ADE20K[7],COCO-Stuff[8]
• 事前学習
– エンコーダ:Imagenet-1K[9]のデータセット
– デコーダ:ランダムに初期化
• MiT(Mix Transformer encoders)
– 同じSegFormer構造でパラメータ数が異なるモデルを
MiT0~5まで用意
• 評価指標
– mIoU
[7] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Scene parsing through ade20k dataset. In
CVPR, 2017
[8] Holger Caesar, Jasper Uijlings, and Vittorio Ferrari. Coco-stuff: Thing and stuff classes in context. In CVPR, 2018
- 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
実験①モデルサイズの影響
• MiT0~5を比較
– デコーダのパラメータ数が小さく軽量
– どのデータセットに対しても,パラメータが多い
ほど高性能
mIoUのSS/MSはシングルスケールとマルチスケールを示す
- 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験②動的位置埋め込みの有効性
• Mix-FFNとViTの位置埋め込みを比較
– どちらの解像度も提案手法が高性能
– 提案手法の方が入力の解像度に対するロバスト性が高い
PE:ViTの位置埋め込み
Mix-FFN:提案手法の動的位置埋め込み
・Cityscapesを1024×1024サイズで学習させる
・PEは入力サイズに合わせて伸縮させる
- 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験③提案手法の性能
• SoTAとの比較
– MiT-B0を見ると,スピードと性能はトレードオフ
– 提案手法は軽量だが,高性能
MiT-B0は入力画像の高さを{1024,768,640,512}と変化
- 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験④様々な環境下でのロバスト性
• ブラー,ノイズ,デジタル,天候要因の入力に対し
て,DeepLabV3+や他の手法と比較
– 提案手法は様々な環境下で強いロバスト性を持つ
• 自動運転のような,ロバスト性が重要なタスクで活きる
Cityscapes-C[9]というCityscapesを拡張したデータセットを使用
[9] Christoph Kamann and Carsten Rother. Benchmarking the robustness of semantic segmentation models. In CVPR, 2020
- 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
まとめ
• SegFormerとは
– TransformerとMLPデコーダを統合した、シンプルだが強力
なセマンティックセグメンテーションフレームワーク
• 2つの特徴
– エンコーダ部分は,固定サイズの位置埋め込みを用いない
階層型Transformerの構造
– デコーダ部分は,複雑性や計算コストを抑えるAll-MLP構造
• SegFormerの評価
– 計算コストが低いにも関わらず、SoTAを記録