Weitere ähnliche Inhalte Ähnlich wie 【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022) (20) Mehr von Deep Learning JP (20) Kürzlich hochgeladen (10) 【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022)1. DEEP LEARNING JP
[DL Papers]
HRDA: Context-Aware High-Resolution Domain-Adaptive
Semantic Segmentation
Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業)
http://deeplearning.jp/
1
2. 書誌情報
• タイトル
– HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation
• 著者
– Lukas Hoyer1, Dengxin Dai2, and Luc Van Gool1,3
– 1ETH Zurich, 2MPI for Informatics, Germany, 3KU Leuven, Belgium
• ECCV2022に採択
• Paper
– https://arxiv.org/abs/2204.13132
• Code
– https://github.com/lhoyer/HRDA
2
3. 論文概要
• 高解像度(HR)と低解像度(LR)入力を同時に考慮するUDA(unsupervised
domain adaptation) in semantic segmentation手法
– 従来は低解像度画像を入力とする
• Semantic segmentationのほか、DAのネットワークもあり、GPUメモリから、低解像度入力を採用
• long-range contextを対応(context情報や、シーンのlayoutはドメイン不変の傾向)
– 高解像度入力は、context detail情報を提供し、小物体や境界の推定に重要
– 提案手法は、HRとLRを効率よくfusionする手法を提案
• 提案手法のcontribution
– UDAにおける解像度による影響を検討(初)
– 小物体や細部の推定に、HRを利用
– scale attention機構を用い、複数解像度入力による学習
– 計算効率のため、nested context and detail cropを提案
3
4. 既往研究
• Semantic segmentation
– 複数解像度を入力とする手法は既に提案されていた
1. 基本は、異なる解像度の中間特徴マップを利用(single/multiple scale input)
2. 推論する際、異なる解像度データを入力とし、結果を融合
– average/max poolingが適用。ただし、データ中身に依存しないため、異なる解像度の情報をうまく融合で
きていない
– 最近の解決策
• Scale attention的な機構で、データの中身により、最適な解像度の情報を利用
4
5. 既往研究
• UDA
– 流派:adversarial trainingとself-training
• adversarial training: style transfer的な方法で、sourceをtargetに変換(domain shiftを再現)
• self-training: pseudo labelを生成し、targetの学習をガイド
– pseudo labelはノイジーであり、様々な改善策が提案されている
• 既存手法は、複数解像度の入力を視野に入れていなかった
5
6. 提案手法の概要
• Preliminary
– HR source
• image: 𝜒𝑆
= 𝑥𝐻𝑅
𝑆,𝑚
𝑚=1
𝑁𝑠
, 𝑤𝑖𝑡ℎ 𝑥𝐻𝑅
𝑆,𝑚
∈ ℝ𝐻𝑠×𝑊𝑠×3
• label: 𝓎𝑆
= 𝑦𝐻𝑅
𝑆,𝑚
𝑚=1
𝑁𝑠
, 𝑤𝑖𝑡ℎ 𝑦𝐻𝑅
𝑆,𝑚
∈ 0,1 𝐻𝑠×𝑊𝑠×𝐶
– LR source
• Bilinear法でHRデータをダウサンプリング:𝑥𝐿𝑅
𝑇
= 𝜁 𝑥𝐻𝑅
𝑇
, 1/𝑠𝑇 ∈ ℝ
𝐻𝑇
𝑠𝑇
×
𝑊𝑇
𝑠𝑇
×3
, 𝑤𝑖𝑡ℎ 𝑠𝑇 =
𝑠𝑐𝑎𝑙𝑒 𝑓𝑎𝑐𝑡𝑜𝑟
– HR target
• image: 𝜒𝑇
= 𝑥𝐻𝑅
𝑇,𝑚
𝑚=1
𝑁𝑇
, 𝑤𝑖𝑡ℎ 𝑥𝐻𝑅
𝑇,𝑚
∈ ℝ𝐻𝑇×𝑊𝑇×3
6
7. 提案手法の概要
• sourceはlabelがあるため、cross entropyで学習
• targetはpseudo labelで学習(distillation)
– ℒ𝑇
= ℒ𝑐𝑒 ො
𝑦𝐿𝑅
𝑇
, 𝑝𝐿𝑅
𝑇
, 𝑞𝐿𝑅
𝑇
• ො
𝑦𝐿𝑅
𝑇
= 𝑓𝜃 𝑥𝐿𝑅
𝑇
(𝑓𝜃: student network)
• 𝑝𝐿𝑅,𝑖𝑗𝑐
𝑇
= 𝑐 = arg max
𝑐′
𝑔𝜙 𝑥𝐿𝑅
𝑇
𝑖𝑗𝑐′ (𝑔𝜙: teacher network)
• 𝑞𝐿𝑅
𝑇
is confidence
• パラメータ更新: 𝜙𝑡+1 = 𝛼𝜙𝑡 + 1 − 𝛼 𝜃𝑡
• 提案手法のネットワークは、DAFormer[1]を利用
– 同じ著者らの論文(CVPR2022)
7
9. 提案手法の詳細
• Context and Detail Crop
– LR context crop: long-range context relationを抽出
• 入力画像から、ランダムに切り出す(離散一様分布)
• Bilinear downsampling
– HR detail crop: fine segmentation detailを抽出
• HRはLRの領域内に切り出す(離散一様分布)
– Weight shared encoder𝑓𝐸
とsemantic decoder
𝑓𝑆でsegmentation maskを推定
• GPUメモリとモデルのrobust性を考慮したため
– 推論(validation)する際は、sliding windowで画
像全域をカバー
9
出典: HRDA, ECCV2022
10. 提案手法の詳細
• Multi-Resolution Fusion
– Scale attentionでlong-range contextとdetail情報を融合
• HRとLRの推定結果から、信用できる結果を最終出力とする
• 𝑎𝑐 = 𝜎 𝑓𝑠
𝑓𝐴
𝑥𝑐 𝜖 0,1
ℎ𝑐
𝑜
×
𝑤𝑐
𝑜
×𝐶
(表記ミス?)
• 𝜎 𝑖𝑠 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛
• cropの領域に応じて、attention 𝑎′𝑐を生成
• 最終出力: ො
𝑦𝑐,𝐹 = 𝜁 1 − 𝑎′𝑐 ⨀ො
𝑦𝑐, 𝑠 + 𝜁 𝑎′𝑐, 𝑠 ⨀
𝑦′𝑑
– Loss function
• ℒ𝐻𝑅𝐷𝐴
𝑆
= 1 − 𝜆𝑑 ℒ𝑐𝑒 ො
𝑦𝑐,𝐹
𝑆
, 𝑦𝑐,𝐻𝑅
𝑆
, 1 + 𝜆𝑑ℒ𝑐𝑒 ො
𝑦𝑑
𝑆
, 𝑦𝑑
𝑆
, 1
• ℒ𝐻𝑅𝐷𝐴
𝑇
= 1 − 𝜆𝑑 ℒ𝑐𝑒 ො
𝑦𝑐,𝐹
𝑇
, 𝑝𝑐,𝐹
𝑇
, 𝑞𝑐,𝐹
𝑇
+ 𝜆𝑑ℒ𝑐𝑒 ො
𝑦𝑑
𝑇
, 𝑝𝑑
𝑇
, 𝑞𝑑
𝑇
• HR detail cropに対し、別途lossを計算:learn more
robust features
10
出典: HRDA, ECCV2022
11. 提案手法の詳細
• Pseudo-Label Generation with Overlapping Sliding Window
– Self-trainingにとって、pseudo labelの質が肝
– Pseudo label、sourceの最終出力と同様に作成
• ො
𝑦𝑐,𝐹
𝑇
= 𝜁 1 − 𝑎𝑐
𝑇 ⨀ො
𝑦𝑐
𝑇, 𝑠 + 𝜁 𝑎𝑐
𝑇, 𝑠 ⨀ො
𝑦𝑐,𝐻𝑅
𝑇
– LRの全域にො
𝑦𝑐,𝐻𝑅
𝑇
を推定
• Sliding windowで、LRをcrop。Stride= Τ
ℎ𝑑 2 × Τ
𝑤𝑑 2
• 平均をとって最終出力とする
• 各cropは並列で処理(1 batchとして推定)
• LRのcropも同様で、画像全体に対しで行う。Stride= Τ
𝑠ℎ𝑐 2 × Τ
𝑠𝑤𝑐 2
11
12. 実験設定
• Datasets:
– Target(実データ): Cityscapes
– Source(疑似データ): GTA5, Synthia
• Network構造
– DAFormer[1]をベース
– Scale attention: lightweight SegFormer MLP decoder[2] with an embedding
dimension of 256
– 比較対象:ResNet101 backbone + DeepLabV2 decoder
• 入力サイズ
– HR: 512×512
– LR: 1024×1024 → 512×512
– 既存手法の場合
• Cityscapes: 2048×1024 → 1024×512
• GTA5: 1914×1052 → 1280×720 12
15. 実験結果
• UDAにおける解像度とcrop sizeの影響を検証
– Dataset: GTA5→Cityscapes
– 入力データの解像度とcrop sizeが高ければ、性能が高い傾向
– UDAの方が、大きいcrop sizeによる貢献度が高い
• 大きいcrop sizeはより多いcontext情報を提供できる(当たり前)
• 特にgapを埋めにくいcategory(wall, fence, truck, bus, and train)に有効
– 解像度について、2つ手法への貢献度は同レベル
• 小物体に効果を発揮
15
16. 実験結果
• 大きいcontext crop sizeは、性能向上に貢献(Tab. 3)
• Detail crop sizeも同様な傾向(Tab. 4)
– 異なる解像度の入力をfusionすることで、性能を向上
– context情報はdetail cropにとって、肝ではないが、性能向上にはつながる
16
21. Reference
[1] Hoyer, L., Dai, D., Van Gool, L.: DAFormer: Improving network architectures and training strategies for domain-adaptive semantic segmentation. In:
CVPR (2022)
[2] Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J.M., Luo, P.: SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers.
In: NeurIPS (2021)
21