【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022)

DEEP LEARNING JP
[DL Papers]
HRDA: Context-Aware High-Resolution Domain-Adaptive
Semantic Segmentation
Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業)
http://deeplearning.jp/
1

書誌情報
• タイトル
– HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation
• 著者
– Lukas Hoyer1, Dengxin Dai2, and Luc Van Gool1,3
– 1ETH Zurich, 2MPI for Informatics, Germany, 3KU Leuven, Belgium
• ECCV2022に採択
• Paper
– https://arxiv.org/abs/2204.13132
• Code
– https://github.com/lhoyer/HRDA
2

論文概要
• 高解像度（HR）と低解像度(LR)入力を同時に考慮するUDA(unsupervised
domain adaptation) in semantic segmentation手法
– 従来は低解像度画像を入力とする
• Semantic segmentationのほか、DAのネットワークもあり、GPUメモリから、低解像度入力を採用
• long-range contextを対応（context情報や、シーンのlayoutはドメイン不変の傾向）
– 高解像度入力は、context detail情報を提供し、小物体や境界の推定に重要
– 提案手法は、HRとLRを効率よくfusionする手法を提案
• 提案手法のcontribution
– UDAにおける解像度による影響を検討（初）
– 小物体や細部の推定に、ＨＲを利用
– scale attention機構を用い、複数解像度入力による学習
– 計算効率のため、nested context and detail cropを提案
3

既往研究
• Semantic segmentation
– 複数解像度を入力とする手法は既に提案されていた
1. 基本は、異なる解像度の中間特徴マップを利用(single/multiple scale input)
2. 推論する際、異なる解像度データを入力とし、結果を融合
– average/max poolingが適用。ただし、データ中身に依存しないため、異なる解像度の情報をうまく融合で
きていない
– 最近の解決策
• Scale attention的な機構で、データの中身により、最適な解像度の情報を利用
4

既往研究
• UDA
– 流派：adversarial trainingとself-training
• adversarial training: style transfer的な方法で、sourceをtargetに変換（domain shiftを再現）
• self-training: pseudo labelを生成し、targetの学習をガイド
– pseudo labelはノイジーであり、様々な改善策が提案されている
• 既存手法は、複数解像度の入力を視野に入れていなかった
5

提案手法の概要
• Preliminary
– HR source
• image: 𝜒𝑆
= 𝑥𝐻𝑅
𝑆,𝑚
𝑚=1
𝑁𝑠
, 𝑤𝑖𝑡ℎ 𝑥𝐻𝑅
𝑆,𝑚
∈ ℝ𝐻𝑠×𝑊𝑠×3
• label: 𝓎𝑆
= 𝑦𝐻𝑅
𝑆,𝑚
𝑚=1
𝑁𝑠
, 𝑤𝑖𝑡ℎ 𝑦𝐻𝑅
𝑆,𝑚
∈ 0,1 𝐻𝑠×𝑊𝑠×𝐶
– LR source
• Bilinear法でHRデータをダウサンプリング：𝑥𝐿𝑅
𝑇
= 𝜁 𝑥𝐻𝑅
𝑇
, 1/𝑠𝑇 ∈ ℝ
𝐻𝑇
𝑠𝑇
×
𝑊𝑇
𝑠𝑇
×3
, 𝑤𝑖𝑡ℎ 𝑠𝑇 =
𝑠𝑐𝑎𝑙𝑒 𝑓𝑎𝑐𝑡𝑜𝑟
– HR target
• image: 𝜒𝑇
= 𝑥𝐻𝑅
𝑇,𝑚
𝑚=1
𝑁𝑇
, 𝑤𝑖𝑡ℎ 𝑥𝐻𝑅
𝑇,𝑚
∈ ℝ𝐻𝑇×𝑊𝑇×3
6

提案手法の概要
• sourceはlabelがあるため、cross entropyで学習
• targetはpseudo labelで学習（distillation）
– ℒ𝑇
= ℒ𝑐𝑒 ො
𝑦𝐿𝑅
𝑇
, 𝑝𝐿𝑅
𝑇
, 𝑞𝐿𝑅
𝑇
• ො
𝑦𝐿𝑅
𝑇
= 𝑓𝜃 𝑥𝐿𝑅
𝑇
(𝑓𝜃: student network)
• 𝑝𝐿𝑅,𝑖𝑗𝑐
𝑇
= 𝑐 = arg max
𝑐′
𝑔𝜙 𝑥𝐿𝑅
𝑇
𝑖𝑗𝑐′ (𝑔𝜙: teacher network)
• 𝑞𝐿𝑅
𝑇
is confidence
• パラメータ更新： 𝜙𝑡+1 = 𝛼𝜙𝑡 + 1 − 𝛼 𝜃𝑡
• 提案手法のネットワークは、DAFormer[1]を利用
– 同じ著者らの論文（CVPR2022）
7

DAFormerの概要
• Transformerベースencoderをbackboneにし、汎化性能を向上
– EncoderはSegFormer[2]をベース
– DecoderはASPP的に、featureを融合
• Rare Class Sampling: rare classをサンプリングする確率を高める（各epochの早い段階に
rare classを学習するように）
• Thing-Class ImageNet Feature Distance:
– ImageNet pre-trained featureはsegmentationのclassと関連。ただし、学習につれ、そのfeatureを捨てた
– Segmentation特徴（class毎にmaskする）とImageNet pre-trained featureの距離を測る
8
出典: DAFormer,CVPR2022

提案手法の詳細
• Context and Detail Crop
– LR context crop: long-range context relationを抽出
• 入力画像から、ランダムに切り出す（離散一様分布）
• Bilinear downsampling
– HR detail crop: fine segmentation detailを抽出
• HRはLRの領域内に切り出す（離散一様分布）
– Weight shared encoder𝑓𝐸
とsemantic decoder
𝑓𝑆でsegmentation maskを推定
• GPUメモリとモデルのrobust性を考慮したため
– 推論(validation)する際は、sliding windowで画
像全域をカバー
9
出典: HRDA, ECCV2022

• Multi-Resolution Fusion
– Scale attentionでlong-range contextとdetail情報を融合
• HRとLRの推定結果から、信用できる結果を最終出力とする
• 𝑎𝑐 = 𝜎 𝑓𝑠
𝑓𝐴
𝑥𝑐 𝜖 0,1
ℎ𝑐
𝑜
×
𝑤𝑐
𝑜
×𝐶
(表記ミス？)
• 𝜎 𝑖𝑠 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛
• cropの領域に応じて、attention 𝑎′𝑐を生成
• 最終出力: ො
𝑦𝑐,𝐹 = 𝜁 1 − 𝑎′𝑐 ⨀ො
𝑦𝑐, 𝑠 + 𝜁 𝑎′𝑐, 𝑠 ⨀෡
𝑦′𝑑
– Loss function
• ℒ𝐻𝑅𝐷𝐴
𝑆
= 1 − 𝜆𝑑 ℒ𝑐𝑒 ො
𝑦𝑐,𝐹
𝑆
, 𝑦𝑐,𝐻𝑅
𝑆
, 1 + 𝜆𝑑ℒ𝑐𝑒 ො
𝑦𝑑
𝑆
, 𝑦𝑑
𝑆
, 1
• ℒ𝐻𝑅𝐷𝐴
𝑇
= 1 − 𝜆𝑑 ℒ𝑐𝑒 ො
𝑦𝑐,𝐹
𝑇
, 𝑝𝑐,𝐹
𝑇
, 𝑞𝑐,𝐹
𝑇
+ 𝜆𝑑ℒ𝑐𝑒 ො
𝑦𝑑
𝑇
, 𝑝𝑑
𝑇
, 𝑞𝑑
𝑇
• HR detail cropに対し、別途lossを計算：learn more
robust features
10
出典: HRDA, ECCV2022

• Pseudo-Label Generation with Overlapping Sliding Window
– Self-trainingにとって、pseudo labelの質が肝
– Pseudo label、sourceの最終出力と同様に作成
• ො
𝑦𝑐,𝐹
𝑇
= 𝜁 1 − 𝑎𝑐
𝑇 ⨀ො
𝑦𝑐
𝑇, 𝑠 + 𝜁 𝑎𝑐
𝑇, 𝑠 ⨀ො
𝑦𝑐,𝐻𝑅
𝑇
– LRの全域にො
𝑦𝑐,𝐻𝑅
𝑇
を推定
• Sliding windowで、LＲをcrop。Stride= Τ
ℎ𝑑 2 × Τ
𝑤𝑑 2
• 平均をとって最終出力とする
• 各cropは並列で処理(1 batchとして推定)
• ＬＲのcropも同様で、画像全体に対しで行う。Stride= Τ
𝑠ℎ𝑐 2 × Τ
𝑠𝑤𝑐 2
11

実験設定
• Datasets:
– Target（実データ）: Cityscapes
– Source（疑似データ）: GTA5, Synthia
• Network構造
– DAFormer[1]をベース
– Scale attention: lightweight SegFormer MLP decoder[2] with an embedding
dimension of 256
– 比較対象：ResNet101 backbone + DeepLabV2 decoder
• 入力サイズ
– HR: 512×512
– LR: 1024×1024 → 512×512
– 既存手法の場合
• Cityscapes: 2048×1024 → 1024×512
• GTA5: 1914×1052 → 1280×720 12

実験結果
• 既存SOTAとの比較
– DAFormerより5％程度改善
• 特に小物体では効果が顕著
13

実験結果
• 提案手法は他のUDA手法に適用可能
• その適用結果を評価
– 提案手法は他のＵＤＡ手法にも効果を発揮
14

実験結果
• UDAにおける解像度とcrop sizeの影響を検証
– Dataset: GTA5→Cityscapes
– 入力データの解像度とcrop sizeが高ければ、性能が高い傾向
– UDAの方が、大きいcrop sizeによる貢献度が高い
• 大きいcrop sizeはより多いcontext情報を提供できる（当たり前）
• 特にgapを埋めにくいcategory(wall, fence, truck, bus, and train)に有効
– 解像度について、２つ手法への貢献度は同レベル
• 小物体に効果を発揮
15

実験結果
• 大きいcontext crop sizeは、性能向上に貢献(Tab. 3)
• Detail crop sizeも同様な傾向(Tab. 4)
– 異なる解像度の入力をfusionすることで、性能を向上
– context情報はdetail cropにとって、肝ではないが、性能向上にはつながる
16

実験結果
• 提案するmulti-resolution fusionは、zoom-in context情報だけでなく、高解
像のdetail情報も学習することで、性能を向上
• 高解像度入力のみで学習するモデルと比較した結果、fusionするころで、同
程度なGPUメモリを消費し、性能を向上
– batch sizeは言及せず
17

実験結果
• Ablation Study
– 提案手法の有効性を確認
– Learnable scale attentionが最も性能に寄与
18

定性評価
• LRは大きい物体に、HRは小物体に注目することを確認
19

まとめ
• 本論文は、異なる解像度の入力データをfusionするUDA手法を提案
– LRからlong-range context情報を、HRからdetail情報を学習
– Scale attention機構で両方をfusion
– GPUメモリを抑え、高い性能を達成
• 所感
– 割とシンプルな方法を提案
– 処理速度が気になる
20

Reference
[1] Hoyer, L., Dai, D., Van Gool, L.: DAFormer: Improving network architectures and training strategies for domain-adaptive semantic segmentation. In:
CVPR (2022)
[2] Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J.M., Luo, P.: SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers.
In: NeurIPS (2021)
21

【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022)

Ähnlich wie 【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022) (20)

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022)