SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
DEEP LEARNING JP
[DL Papers]
HRDA: Context-Aware High-Resolution Domain-Adaptive
Semantic Segmentation
Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業)
http://deeplearning.jp/
1
書誌情報
• タイトル
– HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation
• 著者
– Lukas Hoyer1, Dengxin Dai2, and Luc Van Gool1,3
– 1ETH Zurich, 2MPI for Informatics, Germany, 3KU Leuven, Belgium
• ECCV2022に採択
• Paper
– https://arxiv.org/abs/2204.13132
• Code
– https://github.com/lhoyer/HRDA
2
論文概要
• 高解像度(HR)と低解像度(LR)入力を同時に考慮するUDA(unsupervised
domain adaptation) in semantic segmentation手法
– 従来は低解像度画像を入力とする
• Semantic segmentationのほか、DAのネットワークもあり、GPUメモリから、低解像度入力を採用
• long-range contextを対応(context情報や、シーンのlayoutはドメイン不変の傾向)
– 高解像度入力は、context detail情報を提供し、小物体や境界の推定に重要
– 提案手法は、HRとLRを効率よくfusionする手法を提案
• 提案手法のcontribution
– UDAにおける解像度による影響を検討(初)
– 小物体や細部の推定に、HRを利用
– scale attention機構を用い、複数解像度入力による学習
– 計算効率のため、nested context and detail cropを提案
3
既往研究
• Semantic segmentation
– 複数解像度を入力とする手法は既に提案されていた
1. 基本は、異なる解像度の中間特徴マップを利用(single/multiple scale input)
2. 推論する際、異なる解像度データを入力とし、結果を融合
– average/max poolingが適用。ただし、データ中身に依存しないため、異なる解像度の情報をうまく融合で
きていない
– 最近の解決策
• Scale attention的な機構で、データの中身により、最適な解像度の情報を利用
4
既往研究
• UDA
– 流派:adversarial trainingとself-training
• adversarial training: style transfer的な方法で、sourceをtargetに変換(domain shiftを再現)
• self-training: pseudo labelを生成し、targetの学習をガイド
– pseudo labelはノイジーであり、様々な改善策が提案されている
• 既存手法は、複数解像度の入力を視野に入れていなかった
5
提案手法の概要
• Preliminary
– HR source
• image: 𝜒𝑆
= 𝑥𝐻𝑅
𝑆,𝑚
𝑚=1
𝑁𝑠
, 𝑤𝑖𝑡ℎ 𝑥𝐻𝑅
𝑆,𝑚
∈ ℝ𝐻𝑠×𝑊𝑠×3
• label: 𝓎𝑆
= 𝑦𝐻𝑅
𝑆,𝑚
𝑚=1
𝑁𝑠
, 𝑤𝑖𝑡ℎ 𝑦𝐻𝑅
𝑆,𝑚
∈ 0,1 𝐻𝑠×𝑊𝑠×𝐶
– LR source
• Bilinear法でHRデータをダウサンプリング:𝑥𝐿𝑅
𝑇
= 𝜁 𝑥𝐻𝑅
𝑇
, 1/𝑠𝑇 ∈ ℝ
𝐻𝑇
𝑠𝑇
×
𝑊𝑇
𝑠𝑇
×3
, 𝑤𝑖𝑡ℎ 𝑠𝑇 =
𝑠𝑐𝑎𝑙𝑒 𝑓𝑎𝑐𝑡𝑜𝑟
– HR target
• image: 𝜒𝑇
= 𝑥𝐻𝑅
𝑇,𝑚
𝑚=1
𝑁𝑇
, 𝑤𝑖𝑡ℎ 𝑥𝐻𝑅
𝑇,𝑚
∈ ℝ𝐻𝑇×𝑊𝑇×3
6
提案手法の概要
• sourceはlabelがあるため、cross entropyで学習
• targetはpseudo labelで学習(distillation)
– ℒ𝑇
= ℒ𝑐𝑒 ො
𝑦𝐿𝑅
𝑇
, 𝑝𝐿𝑅
𝑇
, 𝑞𝐿𝑅
𝑇
• ො
𝑦𝐿𝑅
𝑇
= 𝑓𝜃 𝑥𝐿𝑅
𝑇
(𝑓𝜃: student network)
• 𝑝𝐿𝑅,𝑖𝑗𝑐
𝑇
= 𝑐 = arg max
𝑐′
𝑔𝜙 𝑥𝐿𝑅
𝑇
𝑖𝑗𝑐′ (𝑔𝜙: teacher network)
• 𝑞𝐿𝑅
𝑇
is confidence
• パラメータ更新: 𝜙𝑡+1 = 𝛼𝜙𝑡 + 1 − 𝛼 𝜃𝑡
• 提案手法のネットワークは、DAFormer[1]を利用
– 同じ著者らの論文(CVPR2022)
7
DAFormerの概要
• Transformerベースencoderをbackboneにし、汎化性能を向上
– EncoderはSegFormer[2]をベース
– DecoderはASPP的に、featureを融合
• Rare Class Sampling: rare classをサンプリングする確率を高める(各epochの早い段階に
rare classを学習するように)
• Thing-Class ImageNet Feature Distance:
– ImageNet pre-trained featureはsegmentationのclassと関連。ただし、学習につれ、そのfeatureを捨てた
– Segmentation特徴(class毎にmaskする)とImageNet pre-trained featureの距離を測る
8
出典: DAFormer,CVPR2022
提案手法の詳細
• Context and Detail Crop
– LR context crop: long-range context relationを抽出
• 入力画像から、ランダムに切り出す(離散一様分布)
• Bilinear downsampling
– HR detail crop: fine segmentation detailを抽出
• HRはLRの領域内に切り出す(離散一様分布)
– Weight shared encoder𝑓𝐸
とsemantic decoder
𝑓𝑆でsegmentation maskを推定
• GPUメモリとモデルのrobust性を考慮したため
– 推論(validation)する際は、sliding windowで画
像全域をカバー
9
出典: HRDA, ECCV2022
提案手法の詳細
• Multi-Resolution Fusion
– Scale attentionでlong-range contextとdetail情報を融合
• HRとLRの推定結果から、信用できる結果を最終出力とする
• 𝑎𝑐 = 𝜎 𝑓𝑠
𝑓𝐴
𝑥𝑐 𝜖 0,1
ℎ𝑐
𝑜
×
𝑤𝑐
𝑜
×𝐶
(表記ミス?)
• 𝜎 𝑖𝑠 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛
• cropの領域に応じて、attention 𝑎′𝑐を生成
• 最終出力: ො
𝑦𝑐,𝐹 = 𝜁 1 − 𝑎′𝑐 ⨀ො
𝑦𝑐, 𝑠 + 𝜁 𝑎′𝑐, 𝑠 ⨀෡
𝑦′𝑑
– Loss function
• ℒ𝐻𝑅𝐷𝐴
𝑆
= 1 − 𝜆𝑑 ℒ𝑐𝑒 ො
𝑦𝑐,𝐹
𝑆
, 𝑦𝑐,𝐻𝑅
𝑆
, 1 + 𝜆𝑑ℒ𝑐𝑒 ො
𝑦𝑑
𝑆
, 𝑦𝑑
𝑆
, 1
• ℒ𝐻𝑅𝐷𝐴
𝑇
= 1 − 𝜆𝑑 ℒ𝑐𝑒 ො
𝑦𝑐,𝐹
𝑇
, 𝑝𝑐,𝐹
𝑇
, 𝑞𝑐,𝐹
𝑇
+ 𝜆𝑑ℒ𝑐𝑒 ො
𝑦𝑑
𝑇
, 𝑝𝑑
𝑇
, 𝑞𝑑
𝑇
• HR detail cropに対し、別途lossを計算:learn more
robust features
10
出典: HRDA, ECCV2022
提案手法の詳細
• Pseudo-Label Generation with Overlapping Sliding Window
– Self-trainingにとって、pseudo labelの質が肝
– Pseudo label、sourceの最終出力と同様に作成
• ො
𝑦𝑐,𝐹
𝑇
= 𝜁 1 − 𝑎𝑐
𝑇 ⨀ො
𝑦𝑐
𝑇, 𝑠 + 𝜁 𝑎𝑐
𝑇, 𝑠 ⨀ො
𝑦𝑐,𝐻𝑅
𝑇
– LRの全域にො
𝑦𝑐,𝐻𝑅
𝑇
を推定
• Sliding windowで、LRをcrop。Stride= Τ
ℎ𝑑 2 × Τ
𝑤𝑑 2
• 平均をとって最終出力とする
• 各cropは並列で処理(1 batchとして推定)
• LRのcropも同様で、画像全体に対しで行う。Stride= Τ
𝑠ℎ𝑐 2 × Τ
𝑠𝑤𝑐 2
11
実験設定
• Datasets:
– Target(実データ): Cityscapes
– Source(疑似データ): GTA5, Synthia
• Network構造
– DAFormer[1]をベース
– Scale attention: lightweight SegFormer MLP decoder[2] with an embedding
dimension of 256
– 比較対象:ResNet101 backbone + DeepLabV2 decoder
• 入力サイズ
– HR: 512×512
– LR: 1024×1024 → 512×512
– 既存手法の場合
• Cityscapes: 2048×1024 → 1024×512
• GTA5: 1914×1052 → 1280×720 12
実験結果
• 既存SOTAとの比較
– DAFormerより5%程度改善
• 特に小物体では効果が顕著
13
実験結果
• 提案手法は他のUDA手法に適用可能
• その適用結果を評価
– 提案手法は他のUDA手法にも効果を発揮
14
実験結果
• UDAにおける解像度とcrop sizeの影響を検証
– Dataset: GTA5→Cityscapes
– 入力データの解像度とcrop sizeが高ければ、性能が高い傾向
– UDAの方が、大きいcrop sizeによる貢献度が高い
• 大きいcrop sizeはより多いcontext情報を提供できる(当たり前)
• 特にgapを埋めにくいcategory(wall, fence, truck, bus, and train)に有効
– 解像度について、2つ手法への貢献度は同レベル
• 小物体に効果を発揮
15
実験結果
• 大きいcontext crop sizeは、性能向上に貢献(Tab. 3)
• Detail crop sizeも同様な傾向(Tab. 4)
– 異なる解像度の入力をfusionすることで、性能を向上
– context情報はdetail cropにとって、肝ではないが、性能向上にはつながる
16
実験結果
• 提案するmulti-resolution fusionは、zoom-in context情報だけでなく、高解
像のdetail情報も学習することで、性能を向上
• 高解像度入力のみで学習するモデルと比較した結果、fusionするころで、同
程度なGPUメモリを消費し、性能を向上
– batch sizeは言及せず
17
実験結果
• Ablation Study
– 提案手法の有効性を確認
– Learnable scale attentionが最も性能に寄与
18
定性評価
• LRは大きい物体に、HRは小物体に注目することを確認
19
まとめ
• 本論文は、異なる解像度の入力データをfusionするUDA手法を提案
– LRからlong-range context情報を、HRからdetail情報を学習
– Scale attention機構で両方をfusion
– GPUメモリを抑え、高い性能を達成
• 所感
– 割とシンプルな方法を提案
– 処理速度が気になる
20
Reference
[1] Hoyer, L., Dai, D., Van Gool, L.: DAFormer: Improving network architectures and training strategies for domain-adaptive semantic segmentation. In:
CVPR (2022)
[2] Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J.M., Luo, P.: SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers.
In: NeurIPS (2021)
21

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 

Ähnlich wie 【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022)

ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
MITSUNARI Shigeo
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
 

Ähnlich wie 【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022) (20)

[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
 
Code Reading at Security and Programming camp 2011
Code Reading at Security and Programming camp 2011 Code Reading at Security and Programming camp 2011
Code Reading at Security and Programming camp 2011
 
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
ElGamal型暗号文に対する任意関数演算・再暗号化の二者間秘密計算プロトコルとその応用
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
Deep Learning Chap. 12: Applications
Deep Learning Chap. 12: ApplicationsDeep Learning Chap. 12: Applications
Deep Learning Chap. 12: Applications
 
全体セミナー20180124 final
全体セミナー20180124 final全体セミナー20180124 final
全体セミナー20180124 final
 
CEDEC 2012 コンピュータ・グラフィクス関連の最新論文紹介~Modular Radiance Transfer法の解説~
CEDEC 2012 コンピュータ・グラフィクス関連の最新論文紹介~Modular Radiance Transfer法の解説~CEDEC 2012 コンピュータ・グラフィクス関連の最新論文紹介~Modular Radiance Transfer法の解説~
CEDEC 2012 コンピュータ・グラフィクス関連の最新論文紹介~Modular Radiance Transfer法の解説~
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
20130228 Goノススメ(BPStudy #66)
20130228 Goノススメ(BPStudy #66)20130228 Goノススメ(BPStudy #66)
20130228 Goノススメ(BPStudy #66)
 
【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution
【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution
【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution
 
Retrieva seminar jelinek_20180822
Retrieva seminar jelinek_20180822Retrieva seminar jelinek_20180822
Retrieva seminar jelinek_20180822
 
Programming camp 2008, Codereading
Programming camp 2008, CodereadingProgramming camp 2008, Codereading
Programming camp 2008, Codereading
 
Fast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingFast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewriting
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
 

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

【DL輪読会】HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation(ECCV2022)

  • 1. DEEP LEARNING JP [DL Papers] HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1
  • 2. 書誌情報 • タイトル – HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation • 著者 – Lukas Hoyer1, Dengxin Dai2, and Luc Van Gool1,3 – 1ETH Zurich, 2MPI for Informatics, Germany, 3KU Leuven, Belgium • ECCV2022に採択 • Paper – https://arxiv.org/abs/2204.13132 • Code – https://github.com/lhoyer/HRDA 2
  • 3. 論文概要 • 高解像度(HR)と低解像度(LR)入力を同時に考慮するUDA(unsupervised domain adaptation) in semantic segmentation手法 – 従来は低解像度画像を入力とする • Semantic segmentationのほか、DAのネットワークもあり、GPUメモリから、低解像度入力を採用 • long-range contextを対応(context情報や、シーンのlayoutはドメイン不変の傾向) – 高解像度入力は、context detail情報を提供し、小物体や境界の推定に重要 – 提案手法は、HRとLRを効率よくfusionする手法を提案 • 提案手法のcontribution – UDAにおける解像度による影響を検討(初) – 小物体や細部の推定に、HRを利用 – scale attention機構を用い、複数解像度入力による学習 – 計算効率のため、nested context and detail cropを提案 3
  • 4. 既往研究 • Semantic segmentation – 複数解像度を入力とする手法は既に提案されていた 1. 基本は、異なる解像度の中間特徴マップを利用(single/multiple scale input) 2. 推論する際、異なる解像度データを入力とし、結果を融合 – average/max poolingが適用。ただし、データ中身に依存しないため、異なる解像度の情報をうまく融合で きていない – 最近の解決策 • Scale attention的な機構で、データの中身により、最適な解像度の情報を利用 4
  • 5. 既往研究 • UDA – 流派:adversarial trainingとself-training • adversarial training: style transfer的な方法で、sourceをtargetに変換(domain shiftを再現) • self-training: pseudo labelを生成し、targetの学習をガイド – pseudo labelはノイジーであり、様々な改善策が提案されている • 既存手法は、複数解像度の入力を視野に入れていなかった 5
  • 6. 提案手法の概要 • Preliminary – HR source • image: 𝜒𝑆 = 𝑥𝐻𝑅 𝑆,𝑚 𝑚=1 𝑁𝑠 , 𝑤𝑖𝑡ℎ 𝑥𝐻𝑅 𝑆,𝑚 ∈ ℝ𝐻𝑠×𝑊𝑠×3 • label: 𝓎𝑆 = 𝑦𝐻𝑅 𝑆,𝑚 𝑚=1 𝑁𝑠 , 𝑤𝑖𝑡ℎ 𝑦𝐻𝑅 𝑆,𝑚 ∈ 0,1 𝐻𝑠×𝑊𝑠×𝐶 – LR source • Bilinear法でHRデータをダウサンプリング:𝑥𝐿𝑅 𝑇 = 𝜁 𝑥𝐻𝑅 𝑇 , 1/𝑠𝑇 ∈ ℝ 𝐻𝑇 𝑠𝑇 × 𝑊𝑇 𝑠𝑇 ×3 , 𝑤𝑖𝑡ℎ 𝑠𝑇 = 𝑠𝑐𝑎𝑙𝑒 𝑓𝑎𝑐𝑡𝑜𝑟 – HR target • image: 𝜒𝑇 = 𝑥𝐻𝑅 𝑇,𝑚 𝑚=1 𝑁𝑇 , 𝑤𝑖𝑡ℎ 𝑥𝐻𝑅 𝑇,𝑚 ∈ ℝ𝐻𝑇×𝑊𝑇×3 6
  • 7. 提案手法の概要 • sourceはlabelがあるため、cross entropyで学習 • targetはpseudo labelで学習(distillation) – ℒ𝑇 = ℒ𝑐𝑒 ො 𝑦𝐿𝑅 𝑇 , 𝑝𝐿𝑅 𝑇 , 𝑞𝐿𝑅 𝑇 • ො 𝑦𝐿𝑅 𝑇 = 𝑓𝜃 𝑥𝐿𝑅 𝑇 (𝑓𝜃: student network) • 𝑝𝐿𝑅,𝑖𝑗𝑐 𝑇 = 𝑐 = arg max 𝑐′ 𝑔𝜙 𝑥𝐿𝑅 𝑇 𝑖𝑗𝑐′ (𝑔𝜙: teacher network) • 𝑞𝐿𝑅 𝑇 is confidence • パラメータ更新: 𝜙𝑡+1 = 𝛼𝜙𝑡 + 1 − 𝛼 𝜃𝑡 • 提案手法のネットワークは、DAFormer[1]を利用 – 同じ著者らの論文(CVPR2022) 7
  • 8. DAFormerの概要 • Transformerベースencoderをbackboneにし、汎化性能を向上 – EncoderはSegFormer[2]をベース – DecoderはASPP的に、featureを融合 • Rare Class Sampling: rare classをサンプリングする確率を高める(各epochの早い段階に rare classを学習するように) • Thing-Class ImageNet Feature Distance: – ImageNet pre-trained featureはsegmentationのclassと関連。ただし、学習につれ、そのfeatureを捨てた – Segmentation特徴(class毎にmaskする)とImageNet pre-trained featureの距離を測る 8 出典: DAFormer,CVPR2022
  • 9. 提案手法の詳細 • Context and Detail Crop – LR context crop: long-range context relationを抽出 • 入力画像から、ランダムに切り出す(離散一様分布) • Bilinear downsampling – HR detail crop: fine segmentation detailを抽出 • HRはLRの領域内に切り出す(離散一様分布) – Weight shared encoder𝑓𝐸 とsemantic decoder 𝑓𝑆でsegmentation maskを推定 • GPUメモリとモデルのrobust性を考慮したため – 推論(validation)する際は、sliding windowで画 像全域をカバー 9 出典: HRDA, ECCV2022
  • 10. 提案手法の詳細 • Multi-Resolution Fusion – Scale attentionでlong-range contextとdetail情報を融合 • HRとLRの推定結果から、信用できる結果を最終出力とする • 𝑎𝑐 = 𝜎 𝑓𝑠 𝑓𝐴 𝑥𝑐 𝜖 0,1 ℎ𝑐 𝑜 × 𝑤𝑐 𝑜 ×𝐶 (表記ミス?) • 𝜎 𝑖𝑠 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛 • cropの領域に応じて、attention 𝑎′𝑐を生成 • 最終出力: ො 𝑦𝑐,𝐹 = 𝜁 1 − 𝑎′𝑐 ⨀ො 𝑦𝑐, 𝑠 + 𝜁 𝑎′𝑐, 𝑠 ⨀෡ 𝑦′𝑑 – Loss function • ℒ𝐻𝑅𝐷𝐴 𝑆 = 1 − 𝜆𝑑 ℒ𝑐𝑒 ො 𝑦𝑐,𝐹 𝑆 , 𝑦𝑐,𝐻𝑅 𝑆 , 1 + 𝜆𝑑ℒ𝑐𝑒 ො 𝑦𝑑 𝑆 , 𝑦𝑑 𝑆 , 1 • ℒ𝐻𝑅𝐷𝐴 𝑇 = 1 − 𝜆𝑑 ℒ𝑐𝑒 ො 𝑦𝑐,𝐹 𝑇 , 𝑝𝑐,𝐹 𝑇 , 𝑞𝑐,𝐹 𝑇 + 𝜆𝑑ℒ𝑐𝑒 ො 𝑦𝑑 𝑇 , 𝑝𝑑 𝑇 , 𝑞𝑑 𝑇 • HR detail cropに対し、別途lossを計算:learn more robust features 10 出典: HRDA, ECCV2022
  • 11. 提案手法の詳細 • Pseudo-Label Generation with Overlapping Sliding Window – Self-trainingにとって、pseudo labelの質が肝 – Pseudo label、sourceの最終出力と同様に作成 • ො 𝑦𝑐,𝐹 𝑇 = 𝜁 1 − 𝑎𝑐 𝑇 ⨀ො 𝑦𝑐 𝑇, 𝑠 + 𝜁 𝑎𝑐 𝑇, 𝑠 ⨀ො 𝑦𝑐,𝐻𝑅 𝑇 – LRの全域にො 𝑦𝑐,𝐻𝑅 𝑇 を推定 • Sliding windowで、LRをcrop。Stride= Τ ℎ𝑑 2 × Τ 𝑤𝑑 2 • 平均をとって最終出力とする • 各cropは並列で処理(1 batchとして推定) • LRのcropも同様で、画像全体に対しで行う。Stride= Τ 𝑠ℎ𝑐 2 × Τ 𝑠𝑤𝑐 2 11
  • 12. 実験設定 • Datasets: – Target(実データ): Cityscapes – Source(疑似データ): GTA5, Synthia • Network構造 – DAFormer[1]をベース – Scale attention: lightweight SegFormer MLP decoder[2] with an embedding dimension of 256 – 比較対象:ResNet101 backbone + DeepLabV2 decoder • 入力サイズ – HR: 512×512 – LR: 1024×1024 → 512×512 – 既存手法の場合 • Cityscapes: 2048×1024 → 1024×512 • GTA5: 1914×1052 → 1280×720 12
  • 15. 実験結果 • UDAにおける解像度とcrop sizeの影響を検証 – Dataset: GTA5→Cityscapes – 入力データの解像度とcrop sizeが高ければ、性能が高い傾向 – UDAの方が、大きいcrop sizeによる貢献度が高い • 大きいcrop sizeはより多いcontext情報を提供できる(当たり前) • 特にgapを埋めにくいcategory(wall, fence, truck, bus, and train)に有効 – 解像度について、2つ手法への貢献度は同レベル • 小物体に効果を発揮 15
  • 16. 実験結果 • 大きいcontext crop sizeは、性能向上に貢献(Tab. 3) • Detail crop sizeも同様な傾向(Tab. 4) – 異なる解像度の入力をfusionすることで、性能を向上 – context情報はdetail cropにとって、肝ではないが、性能向上にはつながる 16
  • 17. 実験結果 • 提案するmulti-resolution fusionは、zoom-in context情報だけでなく、高解 像のdetail情報も学習することで、性能を向上 • 高解像度入力のみで学習するモデルと比較した結果、fusionするころで、同 程度なGPUメモリを消費し、性能を向上 – batch sizeは言及せず 17
  • 18. 実験結果 • Ablation Study – 提案手法の有効性を確認 – Learnable scale attentionが最も性能に寄与 18
  • 20. まとめ • 本論文は、異なる解像度の入力データをfusionするUDA手法を提案 – LRからlong-range context情報を、HRからdetail情報を学習 – Scale attention機構で両方をfusion – GPUメモリを抑え、高い性能を達成 • 所感 – 割とシンプルな方法を提案 – 処理速度が気になる 20
  • 21. Reference [1] Hoyer, L., Dai, D., Van Gool, L.: DAFormer: Improving network architectures and training strategies for domain-adaptive semantic segmentation. In: CVPR (2022) [2] Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J.M., Luo, P.: SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers. In: NeurIPS (2021) 21