【DL輪読会】ViT + Self Supervised Learningまとめ

Deep Learning JP
Deep Learning JPDeep Learning JP
DEEP LEARNING JP
[DL Papers]
ViT + Self Supervised Learningまとめ
発表者:岩澤有祐
http://deeplearning.jp/
発表概要
• ViTをSelf Supervised Learningで使う研究が立て続けに発表されている.
– “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, ICLR2021
– “Self-Supervised Learning with Swin Transformers”, 2021 (arxiv)
– “Emerging Properties in Self-Supervised Vision Transformers”, ICCV2021
– “An Empirical Study of Training Self-Supervised Vision Transformers”, ICCV2021
– “Self-supervised Models are Good Teaching Assistants for Vision Transformers”, ICLR2022 (Under
review, 8, 8, 6, 3)
– “Efficient Self-supervised Vision Transformers for Representation Learning”, ICLR2022 (Under
review, 8, 8, 6)
– “BEiT: BERT Pre-Training of Image Transformers”, ICLR2022 (Under review, 8, 8, 8, 8)
– “Image BERT Pre-training with Online Tokenizer”, ICLR2022 (Under review, 8, 6, 6)
– “Masked Autoencoders Aer Scalable Vision Learners”, 2021 (arxiv)
• 背景を踏まえながら10個の手法について紹介.
– ViTの詳細等は過去資料を参考にしてください
– 岩澤資料,小林さん資料
2
余談 (ICLR2022投稿中のViT系論文)
• “RegionViT: Regional-to-Local Attention for Vision Transformers” (6, 6, 6)
• “On Improving Adversarial Transferability of Vision Transformers”, (8, 6, 6, 6)
• “CrossFormer: A Versatile Vision Transformer Hinging on Cross-scale Attention”, (8, 6, 6, 5)
• “EViT: Expediting Vision Transformers via Token Reorganization”, (8, 8, 6, 6)
• “When Vision Transformers Outperform ResNets without Pre-training or Strong Data Augmentations”,
(8, 8, 8, 6, 5)
• “Dynamic Token Normalization improves Vision Transformers” (6, 6, 5, 5)
• “Token Pooling in Vision Transformers”, (8, 5, 5)
• “Quadtree Attention for Vision Transformers”, (6, 5, 8, 6)
• “ViTGAN: Training GANs with Vision Transformers”, (6, 5, 6, 6, 6)
• “How Do Vision Transformers Work?”, (8, 8, 5, 8)
• “On the Adversarial Robustness of Vision Transformers”, (5, 5, 5, 5)
• “Auto-scaling Vision Transformers without Training”, (8, 6, 5)
• “RegionViT: Regional-to-Local Attention for Vision Transformers”, (6, 6, 6, 6)
• “RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning” (5, 8, 6)
3
教師なし表現学習 (Unsupervised Representation Learning)
• 教師あり表現学習
– 興味のあるタスクラベルが事前にわかっている
– 例:Image Net
– こういう問題設定では、すでに人間を超える精度
• 教師なし表現学習
– 興味のあるタスクラベルは事前にわかっていない
– 再利用可能な表現を観測からどう見つけるか
4
再構成による教師なし表現学習
• 右のような生成過程を考える
• log 𝑝 𝑥 = 𝑝 𝑥 𝑧 𝑑𝑧
• 良い生成を与えるような表現を学習する
• VAE系やGAN系など多数
– [Kingma+ 14] VAE
– [Donahue+ 17] bidirectional GAN
– [Dumoulin+ 17] adversarial learned inference
5
𝑥
𝑧
Large Scale Adversarial Representation Learning, NeurIPS2019
6
Jeff Donahue, Karen Simonyan, DeepMind
• 左上:提案手法
• 左下:Image Net、教師なしで当
時SoTA(61.3%)
• 右上:生成画像もきれい
(Unconditional)
Masked Language Modelと自己教師あり学習
7
① Language Model (LM, 言語モデル) ② Masked Language Model
大規模DNN 大規模DNN
Input: Language models determine
Output: word probability
by analyzing text data
Input: Language models determine [mask]
[mask] by [mask] text data
Input: Language models determine word
probability by analyzing text data
Original: Language models determine word probability by analyzing text data
原文を入力と予測対象に分割
自分(の一部)から自分を予測するため,自己教師あり学習とも呼ばれる
その他の自己教師あり学習
8
① Context Encoder ② Jigsaw
③ Future Prediction ④ Cross View
対照推定 (Contrastive Learning)
9
ある画像AとBが似ているかどうかを判定 良い性能を発揮している手法の多くが対照推
定ベース
具体例:SimCLR [Chen+2020]
14
正例:同じ画像を異なるデータ
拡張して得られた表現のペア
負例:別画像との表現
対照推定のその後の発展
15
ImageNet Top-1 Acc Top-1 vs. #Params Transfer
アルゴリズム的な改良 巨大化 転移性能
対照推定系のTricks
• 目的関数
– いろいろある.InfoNCEなど.
• ネガティブサンプルの選び方
– 基本はBatch sizeを大きくしてバッチ内で選ぶ.
– Memory bank, memory queueなどを使う.
– Supervised Contrastive Learningというものもある.
• Momentum encoder
– Target表現用のエンコーダを元のエンコーダの移動平均にする
• Multi-crop augmentation
– SwAVで提案されたデータ拡張.複数のクロップで対照推定する.
– シンプルだが強力.
16
自己教師あり学習の評価指標
• Linear Proving / KNN
– 自己教師ありで学習したネットワークは固定.
– 学習された特徴量の線形分類性能の比較.
• Fine-Tuning
– 自己教師ありで学習したネットワークも再学習.
• Semi Supervised Learning
– 少数の教師ありの場合の比較.
• Transfer learning
– Other image recognition tasks
– Video recognition, object detection, semantic segmentation, etc
17
Pros / Cons
• Contrastive系はLinear Proving等で再構成系より良いことが多い
– 画像の詳細情報を保持する必要がないため
• Contrastive系はバッチサイズを巨大にしないと動かないことが多
い(計算効率が悪い)
– 具体的には4096とか,20000とか.
– かつ,複数のViewの画像を使う.
18
Big Self-Supervised Models are Strong Semi-Supervised Learners
19
巨大なResNetをSimCLRで自己教師あり学習=> 良い半教師あり学習
ViTの全体像
20
ViTの発展型でよく見るやつ
21
DeiT SwinTransformer
教師モデル(ResNetとか)を蒸留 階層的にAttention
(藤川さん輪読会資料)
本題:ViT×自己教師あり学習(メモ)
22
Method Category Description
iGPT Recon マスクされた場所 or 自己回帰でピクセル値を予測.ソースは各パッチの埋め込み.
Masked patch
Prediction
Recon ViT元論文.BERTのように穴埋め箇所を予測.穴埋めは基本的にはパッチ内の平均RGBを該当す
当するパッチから予測.
MoCo v3 Contrastive ViTの分類器の直前の特徴量をInfoNCEで対照推定.Memory QueueやMulti-Cropなどは使わない
いシンプルな形.Patch Projectionをランダムに固定すると安定.
MoBY Contrastive Swin TransformerをBackboneに使う.通常のMoCoのようにmemory queueも使う.小さいモデルだ
デルだと若干良い?
DINO Self
distillation
画像の複数のビューを通したときにヘッド後のSoftmaxの出力が同じになるように自己蒸留.シンプル
シンプルだが性能が良い.定性評価がきれい.
SSTA Distillation SLとSSLの教師を元に自己教師あり学習.SLとSSLでMSAの各ヘッドが注目する部分が異なること
ることを利用.複数の教師の重要な要素をHead-levelで蒸留.
iBOT Self
distillation
CLS tokenを使ったSelf distillation (DINO) + パッチの穴埋めのSelf distillation (Masked Image
Modeling, MIM). BEITと違いOnlineでtokenizerを作っていることと対応.
EsViT Self
distillation
MoBYと同様Swin TransformerをBackboneに使う.CLS tokenを使ったSelf distillation (DINOと同
同様)に加えて,パッチの対応付けを行った上でのSelf distillationも行う (iBOTと類似).
BEIT Latent
Distillation
DALLEで使われている事前学習済みのdVAEをtokenizerとして使い穴埋めタスクを解く.つまり,マ
り,マスクされたパッチの離散化されたコードを予測する.
MAE Recon Mask tokenを使わず,maskがかかってない部分だけをEncoderに入力し,encoderの出力+mask
+mask tokenをdecoderに入力.多くのパッチをマスクすることで高速化+精度向上.
手法1:iGPT
23
Maskしたパッチのピクセル値を直接予測
手法2: Masked Patch Prediction
• ViT論文での自己教師あり学習
– BERT同様,入力パッチの一部の穴埋めタスク.
– 全パッチの50%のうち
• 80%を学習可能な[mask]埋め込みに変更
• 10%をランダムな他のパッチに変更
• 10%はそのままに
– 欠損した50%のパッチの平均RGBを対応する埋め込みから予測
• ViT/Bで実験,事前学習にJFTを利用.
– 100k位で後続タスクの性能向上はなくなったとの報告もあり.
• FTで79.9% top1 acc(Linear Provingは言及なし)
24
手法3: MoCo V3
25
シンプルな対照推定
• Memory queueなし
• Momentum encoder
• InfoNCE
MoCo v3 : Random patch
26
細かい工夫
• Patch projectionをランダムに
すると安定する(左図)
• MLP headにBNを入れると性能
が上がる
• など
MoCo V3
27
MoCo V3
28
手法4:MoBY
29
SwinTransformer 対照推定
• Memory queueあり
• Momentum encoder
• InfoNCE
• 4096 batch
MoBY : 結果
30
手法5:DINO
31
自己蒸留 (Self Distillation) により自己教師あり学習
DINO : 定量評価
32
いろいろなバックボーンで検証
DINO : 定性評価
33
手法6: Self Supervised teaching assistant (SSTA)
34
自己教師ありと教師ありで学習されるAttentionは大きく異なる
=> まとめて蒸留すれば性能上がるのでは?
SSTA : Head-Level knowledge Distillation
35
各教師の重要なヘッドを模倣するように生徒を学習
手法7:iBOT
36
Masked Image Modeling (MIM) : 自己蒸留を欠損させた各パッチごとに行う
(図中tokenizerが教師,本論文では生徒のMomentum encoder)
iBOT : 全体像
37
• CLS tokenでの自己蒸留(DINO)+マスクした各パッチの自己蒸留
• Block masking
• Headはpatchとclsで共有する(色々実験はしている)
iBOT : 結果
38
iBOT : 定性的な結果
39
手法8:Efficient self-supervised ViT (EsViT)
40
SwinTransformer 自己蒸留
EsViT : Region-level task
• Swin Transformerの場合,Maskさせた入力と出力が1:1対応しな
い
– 入力が小さくなっていくので.
– iBOTのような直接的なMIMはできない.
• 2つのView間の最も類似した埋め込みとの自己蒸留を行う.
41
EsViT : 結果
42
EsViT : 定性結果
43
手法9:BERT like ViT (BEIT)
44
• 事前学習済みのtokenizerを使用 (iBOTはオンラインに学習).
• 具体的にはDALLEのデータで訓練されたdVAE(離散の潜在変数を持つVAE).
• 上記の潜在変数を穴が空いたパッチについて予測.
BEIT : 結果
45
BEIT : Ablation
46
手法10:Masked Autoencoder (MAE)
47
• 基本的には欠損部分のピクセル値を予測する (Masked Patch Predictionと同様)
MAEと他研究の違い:計算効率
• エンコーダデコーダ構造をしている
– iGPT:デコーダのみ
– ViT系:基本エンコーダのみ
• エンコーダにマスクトークン[mask]を入力しない(計算量削減)
– ほか研究はマスクした箇所に[mask]とPositional Encodingを入力
– つまりエンコーダに入るデータ長は元のパッチ数より少ない
• 大量のパッチを欠損させる(計算量削減)
– 画像はテキストと比べて情報が散らばっているので,欠損が少ないと簡単
• デコーダはエンコーダと比べて小さくする(計算量削減)
– Asymmetricな構造をしている
– デコーダには[mask]も当然入力するので系列が長くなるが,そもそも小さいので計算
量が増えすぎない
48
Reconstruction (80% corrupted)
49
Reconstruction (varied corruption rate)
50
MAE:マスク率による比較(FTとLP)
51
MAE : その他の結果(抜粋)
52
(1)巨大化可能+性能改善
(2)予測対照のAblation
(3)少数ブロックの再学習
まとめ
Method Backbone
Aggregated
(Global)
Region
(Local)
Multi-
crop #Patches during training
iGPT 独自(超巨大) / Pixel / 100%
MPP ViT-B16 / Pixel
statistics
/ 100%
MoCo v3 ViT-B16, ViT-L16, ViT-H Contrastive / / 200%
MoBY Swin-T Contrastive / / 200
DINO ResNet50, ViT-B16等 Self
distillation
/ ✓ 200% ~
SSTA ViT?(要確認) Distillation / 200%
iBOT ViT-B16, Swn-T等 Self
distillation
Self
distillation
✓ 400%? ~
EsViT Swin-T, Swin-S,Swin-B等 Self
distillation
Self
distillation
✓ 200%
BEIT ViT-B16, ViT-L16 / Distillation / 100%
MAE ViT-B16, ViT-L16, ViT-H / Normalized
Pixel
/ 25%
53
結局何が良いのか
(性能抜粋)
54
Method Pretraining Backbone Linear Proving Fine Tuning
iGPT ImageNet1k 1362M 65.2 /
ImageNet1k 6801M 68.7 /
MPP JFT ViT-B16 / 79.9
MoCo v3 ImageNet1k ViT-B16 76.7 83.2
ImageNet1k ViT-L16 77.6 84.1
ImageNet1k ViT-H 78.1 /
MoBY ImageNet1k Swin-T 75.3 /
DINO ImageNet1k ViT-B8 80.1 /
ImageNet1k ViT-B16 78.2 82.8
iBOT ImageNet1k ViT-B16 79.5 83.8
ImageNet1k ViT-L16 79.8 /
ImageNet22k ViT-L16 81.6 86.3
ImageNet1k Swin-T 78.6 /
ImageNet1k Swin-T14 79.3 /
EsViT ImageNet1k Swin-T 78.1 /
ImageNet1k Swin-T/W=14 78.7 /
ImageNet1k Swin-S 79.5 /
ImageNet1k Swin-B 80.4 /
ImageNet1k Swin-B/W=14 81.3 /
BEIT ImageNet1k ViT-B16 56.7 83.2
ImageNet1k ViT-L16 73.5 85.2
MAE ImageNet1k ViT-B16 / 83.6
ImageNet1k ViT-L16 73.5 84.9
ImageNet1k ViT-L16 / 85.9
ImageNet1k ViT-H / 86.9
ImageNet1k ViT-H448 / 87.8
記法
• グレーは若干フェアじゃない要素
• 青はViT-B16,ImageNet1kでのSoTA (両
方iBOT)
• 赤は巨大ViTで上記超え
• 黄色はSwinで上記超え
観察
• LPでは自己蒸留系が強い
• Fine TuningではMAEが強い
• 巨大にすると(特にFine-Tuningは)
性能上がる
まとめ(メモ)
Method Category Description
iGPT Recon マスクされた場所 or 自己回帰でピクセル値を予測.ソースは各パッチの埋め込み.
Masked patch
Prediction
Recon ViT元論文.BERTのように穴埋め箇所を予測.穴埋めは基本的にはパッチ内の平均RGBを該当す
当するパッチから予測.
MoCo v3 Contrastive ViTの分類器の直前の特徴量をInfoNCEで対照推定.Memory QueueやMulti-Cropなどは使わない
いシンプルな形.Patch Projectionをランダムに固定すると安定.
MoBY Contrastive Swin TransformerをBackboneに使う.通常のMoCoのようにmemory queueも使う.小さいモデルだ
デルだと若干良い?
DINO Self
distillation
画像の複数のビューを通したときにヘッド後のSoftmaxの出力が同じになるように自己蒸留.シンプル
シンプルだが性能が良い.定性評価がきれい.
SSTA Distillation SLとSSLの教師を元に自己教師あり学習.SLとSSLでMSAの各ヘッドが注目する部分が異なること
ることを利用.複数の教師の重要な要素をHead-levelで蒸留.
iBOT Self
distillation
CLS tokenを使ったSelf distillation (DINO) + パッチの穴埋めのSelf distillation (Masked Image
Modeling, MIM). BEITと違いOnlineでtokenizerを作っていることと対応.
EsViT Self
distillation
MoBYと同様Swin TransformerをBackboneに使う.CLS tokenを使ったSelf distillation (DINOと同
同様)に加えて,パッチの対応付けを行った上でのSelf distillationも行う (iBOTと類似).
BEIT Token
prediction
DALLEで使われている事前学習済みのdVAEをtokenizerとして使い穴埋めタスクを解く.つまり,マ
り,マスクされたパッチの離散化されたコードを予測する.
MAE Recon Mask tokenを使わず,maskがかかってない部分だけをEncoderに入力し,encoderの出力+mask
+mask tokenをdecoderに入力.多くのパッチをマスクすることで高速化+精度向上. 55
その他参考になった記事等
• 画像認識向けTransformerを振り返る, Qiita
• “Self-Supervised Learning in Computer Vision: Past, Present,
Trends”, URL
• “A Survey on Contrastive Self-supervised Learning”, 2020
56
1 von 52

Recomendados

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 von
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
16K views38 Folien
近年のHierarchical Vision Transformer von
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
13.9K views46 Folien
backbone としての timm 入門 von
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
7.4K views19 Folien
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing von
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
3K views21 Folien
Transformerを多層にする際の勾配消失問題と解決法について von
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
4.8K views16 Folien
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling von
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
2.9K views25 Folien

Más contenido relacionado

Was ist angesagt?

[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,... von
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
2.4K views15 Folien
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows von
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
3.7K views27 Folien
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会) von
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)Takuma Yagi
5.5K views24 Folien
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜 von
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
2.3K views81 Folien
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra... von
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
8.9K views26 Folien
[DL輪読会]近年のエネルギーベースモデルの進展 von
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展Deep Learning JP
2.6K views37 Folien

Was ist angesagt?(20)

[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,... von Deep Learning JP
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP2.4K views
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows von Deep Learning JP
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP3.7K views
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会) von Takuma Yagi
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
Takuma Yagi5.5K views
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜 von SSII
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2.3K views
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra... von Deep Learning JP
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP8.9K views
[DL輪読会]近年のエネルギーベースモデルの進展 von Deep Learning JP
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP2.6K views
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder von Deep Learning JP
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP1.9K views
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc) von Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP3.7K views
グラフニューラルネットワークとグラフ組合せ問題 von joisino
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino4.5K views
PRML学習者から入る深層生成モデル入門 von tmtm otm
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm5.7K views
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning" von Deep Learning JP
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Deep Learning JP1K views
Curriculum Learning (関東CV勉強会) von Yoshitaka Ushiku
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku64.1K views
ドメイン適応の原理と応用 von Yoshitaka Ushiku
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku5.5K views
[DL輪読会]ドメイン転移と不変表現に関するサーベイ von Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP6.9K views
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs von Deep Learning JP
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP1.5K views
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜 von SSII
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII3.8K views
猫でも分かるVariational AutoEncoder von Sho Tatsuno
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno131.6K views
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 von SSII
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII3.8K views

Similar a 【DL輪読会】ViT + Self Supervised Learningまとめ

An Empirical Study of Training Self-Supervised Vision Transformers.pptx von
An Empirical Study of Training Self-Supervised Vision Transformers.pptxAn Empirical Study of Training Self-Supervised Vision Transformers.pptx
An Empirical Study of Training Self-Supervised Vision Transformers.pptxSangmin Woo
116 views26 Folien
[PR-325] Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Tran... von
[PR-325] Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Tran...[PR-325] Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Tran...
[PR-325] Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Tran...Sunghoon Joo
253 views29 Folien
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用 von
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
1.1K views26 Folien
Action Genome: Action As Composition of Spatio Temporal Scene Graphs von
Action Genome: Action As Composition of Spatio Temporal Scene GraphsAction Genome: Action As Composition of Spatio Temporal Scene Graphs
Action Genome: Action As Composition of Spatio Temporal Scene GraphsSangmin Woo
58 views21 Folien
Unsupervised visual representation learning overview: Toward Self-Supervision von
Unsupervised visual representation learning overview: Toward Self-SupervisionUnsupervised visual representation learning overview: Toward Self-Supervision
Unsupervised visual representation learning overview: Toward Self-SupervisionLEE HOSEONG
2.4K views20 Folien
Learning where to look: focus and attention in deep vision von
Learning where to look: focus and attention in deep visionLearning where to look: focus and attention in deep vision
Learning where to look: focus and attention in deep visionUniversitat Politècnica de Catalunya
1.1K views53 Folien

Similar a 【DL輪読会】ViT + Self Supervised Learningまとめ(20)

An Empirical Study of Training Self-Supervised Vision Transformers.pptx von Sangmin Woo
An Empirical Study of Training Self-Supervised Vision Transformers.pptxAn Empirical Study of Training Self-Supervised Vision Transformers.pptx
An Empirical Study of Training Self-Supervised Vision Transformers.pptx
Sangmin Woo116 views
[PR-325] Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Tran... von Sunghoon Joo
[PR-325] Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Tran...[PR-325] Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Tran...
[PR-325] Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Tran...
Sunghoon Joo253 views
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用 von SSII
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII1.1K views
Action Genome: Action As Composition of Spatio Temporal Scene Graphs von Sangmin Woo
Action Genome: Action As Composition of Spatio Temporal Scene GraphsAction Genome: Action As Composition of Spatio Temporal Scene Graphs
Action Genome: Action As Composition of Spatio Temporal Scene Graphs
Sangmin Woo58 views
Unsupervised visual representation learning overview: Toward Self-Supervision von LEE HOSEONG
Unsupervised visual representation learning overview: Toward Self-SupervisionUnsupervised visual representation learning overview: Toward Self-Supervision
Unsupervised visual representation learning overview: Toward Self-Supervision
LEE HOSEONG2.4K views
보다 유연한 이미지 변환을 하려면? von 광희 이
보다 유연한 이미지 변환을 하려면?보다 유연한 이미지 변환을 하려면?
보다 유연한 이미지 변환을 하려면?
광희 이180 views
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破... von cvpaper. challenge
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
cvpaper. challenge4.3K views
Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima... von changedaeoh
Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima...Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima...
Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima...
changedaeoh294 views
Transformer based approaches for visual representation learning von Ryohei Suzuki
Transformer based approaches for visual representation learningTransformer based approaches for visual representation learning
Transformer based approaches for visual representation learning
Ryohei Suzuki322 views
画像生成・生成モデル メタサーベイ von cvpaper. challenge
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge8.3K views
How well do self-supervised models transfer.pptx von ssuserbafbd0
How well do self-supervised models transfer.pptxHow well do self-supervised models transfer.pptx
How well do self-supervised models transfer.pptx
ssuserbafbd012 views
Learning to Balance: Bayesian Meta-Learning for Imbalanced and Out-of-distrib... von MLAI2
Learning to Balance: Bayesian Meta-Learning for Imbalanced and Out-of-distrib...Learning to Balance: Bayesian Meta-Learning for Imbalanced and Out-of-distrib...
Learning to Balance: Bayesian Meta-Learning for Imbalanced and Out-of-distrib...
MLAI2793 views
Centertrack and naver airush 2020 review von 경훈 김
Centertrack and naver airush 2020 reviewCentertrack and naver airush 2020 review
Centertrack and naver airush 2020 review
경훈 김45 views
深度學習在AOI的應用 von CHENHuiMei
深度學習在AOI的應用深度學習在AOI的應用
深度學習在AOI的應用
CHENHuiMei1.4K views
The deep bootstrap framework review von taeseon ryu
The deep bootstrap framework reviewThe deep bootstrap framework review
The deep bootstrap framework review
taeseon ryu186 views
Self-supervised Label Augmentation via Input Transformations (ICML 2020) von ALINLAB
Self-supervised Label Augmentation via Input Transformations (ICML 2020)Self-supervised Label Augmentation via Input Transformations (ICML 2020)
Self-supervised Label Augmentation via Input Transformations (ICML 2020)
ALINLAB722 views
Automated Face Detection System von Abhiroop Ghatak
Automated Face Detection SystemAutomated Face Detection System
Automated Face Detection System
Abhiroop Ghatak13.4K views
Generative Models for General Audiences von Sangwoo Mo
Generative Models for General AudiencesGenerative Models for General Audiences
Generative Models for General Audiences
Sangwoo Mo587 views

Más de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners von
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
261 views28 Folien
【DL輪読会】事前学習用データセットについて von
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
276 views20 Folien
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP... von
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
186 views26 Folien
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition von
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
255 views30 Folien
【DL輪読会】Can Neural Network Memorization Be Localized? von
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
516 views15 Folien
【DL輪読会】Hopfield network 関連研究について von
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
1.3K views29 Folien

Más de Deep Learning JP(20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners von Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP261 views
【DL輪読会】事前学習用データセットについて von Deep Learning JP
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP276 views
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP... von Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP186 views
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition von Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP255 views
【DL輪読会】Can Neural Network Memorization Be Localized? von Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP516 views
【DL輪読会】Hopfield network 関連研究について von Deep Learning JP
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP1.3K views
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 ) von Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP341 views
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M... von Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP234 views
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO" von Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP798 views
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination " von Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP448 views
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models von Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP1.4K views
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware" von Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP416 views
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo... von Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP406 views
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ... von Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP692 views
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive... von Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP821 views
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil... von Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP378 views
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait... von Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP330 views
【DL輪読会】マルチモーダル 基盤モデル von Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP1.1K views
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine... von Deep Learning JP
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP754 views
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif... von Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP251 views

Último

Uni Systems for Power Platform.pptx von
Uni Systems for Power Platform.pptxUni Systems for Power Platform.pptx
Uni Systems for Power Platform.pptxUni Systems S.M.S.A.
61 views21 Folien
Elevating Privacy and Security in CloudStack - Boris Stoyanov - ShapeBlue von
Elevating Privacy and Security in CloudStack - Boris Stoyanov - ShapeBlueElevating Privacy and Security in CloudStack - Boris Stoyanov - ShapeBlue
Elevating Privacy and Security in CloudStack - Boris Stoyanov - ShapeBlueShapeBlue
179 views7 Folien
Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha... von
Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha...Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha...
Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha...ShapeBlue
138 views18 Folien
Business Analyst Series 2023 - Week 4 Session 7 von
Business Analyst Series 2023 -  Week 4 Session 7Business Analyst Series 2023 -  Week 4 Session 7
Business Analyst Series 2023 - Week 4 Session 7DianaGray10
126 views31 Folien
Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda... von
Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda...Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda...
Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda...ShapeBlue
120 views13 Folien
Future of AR - Facebook Presentation von
Future of AR - Facebook PresentationFuture of AR - Facebook Presentation
Future of AR - Facebook PresentationRob McCarty
62 views27 Folien

Último(20)

Elevating Privacy and Security in CloudStack - Boris Stoyanov - ShapeBlue von ShapeBlue
Elevating Privacy and Security in CloudStack - Boris Stoyanov - ShapeBlueElevating Privacy and Security in CloudStack - Boris Stoyanov - ShapeBlue
Elevating Privacy and Security in CloudStack - Boris Stoyanov - ShapeBlue
ShapeBlue179 views
Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha... von ShapeBlue
Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha...Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha...
Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha...
ShapeBlue138 views
Business Analyst Series 2023 - Week 4 Session 7 von DianaGray10
Business Analyst Series 2023 -  Week 4 Session 7Business Analyst Series 2023 -  Week 4 Session 7
Business Analyst Series 2023 - Week 4 Session 7
DianaGray10126 views
Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda... von ShapeBlue
Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda...Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda...
Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda...
ShapeBlue120 views
Future of AR - Facebook Presentation von Rob McCarty
Future of AR - Facebook PresentationFuture of AR - Facebook Presentation
Future of AR - Facebook Presentation
Rob McCarty62 views
CloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlue von ShapeBlue
CloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlueCloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlue
CloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlue
ShapeBlue93 views
Extending KVM Host HA for Non-NFS Storage - Alex Ivanov - StorPool von ShapeBlue
Extending KVM Host HA for Non-NFS Storage -  Alex Ivanov - StorPoolExtending KVM Host HA for Non-NFS Storage -  Alex Ivanov - StorPool
Extending KVM Host HA for Non-NFS Storage - Alex Ivanov - StorPool
ShapeBlue84 views
Updates on the LINSTOR Driver for CloudStack - Rene Peinthor - LINBIT von ShapeBlue
Updates on the LINSTOR Driver for CloudStack - Rene Peinthor - LINBITUpdates on the LINSTOR Driver for CloudStack - Rene Peinthor - LINBIT
Updates on the LINSTOR Driver for CloudStack - Rene Peinthor - LINBIT
ShapeBlue166 views
Confidence in CloudStack - Aron Wagner, Nathan Gleason - Americ von ShapeBlue
Confidence in CloudStack - Aron Wagner, Nathan Gleason - AmericConfidence in CloudStack - Aron Wagner, Nathan Gleason - Americ
Confidence in CloudStack - Aron Wagner, Nathan Gleason - Americ
ShapeBlue88 views
The Role of Patterns in the Era of Large Language Models von Yunyao Li
The Role of Patterns in the Era of Large Language ModelsThe Role of Patterns in the Era of Large Language Models
The Role of Patterns in the Era of Large Language Models
Yunyao Li80 views
Developments to CloudStack’s SDN ecosystem: Integration with VMWare NSX 4 - P... von ShapeBlue
Developments to CloudStack’s SDN ecosystem: Integration with VMWare NSX 4 - P...Developments to CloudStack’s SDN ecosystem: Integration with VMWare NSX 4 - P...
Developments to CloudStack’s SDN ecosystem: Integration with VMWare NSX 4 - P...
ShapeBlue154 views
DRBD Deep Dive - Philipp Reisner - LINBIT von ShapeBlue
DRBD Deep Dive - Philipp Reisner - LINBITDRBD Deep Dive - Philipp Reisner - LINBIT
DRBD Deep Dive - Philipp Reisner - LINBIT
ShapeBlue140 views
Centralized Logging Feature in CloudStack using ELK and Grafana - Kiran Chava... von ShapeBlue
Centralized Logging Feature in CloudStack using ELK and Grafana - Kiran Chava...Centralized Logging Feature in CloudStack using ELK and Grafana - Kiran Chava...
Centralized Logging Feature in CloudStack using ELK and Grafana - Kiran Chava...
ShapeBlue101 views
iSAQB Software Architecture Gathering 2023: How Process Orchestration Increas... von Bernd Ruecker
iSAQB Software Architecture Gathering 2023: How Process Orchestration Increas...iSAQB Software Architecture Gathering 2023: How Process Orchestration Increas...
iSAQB Software Architecture Gathering 2023: How Process Orchestration Increas...
Bernd Ruecker50 views
Transitioning from VMware vCloud to Apache CloudStack: A Path to Profitabilit... von ShapeBlue
Transitioning from VMware vCloud to Apache CloudStack: A Path to Profitabilit...Transitioning from VMware vCloud to Apache CloudStack: A Path to Profitabilit...
Transitioning from VMware vCloud to Apache CloudStack: A Path to Profitabilit...
ShapeBlue117 views
State of the Union - Rohit Yadav - Apache CloudStack von ShapeBlue
State of the Union - Rohit Yadav - Apache CloudStackState of the Union - Rohit Yadav - Apache CloudStack
State of the Union - Rohit Yadav - Apache CloudStack
ShapeBlue253 views
The Power of Heat Decarbonisation Plans in the Built Environment von IES VE
The Power of Heat Decarbonisation Plans in the Built EnvironmentThe Power of Heat Decarbonisation Plans in the Built Environment
The Power of Heat Decarbonisation Plans in the Built Environment
IES VE69 views

【DL輪読会】ViT + Self Supervised Learningまとめ

  • 1. DEEP LEARNING JP [DL Papers] ViT + Self Supervised Learningまとめ 発表者:岩澤有祐 http://deeplearning.jp/
  • 2. 発表概要 • ViTをSelf Supervised Learningで使う研究が立て続けに発表されている. – “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, ICLR2021 – “Self-Supervised Learning with Swin Transformers”, 2021 (arxiv) – “Emerging Properties in Self-Supervised Vision Transformers”, ICCV2021 – “An Empirical Study of Training Self-Supervised Vision Transformers”, ICCV2021 – “Self-supervised Models are Good Teaching Assistants for Vision Transformers”, ICLR2022 (Under review, 8, 8, 6, 3) – “Efficient Self-supervised Vision Transformers for Representation Learning”, ICLR2022 (Under review, 8, 8, 6) – “BEiT: BERT Pre-Training of Image Transformers”, ICLR2022 (Under review, 8, 8, 8, 8) – “Image BERT Pre-training with Online Tokenizer”, ICLR2022 (Under review, 8, 6, 6) – “Masked Autoencoders Aer Scalable Vision Learners”, 2021 (arxiv) • 背景を踏まえながら10個の手法について紹介. – ViTの詳細等は過去資料を参考にしてください – 岩澤資料,小林さん資料 2
  • 3. 余談 (ICLR2022投稿中のViT系論文) • “RegionViT: Regional-to-Local Attention for Vision Transformers” (6, 6, 6) • “On Improving Adversarial Transferability of Vision Transformers”, (8, 6, 6, 6) • “CrossFormer: A Versatile Vision Transformer Hinging on Cross-scale Attention”, (8, 6, 6, 5) • “EViT: Expediting Vision Transformers via Token Reorganization”, (8, 8, 6, 6) • “When Vision Transformers Outperform ResNets without Pre-training or Strong Data Augmentations”, (8, 8, 8, 6, 5) • “Dynamic Token Normalization improves Vision Transformers” (6, 6, 5, 5) • “Token Pooling in Vision Transformers”, (8, 5, 5) • “Quadtree Attention for Vision Transformers”, (6, 5, 8, 6) • “ViTGAN: Training GANs with Vision Transformers”, (6, 5, 6, 6, 6) • “How Do Vision Transformers Work?”, (8, 8, 5, 8) • “On the Adversarial Robustness of Vision Transformers”, (5, 5, 5, 5) • “Auto-scaling Vision Transformers without Training”, (8, 6, 5) • “RegionViT: Regional-to-Local Attention for Vision Transformers”, (6, 6, 6, 6) • “RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning” (5, 8, 6) 3
  • 4. 教師なし表現学習 (Unsupervised Representation Learning) • 教師あり表現学習 – 興味のあるタスクラベルが事前にわかっている – 例:Image Net – こういう問題設定では、すでに人間を超える精度 • 教師なし表現学習 – 興味のあるタスクラベルは事前にわかっていない – 再利用可能な表現を観測からどう見つけるか 4
  • 5. 再構成による教師なし表現学習 • 右のような生成過程を考える • log 𝑝 𝑥 = 𝑝 𝑥 𝑧 𝑑𝑧 • 良い生成を与えるような表現を学習する • VAE系やGAN系など多数 – [Kingma+ 14] VAE – [Donahue+ 17] bidirectional GAN – [Dumoulin+ 17] adversarial learned inference 5 𝑥 𝑧
  • 6. Large Scale Adversarial Representation Learning, NeurIPS2019 6 Jeff Donahue, Karen Simonyan, DeepMind • 左上:提案手法 • 左下:Image Net、教師なしで当 時SoTA(61.3%) • 右上:生成画像もきれい (Unconditional)
  • 7. Masked Language Modelと自己教師あり学習 7 ① Language Model (LM, 言語モデル) ② Masked Language Model 大規模DNN 大規模DNN Input: Language models determine Output: word probability by analyzing text data Input: Language models determine [mask] [mask] by [mask] text data Input: Language models determine word probability by analyzing text data Original: Language models determine word probability by analyzing text data 原文を入力と予測対象に分割 自分(の一部)から自分を予測するため,自己教師あり学習とも呼ばれる
  • 8. その他の自己教師あり学習 8 ① Context Encoder ② Jigsaw ③ Future Prediction ④ Cross View
  • 9. 対照推定 (Contrastive Learning) 9 ある画像AとBが似ているかどうかを判定 良い性能を発揮している手法の多くが対照推 定ベース
  • 11. 対照推定のその後の発展 15 ImageNet Top-1 Acc Top-1 vs. #Params Transfer アルゴリズム的な改良 巨大化 転移性能
  • 12. 対照推定系のTricks • 目的関数 – いろいろある.InfoNCEなど. • ネガティブサンプルの選び方 – 基本はBatch sizeを大きくしてバッチ内で選ぶ. – Memory bank, memory queueなどを使う. – Supervised Contrastive Learningというものもある. • Momentum encoder – Target表現用のエンコーダを元のエンコーダの移動平均にする • Multi-crop augmentation – SwAVで提案されたデータ拡張.複数のクロップで対照推定する. – シンプルだが強力. 16
  • 13. 自己教師あり学習の評価指標 • Linear Proving / KNN – 自己教師ありで学習したネットワークは固定. – 学習された特徴量の線形分類性能の比較. • Fine-Tuning – 自己教師ありで学習したネットワークも再学習. • Semi Supervised Learning – 少数の教師ありの場合の比較. • Transfer learning – Other image recognition tasks – Video recognition, object detection, semantic segmentation, etc 17
  • 14. Pros / Cons • Contrastive系はLinear Proving等で再構成系より良いことが多い – 画像の詳細情報を保持する必要がないため • Contrastive系はバッチサイズを巨大にしないと動かないことが多 い(計算効率が悪い) – 具体的には4096とか,20000とか. – かつ,複数のViewの画像を使う. 18
  • 15. Big Self-Supervised Models are Strong Semi-Supervised Learners 19 巨大なResNetをSimCLRで自己教師あり学習=> 良い半教師あり学習
  • 18. 本題:ViT×自己教師あり学習(メモ) 22 Method Category Description iGPT Recon マスクされた場所 or 自己回帰でピクセル値を予測.ソースは各パッチの埋め込み. Masked patch Prediction Recon ViT元論文.BERTのように穴埋め箇所を予測.穴埋めは基本的にはパッチ内の平均RGBを該当す 当するパッチから予測. MoCo v3 Contrastive ViTの分類器の直前の特徴量をInfoNCEで対照推定.Memory QueueやMulti-Cropなどは使わない いシンプルな形.Patch Projectionをランダムに固定すると安定. MoBY Contrastive Swin TransformerをBackboneに使う.通常のMoCoのようにmemory queueも使う.小さいモデルだ デルだと若干良い? DINO Self distillation 画像の複数のビューを通したときにヘッド後のSoftmaxの出力が同じになるように自己蒸留.シンプル シンプルだが性能が良い.定性評価がきれい. SSTA Distillation SLとSSLの教師を元に自己教師あり学習.SLとSSLでMSAの各ヘッドが注目する部分が異なること ることを利用.複数の教師の重要な要素をHead-levelで蒸留. iBOT Self distillation CLS tokenを使ったSelf distillation (DINO) + パッチの穴埋めのSelf distillation (Masked Image Modeling, MIM). BEITと違いOnlineでtokenizerを作っていることと対応. EsViT Self distillation MoBYと同様Swin TransformerをBackboneに使う.CLS tokenを使ったSelf distillation (DINOと同 同様)に加えて,パッチの対応付けを行った上でのSelf distillationも行う (iBOTと類似). BEIT Latent Distillation DALLEで使われている事前学習済みのdVAEをtokenizerとして使い穴埋めタスクを解く.つまり,マ り,マスクされたパッチの離散化されたコードを予測する. MAE Recon Mask tokenを使わず,maskがかかってない部分だけをEncoderに入力し,encoderの出力+mask +mask tokenをdecoderに入力.多くのパッチをマスクすることで高速化+精度向上.
  • 20. 手法2: Masked Patch Prediction • ViT論文での自己教師あり学習 – BERT同様,入力パッチの一部の穴埋めタスク. – 全パッチの50%のうち • 80%を学習可能な[mask]埋め込みに変更 • 10%をランダムな他のパッチに変更 • 10%はそのままに – 欠損した50%のパッチの平均RGBを対応する埋め込みから予測 • ViT/Bで実験,事前学習にJFTを利用. – 100k位で後続タスクの性能向上はなくなったとの報告もあり. • FTで79.9% top1 acc(Linear Provingは言及なし) 24
  • 21. 手法3: MoCo V3 25 シンプルな対照推定 • Memory queueなし • Momentum encoder • InfoNCE
  • 22. MoCo v3 : Random patch 26 細かい工夫 • Patch projectionをランダムに すると安定する(左図) • MLP headにBNを入れると性能 が上がる • など
  • 25. 手法4:MoBY 29 SwinTransformer 対照推定 • Memory queueあり • Momentum encoder • InfoNCE • 4096 batch
  • 27. 手法5:DINO 31 自己蒸留 (Self Distillation) により自己教師あり学習
  • 30. 手法6: Self Supervised teaching assistant (SSTA) 34 自己教師ありと教師ありで学習されるAttentionは大きく異なる => まとめて蒸留すれば性能上がるのでは?
  • 31. SSTA : Head-Level knowledge Distillation 35 各教師の重要なヘッドを模倣するように生徒を学習
  • 32. 手法7:iBOT 36 Masked Image Modeling (MIM) : 自己蒸留を欠損させた各パッチごとに行う (図中tokenizerが教師,本論文では生徒のMomentum encoder)
  • 33. iBOT : 全体像 37 • CLS tokenでの自己蒸留(DINO)+マスクした各パッチの自己蒸留 • Block masking • Headはpatchとclsで共有する(色々実験はしている)
  • 36. 手法8:Efficient self-supervised ViT (EsViT) 40 SwinTransformer 自己蒸留
  • 37. EsViT : Region-level task • Swin Transformerの場合,Maskさせた入力と出力が1:1対応しな い – 入力が小さくなっていくので. – iBOTのような直接的なMIMはできない. • 2つのView間の最も類似した埋め込みとの自己蒸留を行う. 41
  • 40. 手法9:BERT like ViT (BEIT) 44 • 事前学習済みのtokenizerを使用 (iBOTはオンラインに学習). • 具体的にはDALLEのデータで訓練されたdVAE(離散の潜在変数を持つVAE). • 上記の潜在変数を穴が空いたパッチについて予測.
  • 43. 手法10:Masked Autoencoder (MAE) 47 • 基本的には欠損部分のピクセル値を予測する (Masked Patch Predictionと同様)
  • 44. MAEと他研究の違い:計算効率 • エンコーダデコーダ構造をしている – iGPT:デコーダのみ – ViT系:基本エンコーダのみ • エンコーダにマスクトークン[mask]を入力しない(計算量削減) – ほか研究はマスクした箇所に[mask]とPositional Encodingを入力 – つまりエンコーダに入るデータ長は元のパッチ数より少ない • 大量のパッチを欠損させる(計算量削減) – 画像はテキストと比べて情報が散らばっているので,欠損が少ないと簡単 • デコーダはエンコーダと比べて小さくする(計算量削減) – Asymmetricな構造をしている – デコーダには[mask]も当然入力するので系列が長くなるが,そもそも小さいので計算 量が増えすぎない 48
  • 49. まとめ Method Backbone Aggregated (Global) Region (Local) Multi- crop #Patches during training iGPT 独自(超巨大) / Pixel / 100% MPP ViT-B16 / Pixel statistics / 100% MoCo v3 ViT-B16, ViT-L16, ViT-H Contrastive / / 200% MoBY Swin-T Contrastive / / 200 DINO ResNet50, ViT-B16等 Self distillation / ✓ 200% ~ SSTA ViT?(要確認) Distillation / 200% iBOT ViT-B16, Swn-T等 Self distillation Self distillation ✓ 400%? ~ EsViT Swin-T, Swin-S,Swin-B等 Self distillation Self distillation ✓ 200% BEIT ViT-B16, ViT-L16 / Distillation / 100% MAE ViT-B16, ViT-L16, ViT-H / Normalized Pixel / 25% 53
  • 50. 結局何が良いのか (性能抜粋) 54 Method Pretraining Backbone Linear Proving Fine Tuning iGPT ImageNet1k 1362M 65.2 / ImageNet1k 6801M 68.7 / MPP JFT ViT-B16 / 79.9 MoCo v3 ImageNet1k ViT-B16 76.7 83.2 ImageNet1k ViT-L16 77.6 84.1 ImageNet1k ViT-H 78.1 / MoBY ImageNet1k Swin-T 75.3 / DINO ImageNet1k ViT-B8 80.1 / ImageNet1k ViT-B16 78.2 82.8 iBOT ImageNet1k ViT-B16 79.5 83.8 ImageNet1k ViT-L16 79.8 / ImageNet22k ViT-L16 81.6 86.3 ImageNet1k Swin-T 78.6 / ImageNet1k Swin-T14 79.3 / EsViT ImageNet1k Swin-T 78.1 / ImageNet1k Swin-T/W=14 78.7 / ImageNet1k Swin-S 79.5 / ImageNet1k Swin-B 80.4 / ImageNet1k Swin-B/W=14 81.3 / BEIT ImageNet1k ViT-B16 56.7 83.2 ImageNet1k ViT-L16 73.5 85.2 MAE ImageNet1k ViT-B16 / 83.6 ImageNet1k ViT-L16 73.5 84.9 ImageNet1k ViT-L16 / 85.9 ImageNet1k ViT-H / 86.9 ImageNet1k ViT-H448 / 87.8 記法 • グレーは若干フェアじゃない要素 • 青はViT-B16,ImageNet1kでのSoTA (両 方iBOT) • 赤は巨大ViTで上記超え • 黄色はSwinで上記超え 観察 • LPでは自己蒸留系が強い • Fine TuningではMAEが強い • 巨大にすると(特にFine-Tuningは) 性能上がる
  • 51. まとめ(メモ) Method Category Description iGPT Recon マスクされた場所 or 自己回帰でピクセル値を予測.ソースは各パッチの埋め込み. Masked patch Prediction Recon ViT元論文.BERTのように穴埋め箇所を予測.穴埋めは基本的にはパッチ内の平均RGBを該当す 当するパッチから予測. MoCo v3 Contrastive ViTの分類器の直前の特徴量をInfoNCEで対照推定.Memory QueueやMulti-Cropなどは使わない いシンプルな形.Patch Projectionをランダムに固定すると安定. MoBY Contrastive Swin TransformerをBackboneに使う.通常のMoCoのようにmemory queueも使う.小さいモデルだ デルだと若干良い? DINO Self distillation 画像の複数のビューを通したときにヘッド後のSoftmaxの出力が同じになるように自己蒸留.シンプル シンプルだが性能が良い.定性評価がきれい. SSTA Distillation SLとSSLの教師を元に自己教師あり学習.SLとSSLでMSAの各ヘッドが注目する部分が異なること ることを利用.複数の教師の重要な要素をHead-levelで蒸留. iBOT Self distillation CLS tokenを使ったSelf distillation (DINO) + パッチの穴埋めのSelf distillation (Masked Image Modeling, MIM). BEITと違いOnlineでtokenizerを作っていることと対応. EsViT Self distillation MoBYと同様Swin TransformerをBackboneに使う.CLS tokenを使ったSelf distillation (DINOと同 同様)に加えて,パッチの対応付けを行った上でのSelf distillationも行う (iBOTと類似). BEIT Token prediction DALLEで使われている事前学習済みのdVAEをtokenizerとして使い穴埋めタスクを解く.つまり,マ り,マスクされたパッチの離散化されたコードを予測する. MAE Recon Mask tokenを使わず,maskがかかってない部分だけをEncoderに入力し,encoderの出力+mask +mask tokenをdecoderに入力.多くのパッチをマスクすることで高速化+精度向上. 55
  • 52. その他参考になった記事等 • 画像認識向けTransformerを振り返る, Qiita • “Self-Supervised Learning in Computer Vision: Past, Present, Trends”, URL • “A Survey on Contrastive Self-supervised Learning”, 2020 56

Hinweis der Redaktion

  1. Beyond Reward Based End-to-End RL: Representation Learning and Dataset Optimization Perspective
  2. Context Encoders: Feature Learning by Inpainting
  3. 素材群
  4. Random Projectionを固定すると良い,MLPにBNを入れると良い.バッチサイズの選び方などのAblationも行われている.
  5. Headはtokenとclsで共有する.
  6. Multi-Cropの入れ方とかいろいろなAblationもしている.
  7. パット見はDiNOの方が良さそうには見える.
  8. 基本はtokenizerを使う方が良い
  9. MoCo v3は訓練を伸ばしてもそこまで性能が上がらない. DINO系は全部Multi-Crop使っている.iBoTも.多分EsViTやSSTAも使っている. MAEやBEITの良いところは
  10. MoCo v3は訓練を伸ばしてもそこまで性能が上がらない. DINO系は全部Multi-Crop使っている.iBoTも.多分EsViTやSSTAも使っている. MAEやBEITの良いところは