SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
http://deeplearning.jp/
AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
Present Square Co.,Ltd. 小林 範久
DEEP LEARNING JP
[DL Papers]
1
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
(https://openreview.net/forum?id=YicbFdNTTy)
タイトル:
著者: 匿名(ICLR2021 査読中)
• CNNを一切使わず、Transformerをベースに画像認識を行う、Vision Transformer
(ViT)を提案。
• Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらすことに成功。
• 最先端のCNN型モデルよりも優れた結果(もしくは同程度)を出したうえで、学習に必要な
計算コストを大幅に減少。
概要:
※データセットがGoogle独自の非公開のものであることや、TPUの使用などから
おそらくGoogleの研究チーム(特にBig Transferの開発チーム)と推測されている。
2
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
アジェンダ
1. 導入
2. 手法
3. 実験
4. まとめ
3
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. 導入
標準的なTransformerを、可能な限り少ない修正で画像に直接適用したい!
• Self-Attentionベースのアーキテクチャ、特にTransformerは、自然言語処理タスクのデファクトスタンダードと
なっているが、コンピュータビジョンへの応用は限られている。
• 自然言語処理の成功に触発されて、複数の研究がCNNのようなアーキテクチャとSelf-Attentionを組み合わ
せようとしている。(DETRなど)
• しかし、コンピュータビジョンでは、効果的にスケーリングされておらず、古典的なResNetのようなアーキテクチャが
未だに最先端モデルという状況がある。
4
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. 導入
①計算効率の良さ
Transformer をコンピュータービジョンで扱いたいモチベージョン
②スケーラビリティ
• モデルを大きくしても学習が進まなくなる時があるが、Transformerは単純にモデルを大きくしても学習ができる
=大規模化で性能の向上が見込める。(GPT-3で1750億個のパラメータ)
• また、Transformerはデータ内の分散表現を獲得するため、自己教師あり学習に利用できる。ラベルのない
データセットでも有効利用できるため、モデルの大規模化をさらに容易にする。
Transformerがコンピュータービジョンに適用されなかった理由
①Transformerが得意とするのが文章などに代表されるシーケンスデータ(連続性のあるデータ)。
• 繋がりのある要素同士の関係性を明らかにすることに強みがある。
②ピクセル単位でTransformerを利用すると計算要素が多くなる。
• 要素同士の関係性を取るため、要素の二乗分(𝑛2)の計算が必要となる。
• 画像の画素が256×256程度だったとしても4,294,967,296( =(256×256)2
)分の計算が必要。
5
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer
• 画像処理で一般的なCNNなどを利用せずに純粋に
Transformerのみを利用するモデル。
• 画像を「画像パッチが連なったシーケンスデータ」として
扱うことで画像処理にTransformerを適用することに
成功。
• Transformerの「計算効率の良さ」と「スケーラビリ
ティ」を画像処理タスクにもたらすことに成功。
• 最先端のCNN型モデルよりも優れた結果(もしくは
同程度)を出したうえで、学習に必要な計算コストを
大幅に減少。 画像パッチ(9つのパッチ)として入力
Vision Transformer のモデル
6
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformerのモデル詳細
①
①Liner Projection of Flattened Patches
(一次データ化された画像パッチの線形射影)
②Extra learnable [class] embedding
(学習可能な[class]トークンの埋め込み)
②
④
③Position Embedding(位置埋め込み)
④Transformer Encoderに投入
⑤MLPヘッドと接続して画像分類
⑤
③
7
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer のモデル詳細
①Liner Projection of Flattened Patches(一次データ化されたパッチの線形射影)
• 二次元の画像(𝐻 × 𝑊 × 𝐶)を 𝑁(𝑃2・𝐶)に変換。
• 二次元である画像データをパッチごとに一次元のシーケンスデータに変換。
• 各ベクトル化されたパッチを次元DのテンソルEに写像し、その出力をPatch Embeddingと呼ぶ。
𝑃:各画像パッチ
の解像度
P
P
・
・
・
𝑁:パッチ数
(𝑁 = 𝐻 × 𝑊 / 𝑃2
)
W
(H, W):オリジナル画像の解像度
H
𝑥 𝑝 𝜖 ℝ 𝑁(𝑃2· C )𝑥 𝜖 ℝ 𝐻 ×𝑊 ×𝐶
flatten
N
Patch Embedding
8
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer のモデル詳細
②Extra learnable [class] embedding(学習可能な[class]トークンの埋め込み)
• 画像分類を可能にするために、シーケンスデータの先頭に学習可能なトークンを追加する。
※BERTの[cls]トークンと同じ効果を狙ったもの。
Patch
Embedding
・
・
・
+
*(class) [class] Embedding
②
9
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer のモデル詳細
③Position Embedding(位置埋め込み)
・
・
・
+
*(class)
③
9
2
1
0
[class] Embedding
Patch Embedding
+
+
+
+
Position Embedding
Transformer
Encoder
パッチが画像のどこにあるかを識別する位置情報を付与する。
10
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer のモデル詳細
④Transformer Encoderに投入
• Multi-head Self-AttentionブロックとMulti
Layer Pecerptronが交互になる形で構成。
• これらのブロックの前にはLayer Normalizationが、
ブロックの後には残差接続が適用されている。
• Self-Attentionを通して自然言語処理の時と同
様にパッチごとの(q, k, v)= (query, key,
value)を獲得する。
本手法 オリジナル
Transformer Encoder
11
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Vision Transformer のモデル詳細
⑤MLPヘッドと接続して画像分類
活性関数には非線形のGELUを用いる。
(オリジナルのTransformerはReLU )
⑤
12
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
モデルの数式
𝑥 𝑐𝑙𝑎𝑠𝑠 :Class Embedding(cls トークン)
𝑥 𝑝
𝑘
:𝑘個目のパッチ
𝐸 𝑝𝑜𝑠 :Position Embedding
・
・
・
+
*(class)
N
2
1
0
[class] Embedding
Patch Embedding
+
+
+
+
Position Embedding
Transformer
Encoder
𝑧0
𝑥 𝑐𝑙𝑎𝑠𝑠
𝑥 𝑝
1 𝐸
𝑥 𝑝
2
𝐸
𝑥 𝑝
𝑁
𝐸
𝐸 𝑝𝑜𝑠
13
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
モデルの数式
𝑀𝑆𝐴 : Multihead Self-attention
𝑀𝐿𝑃 : Multi Layer Perceptron
𝐿𝑁 : Linear Normalization 𝒁′𝒍
𝒁𝒍
𝑍 𝐿
0
:最終層の出力における前から0番目のベクトル表現
=class トークンの最終出力
14
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 手法
Fine-tuningと高解像度化について
• 一般的に事前学習した際の画像よりも高い解像度でFine-tuningすることが有益であると知られている。
そのためVision Transformerでもより高い解像度の画像を与える場合が想定される。
• Vision Transformerに事前学習時よりも高い解像度の画像を与えると、パッチサイズを同じに保つため、
結果として学習されたときよりも長いシーケンスデータが得られる。これは画像のピクセル数が増えたのに対し、
パッチサイズが変わらないため、画像をパッチに分割したときに生じるパッチ数が増えるため。
• Vision Transformerは、任意のシーケンス長のデータを扱うことができるため、与えるシーケンスデータが
長くなることは問題ないが、事前に訓練されたPositon Embeddingに意味がなくなる可能性がある。
• そのため、高解像度の画像でFine-tuningする際には、元の画像内の位置に応じて、事前に訓練された
Position Embeddingの2D補間を実行している。
• この箇所が、CNNが持つような帰納的バイアスがVision Transformerにおいても、もたらされてしまう唯
一のポイントとなる。
Fine-tuning
高解像度化
• Vision Transformerは大規模なデータセットで事前学習し、(より小さな)下流のタスクに合わせて
Fine-tuningして利用する。そのためタスクに適応するときに、事前学習したMLPヘッドを削除し、ゼロ初期
化されたD×K(Kは下流タスクのクラス数)のフィードフォワード層を追加する。
15
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
モデルのバリエーション
• 以下に示さるような構成をもつBase、Large、Hugeの三タイプで実験を実施。
• 表記として、ViT-L/16と示された場合、「16×16の入力パッチサイズ」を持つ 「Large」モデルを意味する。
• 画像をパッチに分割する代わりに、ResNetを用いて特徴マップを取得してTransformerへの入力データとする
Hybrid Architectureも考案され、実験されている。
16
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
事前学習データセット
ベンチマークデータセット
• モデルのスケーラビリティを調べるために、
右表のデータセットを事前学習に利用。
• 事前学習データセットで事前学習したモデルを、
右表のベンチマークデータセットで転移学習し、検証。
データセット
17
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
【参考】 VTAB(Visual Task Adaptation Benchmark )
• VTABは、Googleが提案した事前学習の汎用性を知るためのベンチマーク。
• 事前学習したモデルが、小数の下流タスク用のデータセットを学習して、どの程度多様なタスクに対応できるのかを測る。
• データが限られている新しいタスクへのアルゴリズムの一般化を評価するために、タスクごとに1000の例のみを使用して
パフォーマンスが評価される。VTABでは、19のタスクが用意されており、以下のグループに分けられている。
【3つのグループ】
(1) Natural : 標準的なカメラで撮られた一般的なオブジェクト、きめ細かいクラス、または抽象的な概念の画像。
(Pets、CIFARなどが該当)
(2) Specialized :医用画像やリモートセンシングなどの特殊な機器を使用してキャプチャされた画像。
(3) Structured :位置把握のような幾何学的な理解を必要とするタスク。
18
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
精度比較
ベンチマークモデル
• Big Transfer(BiT)
• Noisy Student
• ViT-L/16モデルは、すべてのデータセッ
トでBiT-Lと同等か、またはそれを上回
る性能を示した。
• より大きなモデルであるViT-H/14は、
特にImageNetやCIFAR-100、
VTABタスクなど、より難易度の高いデー
タセットで性能をさらに向上させている。
結果
19
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
VTAB (Visual Task Adaptation Benchmark )タスクの結果
VTABタスクを3つのグループ(Natural、Specialized、Structured)に分解し、従来のSOTA手法と比較。
• BiT : Big Transformer
• VIVI: ResNetをベースにImageNetとYoutubeで学習されたモデル
• S4L : ImageNetを利用した教師あり型と半教師あり型で学習されたモデル
ベンチマークモデル
• Naturalタスクでは、BiT-L(R152x4)の方がわずかにViT-H/14を上回っているが、誤差の範囲内としている。
• Specializedタスクでは逆転しているが、同様に誤差の範囲といえる。
• 論文ではViTが有意に優れているといえるのは、Structuredタスクに関してのみと結論付けている。
結果
20
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
事前学習のデータ要件について
• Vision Transformerは、大規模なデータセットで事前にトレーニングを行った場合、良好なパフォーマンスを発揮する。
• ResNetsよりも帰納的バイアスが少ないため、データセットのサイズが重要であると考えられる。
トレーニングデータセットの大きさ
• ImageNet, ImageNet-21k, JFT300Mで事前学習を比較。
• 3つの正則化パラメータ(重み減衰、ドロップアウト、ラベル平滑化)
を最適化。
• 右図はImageNetに対するfine-tuning後の結果を表示。
• ImageNet で事前に学習した場合、ViT-Large モデルは、ViT-
Base モデルよりも精度が悪化したが、ImageNet-21kの事前学
習では、両者の性能は同等まで向上。
• そして、さらに大規模なJFT-300Mで利点が確認できる。
• BiTと比較すると、ImageNet上では、ViTを上回る性能を示してい
るが、より大きなデータセットではViTが逆転していることがわかる。
21
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
スケーラビリティについて
• 右表に示す異なるモデルのスケーリングを比較。JFT-
300Mで事前学習し、Average-5(5つのデータセット
の平均値)とImageNetでfine-tuning 。
• 各モデルの事前学習コスト(Total pre-training
compute)と精度(accuracy)を比較。
①学習コストの低さ
• 同じ性能を達成するために使用する計算量が
ViTは約2倍少なくなっており、計算量に対する
性能はViTがResNetsを圧倒。
②Vision Transformers のスケーラビリティ
• ViTは実験で試された範囲内では性能が飽和してい
ない。今後のスケーラビリティ拡大の可能性がある。
① ①
② ②
結果
22
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
Hybrid Architectureについて
• 画像をパッチに分割する代わりに、ResNetを
用いて特徴マップを取得してTransformerへ
の入力データとするHybrid Architecture を
実験。
• データセットの規模が小さい時はわずかにViTを上回るが、大きな時はViTの方が良い。
• これはCNNが画像の情報を「捨象」して要約していくものであることが影響していると考えられる。すなわち、データセッ
トが小さい間は捨象が有効に働いているが、データセットが大きくなると必要な情報まで捨ててしまっていると考えられる。
結果
23
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
• 入力が大きくなった時の最大バッチサイズはResNetの方が低下が早い。
• 大規模なViTモデルの方がResNetモデルよりも入力サイズが大きくなった場合でも、大きなバッチサイズで計算可能
=メモリ効率が良い、ことがわかる。
計算コストについて
• さまざまな入力サイズで、1つのコアが1秒間
に処理できる画像数を表示。広範囲のバッ
チサイズで測定されたピーク性能を表示して
いる。
• 最大解像度の最大モデル(ViT-H/14)
で、ViTの二次スケーリングが発生している。
(その他では二次スケーリングが発生しにくい、
としている。)
入力サイズ × ピーク速度(左図)
入力サイズ × 最大のバッチサイズ(右図)
24
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
Vision Transformerはどのように画像を理解しているのか
• 1次元データ化されたパッチを低次元空間Dに線形射影。
• 下図に、学習したEmbeddingフィルタの上位の主成分を示す。
• これら主成分は、各パッチ内の微細な構造を低次元で表現するための基底関数に似ていることが指摘されている。
Linear Projection of Flattened Patches について
25
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
Vision Transformerはどのように画像を理解しているのか
• 右上図は異なる層でのAttentionの重みに基づいて、画像空間の平均距離=
「Attention distance」を分析したもの。
• 下層(左下側)で大きくばらついてることがわかる。深さが増すにつれて、すべて
のヘッドで「Attention distance」が増加している。これはネットワークの後半で
は、ほとんどのヘッドが画像全体を注目していることを意味する。この距離はCNN
の受容野の大きさに似ている。
Transformer EncoderのAttention について
• 右下図はResNetを組み込んだHybred Architechture
との比較を示したもの。
• ResNetから抽出された特徴を用いているため、早い段階
から画像の広域を見ていることがわかる。
26
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
Position Embedingについて
• Position Embedding の類似度を比較。
• きれいに行-列構造が現れ、同じ行/列にあるパッチは類似した埋め込み
を持っていることがわかる。
⇒1次元のEmbedding だけで2次元の位置情報に相当する情報が
学習できていることが読み取れる。
本論文では、Position Embedding について、1次元で位置情報をEmbedding している。
(1)位置情報を提供しない
(2)1次元位置情報のEmbeding(各パッチがラスタ順の列で並んでいると考える)
(3)2次元位置情報のEmbedding
(4)相対的な位置情報のEmbedding
を比較し、(2)1次元位置情報をEmbedding を採用。
1次元で位置情報をEmbeddingした結果の考察
27
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 実験
自己教師あり学習
• Transformerは、自然言語の分野で革新的なモデルとなったが、その要因は優れたスケーラビリティだけでなく、
大規模な自己教師あり事前学習にあることが論文では指摘されている。
• 論文では、BERTで使用されているマスク付き言語モデリングタスクを模倣した、自己学習のためのマスク付きパッチ
予測に関する探索が行われている。
• 自己教師あり事前学習により、ViT-B/16モデルは、ImageNet上で79.9%の精度を達成し、スクラッチ
からの学習に比べて2%の有意な改善が示された。しかし、それでも教師あり事前学習に比べて4%低い結果
となった。
• 論文では、発展の可能性を含め今後の研究課題としている。
28
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. まとめ
貢献
モデルのサイズが大きくなっても性能がまだ飽和していないように思われている。
ViTをさらにスケールアップすることが求められている。
課題
• 画像をパッチのシーケンスとして解釈することで、NLPで使用されるような標準的なTransformerで処理することに成功。
• Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらした。
• 最先端のCNN型モデルよりも優れた結果(もしくは同程度)を出したうえで、学習に必要な計算コストを大幅に減少。
①ViTを検出やセグメンテーションなどの他の画像処理タスク
②自己教師あり事前学習
今回の論文で行われた初期実験では、自己教師付き事前訓練からの改善は示されたが、自己教師あり学習と大
規模な教師あり事前学習の間にはまだ大きなギャップがある。
③さらなる大規模化
29
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Appendix
参考文献
• Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz
Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, 2017.
• Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition.
In CVPR, 2016.
• J. Deng, W. Dong, R. Socher, L. Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image
database. In CVPR, 2009.
• Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey
Zagoruyko. End-to-end object detection with transformers. In ECCV, 2020.
• Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In CVPR,
2018.
• Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep
bidirectional transformers for language understanding. In NAACL, 2019.
30

Weitere ähnliche Inhalte

Was ist angesagt?

[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)Deep Learning JP
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019Yusuke Uchida
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Hiroto Honda
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 

Was ist angesagt? (20)

[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 

Ähnlich wie [DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
130710 02
130710 02130710 02
130710 02openrtm
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...de:code 2017
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 
OpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみたOpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみた徹 上野山
 
130329 04
130329 04130329 04
130329 04openrtm
 
20130329 rtm4
20130329 rtm420130329 rtm4
20130329 rtm4openrtm
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)Shintaro Yoshida
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介Narihira Takuya
 
BMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionBMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionKazuki Fujikawa
 
チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発Satoshi Takano
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介Hiroshi Ouchiyama
 
20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_public20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_publicKazuaki Ishizaki
 
Developer summit continuous deliveryとjenkins
Developer summit   continuous deliveryとjenkinsDeveloper summit   continuous deliveryとjenkins
Developer summit continuous deliveryとjenkinsKohsuke Kawaguchi
 
自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」NVIDIA Japan
 

Ähnlich wie [DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (20)

(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
130710 02
130710 02130710 02
130710 02
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
OpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみたOpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみた
 
130329 04
130329 04130329 04
130329 04
 
20130329 rtm4
20130329 rtm420130329 rtm4
20130329 rtm4
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 
BMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solutionBMS Molecular Translation 3rd place solution
BMS Molecular Translation 3rd place solution
 
チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介
 
20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_public20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_public
 
Developer summit continuous deliveryとjenkins
Developer summit   continuous deliveryとjenkinsDeveloper summit   continuous deliveryとjenkins
Developer summit continuous deliveryとjenkins
 
自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」
 
Angularreflex20141210
Angularreflex20141210Angularreflex20141210
Angularreflex20141210
 

Mehr von Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Kürzlich hochgeladen (10)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

  • 1. http://deeplearning.jp/ AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE Present Square Co.,Ltd. 小林 範久 DEEP LEARNING JP [DL Papers] 1
  • 2. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 書誌情報 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (https://openreview.net/forum?id=YicbFdNTTy) タイトル: 著者: 匿名(ICLR2021 査読中) • CNNを一切使わず、Transformerをベースに画像認識を行う、Vision Transformer (ViT)を提案。 • Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらすことに成功。 • 最先端のCNN型モデルよりも優れた結果(もしくは同程度)を出したうえで、学習に必要な 計算コストを大幅に減少。 概要: ※データセットがGoogle独自の非公開のものであることや、TPUの使用などから おそらくGoogleの研究チーム(特にBig Transferの開発チーム)と推測されている。 2
  • 3. Copyright (C) Present Square Co., Ltd. All Rights Reserved. アジェンダ 1. 導入 2. 手法 3. 実験 4. まとめ 3
  • 4. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. 導入 標準的なTransformerを、可能な限り少ない修正で画像に直接適用したい! • Self-Attentionベースのアーキテクチャ、特にTransformerは、自然言語処理タスクのデファクトスタンダードと なっているが、コンピュータビジョンへの応用は限られている。 • 自然言語処理の成功に触発されて、複数の研究がCNNのようなアーキテクチャとSelf-Attentionを組み合わ せようとしている。(DETRなど) • しかし、コンピュータビジョンでは、効果的にスケーリングされておらず、古典的なResNetのようなアーキテクチャが 未だに最先端モデルという状況がある。 4
  • 5. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. 導入 ①計算効率の良さ Transformer をコンピュータービジョンで扱いたいモチベージョン ②スケーラビリティ • モデルを大きくしても学習が進まなくなる時があるが、Transformerは単純にモデルを大きくしても学習ができる =大規模化で性能の向上が見込める。(GPT-3で1750億個のパラメータ) • また、Transformerはデータ内の分散表現を獲得するため、自己教師あり学習に利用できる。ラベルのない データセットでも有効利用できるため、モデルの大規模化をさらに容易にする。 Transformerがコンピュータービジョンに適用されなかった理由 ①Transformerが得意とするのが文章などに代表されるシーケンスデータ(連続性のあるデータ)。 • 繋がりのある要素同士の関係性を明らかにすることに強みがある。 ②ピクセル単位でTransformerを利用すると計算要素が多くなる。 • 要素同士の関係性を取るため、要素の二乗分(𝑛2)の計算が必要となる。 • 画像の画素が256×256程度だったとしても4,294,967,296( =(256×256)2 )分の計算が必要。 5
  • 6. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer • 画像処理で一般的なCNNなどを利用せずに純粋に Transformerのみを利用するモデル。 • 画像を「画像パッチが連なったシーケンスデータ」として 扱うことで画像処理にTransformerを適用することに 成功。 • Transformerの「計算効率の良さ」と「スケーラビリ ティ」を画像処理タスクにもたらすことに成功。 • 最先端のCNN型モデルよりも優れた結果(もしくは 同程度)を出したうえで、学習に必要な計算コストを 大幅に減少。 画像パッチ(9つのパッチ)として入力 Vision Transformer のモデル 6
  • 7. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformerのモデル詳細 ① ①Liner Projection of Flattened Patches (一次データ化された画像パッチの線形射影) ②Extra learnable [class] embedding (学習可能な[class]トークンの埋め込み) ② ④ ③Position Embedding(位置埋め込み) ④Transformer Encoderに投入 ⑤MLPヘッドと接続して画像分類 ⑤ ③ 7
  • 8. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer のモデル詳細 ①Liner Projection of Flattened Patches(一次データ化されたパッチの線形射影) • 二次元の画像(𝐻 × 𝑊 × 𝐶)を 𝑁(𝑃2・𝐶)に変換。 • 二次元である画像データをパッチごとに一次元のシーケンスデータに変換。 • 各ベクトル化されたパッチを次元DのテンソルEに写像し、その出力をPatch Embeddingと呼ぶ。 𝑃:各画像パッチ の解像度 P P ・ ・ ・ 𝑁:パッチ数 (𝑁 = 𝐻 × 𝑊 / 𝑃2 ) W (H, W):オリジナル画像の解像度 H 𝑥 𝑝 𝜖 ℝ 𝑁(𝑃2· C )𝑥 𝜖 ℝ 𝐻 ×𝑊 ×𝐶 flatten N Patch Embedding 8
  • 9. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer のモデル詳細 ②Extra learnable [class] embedding(学習可能な[class]トークンの埋め込み) • 画像分類を可能にするために、シーケンスデータの先頭に学習可能なトークンを追加する。 ※BERTの[cls]トークンと同じ効果を狙ったもの。 Patch Embedding ・ ・ ・ + *(class) [class] Embedding ② 9
  • 10. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer のモデル詳細 ③Position Embedding(位置埋め込み) ・ ・ ・ + *(class) ③ 9 2 1 0 [class] Embedding Patch Embedding + + + + Position Embedding Transformer Encoder パッチが画像のどこにあるかを識別する位置情報を付与する。 10
  • 11. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer のモデル詳細 ④Transformer Encoderに投入 • Multi-head Self-AttentionブロックとMulti Layer Pecerptronが交互になる形で構成。 • これらのブロックの前にはLayer Normalizationが、 ブロックの後には残差接続が適用されている。 • Self-Attentionを通して自然言語処理の時と同 様にパッチごとの(q, k, v)= (query, key, value)を獲得する。 本手法 オリジナル Transformer Encoder 11
  • 12. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Vision Transformer のモデル詳細 ⑤MLPヘッドと接続して画像分類 活性関数には非線形のGELUを用いる。 (オリジナルのTransformerはReLU ) ⑤ 12
  • 13. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 モデルの数式 𝑥 𝑐𝑙𝑎𝑠𝑠 :Class Embedding(cls トークン) 𝑥 𝑝 𝑘 :𝑘個目のパッチ 𝐸 𝑝𝑜𝑠 :Position Embedding ・ ・ ・ + *(class) N 2 1 0 [class] Embedding Patch Embedding + + + + Position Embedding Transformer Encoder 𝑧0 𝑥 𝑐𝑙𝑎𝑠𝑠 𝑥 𝑝 1 𝐸 𝑥 𝑝 2 𝐸 𝑥 𝑝 𝑁 𝐸 𝐸 𝑝𝑜𝑠 13
  • 14. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 モデルの数式 𝑀𝑆𝐴 : Multihead Self-attention 𝑀𝐿𝑃 : Multi Layer Perceptron 𝐿𝑁 : Linear Normalization 𝒁′𝒍 𝒁𝒍 𝑍 𝐿 0 :最終層の出力における前から0番目のベクトル表現 =class トークンの最終出力 14
  • 15. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 手法 Fine-tuningと高解像度化について • 一般的に事前学習した際の画像よりも高い解像度でFine-tuningすることが有益であると知られている。 そのためVision Transformerでもより高い解像度の画像を与える場合が想定される。 • Vision Transformerに事前学習時よりも高い解像度の画像を与えると、パッチサイズを同じに保つため、 結果として学習されたときよりも長いシーケンスデータが得られる。これは画像のピクセル数が増えたのに対し、 パッチサイズが変わらないため、画像をパッチに分割したときに生じるパッチ数が増えるため。 • Vision Transformerは、任意のシーケンス長のデータを扱うことができるため、与えるシーケンスデータが 長くなることは問題ないが、事前に訓練されたPositon Embeddingに意味がなくなる可能性がある。 • そのため、高解像度の画像でFine-tuningする際には、元の画像内の位置に応じて、事前に訓練された Position Embeddingの2D補間を実行している。 • この箇所が、CNNが持つような帰納的バイアスがVision Transformerにおいても、もたらされてしまう唯 一のポイントとなる。 Fine-tuning 高解像度化 • Vision Transformerは大規模なデータセットで事前学習し、(より小さな)下流のタスクに合わせて Fine-tuningして利用する。そのためタスクに適応するときに、事前学習したMLPヘッドを削除し、ゼロ初期 化されたD×K(Kは下流タスクのクラス数)のフィードフォワード層を追加する。 15
  • 16. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 モデルのバリエーション • 以下に示さるような構成をもつBase、Large、Hugeの三タイプで実験を実施。 • 表記として、ViT-L/16と示された場合、「16×16の入力パッチサイズ」を持つ 「Large」モデルを意味する。 • 画像をパッチに分割する代わりに、ResNetを用いて特徴マップを取得してTransformerへの入力データとする Hybrid Architectureも考案され、実験されている。 16
  • 17. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 事前学習データセット ベンチマークデータセット • モデルのスケーラビリティを調べるために、 右表のデータセットを事前学習に利用。 • 事前学習データセットで事前学習したモデルを、 右表のベンチマークデータセットで転移学習し、検証。 データセット 17
  • 18. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 【参考】 VTAB(Visual Task Adaptation Benchmark ) • VTABは、Googleが提案した事前学習の汎用性を知るためのベンチマーク。 • 事前学習したモデルが、小数の下流タスク用のデータセットを学習して、どの程度多様なタスクに対応できるのかを測る。 • データが限られている新しいタスクへのアルゴリズムの一般化を評価するために、タスクごとに1000の例のみを使用して パフォーマンスが評価される。VTABでは、19のタスクが用意されており、以下のグループに分けられている。 【3つのグループ】 (1) Natural : 標準的なカメラで撮られた一般的なオブジェクト、きめ細かいクラス、または抽象的な概念の画像。 (Pets、CIFARなどが該当) (2) Specialized :医用画像やリモートセンシングなどの特殊な機器を使用してキャプチャされた画像。 (3) Structured :位置把握のような幾何学的な理解を必要とするタスク。 18
  • 19. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 精度比較 ベンチマークモデル • Big Transfer(BiT) • Noisy Student • ViT-L/16モデルは、すべてのデータセッ トでBiT-Lと同等か、またはそれを上回 る性能を示した。 • より大きなモデルであるViT-H/14は、 特にImageNetやCIFAR-100、 VTABタスクなど、より難易度の高いデー タセットで性能をさらに向上させている。 結果 19
  • 20. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 VTAB (Visual Task Adaptation Benchmark )タスクの結果 VTABタスクを3つのグループ(Natural、Specialized、Structured)に分解し、従来のSOTA手法と比較。 • BiT : Big Transformer • VIVI: ResNetをベースにImageNetとYoutubeで学習されたモデル • S4L : ImageNetを利用した教師あり型と半教師あり型で学習されたモデル ベンチマークモデル • Naturalタスクでは、BiT-L(R152x4)の方がわずかにViT-H/14を上回っているが、誤差の範囲内としている。 • Specializedタスクでは逆転しているが、同様に誤差の範囲といえる。 • 論文ではViTが有意に優れているといえるのは、Structuredタスクに関してのみと結論付けている。 結果 20
  • 21. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 事前学習のデータ要件について • Vision Transformerは、大規模なデータセットで事前にトレーニングを行った場合、良好なパフォーマンスを発揮する。 • ResNetsよりも帰納的バイアスが少ないため、データセットのサイズが重要であると考えられる。 トレーニングデータセットの大きさ • ImageNet, ImageNet-21k, JFT300Mで事前学習を比較。 • 3つの正則化パラメータ(重み減衰、ドロップアウト、ラベル平滑化) を最適化。 • 右図はImageNetに対するfine-tuning後の結果を表示。 • ImageNet で事前に学習した場合、ViT-Large モデルは、ViT- Base モデルよりも精度が悪化したが、ImageNet-21kの事前学 習では、両者の性能は同等まで向上。 • そして、さらに大規模なJFT-300Mで利点が確認できる。 • BiTと比較すると、ImageNet上では、ViTを上回る性能を示してい るが、より大きなデータセットではViTが逆転していることがわかる。 21
  • 22. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 スケーラビリティについて • 右表に示す異なるモデルのスケーリングを比較。JFT- 300Mで事前学習し、Average-5(5つのデータセット の平均値)とImageNetでfine-tuning 。 • 各モデルの事前学習コスト(Total pre-training compute)と精度(accuracy)を比較。 ①学習コストの低さ • 同じ性能を達成するために使用する計算量が ViTは約2倍少なくなっており、計算量に対する 性能はViTがResNetsを圧倒。 ②Vision Transformers のスケーラビリティ • ViTは実験で試された範囲内では性能が飽和してい ない。今後のスケーラビリティ拡大の可能性がある。 ① ① ② ② 結果 22
  • 23. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 Hybrid Architectureについて • 画像をパッチに分割する代わりに、ResNetを 用いて特徴マップを取得してTransformerへ の入力データとするHybrid Architecture を 実験。 • データセットの規模が小さい時はわずかにViTを上回るが、大きな時はViTの方が良い。 • これはCNNが画像の情報を「捨象」して要約していくものであることが影響していると考えられる。すなわち、データセッ トが小さい間は捨象が有効に働いているが、データセットが大きくなると必要な情報まで捨ててしまっていると考えられる。 結果 23
  • 24. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 • 入力が大きくなった時の最大バッチサイズはResNetの方が低下が早い。 • 大規模なViTモデルの方がResNetモデルよりも入力サイズが大きくなった場合でも、大きなバッチサイズで計算可能 =メモリ効率が良い、ことがわかる。 計算コストについて • さまざまな入力サイズで、1つのコアが1秒間 に処理できる画像数を表示。広範囲のバッ チサイズで測定されたピーク性能を表示して いる。 • 最大解像度の最大モデル(ViT-H/14) で、ViTの二次スケーリングが発生している。 (その他では二次スケーリングが発生しにくい、 としている。) 入力サイズ × ピーク速度(左図) 入力サイズ × 最大のバッチサイズ(右図) 24
  • 25. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 Vision Transformerはどのように画像を理解しているのか • 1次元データ化されたパッチを低次元空間Dに線形射影。 • 下図に、学習したEmbeddingフィルタの上位の主成分を示す。 • これら主成分は、各パッチ内の微細な構造を低次元で表現するための基底関数に似ていることが指摘されている。 Linear Projection of Flattened Patches について 25
  • 26. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 Vision Transformerはどのように画像を理解しているのか • 右上図は異なる層でのAttentionの重みに基づいて、画像空間の平均距離= 「Attention distance」を分析したもの。 • 下層(左下側)で大きくばらついてることがわかる。深さが増すにつれて、すべて のヘッドで「Attention distance」が増加している。これはネットワークの後半で は、ほとんどのヘッドが画像全体を注目していることを意味する。この距離はCNN の受容野の大きさに似ている。 Transformer EncoderのAttention について • 右下図はResNetを組み込んだHybred Architechture との比較を示したもの。 • ResNetから抽出された特徴を用いているため、早い段階 から画像の広域を見ていることがわかる。 26
  • 27. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 Position Embedingについて • Position Embedding の類似度を比較。 • きれいに行-列構造が現れ、同じ行/列にあるパッチは類似した埋め込み を持っていることがわかる。 ⇒1次元のEmbedding だけで2次元の位置情報に相当する情報が 学習できていることが読み取れる。 本論文では、Position Embedding について、1次元で位置情報をEmbedding している。 (1)位置情報を提供しない (2)1次元位置情報のEmbeding(各パッチがラスタ順の列で並んでいると考える) (3)2次元位置情報のEmbedding (4)相対的な位置情報のEmbedding を比較し、(2)1次元位置情報をEmbedding を採用。 1次元で位置情報をEmbeddingした結果の考察 27
  • 28. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 実験 自己教師あり学習 • Transformerは、自然言語の分野で革新的なモデルとなったが、その要因は優れたスケーラビリティだけでなく、 大規模な自己教師あり事前学習にあることが論文では指摘されている。 • 論文では、BERTで使用されているマスク付き言語モデリングタスクを模倣した、自己学習のためのマスク付きパッチ 予測に関する探索が行われている。 • 自己教師あり事前学習により、ViT-B/16モデルは、ImageNet上で79.9%の精度を達成し、スクラッチ からの学習に比べて2%の有意な改善が示された。しかし、それでも教師あり事前学習に比べて4%低い結果 となった。 • 論文では、発展の可能性を含め今後の研究課題としている。 28
  • 29. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. まとめ 貢献 モデルのサイズが大きくなっても性能がまだ飽和していないように思われている。 ViTをさらにスケールアップすることが求められている。 課題 • 画像をパッチのシーケンスとして解釈することで、NLPで使用されるような標準的なTransformerで処理することに成功。 • Transformerの「計算効率の良さ」と「スケーラビリティ」を画像処理タスクにもたらした。 • 最先端のCNN型モデルよりも優れた結果(もしくは同程度)を出したうえで、学習に必要な計算コストを大幅に減少。 ①ViTを検出やセグメンテーションなどの他の画像処理タスク ②自己教師あり事前学習 今回の論文で行われた初期実験では、自己教師付き事前訓練からの改善は示されたが、自己教師あり学習と大 規模な教師あり事前学習の間にはまだ大きなギャップがある。 ③さらなる大規模化 29
  • 30. Copyright (C) Present Square Co., Ltd. All Rights Reserved. Appendix 参考文献 • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, 2017. • Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016. • J. Deng, W. Dong, R. Socher, L. Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR, 2009. • Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In ECCV, 2020. • Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In CVPR, 2018. • Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019. 30