SlideShare a Scribd company logo
Suche senden
Hochladen
Einloggen
Registrieren
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
Melden
ARISE analytics
Folgen
ARISE analytics
31. Oct 2022
•
0 gefällt mir
•
480 views
1
von
29
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
31. Oct 2022
•
0 gefällt mir
•
480 views
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Melden
Technologie
社内で行った「International Conference on Learning Represantation (ICLR)2022読み会」でまとめた資料です。
ARISE analytics
Folgen
ARISE analytics
Recomendados
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
5.2K views
•
23 Folien
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics
5.1K views
•
27 Folien
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
3.6K views
•
52 Folien
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
2K views
•
21 Folien
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
12.4K views
•
177 Folien
GAN(と強化学習との関係)
Masahiro Suzuki
81.9K views
•
77 Folien
Más contenido relacionado
Was ist angesagt?
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
3.6K views
•
27 Folien
【メタサーベイ】Neural Fields
cvpaper. challenge
2K views
•
46 Folien
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
2.8K views
•
36 Folien
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
3.7K views
•
52 Folien
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
3.6K views
•
48 Folien
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
2.6K views
•
23 Folien
Was ist angesagt?
(20)
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP
•
3.6K views
【メタサーベイ】Neural Fields
cvpaper. challenge
•
2K views
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
•
2.8K views
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
•
3.7K views
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
•
3.6K views
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
•
2.6K views
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
•
603 views
Transformer メタサーベイ
cvpaper. challenge
•
26.8K views
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
•
523 views
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
•
5.3K views
Transformerを雰囲気で理解する
AtsukiYamaguchi1
•
4.7K views
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
•
4.2K views
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
•
7.7K views
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
•
4.4K views
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
•
15.2K views
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
•
2.4K views
【メタサーベイ】Video Transformer
cvpaper. challenge
•
2K views
【DL輪読会】Novel View Synthesis with Diffusion Models
Deep Learning JP
•
682 views
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
•
2.1K views
Cosine Based Softmax による Metric Learning が上手くいく理由
tancoro
•
1.2K views
Más de ARISE analytics
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
153 views
•
32 Folien
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
112 views
•
24 Folien
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
803 views
•
21 Folien
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
431 views
•
17 Folien
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics
451 views
•
21 Folien
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics
666 views
•
21 Folien
Más de ARISE analytics
(13)
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
•
153 views
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
•
112 views
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
•
803 views
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
•
431 views
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics
•
451 views
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics
•
666 views
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics
•
2.4K views
【論文読み会】On the Expressivity of Markov Reward
ARISE analytics
•
552 views
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
ARISE analytics
•
647 views
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics
•
642 views
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics
•
27.1K views
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
•
7.6K views
【論文読み会】Universal Language Model Fine-tuning for Text Classification
ARISE analytics
•
1.9K views
Último
gtk4_gem_usage.pdf
ssuser0ef4681
9 views
•
6 Folien
HarukiShinkawa_FIT2023
Matsushita Laboratory
17 views
•
24 Folien
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
Matsushita Laboratory
21 views
•
23 Folien
20230912JSSST大会基調講演_丸山.pdf
Hiroshi Maruyama
152 views
•
58 Folien
ReonHata_JSAI2023
Matsushita Laboratory
12 views
•
33 Folien
IGDA Japan SIG Audio #20-1 室内・野外でのマイク収録と整音.pdf
IGDA Japan SIG-Audio
85 views
•
31 Folien
Último
(7)
gtk4_gem_usage.pdf
ssuser0ef4681
•
9 views
HarukiShinkawa_FIT2023
Matsushita Laboratory
•
17 views
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
Matsushita Laboratory
•
21 views
20230912JSSST大会基調講演_丸山.pdf
Hiroshi Maruyama
•
152 views
ReonHata_JSAI2023
Matsushita Laboratory
•
12 views
IGDA Japan SIG Audio #20-1 室内・野外でのマイク収録と整音.pdf
IGDA Japan SIG-Audio
•
85 views
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
NTT DATA Technology & Innovation
•
20 views
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
1.
[公開情報] ICLR2022論文読み会 「BEiT: BERT Pre-Training
of Image Transformers」 株式会社ARISE analytics MSD. MXU. RENS Team 田中卓磨 ©2022 ARISE analytics Reserved. 2022/10/31
2.
[公開情報] はじめに ©2022 ARISE analytics
Reserved.
3.
[公開情報] 画像のベクトル化 ©2022 ARISE analytics
Reserved. 画像に対して、いい感じのベクトル表現を得 たい ・自己教師あり学習の中間 層: VAE / U-NET 画像に対するクラスタリング・ク ラス分類を 従来の機械学習手法で可能に! 同じような画像は同じようなベクト ルに! ・教師あり学習の最終層付近: ResNet / Xception encode decode Huge CNN 入力=出力 アノテーションされた ラベル
4.
[公開情報] BEiTの着想 ©2022 ARISE analytics
Reserved. 3 自然言語処理の分野ではBERTとい う 自己教師あり学習手法で ベクトル表現が得られるらしい BERTの手法を画像処理の 分野にも適用してみよ う!
5.
[公開情報] BEiTを理解する流れ ©2022 ARISE analytics
Reserved. 4 ① Attention機構を知る ② MLMタスクを知る ③ 画像+Transformerを知る ④ BERTとViTを組み合わせ る BERT ViT BEiT 画像に対する Transformer適用 Transformerを利用した 言語の特徴量作成手法 画像版BERT ① Transformer Attentionを利用した 言語翻訳手法 ② ③ ④ + 画像パッチ のトークン 化
6.
[公開情報] Transformerにおける Attention機構 ©2022 ARISE analytics
Reserved.
7.
[公開情報] Transformer概略 ©2022 ARISE analytics
Reserved. ① ② ③ ① シングルAttention機構 ② マルチヘッドAttention機構 ③ Positional Encoding ④ Transformerブロック ④ 2. [Ashish, et al.]
8.
[公開情報] Attentionの構造 ©2022 ARISE analytics
Reserved. 7 Attention 𝑄, 𝐾, 𝑉 = Softmax 𝑄𝐾𝑇 𝑑𝑘 𝑉 𝑄 = 𝑞1, … , 𝑞𝑛 𝑇 ∈ ℝ𝑛×𝑑𝑘 𝐾 = 𝑘1, … , 𝑘𝑛 𝑇 ∈ ℝ𝑛×𝑑𝑘 𝑉 = 𝑣1, … , 𝑣𝑛 𝑇 ∈ ℝ𝑛×𝑑𝑣 各行への適用 (各行の和が1) 例) ARISE は データ分析 が 得意 k(ARISE) k(データ分 析) k(得意) q(ARISE) 0.4 0.6 0 q(データ分 析) 0.5 0.5 0 q(得意) 0 0.2 0.8 v(ARISE) v(データ分 析) v(得意) 0.4v(ARISE)+0.6v(データ分析) 0.5v(ARISE)+0.5v(データ分析) 0.2v(データ分析)+0.8v(得意)
9.
[公開情報] Multi-Head Attention について ©2022
ARISE analytics Reserved. 8 𝑀𝐻𝐴 𝑄, 𝐾, 𝑉 = ℎ𝑒𝑎𝑑1, … , ℎ𝑒𝑎𝑑ℎ 𝑊𝑂 ℎ𝑒𝑎𝑑𝑖 = Attention 𝑄𝑊 𝑖 𝑄 , 𝐾𝑊𝑖 𝐾 , 𝑉𝑊𝑖 𝑉 𝑊 𝑖 𝑄 ∈ ℝ𝑑×𝑑𝑘 𝑊𝑖 𝐾 ∈ ℝ𝑑×𝑑𝑘 𝑊𝑖 𝑉 ∈ ℝ𝑑×𝑑𝑣 𝑊𝑂 ∈ ℝℎ𝑑𝑣×𝑑 複数種類のAttentionを混ぜたもの
10.
[公開情報] Positional Encoding ©2022 ARISE
analytics Reserved. 9 𝑃𝐸𝑝𝑜𝑠,2𝑖 = sin 𝑝𝑜𝑠 100002𝑖/𝑑 𝑃𝐸𝑝𝑜𝑠,2𝑖+1 = cos 𝑝𝑜𝑠 100002𝑖/𝑑 Input Embedding の pos番目に以下のものを足す 偶数次元 奇数次元 単語位置の情報を付与す る
11.
[公開情報] Transformerブロック ©2022 ARISE analytics
Reserved. 10 Transformer 𝑥 = 𝑧 𝑥′ = norm 𝑥 𝑦 = 𝑀𝐻𝐴 𝑥′ , 𝑥′ , 𝑥′ + 𝑥 𝑦′ = norm(𝑦) 𝑧 = 𝑅𝑒𝐿𝑈 𝑦′ 𝑊1 + 𝑏1 𝑊2 + 𝑏2 + 𝑦 Multi-Head Attention + 残差接続 3層パーセプトロン + 残差接続 𝑥 = 𝑥1, 𝑥2, … , 𝑥𝑛 𝑇 ∈ ℝ𝑛×𝑑 ↦ 𝑧 = 𝑧1, 𝑧2, … , 𝑧𝑛 𝑇 ∈ ℝ𝑛×𝑑 同じ型
12.
[公開情報] BERTにおける 自己教師学習 ©2022 ARISE analytics
Reserved.
13.
[公開情報] BERT概略 ©2022 ARISE analytics
Reserved. ① Masked Language Model (MLM) ② Next Sentence Prediction (NSP) ① ② この2つのタスク を 訓練することで 表現ベクトルを 学習していく 3. [Jacob, et al.]
14.
[公開情報] MLMとは ©2022 ARISE analytics
Reserved. 13 穴あきクイズを解く 問題 例) ARISE は [MASK] が 得意 で AI技術 に 精通 しています。 Transformer x(ARISE) x([MASK]) x(得意) x(AI技術) x(精通) 予測 データ分 析 元の文章から単語をランダ ムに [MASK]に置き換える x([MASK])でボキャブラリ 全体からロジスティック 回帰 学習!
15.
[公開情報] NSPとは ©2022 ARISE analytics
Reserved. 14 文章のつながりが正しいかを判定する問 題 例) [CLS] ARISE は データ分析 が 得意 です [SEP] あなた は 口笛 を 吹いた Transformer x([CLS]) x(ARISE) x(データ分析) x(得意) x([SEP]) x(あなた) … 予測 SEP前後で正しく 文章がつながってい ない 文章先頭に[CLS]を付与 2文の間に[SEP]を挿入 x([CLS])でYes/Noの二値分類 学 習
16.
[公開情報] ViTにおける 画像へのTransformer適用 ©2022 ARISE analytics
Reserved.
17.
[公開情報] ViT概略 ©2022 ARISE analytics
Reserved. ① ② ① 画像のパッチ分割・シーケン ス化 ② クラス分類 4. [Alexey, et al.]
18.
[公開情報] 画像の分割とシーケンス化 ©2022 ARISE analytics
Reserved. 17 ① 画像を(p x p)の正方形パッチに分割 ② 正方形パッチを1次元に変形 ③ 線形変換 ④ 先頭トークン[CLASS]のベクトルを つける ⑤ Positional Embeddingを加える 𝑧0 = 𝑥𝑐𝑙𝑎𝑠𝑠, 𝐸𝑥1, … , 𝐸𝑥𝑛 𝑇 + 𝑃𝐸 ∈ ℝ 𝑛+1 ×𝑑 𝑥𝑖 ∈ ℝ𝑝2𝑐 𝐸 ∈ ℝ𝑑×𝑝2𝑐 𝑥𝑐𝑙𝑠 ∈ ℝ𝑑 𝑥𝑖 1次元化された正方形パッ チ 線形変換の行列 先頭のクラストー クン Positional Embedding
19.
[公開情報] クラス分類 ©2022 ARISE analytics
Reserved. 18 NSPと同様に先頭の[CLASS]のベクトルから 予測 𝑧0 = 𝑥𝑐𝑙𝑠, 𝐸𝑥1, … , 𝐸𝑥𝑛 𝑇 + 𝑃𝐸 𝑧ℓ = Transformer 𝑧ℓ−1 𝑦 = Softmax 𝑧𝐿 (𝑐𝑙𝑎𝑠𝑠) Transformer ブロックを多層に繋 げる 最終層の[CLASS]ベクト ルで 各Classの確率を計算
20.
[公開情報] BEiT解説 ©2022 ARISE analytics
Reserved.
21.
[公開情報] BEiT概略 ©2022 ARISE analytics
Reserved. ① ② ① 画像を学習済みのdiscrete VAEで離散化 ② 画像のパッチをランダムに[MASK]に置き換えてMIM (画像版 MLM) ViTとほぼ同じ 1. [Hangbo, et al.]
22.
[公開情報] 画像のTokenizer ©2022 ARISE analytics
Reserved. 21 画像を学習済みのdiscrete VAE(dVAE)で離散化 (画像x → visualトークンz) ResNetベースで 256 x 256 x 3 の画像から 32 x 32 x (token size)の 確率ベクトルに 確率最大の visualトーク ン 離散トークンを扱える Gumbel Softmax による確率的なdecode 学習済みのdVAEモデルはこ ちら → https://github.com/openai/DALL-E 5. [Aditya, et al.]
23.
[公開情報] MIM (Masked Image
Model) ©2022 ARISE analytics Reserved. 22 ① 画像パッチの中から[MASK]をランダムで置き換 える ② [MASK]のViTベクトルから元のvisualトークンを 予測 ①なるべく塊で40%マ スク ②マスクされたバッチの 最終層でロジスティッ ク回帰
24.
[公開情報] BEiT特徴量による分類 ©2022 ARISE analytics
Reserved. 23 BEiT画像特徴量 𝐵𝐸𝑖𝑇 = 1 𝑛 𝑖=1 𝑛 ℎ𝑖 𝐿 ∈ ℝ𝑑 BEiT画像特徴量か ら ロジスティック回 帰 によるクラス分類 各画像パッチのBEiT最終層の出力平 均 優秀!
25.
[公開情報] BEiTによるセマンティックセグメンテーション ©2022 ARISE analytics
Reserved. 24 他手法と比べてセマンティックセグメンテーションの 精度が高い 各画像バッチに対してカテゴリーの予測をBEiT最終層の出力 から行う
26.
[公開情報] Self-Attention Mapの確認 ©2022 ARISE
analytics Reserved. 25 自身に関係するところを 注視している! 矢印の根本部分をクエリとした ときの Self-Attention Map
27.
[公開情報] まとめ ©2022 ARISE analytics
Reserved. 26 BERTの自己教師あり学習を 画像の離散化により画像に転用して 画像の表現ベクトルを得た。
28.
[公開情報] Referrence ©2022 ARISE analytics
Reserved. 27 1. Hangbo, et al. “BEiT: BERT Pre-Training of Image Transformers.” ICLR2022 2. Ashish, et al. “Attention is all you need.” NeurIPS2017 3. Jacob, et al. “BERT: pre-training of deep bidirectional transformers for language understanding.” ACL2019 4. Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” ICLR2021 5. Aditya, et al. “Zero-Shot Text-to-Image Generation.” ICML2021
29.
[公開情報] Best Partner for
innovation, Best Creator for the future.