[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision

http://deeplearning.jp/
Learning Transferable Visual Models From Natural
Language Supervision（CLIP:Connecting Text and Images)
Present Square Co.,Ltd. 小林範久
DEEP LEARNING JP
[DL Papers]
1

Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
Learning Transferable Visual Models From Natural Language Supervision
（https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From
_Natural_Language_Supervision.pdf）
タイトル：
著者： Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh,
Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark,
Gretchen Krueger, Ilya Sutskever
• カテゴリーを利用者側で自由に設定できる自然言語教師型画像分類モデル。
• 巨大な自然言語教師データ「WebImageText」を構築（４億組のデータセット）。
• 多様なタスクに対するゼロショット転移で優れた精度を達成。
概要：
2
選定理由： • OpenAIがDALL・Eと同日に発表した内容でバズっていたから。
• ゼロショット学習の観点で面白いと思ったから。

アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
3

１. 導入
画像についての生のテキストから直接学習することで代替する。
• あらかじめ決められたオブジェクトカテゴリ（例：１＝車、２＝飛行機、）を予測するように訓練されている。
• このような形では、ラベル付けされたデータが必要となるため、その汎用性と有用性が制限される。
4
画像処理分野における問題点
① データセット構築にコストがかかる。
② 基本的なモデルは一つのタスクに最適化されており、別のタスクに応用が効かない。
③ ベンチマークテストではよい結果をだしても、実地の場でよい結果を残すことが少ない。
解決策
• インターネットから（画像、テキスト）のデータセットを収集し、どのキャプションがどの画像に合うかを予測する
タスクを構築する。

１. 導入
モチベーション
• 教師ありモデルと自然言語を利用して直接画像表現を学習するモデ
ルに性能の差を生み出している決定的な違いは、データセットの規模
にあると考えた。（前者が100万~10億という単位で画像を利用し
ているのに対して、後者はおよそ20万程度）
• モデルの改良は論文の主眼にはなく、利用しているモデルは、VirTex
を参考に、ConVIRTをよりシンプルにしたモデルとなっている。
5
従来手法
• これまでも自然言語を利用した分類器は構想されてきたが、単純に精度を出すことができず教師ありの分類器を
利用した方が精度が良かった。
• 未加工の自然言語を付随しただけの教師なし学習と普通のラベル型教師あり学習との間を補完する形で弱教師
学習も行われている。（例えば、Instagram画像上のImageNet関連のハッシュタグを予測する学習など）
• これらの試みは、比較的よい精度をベンチマークテストで出すことに成功しているが、予測を実行するために静的な
ソフトマックス分類器を使用しており、動的な出力メカニズムを欠いている。そのため、柔軟性を著しく制限し、「ゼロ
ショット」の能力を制限することにつながっている。
改善観点

２. 先行研究
VirTex(Desai & Johnson, 2020)
6出典：https://arxiv.org/pdf/2006.06666.pdf
Learning visual representations from textual annotations.
• キャプションを用いて視覚表現を学習する事前学習アプローチ。
• 畳み込みネットワークをCOCOキャプション上でスクラッチから訓練し、画像分
類、物体検出、インスタンスセグメンテーションなどの下流の認識タスクに適用

２. 先行研究
ConVIRT (Zhang et al., 2020)
7出典：https://arxiv.org/pdf/2010.00747.pdf
Learning Transferable Visual Models From Natural Language Supervision
• 画像とテキストデータの自然発生的なペアリングから直接医用画像表現を学習するための代替的な教師なし
学習を提案。

３. 手法
CLIP（Connecting Text and Images）の特徴
• 学習するデータが、一般的な画像とラベル（自由度が低い）の組み合わせで構成されたものではなく、画像と画像を
説明するためのテキスト（自由度が高い）であるため、ラベルに設定できるカテゴリーが限定されずカテゴリー設定の
自由度が向上している。
8
カテゴリーを利用者側で自由に設定できる自然言語教師型画像分類モデル
巨大な自然言語教師データ「WebImageText」の利用
• インターネットを利用して構築された巨大な４億組の自然言語教師データ（Natural Language
Supervision：画像と画像を説明する自由テキストのペアのデータセット）「WebImageText」を利用している。
多様なタスクに対するゼロショット転移での汎用性の向上
• 多様なタスクに対してゼロショット転移（Zero-Shot Transfer：タスク特有のデータセットで学習をしないで事前学
習データで学習したモデルを直接タスクに転用すること）で優れた精度を出した。

３. 手法
CLIPのモデル概要
9
• テキスト全体がどの画像とペアになっているかだけを予測する。
• N個の（画像、テキスト）ペアのバッチが与えられると、バッチ全体でN×N個の可能性のある（画像、テキスト）ペアリン
グのうち、どのペアリングが実際に発生したかを予測するように訓練される。
• 画像エンコーダーとテキストエンコーダーを共同で訓練し、バッチ内のN個の実ペアの画像とテキストのエンベッディングのコサ
イン類似度を最大化する一方で、不正確なペアのエンベッディングのコサイン類似度を最小化する。

３. 手法
CLIPのモデル：（１）対照事前学習
10
＜画像エンコーダ部分＞
• ResNet-50 ベースのモデル。
• Global Average Pooling層をAttention
Pooling機構に置き換えます。Attention Pooling
は、クエリが画像のGlobal Average Poolingされ
た表現に基づいて条件付けされる「Transformerス
タイル」のマルチヘッドQKV Attentionの単一レイヤ
として実装。
モデル①（比較のベースモデル）
モデル②（提案モデル）
• Vision Transformer ベースのモデル。
• Transformerの前にパッチと位置の埋め込みを組み
合わせたものに追加のレイヤ正規化を追加し、初期
化スキームを変更。

３. 手法
＜テキストエンコーダ部分＞
• Transformer ベースのモデル。
• ベースサイズとして、８つのアテンションヘッドを持つ63Ｍパラ
メータの12層512ワイドモデルを使用。
• 49,152個のボキャブサイズを持つテキストの小文字のバイトペ
アエンコーディング(BPE)表現で動作。
• 計算効率のため、最大シーケンス長は76に制限。
• テキストシーケンスは[SOS]と[EOS]トークンで括られ、[EOS]
トークンにおけるトランスフォーマーの最上位層の活性化は、層
を正規化した後、マルチモーダル埋め込み空間に線形投影さ
れたテキストの特徴表現として扱われている。
• 事前に学習した言語モデルで初期化したり、補助的な目的と
して言語モデルを追加したりする能力を維持するために、マスク
ドセルフアテンションが使用されている。
11

３. 手法
12
• 各画像とテキストの類似度を取得。
• バッチ内のN個の実ペアの画像とテキストのエンベディングのコサ
イン類似度を最大化する一方で、不正確なペアのエンベディン
グのコサイン類似度を最小化する。

３. 手法
13
CLIPのモデル
（２）ラベルテキストからデータセット
分類器を作成
（３）ゼロショット予測
• プロンプト“ a photo of a {object}”の付与
など。

３. 手法
Natural Language Supervision
• アプローチの中心的な発想は、自然言語に含まれる表現から画像表現が指し示すものを学習するという点。
• 自然言語表現から直接学習する。このメリットは、普通のラベルセットよりも拡張性が高くなることにある。加えて、
ゼロショット転移を可能にする言語表現同士の関連性も獲得していることに重要性がある。
14
データセット（WIT：WebImageText）
• インターネット上から4億組の画像とテキストをデータセットとして構築。
• タイトルもしくは説明がファイル名とされているものを教師データとして扱う。できるだけ幅広い視覚的概念をカバーするため
に、50 万個のクエリの中からテキストが含まれている（画像、テキスト）ペアを検索している。
• ベースとなる検索リストは、英語版ウィキペディアで100回以上出現するすべての単語。
• また、クエリリストに含まれていないすべてのWordNetのsynsetを追加。
• ひとつのクエリから約20000万のペアが含まれるようになっている。これはGPT-2で利用したWebTextのワード数に匹敵。
評価指標としての「効率性」
• Noisy Studentの効率モデルすら1000程度のクラスでも大変な計算資源を必要とすることから、より大きなクラスを学
習することになるCLIPをスケールアップするカギは、「効率性」にあるとしている。

３. 手法
訓練
：ResNets 5つ（ResNet-50、ResNet-101、RN50x4、 RN50x16、RN50x64）
Vision Transformers 3つ（ViT-B/32、ViT-B/16、 ViT-L/14）
15
モデル
：32 エポック（全学習共通）
：Adam
：学習可能な温度パラメータτ=0.07に初期化。
100以上でロジットをスケーリングしないようにクリップ。
：32,768
学習
最適化関数
ハイパーパラメータ
ミニバッチサイズ
学習時間
• 最大のResNetモデルのRN50x64は、592個のV100 GPUで18日。
• 最大のVision Transformerは256個のV100 GPUで12日。

３. 手法
プロンプトエンジニアリング
16
必要となる背景
⑴多義語問題 • 多義語の意味が定まらないという問題。
例）cranes（動物の鶴と重機のクレーン）、boxer (動物の犬種とスポーツ選手)
⑵単語問題 • 与えるカテゴリーリストが単語だけでは高い精度での予測ができないという問題。
対応
• プロンプトを“ a photo of a {label}”とする。（ImageNetの場合、1.3％の
性能の改善）
• ” a photo of a {label}, a type of pet” など、ベンチマークデータセットのタイ
プがわかっている場合は情報を追加。
• OCRデータセットでは、認識したいテキストや数字の周りに引用符を付けることや、
衛星画像の照合データセットでは画像がどの形式のものであるかを特定できる ” a
satellite photo of a {label}. “といった工夫が行われている。
• 加えて、プロンプトのアンサンブル学習（80の異なるプロンプトを利用）することで
3.5％の精度上昇が確認された。（両対応で約５％の上昇。）

４. 実験
出力例
17
• 画素が低いものに弱い傾向
• プロンプトエンジニアリングを含む

４. 実験
CLIPとVisual N-Gramの比較
18
• Visual N-Grams（単純な自然言語教師型モデル）と CLIP
を比較。
• 結果は精度の上昇が確認され、最高のCLIPモデルは、
ImageNet上での精度を11.5%から76.2%に向上させている。

４. 実験
ゼロショット転移の精度について
19
• 完全教師あり学習し、線形分類器をもつResNet-50と比較。
• 27個のデータセットで16勝11敗。
良い点
• STL10から最も精度がよい（99.3％）が得られた。
• 動画のデータセット（Kinetics700, UCF101）でもよい結果が得られた。
※ImageNet の名詞中心の教師データに比べて、WITには動詞を含む
視覚的概念が広く含まれているためではないかと推測されている。
悪い点
特定の分野に特化したもの、複雑なもの、抽象的なものでは精度が出せなかった。
• 衛星画像分類（EuroSAT、RESISC45）
• リンパ節腫瘍検出（PatchCamelyon）
• 合成シーン内のオブジェクトのカウント（CLEVRCounts）
• ドイツの交通標識認識（GTSRB）
• 最寄り車までの距離認識（KITTI Distance）

４. 実験
ゼロショットと少数ショットの比較
20
• ゼロショットより少数ショットの方が精度が低く、４ショット目でようやく同程度
の精度となった。
⇒ゼロショットと少数ショットのアプローチの違いが影響していると考えられる。
• CLIPのゼロショット分類器は自然言語を介して生成されるため、視覚的な
概念を直接指定（「伝達」）することができる。対照的に、「通常の」教師
付き学習では、訓練例から間接的に概念を推論しなければならない。
• そのため、特にワンショット学習の場合では、多くの異なる概念がデータと一
致する可能性があるという欠点から、正しい学習が妨げられる可能性が高く
なる、と考察。
⇒ゼロショット学習における概念の伝達の強さと少数ショット学習の柔軟性
を組み合わせたより良い方法が、今後の研究で求められている。
• 各データセット毎に、ゼロショット同等の精度を出すために必要な教師データ
の平均数を表示した図
• データセット毎に大きく効率が異なる（最小1以下～最大184）。

４. 実験
ゼロショット転移の効率性
21
• CLIPのゼロショット性能と完全教師付き線形分類器の性能をデータ
セット間で比較。
• 破線のy = x線は、完全教師付き線形分類器と同等の性能を持つ
「最適な」ゼロショット分類器を表している。
• ほとんどのデータセットにおいて、ゼロショット分類器の性能は完全教師
付き分類器を10%から25%も下回っている。
• CLIPはTransformer型のため、学習と精度の向上が比例関係にあ
ると仮定できるはずだが、個々のタスクでは単純な比例関係にあるとは
いえない。
• ただし、全体の平均をとると、滑らかな比例関係が見える。

４. 実験
表現学習の比較
22
• 小規模だとEfficientNetの方が精度が高いが、CLIPはスケールを大きくすると他のモデルよりも精度が高くなる。
• CLIPのベースモデルは、ResNetよりもVisionTransformerを用いた方が３倍効率が良い。
• 最高の総合モデルViT-L/14は、評価群の中で、既存の最高のモデルよりも平均2.6%優れていた。
• 規模に関係なく、CLIPモデルは計算効率の点ですべてのモデルを上回った。

５. まとめ
結論
• カテゴリーを利用者側で自由に設定できる自然言語教師型画像分類モデル。
• 巨大な自然言語教師データ「WebImageText」を構築（４億組のデータセット）。
• 多様なタスクに対するゼロショット転移で優れた精度を達成。
23
課題
１．SOTAに匹敵する精度の向上
２．特定タスクでの精度向上
• 現在はResNetをベースにしてないSOATモデルが各タスクごとにある。
すべてのタスクでSOATの結果を出そうとした場合、CLIPのタスク学習能力と転移学習能力を向上させる作業が大幅
に必要であるが、ゼロショットCLIPが全体的に最先端の性能に到達するには、約1000倍の計算量の増加が必要であ
ると推定されている。（現在のハードウェアで訓練するには無理がある。）
• CLIPの計算効率とデータ効率を向上させる必要がある。
• 細かい分類タスク（自動車、花、航空機の種別など）
３．一般化能力の向上
• CLIPは高精度のOCRが可能だが、これはデジタルテキストに限定されたもの。
• MNISTの手書き数字に対しては88%の精度しか達成していない。

５. まとめ
24
４．分類以外への応用（キャプションの生成など）
• 与えられた概念からのみ選択することに制限されている。
課題
６．方法論（検証データセット）の問題
５．データ効率の悪さ
７．データの問題
８．自然言語による画像分類の限界
• 訓練データを大きくスケールすることでデータ効率の悪さを補償しているが、計算時間が増幅している。
• 現実のタスクで真のゼロショットを計測する場合に期待できる検証データが無い。
• 多くの社会的バイアスを含んだデータとなっている。
• 多くの複雑なタスクや視覚的な概念を自然言語だけで指定することが難しい。

Appendix
参考文献
• Desai, K. and Johnson, J. Virtex: Learning visual representations from textual annotations. arXiv preprint
arXiv:2006.06666, 2020.
• Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., and Langlotz, C. P. Contrastive learning of medical visual representations
from paired images and text. arXiv preprintarXiv:2010.00747, 2020.
• Griewank, A. and Walther, A. Algorithm 799: revolve: an implementation of checkpointing for the reverse or adjoint
mode of computational differentiation. ACM Transactions on Mathematical Software (TOMS), 26(1):19–45, 2000.
• Micikevicius, P., Narang, S., Alben, J., Diamos, G., Elsen, E., Garcia, D., Ginsburg, B., Houston, M., Kuchaiev, O.,
Venkatesh, G., et al. Mixed precision training. arXiv preprint arXiv:1710.03740, 2017.
• Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. Attention is all
you need. In Advances in neural information processing systems, pp. 5998–6008, 2017.
• Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold,
G., Gelly, S., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint
arXiv:2010.11929, 2020.
• Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell,
A., et al. Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 2020.
25

[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision