6. 基盤モデル | Foundation models
6
Foundation models @ On the Opportunities and Risks of Foundation Models
— any model that is trained on broad data at scale and can be adapted
(e.g., fine-tuned) to a wide range of downstream tasks...
— 広範なデータにより学習された,広い範囲の下流タスクに(追加学習等によって)適用可能なモデル
基盤モデル
Photo from Stanford HAI
7. Foundation modelsが目指す先とは?
7
AGI: Artificial General Intelligence*(汎用人工知能)
— 汎用的にタスクを解く人工知能に対する挑戦
Robotics
Vision
Language
Audio
Foundation
Model
Philosophy
Interaction
・・・まだまだ広がりを見せようとしている
*: AGIは人工知能の究極の目標のひとつと言われますが,Foundation Modelsの目的は種々あります
35. Zero-Shot Text-to-Image Generation (DALL·E論文)
35
著者 : Aditya Ramesh, et al.
VQ-VAE(dVAE) + Transformer(120億パラメータ)の構成で
約2.5億のテキスト-画像ペアで事前学習させ,
テキストから完成度の高い画像を自動生成
● VQ-VAEによって256×256のRGB画像を32×32(=1024)の画像トークンに変換(encode)
● BPE圧縮によってキャプションを256のテキストトークンに変換(encode)
● 上記のトークンをconcatしてembedding,Sparse Transformerを用いて各潜在変数を学習
● 画像生成時はTransformerで潜在変数を予測し,VQ-VAEによって画像を復元(decode)
○ CLIPによって入力テキストとの類似度でランキングして出力
● MS-COCOにおいて,zero-shotで既存手法に匹敵するFIDスコア達成
● 人間による評価実験において,
既存手法(DF-GAN)と比較してよりリアルで入力テキスト通りの画像を生成
ICML 2021 OpenAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
36. VQGAN-CLIP: Open Domain Image Generation and Editing with
Natural Language Guidance
36
著者 : Katherine Crowson et al.
● 複雑な文章をもとにした画像生成システム
● CLIPを用いてテキスト・画像ペアの類似性を評価する損失関数を定義し、画像生成の潜在空間を更新すること
で画像を生成
● 実行時間はやや遅い(イテレーション回数が多い)が学習コストが不要
GitHub
https://github.com/eleutherai/vqgan-clip
Kaggle
https://www.kaggle.com/code/basu369vi
ctor/playing-with-vqgan-clip/notebook
arXiv 2022 EleutherAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
37. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
37
著者 : Alex Nichol, et al.
テキストからの画像生成タスクにおいて
DALL-Eよりリアルであると評価された“GLIDE”
● パラメータ数35億+15億の誘導拡散モデルGLIDEを提案
● GLIDEを2種類の誘導方法からテキスト条件付き画像生成を行い比較
○ CLIP guidance:CLIP(ViT-L)の潜在空間の類似度を利用(classifierの知識を活用)
○ classifier-free guidance:確率的に条件付けを除外し分類も同時学習(
classifier不要)
● 比較の結果classifier-free guidanceの方が本物らしさとキャプション類似性について優位
● 独自フィルタによって生成画像の悪用を防止
● サンプリングがGANよりも大幅に遅いのがネック
ACL 2022 OpenAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
38. Hierarchical Text-Conditional Image Generation with CLIP Latents (DALL·E 2 論文)
38
著者 : Aditya Ramesh, et al.
DDPM + CLIPで
約6.4億のテキスト-画像ペアで事前学習し,
GLIDEと比較してより多様性のある画像を生成
● 事前分布(prior)として拡散モデルを用いる
○ テキストからCLIP画像埋め込みを生成.自己回帰モデルも試したが拡散モデルの方が良い結果に
● デコーダとしてGLIDEとほぼ同じ35億パラメータの拡散確率モデルを用いる
○ CLIP画像埋め込みから画像を生成. GLIDEと同様にclassifier-free guidanceを使用
→unCLIPと総称
arXiv (2022) OpenAI 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
39. Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding (Imagen 論文)
39
著者 : Chitwan Saharia, et al.
● テキストのみを事前学習し凍結させた大規模言語モデル(T5-XLL)が画像生成に有効
● DDPMをスケーリングするよりも,大規模言語モデルを拡張する方が効く
● DDPMは計約8.6億のテキスト-画像ペアで事前学習
● Efficient U-Netを導入し,計算効率・メモリ効率を向上させ,学習時間を短縮
COCOのFID指標においてDALLE•2を超える性能
arXiv (2022) Google 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
40. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation
(Parti 論文)
40
arXiv (2022) Google 画像生成
テキスト-画像
pre-train zero-shot
text to image
Foundation Model
著者 : Jiahui Yu, et al.
● Image Generator として ViTとVQGANを組み合わせたViT-VQGANを採用
○ モデルサイズを20Bまで大規模化したところ,DDPMを超える精度に
COCOのFID指標においてImagenを超える性能 !
42. NU¨ WA: Visual Synthesis Pre-training for Neural visUal World creAtion
42
著者 : Chenfei Wu, et al.
画像・動画・テキストを同時に学習することで
様々な視覚的生成/補完タスクにおいてSOTAを達成
● 3D Transformer encoder-decoder Frameworkにより画像・動画・テキストを同時に学習
3D Nearby
Attentionによって,空間軸と時間軸の双方の局所性を考慮しつつ計算量を削減
● 290万の画像-テキストペア,24万の動画-テキストペア,72万の動画データで事前学習
○ A-100 GPU × 64台 × 2週間
● 8つの視覚的な合成タスクにおいて高水準な精度,特に
TtoI/TtoV/VtoVでSOTAを達成
arXiv (2021) Microsoft
(with Peking University)
Foundation Model テキスト/画像/動画 言語/画像/動画
zero/few-shot
生成タスクが主
pre-train
43. Florence: A New Foundation Model for Computer Vision
43
著者 : Lu Yuan, et al.
Visionタスクを粒度/時間/形式の3軸方向に拡張して,
多種多様なVisionタスクを処理可能な基盤モデル“Florence”
● 粒度:粗いもの(シーンレベルの分類など)から細かいもの(物体検出など)
時間:静的なもの(画像など)から動的なもの(動画など),
形式:キャプション,深度など
● 9億の画像-テキストペアを用いて対照事前学習
(like CLIP),モデルバラメータは約893M
○ A-100 GPU × 512台 × 10日
● zero/few-shotで分類,検索,物体検出,VQA,画像キャプション,動画検索,行動認識など
様々なVisionタスクに適用可能
arXiv (2021) Microsoft Foundation Model 言語/画像/動画
テキスト-画像
pre-train zero/few-shot
44. Flamingo: a Visual Language Model for Few-Shot Learning
44
著者 : Jean-Baptiste Alayrac, et al.
画像とテキストを入力してテキストを生成するタスク全般
をfew-shotで高精度に実現し,6/16タスクでSoTA
● 70B(PT済みchinchilla)+10Bのtext encoderとCLIPベースのimage encoderが土台
● PerceiverをベースとしたResamplerで,動画などのマルチモーダルにも対応
● ベースラインのわずか1/1000程度のみのサンプル提示で,
VQAなどの6/16のtext-imageマルチモーダルタスクでSoTA達成
○ FIne-Tuningを行うと,更に5つのベンチマークでSoTA達成
arXiv (2022) DeepMind Foundation Model 言語(from 動画像)
テキスト-画像
pre-train zero/few-shot
58. Center for Research on Foundation Models (CRFM)
58
Percy Liang率いるStanford
● HAIから分岐してStanford大学内に2021年に発足
● Foundation Model開発に特化した研究機関
● CSだけでなく10種以上の専門領域から研究者が集結
● 不用意な大規模化でなく、効率性・堅牢性・
解釈可能性・倫理的健全性の実現を目指す理論研究
https://crfm.stanford.edu/