【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

http://deeplearning.jp/
Visual ChatGPT: Talking, Drawing and Editing with Visual
Foundation Models
小林範久 Present Square Co.,Ltd.
DEEP LEARNING JP
[DL Papers]
1

Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
https://arxiv.org/abs/2303.03378
タイトル：
著者： Chenfei Wu Shengming Yin Weizhen Qi Xiaodong Wang Zecheng Tang Nan Duan*
Microsoft Research Asia
fchewu, v-sheyin, t-weizhenqi, v-xiaodwang, v-zetang, nanduang@microsoft.com
• ChatGPTとVisual Foundation Modelsを組み合わせ、ChatGPTが複雑な視覚タスクを処理できるように
するVisual ChatGPTを提案。
• Prompt Managerを設計し、22種類の異なるVFMsを巻き込み、それらの相互関係を定義してより良い相
互作用と組み合わせができるようにした。
• 大量のゼロショット実験を行い、豊富な事例を示すことで、Visual ChatGPTの理解度と生成能力を検証。
概要：
2

アジェンダ
1. イントロダクション
2. 関連研究
3. Visual ChatGPT
4. 実験
5. 制限事項
6. 結論
3

１. イントロダクション
4
• 近年、大型言語モデル（LLMs）の開発は驚くべき進歩を遂げており、最も重要なブレークスルーの1つは、
InstructGPT をベースに構築された ChatGPT である。特に一般的な会話方式でユーザーと対話するように訓練されて
いるため、現在の会話の文脈を維持し、フォローアップ質問を処理し、それ自体が生成した答えを修正することができる。
• しかし、ChatGPTは視覚情報の処理能力に限りがある。これは、単一の言語モダリティでトレーニングされているため。
• 一方、Visual Foundation Models（VFMs）は、複雑な画像を理解し生成する能力を持つコンピュータビジョンにお
いて膨大な可能性を示している。
イントロダクション
しかし、上記はタスク仕様の性質上、入出力形式が厳しく固定されているため、VFM は人間と機械の対話における会話型
言語モデルよりも柔軟性に欠ける。
例）BLIP Model ：画像の理解と説明を提供するエキスパート
Stable Diffusion ：テキストプロンプトに基づいて画像を合成するエキスパート
ChatGPTのようなシステムを構築して、画像の理解と生成もサポートできないか？

5
• 直感的なアイデアとしては、マルチモーダルな会話モデルを学習させるというものがある。しかし、そのようなシステムを構築する
には、大量のデータと計算資源を消費することになる。また、言語や画像だけでなく、動画や音声などのモダリティを取り込み
たい場合、どうすればよいかという課題もある。
1）明示的にChatGPTに各VFMの能力を伝え、入力-出力形式を指定する。
2）異なる視覚情報（例えばpng画像、深度画像、マスク行列）を言語形式に変換してChatGPTが理解できるよう
にする。
3）異なるVisual Foundation Modelsの履歴、優先順位、競合を処理する。Prompt Managerの助けを借りて、
ChatGPTはこれらのVFMsを活用し、反復的にフィードバックを受け取る。
Visual ChatGPTというシステムを提案
• ChatGPTとこれらのVFMsの間のギャップを埋める。このPrompt Managerは次の機能をサポートする。
新しいマルチモーダルChatGPTをゼロからトレーニングする代わりにChatGPTを直接基盤としてVisual ChatGPTを
構築し、さまざまなVFMsを組み込む。
Prompt Managerを提案

6
黄色い花の画像をアップロードし、
「この画像の予測された深度に基づ
いて赤い花を生成し、それを漫画の
ように段階的に作成してください」と
いう複雑な言語指示を入力。
①
Prompt Managerの助けを借りて、
Visual ChatGPTは関連する
Visual Foundation Modelsの実
行チェーンを開始する。
②
まず深度推定モデルを適用して深度情報を検出。
次に深度情報を使用して深度-画像モデルで赤い花の図を生成。
・最後にStable Diffusionモデルに基づくスタイル転送VFMを活用
⇒画像のスタイルを漫画に変更
最終結果が
表示される
③
④

２. 関連研究
2.1. 自然言語とビジョン
7
• 様々なモダリティ（音、視覚、映像など）に囲まれた生活において、言語と視覚は情報を伝達する2つの主要な媒体である。
• 自然言語と視覚の間には自然なリンクがあり、ほとんどの質問では、満足のいく結果を得るために、この２つの流れの共同モ
デリングが必要である。
視覚的質問応答（VQA）は、画像とそれに対応する1つの質問を入力として受け取り、与えられた画像内の
情報に基づいて回答を生成することが求められる。
例：
• InstructGPT のような大規模言語モデル（LLMs）の成功により、モデルとの対話や自然言語形式でフィードバックを得る
ことができるが、視覚情報を処理することができない。視覚処理能力をこのようなLLMに融合させるためには、大規模な言語
モデルや視覚モデルを訓練することが困難であり、適切に設計された指示や面倒な変換が必要であるため、LLMsに視覚処
理能力を融合させるためにはいくつかの課題がある。
• いくつかの作品は、事前学習されたLLMsを活用してVLタスクのパフォーマンスを向上させることを探求しているが、これらの方
法はいくつかの特定のVLタスク（言語から視覚または視覚から言語）をサポートし、訓練にラベル付きデータが必要である。

２. 関連研究
2.2. VLタスクのための事前学習済みモデル
8
• 視覚的な特徴をよりよく抽出するために、初期の作品では事前学習された画像エンコーダーが採用されている。最近の
LiT ではCLIP事前学習モデルと学習済みViTモデルが適用されている。
• 別の観点から見ると、LLMsから知識を活用することも重要である。事前学習されたLLMsは強力なテキスト理解および生
成能力を示している。
• VLモデリングでは、視覚特徴をテキスト空間に合わせるために、事前学習済みLLMsに追加アダプタモジュールを追加して
いる。モデルパラメーターの数が増えると、事前学習されたLLMsを訓練することが難しくなるため、VLタスクに事前訓練され
たLLMを直接活用する取り組みがなされている。

２. 関連研究
2.3. VLタスク用プレトレーニングLLMsのガイダンス
9
• 複雑なタスク、例えば、常識的な推論を対処するために、 LLMsの多段階推論能力を引き出すChain-of-Thought
（CoT）が提案されている。具体的には、CoTはLLMsに最終結果のための中間回答を生成するよう求める。
• 既存の研究は、この技術をFew-Shot-CoT とZero-Shot-CoT の2つのカテゴリーに分類している。Few-Shot-Cot
では、LLMsはCoT推論を行い、LLMsが複雑な問題を解決する能力をよりよく獲得できることがわかった。さらに、LLMsが
ゼロショット設定下で自己生成された根拠を活用して自己改善できることが示されている。
• 上記の研究は主に言語という単一のモダリティに焦点を当てたものである。近年、言語と視覚モダリティを組み込んだ
Multimodal-CoT が提案され、根拠生成と回答推論を分離した2段階フレームワークが提案されている。
• しかし、このような方法は、ScienceQAベンチマークのような特定のシナリオ下でのみ優位性を示すにすぎない。
• 本研究はCoTの可能性を大量のタスクに拡張しており、テキスト-画像生成、画像-画像変換、画像-テキスト生成などが
含まれている。

３. Visual ChatGPT
10
• 図の左側は、3ラウンドの対
話を示している。
• 中央は、Visual ChatGPT
がVisual Foundation
Modelsを反復的に呼び出
し、回答を提供するフローチ
ャートを示している。
• 右側は、2番目のQAの詳細
なプロセスを示している。
Visual ChatGPTの概要

３. Visual ChatGPT
11
Visual ChatGPT
• 𝑆 = {(𝑄1, 𝐴1), (𝑄2, 𝐴2), … , (𝑄𝑁 , 𝐴𝑁 )} を 𝑁 個の質問-回答ペアを
持つ対話システムとする。
• 𝑖 回目の会話から応答𝐴𝑖を得るために、複数のVFMsとそれらのモデル
からの中間出力A𝑖
(𝑗)
が関与する。𝑗 は 𝑖 回目のラウンドで 𝑗 番目の
VFM（F）からの出力を示す。
• 最後に、システムはA𝑖
(𝑗)
を出力し、それが最終応答として示され、それ
以上のVFMは実行されない。
𝑸𝟏
𝑨𝟏
𝑸𝟐
𝑨𝟐
𝑸𝒊
𝑨𝒊
・
・
・・
・
・
𝑸𝑵
𝑨𝑵
S
j番目の
VFM
Visual ChatGPTの定義式

３. Visual ChatGPT
12
Visual ChatGPT
• Visual ChatGPTに基本的なルールを提供する。
例：画像のファイル名に敏感であること。
チャット履歴に基づいて結果を生成するのではなく、VFMを使用して画像を処理すること。など
システムプリンシプル 𝑷
Visual Foundation Model 𝑭
• Visual ChatGPTの中核は、さまざまなVFMs：𝐹 = {𝑓1, 𝑓2, … , 𝑓𝑁 }
の組み合わせ。
• 各基礎モデル𝑓𝑖は明確な入力と出力を持つ決定された関数を含む。
• Visual ChatGPT がサポートしているFoundation modelsが右表。
対話履歴 𝑯<𝒊
𝑖 番目のラウンドの対話履歴を、過去の質問回答ペア、すなわち {(𝑄1, 𝐴1), (𝑄2, 𝐴2),· · · , (𝑄𝑖−1, 𝐴𝑖−1)} の文字列
連結したものと定義する。対話履歴を最大長で切り捨てて、ChatGPTモデルの入力長に合わせる。

３. Visual ChatGPT
13
Visual ChatGPT
ユーザークエリ 𝑸𝒊
• Visual ChatGPTでは、言語クエリだけでなく視覚クエリも含むことができる。
推論履歴 𝑹𝒊
(<𝒋)
• 複雑な質問を解決するために、Visual ChatGPTは複数のVFMの協力が必要な場合がある。
• 𝑖 回目のラウンドの会話について、 𝑹𝒊
(<𝒋)
は 𝑗 番目に呼び出されたVFMsからのすべての以前の推論履歴である。
中間回答 𝑨(𝒋)
• Visual ChatGPTは、複雑なクエリを処理する場合、異なるVFMを論理的に呼び出すことで、複数の中間回答を
生成し、ステップバイステップで最終回答を得ようとする。
• プロンプトマネージャーは、 ChatGPTモデルが理解できるように、すべての視覚信号を言語に変換するよう設計されて
いる。
Prompt Manager M

３. Visual ChatGPT
14
Prompt Manager の全体図
定義式

３. Visual ChatGPT
15
3.1. システムプリンシプルのPrompt Managing M(P)
• Visual ChatGPTは、視覚情報を理解し、応答する答えを
生成するために、さまざまなVFMを統合するシステムである。
• そのためには、システムの原理をカスタマイズし、ChatGPTが
理解できるようなプロンプトに変換する必要がある。このプロン
プトには、以下のような目的がある。
VFMs へのアクセス
• Visual ChatGPTは、さまざまなVLタスクを解決するためのVFMsリストにアクセスできる。どの基礎モデルを使用
するかは、完全にChatGPTモデル自身が決定するため、新しいVFMsやVLタスクに対応しやすくなっている。
ファイル名感度
• Visual ChatGPTはファイル名によって画像ファイルにアクセスし、正確なファイル名を使用することが重要である。これ
は、1回の会話に複数の画像とその異なる更新バージョンが含まれる場合があり、ファイル名の誤用が現在議論されて
いる画像について混乱を招く可能性があるためである。そのため、Visual ChatGPTはファイル名使用に厳格であり、
正しい画像ファイルを取得および操作することを確実にする。

３. Visual ChatGPT
16
• 1つの見かけ上単純なコマンドでも複数のVFMsが必要な場合がある。（本論文の漫画風の赤い花の例）
• より複雑なクエリをサブ問題に分解して対処するために、CoTがVisual ChatGPTに導入されており、次の実行また
は最終応答を返すためのVFMsを決定・活用・ディスパッチするのに役立つ。
Chain-of-Thought
3.1. システムプリンシプルのPrompt Managing M(P)
推論形式の厳格化
• 言語モデルであるVisual ChatGPTは、画像ファイル名や事実を捏造する可能性があり、システムの信頼性を低下
させる可能性がある。このような問題に対処するために、Visual ChatGPTがビジョン基礎モデルの出力に忠実であり、
画像の内容やファイル名を生成しようとするプロンプトを設計している。また、複数のVFMの連携によりシステムの信頼
性が向上するため、会話履歴に基づいて結果を生成するのではなく、VFMを優先的に活用するようChatGPTを誘
導するプロンプトを構築している。
信頼性
• Visual ChatGPTは厳密な推論形式に従わなければならない。そのため、推論結果を精巧な正規表現で解析し、
ChatGPTモデルが次の実行を決定するための合理的な入力形式を構築する。（例えば、新しいVFMをトリガーとし
たり、最終応答を返す。）

３. Visual ChatGPT
17
• 使用法プロンプトはVFMが使用されるべき具体的なシナリオを説明す
る。例えば、Pix2Pixモデルは、画像のスタイル変更に適している。この
情報提供はVisual ChatGPTが特定のタスクにどのVFMを使用する
か決定する際に役立つ。
• 例プロンプトはオプション。Visual ChatGPTが特定の入力テンプレート下で特定のVFMの使用方法をよりよく理解し、
複雑なクエリを処理する際にも役立つ。
名前
• プロンプトは、Visual ChatGPTがVFMの目的を簡潔に理解するのに
役立つだけでなく、VFMへの入口として機能する。
使用法
• 入力および出力プロンプトは、各VFMで必要とされる入力および出力形式の概要を示す。
入力/出力
例（オプション）
3.2 Foundation modelの Prompt Managing M(F)
• Prompt Managerは次項の側面を特定して、Visual ChatGPTが正確にVLタスクを理解し処理できるようにする。

３. Visual ChatGPT
18
3.3. ユーザークエリのPrompt Managing 𝑴(𝑸𝒊)
• Visual ChatGPTは、言語または画像、単純なものから複
雑なものまで、さまざまなユーザークエリに対応している。
• Prompt Managerは次の2つの側面からユーザークエリを
処理する。
• Visual ChatGPTは、新しくアップロードされた画像と、既存の画像を参照する画像の 2 種類の画像関連クエリを処理す
ることができる。
• 新規にアップロードされた画像に対して、Visual ChatGPT は UUID(universally unique identifier) を持つユニー
クなファイル名を生成し、相対ディレクトリを表すプレフィックス文字列 “image” を追加する(例:“image/{uuid}.png”)。
• アップロードされた画像はChatGPTに入力されないが、画像のファイル名を示す質問と画像を受信したことを示す回答を含
むための対話履歴が生成される。
• 既存の画像を参照するクエリについて、Visual ChatGPTはファイル名のチェックを無視する。
（ChatGPTは、UUID名などの曖昧さがなければ、ユーザークエリのファジーマッチングを理解する能力があるため、
このアプローチは有益であると証明されている。）
（１）ユニークなファイル名の生成

３. Visual ChatGPT
19
• Visual ChatGPTのVFMのトリガーを成功させるために、(𝑄𝑖)に接尾辞promptを付加している。
「VisualChatGPTはテキスト言語モデルなので、VisualChatGPTは想像ではなく、イメージを観察するためのツールを
使用する必要があります。Visual ChatGPTはテキスト言語モデルであるため、Visual ChatGPTは想像ではなく
イメージを観察するツールを使用しなければなりません。Thought：ツールを使う必要があるか」。
（２）VFM思考の強制
このプロンプトには2つの目的がある。
3.3. ユーザークエリのPrompt Managing 𝑴(𝑸𝒊)
1）VisualChatGPTが想像力だけに頼らず、Foundationモデルを使うように促す。
2）VisualChatGPTが「ここにいるよ」といった一般的な応答ではなく、Foundationモデルによって生成された
具体的なアウトプットを提供するように促す。

３. Visual ChatGPT
20
• 異なるVFMsからの中間出力𝐹(𝐴𝑖
(𝑗)
)について、Visual
ChatGPTは暗黙的に要約し、その次の対話のために
ChatGPTに供給する。
• すなわち、他のVFMsを呼び出して、終了条件に達する
まで、またはユーザーにフィードバックを与えるまで、更な
る操作を行う。内部ステップは以下のように要約できる。
• Visual ChatGPTの中間出力は、次の暗黙的な会話ラウンドの入力になる。そのため、これらの出力をより論理的にす
る必要がある。
（１）連鎖したファイル名の生成
3.4 Foundation ModelアウトプットのPrompt Managing 𝑴(𝑭(𝑨𝒊
(𝒋)
))
• Visual Foundation Modelsから生成された画像は「image/」フォルダーに保存される。次の文字列が画像名を表すことを示唆す
る。次に、画像は「{Name} {Operation} {Prev Name} {Org Name}」と命名されます。ここで、{Name} は上記のUUID
名であり、{Operation} は操作名、{Prev Name} は入力画像の一意の識別子、{Org Name} はユーザーがアップロードした
画像またはVFMsによって生成された元の画像名である。例えば、「image/ui3c edge-of o0ec nji9dcgf.png」は入力「o0ec」
のキャニーエッジ画像であり、「ui3c」と名付けられる。この画像の元の名前は「nji9dcgf」である。このような命名規則により、
ChatGPTに中間結果属性（例えば画像）とそれが一連の操作からどのように生成されたかを示唆することができる。
命名規則等

３. Visual ChatGPT
21
（２）VFMの追加呼び出し
• Visual ChatGPTの中核の一つは、ユーザーの
コマンドを完了するために、自動的にVFMを追
加で呼び出すことができることである。
• 具体的には、ChatGPTが現在の問題を解決す
るためにVFMが必要かどうか自問自答し続ける
ように、各世代の末尾に「Thought: 」という接
尾語を末尾につける。
（３）詳細な情報を求める
• ユーザーのコマンドが曖昧な場合、Visual ChatGPTはVFMsをより活用するために、ユーザーに詳細を求める。
• LLMは、特に入力された情報が不十分な場合に、ユーザーの意図を恣意的に改ざんまたは推測することが許可され
ていないので、このデザインが安全かつ重要である。
3.4 Foundation ModelアウトプットのPrompt Managing 𝑴(𝑭(𝑨𝒊
(𝒋)
))

4. 実験
22
4.1. セットアップ
• LLMをChatGPT（OpenAI「text-davinci-003」バージョン）で実装し、LangChain1でLLMをガイドする。
• HuggingFace Transformers からFoundationモデルを収集し、Maskformer 3およびControlNet 4から
Foundaitonモデルを収集。
• すべての22 VFMsの完全な展開には4つのNvidia V100 GPUが必要であるが、ユーザーはGPUリソースを柔軟に節
約するために少ないFoundationモデルをデプロイすることができる。
• チャット履歴の最大長さは2,000であり、過剰なトークンはChatGPTの入力長に合わせるため切り捨てられる。

4. 実験
23
4.2. 複数ラウンド対話のフルケース
• 図4はVisual ChatGPTの16ラウンドマルチモーダル対話ケースである。
• このケースでは、ユーザーがテキストと画像両方の質問を尋ね、Visual ChatGPTはテキストと画像両方で応答する。
• この対話には、複数の画像の議論、複数のFoundationモデルの処理、および複数ステップが必要な質問の処理が含まれる。
• 対話では、Visual ChatGPTは
人間の意図を理解し、言語と画
像の入力をサポートし、生成、質
問、編集などの複雑な視覚タスク
を達成することができる。
図4. 人間とVisual ChatGPTの
複数ラウンドの対話

4. 実験
24
4.3. プロンプトマネージャーのケーススタディ
• システム原則のプロンプトを管理するケーススタディを図5で分析。
• Foudationモデルのプロンプトを管理するケーススタディを図6で分析。
• ユーザークエリとモデル出力のプロンプト管理のケーススタディを図7で分析。
図５図６図７

4. 実験
25
図5. システム原則のプロンプト管理のケーススタディ
• ファイル名感度、推論形式厳格性、信頼性、思考の連鎖の4つの提案を定性的に分析する。
• システム原理のプロンプトの有効性を検証するため、様々な部分を削除してモデル性能を比較する。それぞれの削除によって、
異なる容量の劣化が生じる。
M(P)でファイル名感度を強調することがファイル参照
精度に影響するかどうかを示している。
推論形式の厳格性がなければさらなる解析
は実行できない。
ファイル名をしっかりと
認識している。
推論形式が適切に
選ばれている。
（この例は画像）

4. 実験
26
Visual ChatGPTに観察に忠実であるよう指示するか、
コンテンツを生成するかの違いを示している。
図5. システム原則のプロンプト管理のケーススタディ
• ファイル名感度、推論形式厳格性、信頼性、思考の連鎖の4つの提案を定性的に分析する。
• システム原理のプロンプトの有効性を検証するため、様々な部分を削除してモデル性能を比較する。それぞれの削除によって、
異なる容量の劣化が生じる。
チェーン内でツール使用能力を強調することが決
定に役立つことを示している。
正しい情報が
出力されるように
調整されている。
正しい情報が
出力されるように
調整されている。

4. 実験
27
図６．基礎モデルのプロンプト管理のケーススタディ
ツール名の使用法が欠落または不明確な場合、他のツールを
呼び出したりエラーが発生したりすることを示している。
Visual ChatGPTがツール名を推測してから、ツール名が
ないと正しいツールを使用できないことを示している。
• 名前、使用法、入力/出力、例の4つの提案を定性的に分析する。

4. 実験
28
入力/出力形式の要件が欠如すると、誤ったパラメータ
につながることを示している。
図６．基礎モデルのプロンプト管理のケーススタディ
• 名前、使用法、入力/出力、例の4つの提案を定性的に分析する。
例の提供。ChatGPTは履歴情報と人間の意図をまとめて
正しいツールを使用することができる。

4. 実験
29
図7. ユーザークエリとモデル出力のプロンプト管理のケーススタディ
VFM思考強制がツール呼び出しと厳格な思考形式を
促進することを示している。
• ユニークなファイル名、VFM思考強制、チェーンされたファイル名、詳細を求める4つの提案を定性的に分析。
ユニークなファイル名が上書きを回避することを示し
ている。

4. 実験
30
図7. ユーザークエリとモデル出力のプロンプト管理のケーススタディ
Visual ChatGPTが曖昧な参照を検出し、詳細を
求めることができることを示している。
• ユニークなファイル名、VFM思考強制、チェーンされたファイル名、詳細を求める4つの提案を定性的に分析。
チェーンされたファイル命名がファイルの理解に役立ち、
Visual ChatGPTによって正常に観察され結論付
けられることを示している。

５.制限事項
31
制限事項
ChatGPTおよびVFMsへの依存
基礎モデルを簡単に接続および切断できる能力は、特にAPIを介してアクセスされるリモートモデルの場合、セキュリティとプライバシー上の
懸念を引き起こす可能性があります。機密データが公開または漏洩されないようにするために、注意深い検討と自動チェックが必要である。
Visual ChatGPTは、タスクを割り当てるためにChatGPTに、タスクを実行するためにVFMsに重点を置いている。したがって、Visual
ChatGPTのパフォーマンスはこれらのモデルの正確性と効果に大きく影響される。
プロンプトエンジニアリングが重い
Visual ChatGPTには、VFMsを言語に変換し、これらのモデルの説明を識別可能にするために、かなりの量のプロンプトエンジニアリング
が必要である。このプロセスは時間がかかる場合があり、コンピュータビジョンと自然言語処理の両方の専門知識が必要である。
リアルタイム機能の制限
Visual ChatGPTは一般的な目的で設計されている。それは、複雑なタスクを自動的にいくつかのサブタスクに分解しようとする。したが
って、特定のタスクを処理する際には、Visual ChatGPTは複数のVFMsを呼び出す場合があり、特定のタスクに特化した専門モデルと
比較して、リアルタイム機能が制限される可能性がある。
トークン長の制限
ChatGPTの最大トークン長は、使用できる基礎モデルの数を制限する可能性がある。基礎モデルが数千または数百万ある場合は、
ChatGPTに供給されるVFMsを制限するためにプレフィルタモジュールが必要になる場合がある。
セキュリティとプライバシー

６. 結論
32
まとめ
• 本研究では、異なるVFMsを組み込み、ユーザーが言語形式を超えてChatGPTとやりとりできるオープンシステムである
Visual ChatGPTを提案。視覚情報をChatGPTに注入するための一連のプロンプトを細心の注意を払って設計する
ことで複雑な視覚的な問いに段階的に対処することができる。
• 大量の実験と選ばれたケースが、Visual ChatGPTが異なるタスクにおいて優れた潜在能力と能力を示したことを示し
ている。
• 前述の制限事項に加えて、VFMsの失敗やプロンプトの不安定性により、いくつかの生成結果が不満足な場合がある
ことが懸念される。
• したがって、実行結果と人間の意図との整合性を確認し、対応する編集を行うための自己訂正モジュールが必要であ
る。このような自己訂正行動は、モデルのより複雑な思考を引き起こし、推論時間を著しく増加させることも課題。
課題

Appendix
参考文献
• [2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh.
Vqa: Visual question answering. In Proceedings of the IEEE international conference on computer vision, pages 2425–
2433, 2015.
• [29] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini
Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. arXiv
preprint arXiv:2203.02155, 2022.
• [39] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia
Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017
• [42] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed H Chi, Quoc V Le, Denny Zhou, et al.
Chain-of-thought prompting elicits reasoning in large language models. In Advances in Neural Information Processing
Systems, 2022.
• [51] Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, and Lucas Beyer. Scaling vision transformers. In Proceedings of
the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12104–12113, 2022.
• [52] Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, and Lucas Beyer.
Lit: Zero-shot transfer with locked-image text tuning. In Proceedings of the IEEE/CVF Conference on Computer Vision
and Pattern Recognition, pages 18123–18133, 2022.
33

【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Similar to 【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models (20)

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models