SlideShare ist ein Scribd-Unternehmen logo
1 von 50
Downloaden Sie, um offline zu lesen
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
DLゼミ(論文紹介)
ReAct: Synergizing Reasoning and
Acting in Language Models
北海道大学大学院 情報科学院 情報理工学部門
複合情報工学分野 調和系工学研究室
博士後期課程 3年 吉田 拓海
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
概要
タイトル
ReAct: Synergizing Reasoning and Acting in Language Models
著者
A
発表
ICLR2023
Project: https://react-lm.github.io/
Paper: https://arxiv.org/abs/2210.03629
Code: https://github.com/ysymyth/ReAct
Blogpost: https://ai.googleblog.com/2022/11/react-synergizing-
reasoning-and-acting.html
概要
大規模言語モデルでReasoning推論とActing行動を組合わせる
prompt手法であるReActを提案
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
概要
大規模言語モデルでReasoning推論とActing行動を組合わせる
prompt手法であるReActを提案
[画像引用 Blogpost] ReAct: Synergizing Reasoning and Acting in Language Models. Googleblog.com. Published November 8, 2022.
Accessed April 24, 2023. https://ai.googleblog.com/2022/11/react-synergizing-reasoning-and-acting.html
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
目次
はじめに
関連研究
ReAct
知識集約型の推論タスク
意思決定タスク
まとめ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
目次
はじめに
関連研究
ReAct
知識集約型の推論タスク
意思決定タスク
まとめ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
行動 Acting と 推論 Reasoning
人間の知能の特徴
タスク指向の行動(Acting)と言語的な推論(Reasoning)を
シームレスに組み合わせる
例:キッチンで料理
Reason to Act
進捗状況の把握
「材料が揃ったので、鍋にお湯を沸かす」
状況に応じた例外処理、計画の調整
「塩が無いので、醤油とコショウで代用する」
Act to Reason
「どんな料理を作る?」→「料理本を読む」「冷蔵庫の食材を確認」
行動と推論の相乗効果によって人間は意思決定・推論が可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
ReAct
多様な言語推論・意思決定タスクを解決するために
大規模言語モデルLLMで推論と行動を組合わせる ReAct を発表
Reason to Act
行動のための計画を作成
Act to Reason
外部環境と相互作用して
推論に追加情報を組み込む
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
目次
はじめに
関連研究
ReAct
知識集約型の推論タスク
意思決定タスク
まとめ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
関連研究 Chain of Thought [Wei+, 2022]
思考過程を含むpromptで多段階推論を要するタスクの性能向上
[Wei+, 2022] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of
thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
関連研究 Inner Monologue [Huang+, 2022]
本研究 ReAct に最も近い研究
環境からのフィードバックを活用し Inner Monologue を作成
エージェントの行動の動機付けとなる
真に内なる思考 inner thoughts ではない(著者らの主張)
環境の観察 と 目標達成のために必要なこと に限定される
Monologue: 独り言
[Huang+, 2022] Wenlong Huang, Fei Xia, Ted Xiao, Harris Chan, Jacky Liang, Pete Florence, Andy Zeng, Jonathan Tompson,
Igor Mordatch, Yevgen Chebotar, et al. Inner monologue: Embodied reasoning through planning with language models. arXiv
preprint arXiv:2207.05608, 2022b.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
目次
はじめに
関連研究
ReAct
知識集約型の推論タスク
意思決定タスク
まとめ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
環境と相互作用するエージェント
ある時刻 𝑡𝑡
エージェントは環境から観測値 𝑜𝑜𝑡𝑡 ∈ 𝑂𝑂 を受け取る
方策 𝜋𝜋(𝑎𝑎𝑡𝑡|𝑐𝑐𝑡𝑡) に従って行動 𝑎𝑎𝑡𝑡 ∈ 𝐴𝐴 を選択
ReAct の考え方
行動空間を拡張 ̂
𝐴𝐴 = 𝐴𝐴 ∪ 𝐿𝐿 (𝐿𝐿:言語空間)
言語空間における行動 �
𝑎𝑎𝑡𝑡 ∈ 𝐿𝐿 は環境に影響を与えないが
文脈 𝑐𝑐𝑡𝑡+1 = (𝑐𝑐𝑡𝑡, �
𝑎𝑎𝑡𝑡) を更新し将来の推論や行動をサポート
思考(thought)または推論トレース(reasoning trace)と呼ぶ
Few-shot promptによって ReAct を実現
11
ReAct
エージェント
環境
行動 𝑎𝑎𝑡𝑡 ∈ 𝐴𝐴
観測値 𝑜𝑜𝑡𝑡 ∈ 𝑂𝑂
方策 𝜋𝜋(𝑎𝑎𝑡𝑡|𝑐𝑐𝑡𝑡)
文脈 𝑐𝑐𝑡𝑡 = (𝑜𝑜1, 𝑎𝑎1, … , 𝑜𝑜𝑡𝑡−1, 𝑎𝑎𝑡𝑡−1, 𝑜𝑜𝑡𝑡)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
ReAct Prompt
思考(Thought) を追加
QAのプロンプト例
テキストベースのゲームのプロンプト例(一部)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
ReActの特徴
直観的で簡単なデザインが可能
行動を言語化し、その上に思考を打ち込むだけ
一般的で柔軟性がある
多様なタスクに対応可能
知識集約型の推論タスク:QA、事実検証
意思決定タスク:テキストゲーム、ウェブナビゲーション
性能が高くロバスト
1~6-shotで新しいタスクインスタンスを解く
推論/行動のみのベースラインより高い性能を示す
人間に合わせて制御可能
解釈可能な逐次的意思決定と推論プロセス
推論と事実の正確さを簡単に検査可能
思考を編集することでエージェントの行動を制御可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
目次
はじめに
関連研究
ReAct
知識集約型の推論タスク
意思決定タスク
まとめ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
知識集約型の推論タスク
2つのタスクでReActを評価
質問応答 HotpotQA [Yang+, 2018]
事実検証 Fever [Thorne+, 2018]
行動空間(Wikipedia API)
ページ検索:search[entity]
対応する entity wiki が存在する場合、そこから最初の5文を返す
存在しない場合、類似entityの上位5つを返す
文字列検索:lookup[string]
stringを含む文章を返す(Ctrl + F)
回答:finish[answer]
現在のタスクをanswerで終了させる
難しい設定になっていることに注意
Wikipedia APIの結果は文字列が完全一致する必要がある
質問 / 主張のみを入力する(後述)
サポート用のパラグラフを入力しない
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
HotpotQA 論文[Yang+, 2018]から図表引用
2つのParagraphから質問の答えを推論するタスク
ReActでは質問のみを入力とする
内部知識もしくは外部知識を取得する必要がある
[Yang+, 2018] Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W Cohen, Ruslan Salakhutdinov, and Christopher
D Manning. Hotpotqa: A dataset for diverse, explainable multi-hop question answering. arXiv preprint arXiv:1809.09600, 2018.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
FEVER 論文[Thorne+, 2018]から図表引用
主張Claimの事実検証をするタスク
SUPPORTED / REFUTED / NOT ENOUGH INFO の3クラス分類
ReActでは主張Claimのみを入力とする
内部知識もしくは外部知識を取得する必要がある
[Thorne+, 2018] James Thorne, Andreas Vlachos, Christos Christodoulopoulos, and Arpit Mittal. Fever: a large-scale dataset for
fact extraction and verification. arXiv preprint arXiv:1803.05355, 2018.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
知識集約型の推論タスクにおけるReAct
ReActのPromptの作成
訓練セットから6(HotPotQA)/3(Fever)件をランダム抽出
ReAct形式の trajectory を手動で作成
[思考-行動-観測] から構成される(密な思考)
複数のBaseline
Standard
ReActの全ての思考、行動、観測を削除
Chain-of-thought (CoT)
ReActの行動と観測のみを削除
CoT-SC (Self-consistency [Wang+, 2022])
CoTの推論時に温度0.7で21回サンプリングし多数決
Acting-only (Act)
ReActの思考を除去
WebGPT[Nakano+, 2021]に類似
[Nakano+, 2021] Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse,
Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button,
Matthew Knight, Benjamin Chess, and John Schulman. Webgpt: Browser-assisted question-answering with human feedback,
2021. URL https://arxiv. org/abs/2112.09332.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
ReAct+CoT-SC, Finetuning
ReAct と CoT-SC を組合わせるヒューリスティックを提案
ReActは事実に基づいた問題解決プロセス
CoTは推論構造の形成が正確
ReAct -> CoT-SC
ReActが所定のステップ内で回答できない場合にCoT-SCに変更
HotpotSQAは7steps、FEVERは5 steps
CoT-SC -> ReAct
n個のCoT-SC回答のうち多数派回答がn/2未満の場合にReActに変更
Finetuning
ReActで生成した正解の3000 trajectoryを使用してfinetune
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
Prompt例 HotpotQA(Standard, CoT, Act)
Standard
CoT
Act Action1: “Milhouse”でページ検索、 Action2: “named after”で文字列検索
Q. ミュージシャンで風刺作家のAllie Goertzが「ザ・シンプソンズ」のキャラクター「ミ
ルハウス」について曲を書きましたが、Matt Groeningは誰の名前をつけたのでしょうか。
ミルハウス
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
Prompt例 HotpotQA(ReAct) 1/2
ReAct
trajectory は ”密な思考” (Thought {n}, Action {n}, Observation {n}) で構成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
Prompt例 HotpotQA(ReAct) 2/2
ReAct
Thought 1: Milhouseを検索し、誰にちなんだ名前か探す
Thought 2: このパラグラフでは分からない、”named after”で文字列検索
Thought 3: 答えはリチャードニクソン
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
知識集約型の推論タスク ReAct vs Act
言語モデルは PaLM-540B を使用(付録でGPT-3でも評価)
ReActは一貫してActを上回る EM: exact match
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
知識集約型の推論タスク ReAct vs CoT
Fever
ReAct > CoT
正確で最新の知識を取得するための行動は重要
HotPotQA
ReAct < CoT
不正解例を分析
(次ページ)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
知識集約型の推論タスク ReAct vs CoT
HotpotQAにおけるReActとCoTの正解/不正解例を分析
正解/不正解をランダム抽出(各50件)し手動で分類
考察
A) CoTのとって幻覚(Hallucination)は深刻な問題
B) 思考-行動-観測 の制約によって推論の柔軟性が低下
C) 検索で知識を正確に取得することが重要
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
知識集約型の推論タスク ReAct vs CoT
A) CoTのとって幻覚(Hallucination)は深刻な問題
False positive と Hallucination が多い
ReActは外部知識へのアクセスによってより根拠があり
事実に基づいた信頼性の高い問題解決過程
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
知識集約型の推論タスク ReAct vs CoT
B) 思考-行動-観測 の制約によって推論の柔軟性が低下
ReActはCoTよりも Reasoning Error が高い
ReAct特有のエラーパターン
モデルが前の思考と行動を繰り返す頻度が高い
貪欲なdecode方法が原因?
ビームサーチのようなdecode方法の研究が
この問題を解決するかもしれない
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
知識集約型の推論タスク ReAct vs CoT
C) 検索で知識を正確に取得することが重要
Search result error が 23%を占め、モデルの推論を狂わせる
事実性 factuality と柔軟性 flexibility のトレードオフと予想される
2つの手法の組合せの動機となる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
29
知識集約型の推論タスク ReAct + CoT-SC
ReAct + CoT-SC が最も良い性能
どちらもCoT-SCを上回る
内部知識と外部知識を適切に組合わせることの価値を示している
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
30
知識集約型の推論タスク Finetuning 1/2
ReActはFinetuningによる性能向上が大きい
PaLM-8/62B(Prompting)ではReActが最も性能が悪い
文脈内の例から推論と行動の両方を学ぶことが難しい
FinetuneするとReActは4つの手法で最も性能が良い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
31
知識集約型の推論タスク Finetuning 2/2
Finetune設定ではStandardやCoTは性能が悪い
Standard, CoTは知識、事実を記憶することをモデルに教える
Act, ReActは推論のスキルとしてより一般化できる
Wikipediaから情報を取得する行動方法をモデルに教える
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
32
知識集約型の推論タスク SoTA
SoTAの性能には及ばない
FinetuneがReActの力を発揮する方法であると信じている(著者)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
33
目次
はじめに
関連研究
ReAct
知識集約型の推論タスク
意思決定タスク
まとめ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
34
意思決定タスク
ALFWorld [Shridhar+, 2020]
テキストベースのゲーム
6種類のタスクを持つ (Pick, Clean, Heat, Cool, Look, Pick 2)
エージェントは高レベルな目標を達成する
例:デスクランプ(明かり)の下で紙を調べる
テキストアクションで家の中をナビゲート・インタラクション
例:コーヒーテーブル1に行く、紙を取る、デスクランプ1を使う
WebShop [Yao+, 2022]
118万個の実世界商品と12k人の人間の指示
エージェントは指示に従って商品を購入する
例:「引出付きの無いとスタンドを探している、ニッケル仕立てで
価格は140ドル以下。」
Webインタラクションを通じて商品を購入
例:「”ナイトスタンド 引出”を検索」、「購入ボタンを押す」
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
35
ALFWorld
Promptの作成
各タスクタイプの訓練セットから3つのtrajectoryを作成
ロバスト性の評価のため6つのプロンプトを作成
3𝑃𝑃2通り(2-shot)
各trajectoryは以下の思考を含む(疎な思考)
目標の分解
サブ目標の完了を追跡
次のサブ目標の決定
どこにオブジェクトがあってそれをどうするのかを常識で推論
評価
134のテスト用ゲームで評価
各タスクタイプのエキスパートtrajectoryで訓練された
模倣学習エージェントのBUTLERと比較
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
36
WebShop
Promptの作成
Act
検索、商品選択、オプション選択、購入 で構成
ReAct
何を検索するか、いつ購入するか、
どのオプションが指示に関連するのか を決定する思考を追加
評価
500のテスト指示に対する平均スコアと成功率によって評価
スコア:選択した商品が要件を満たす割合
成功率:選択した商品が要件を全て満たす割合
模倣学習エージェントと比較
1012個の人が作ったtrajectoryで学習
さらにIL+RLを10587個の学習用指示で追加学習
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
37
意思決定タスク 結果
ALFWorld(左表)
ReActはActとBUTLERを上回る
Prompt選択に対しロバスト (avg)
WebShop(右表)
ReActはActを上回る
ReActは大幅な性能向上(SR: +10%)
ActはILやIL+RLと同等の性能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
38
意思決定タスク 定性評価
ALFWorld
Actは全く考えずに、目標をサブ目標に分解できない
環境の現在の状態を見失ったりする
WebShop
ReActはノイズの多い観測と行動のギャップを埋める推論によって
適切な商品・オプションを特定しやすい
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
39
ALFWorld ReActのtrajectory例 (1/3)
目標
キレイなナイフをカウンターに置く
サブ目標に分解
ナイフを見つける、シンクできれいにする、カウンターに置く
サブ目標達成に向けた行動の計画
cabinet 1から順にチェックしていく
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
40
ALFWorld ReActのtrajectory例 (2/3)
計画通り行動し、ナイフを発見&取得
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
41
ALFWorld ReActのtrajectory例 (3/3)
次のサブ目標達成に向けた行動の計画
シンクに行ってナイフを洗う
カウンターに置く
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
42
ALFWorld Actのtrajectory例 (1/2)
目標
キレイなナイフをカウンターに置く
Actはナイフの発見&取得は達成
シンクに行く前にナイフを洗浄しようとして失敗
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
43
ALFWorld Actのtrajectory例 (2/2)
その後、モデルの行動は改善されず
取得済みのナイフを探しに行く
シンクに行かずにナイフを洗浄する
(繰り返し)
ReActでは思考によって現状と次の目標を具体的に認識可能
ナイフの取得が完了したこと
次のサブ目標はシンクに行って、ナイフを洗浄する
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
44
ALFWorld 内部推論 vs 外部フィードバック
Inner Monologue型のプロンプト ReAct-IM と比較
外部フィードバックからなる思考のプロンプトを作成
次の思考のみに制限
現在の目標を分解
完了すべき現在のサブ目標を考える
ReActはReAct-IMを大幅に上回る
内部推論が重要
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
45
WebShop ReActのtrajectory例 1/3
WebShop
ReActはノイズの多い観測と行動のギャップを埋める推論によって
適切な商品・オプションを特定しやすい
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
46
WebShop ReActのtrajectory例 2/3
WebShop
ReActはノイズの多い観測と行動のギャップを埋める推論によって
適切な商品・オプションを特定しやすい
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
47
WebShop ReActのtrajectory例 3/3
WebShop
ReActはノイズの多い観測と行動のギャップを埋める推論によって
適切な商品・オプションを特定しやすい
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
48
目次
はじめに
関連研究
ReAct
知識集約型の推論タスク
意思決定タスク
まとめ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
49
まとめ
大規模言語モデルで行動と推論を相乗させるReActを提案
Few-shot prompt で実現
手動で思考を追加したpromptを作成
Finetuningも検討
知識集約型の推論タスク と 意思決定タスク でReActを評価
行動のみのprompt (Act) を一貫して上回る
知識集約型の推論タスク
ReAct と CoT を組合せたヒューリスティックが最も良い
ReActはFinetuningによる性能向上も大きい
意思決定タスク
模倣学習(IL)や強化学習(RL)を上回る
Inner Monologue型のpromptより高性能
外部フィードバックだけではなく、内部推論(思考)も重要

Weitere ähnliche Inhalte

Was ist angesagt?

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 

Was ist angesagt? (20)

SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
 
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
 
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 

Ähnlich wie ReAct: Synergizing Reasoning and Acting in Language Models

DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 

Ähnlich wie ReAct: Synergizing Reasoning and Acting in Language Models (20)

A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
Solving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language ModelsSolving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language Models
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
 

Mehr von harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Mehr von harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 

ReAct: Synergizing Reasoning and Acting in Language Models

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. DLゼミ(論文紹介) ReAct: Synergizing Reasoning and Acting in Language Models 北海道大学大学院 情報科学院 情報理工学部門 複合情報工学分野 調和系工学研究室 博士後期課程 3年 吉田 拓海
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 概要 タイトル ReAct: Synergizing Reasoning and Acting in Language Models 著者 A 発表 ICLR2023 Project: https://react-lm.github.io/ Paper: https://arxiv.org/abs/2210.03629 Code: https://github.com/ysymyth/ReAct Blogpost: https://ai.googleblog.com/2022/11/react-synergizing- reasoning-and-acting.html 概要 大規模言語モデルでReasoning推論とActing行動を組合わせる prompt手法であるReActを提案
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 概要 大規模言語モデルでReasoning推論とActing行動を組合わせる prompt手法であるReActを提案 [画像引用 Blogpost] ReAct: Synergizing Reasoning and Acting in Language Models. Googleblog.com. Published November 8, 2022. Accessed April 24, 2023. https://ai.googleblog.com/2022/11/react-synergizing-reasoning-and-acting.html
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 目次 はじめに 関連研究 ReAct 知識集約型の推論タスク 意思決定タスク まとめ
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 目次 はじめに 関連研究 ReAct 知識集約型の推論タスク 意思決定タスク まとめ
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 行動 Acting と 推論 Reasoning 人間の知能の特徴 タスク指向の行動(Acting)と言語的な推論(Reasoning)を シームレスに組み合わせる 例:キッチンで料理 Reason to Act 進捗状況の把握 「材料が揃ったので、鍋にお湯を沸かす」 状況に応じた例外処理、計画の調整 「塩が無いので、醤油とコショウで代用する」 Act to Reason 「どんな料理を作る?」→「料理本を読む」「冷蔵庫の食材を確認」 行動と推論の相乗効果によって人間は意思決定・推論が可能
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 ReAct 多様な言語推論・意思決定タスクを解決するために 大規模言語モデルLLMで推論と行動を組合わせる ReAct を発表 Reason to Act 行動のための計画を作成 Act to Reason 外部環境と相互作用して 推論に追加情報を組み込む
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 目次 はじめに 関連研究 ReAct 知識集約型の推論タスク 意思決定タスク まとめ
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 関連研究 Chain of Thought [Wei+, 2022] 思考過程を含むpromptで多段階推論を要するタスクの性能向上 [Wei+, 2022] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022.
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 関連研究 Inner Monologue [Huang+, 2022] 本研究 ReAct に最も近い研究 環境からのフィードバックを活用し Inner Monologue を作成 エージェントの行動の動機付けとなる 真に内なる思考 inner thoughts ではない(著者らの主張) 環境の観察 と 目標達成のために必要なこと に限定される Monologue: 独り言 [Huang+, 2022] Wenlong Huang, Fei Xia, Ted Xiao, Harris Chan, Jacky Liang, Pete Florence, Andy Zeng, Jonathan Tompson, Igor Mordatch, Yevgen Chebotar, et al. Inner monologue: Embodied reasoning through planning with language models. arXiv preprint arXiv:2207.05608, 2022b.
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 目次 はじめに 関連研究 ReAct 知識集約型の推論タスク 意思決定タスク まとめ
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 環境と相互作用するエージェント ある時刻 𝑡𝑡 エージェントは環境から観測値 𝑜𝑜𝑡𝑡 ∈ 𝑂𝑂 を受け取る 方策 𝜋𝜋(𝑎𝑎𝑡𝑡|𝑐𝑐𝑡𝑡) に従って行動 𝑎𝑎𝑡𝑡 ∈ 𝐴𝐴 を選択 ReAct の考え方 行動空間を拡張 ̂ 𝐴𝐴 = 𝐴𝐴 ∪ 𝐿𝐿 (𝐿𝐿:言語空間) 言語空間における行動 � 𝑎𝑎𝑡𝑡 ∈ 𝐿𝐿 は環境に影響を与えないが 文脈 𝑐𝑐𝑡𝑡+1 = (𝑐𝑐𝑡𝑡, � 𝑎𝑎𝑡𝑡) を更新し将来の推論や行動をサポート 思考(thought)または推論トレース(reasoning trace)と呼ぶ Few-shot promptによって ReAct を実現 11 ReAct エージェント 環境 行動 𝑎𝑎𝑡𝑡 ∈ 𝐴𝐴 観測値 𝑜𝑜𝑡𝑡 ∈ 𝑂𝑂 方策 𝜋𝜋(𝑎𝑎𝑡𝑡|𝑐𝑐𝑡𝑡) 文脈 𝑐𝑐𝑡𝑡 = (𝑜𝑜1, 𝑎𝑎1, … , 𝑜𝑜𝑡𝑡−1, 𝑎𝑎𝑡𝑡−1, 𝑜𝑜𝑡𝑡)
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 ReAct Prompt 思考(Thought) を追加 QAのプロンプト例 テキストベースのゲームのプロンプト例(一部)
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 ReActの特徴 直観的で簡単なデザインが可能 行動を言語化し、その上に思考を打ち込むだけ 一般的で柔軟性がある 多様なタスクに対応可能 知識集約型の推論タスク:QA、事実検証 意思決定タスク:テキストゲーム、ウェブナビゲーション 性能が高くロバスト 1~6-shotで新しいタスクインスタンスを解く 推論/行動のみのベースラインより高い性能を示す 人間に合わせて制御可能 解釈可能な逐次的意思決定と推論プロセス 推論と事実の正確さを簡単に検査可能 思考を編集することでエージェントの行動を制御可能
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 目次 はじめに 関連研究 ReAct 知識集約型の推論タスク 意思決定タスク まとめ
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 知識集約型の推論タスク 2つのタスクでReActを評価 質問応答 HotpotQA [Yang+, 2018] 事実検証 Fever [Thorne+, 2018] 行動空間(Wikipedia API) ページ検索:search[entity] 対応する entity wiki が存在する場合、そこから最初の5文を返す 存在しない場合、類似entityの上位5つを返す 文字列検索:lookup[string] stringを含む文章を返す(Ctrl + F) 回答:finish[answer] 現在のタスクをanswerで終了させる 難しい設定になっていることに注意 Wikipedia APIの結果は文字列が完全一致する必要がある 質問 / 主張のみを入力する(後述) サポート用のパラグラフを入力しない
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 HotpotQA 論文[Yang+, 2018]から図表引用 2つのParagraphから質問の答えを推論するタスク ReActでは質問のみを入力とする 内部知識もしくは外部知識を取得する必要がある [Yang+, 2018] Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W Cohen, Ruslan Salakhutdinov, and Christopher D Manning. Hotpotqa: A dataset for diverse, explainable multi-hop question answering. arXiv preprint arXiv:1809.09600, 2018.
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 FEVER 論文[Thorne+, 2018]から図表引用 主張Claimの事実検証をするタスク SUPPORTED / REFUTED / NOT ENOUGH INFO の3クラス分類 ReActでは主張Claimのみを入力とする 内部知識もしくは外部知識を取得する必要がある [Thorne+, 2018] James Thorne, Andreas Vlachos, Christos Christodoulopoulos, and Arpit Mittal. Fever: a large-scale dataset for fact extraction and verification. arXiv preprint arXiv:1803.05355, 2018.
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 知識集約型の推論タスクにおけるReAct ReActのPromptの作成 訓練セットから6(HotPotQA)/3(Fever)件をランダム抽出 ReAct形式の trajectory を手動で作成 [思考-行動-観測] から構成される(密な思考) 複数のBaseline Standard ReActの全ての思考、行動、観測を削除 Chain-of-thought (CoT) ReActの行動と観測のみを削除 CoT-SC (Self-consistency [Wang+, 2022]) CoTの推論時に温度0.7で21回サンプリングし多数決 Acting-only (Act) ReActの思考を除去 WebGPT[Nakano+, 2021]に類似 [Nakano+, 2021] Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, and John Schulman. Webgpt: Browser-assisted question-answering with human feedback, 2021. URL https://arxiv. org/abs/2112.09332.
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 ReAct+CoT-SC, Finetuning ReAct と CoT-SC を組合わせるヒューリスティックを提案 ReActは事実に基づいた問題解決プロセス CoTは推論構造の形成が正確 ReAct -> CoT-SC ReActが所定のステップ内で回答できない場合にCoT-SCに変更 HotpotSQAは7steps、FEVERは5 steps CoT-SC -> ReAct n個のCoT-SC回答のうち多数派回答がn/2未満の場合にReActに変更 Finetuning ReActで生成した正解の3000 trajectoryを使用してfinetune
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 Prompt例 HotpotQA(Standard, CoT, Act) Standard CoT Act Action1: “Milhouse”でページ検索、 Action2: “named after”で文字列検索 Q. ミュージシャンで風刺作家のAllie Goertzが「ザ・シンプソンズ」のキャラクター「ミ ルハウス」について曲を書きましたが、Matt Groeningは誰の名前をつけたのでしょうか。 ミルハウス
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 Prompt例 HotpotQA(ReAct) 1/2 ReAct trajectory は ”密な思考” (Thought {n}, Action {n}, Observation {n}) で構成
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 Prompt例 HotpotQA(ReAct) 2/2 ReAct Thought 1: Milhouseを検索し、誰にちなんだ名前か探す Thought 2: このパラグラフでは分からない、”named after”で文字列検索 Thought 3: 答えはリチャードニクソン
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 知識集約型の推論タスク ReAct vs Act 言語モデルは PaLM-540B を使用(付録でGPT-3でも評価) ReActは一貫してActを上回る EM: exact match
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 知識集約型の推論タスク ReAct vs CoT Fever ReAct > CoT 正確で最新の知識を取得するための行動は重要 HotPotQA ReAct < CoT 不正解例を分析 (次ページ)
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 知識集約型の推論タスク ReAct vs CoT HotpotQAにおけるReActとCoTの正解/不正解例を分析 正解/不正解をランダム抽出(各50件)し手動で分類 考察 A) CoTのとって幻覚(Hallucination)は深刻な問題 B) 思考-行動-観測 の制約によって推論の柔軟性が低下 C) 検索で知識を正確に取得することが重要
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 知識集約型の推論タスク ReAct vs CoT A) CoTのとって幻覚(Hallucination)は深刻な問題 False positive と Hallucination が多い ReActは外部知識へのアクセスによってより根拠があり 事実に基づいた信頼性の高い問題解決過程
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 知識集約型の推論タスク ReAct vs CoT B) 思考-行動-観測 の制約によって推論の柔軟性が低下 ReActはCoTよりも Reasoning Error が高い ReAct特有のエラーパターン モデルが前の思考と行動を繰り返す頻度が高い 貪欲なdecode方法が原因? ビームサーチのようなdecode方法の研究が この問題を解決するかもしれない
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 知識集約型の推論タスク ReAct vs CoT C) 検索で知識を正確に取得することが重要 Search result error が 23%を占め、モデルの推論を狂わせる 事実性 factuality と柔軟性 flexibility のトレードオフと予想される 2つの手法の組合せの動機となる
  • 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 29 知識集約型の推論タスク ReAct + CoT-SC ReAct + CoT-SC が最も良い性能 どちらもCoT-SCを上回る 内部知識と外部知識を適切に組合わせることの価値を示している
  • 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 30 知識集約型の推論タスク Finetuning 1/2 ReActはFinetuningによる性能向上が大きい PaLM-8/62B(Prompting)ではReActが最も性能が悪い 文脈内の例から推論と行動の両方を学ぶことが難しい FinetuneするとReActは4つの手法で最も性能が良い
  • 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 31 知識集約型の推論タスク Finetuning 2/2 Finetune設定ではStandardやCoTは性能が悪い Standard, CoTは知識、事実を記憶することをモデルに教える Act, ReActは推論のスキルとしてより一般化できる Wikipediaから情報を取得する行動方法をモデルに教える
  • 33. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 32 知識集約型の推論タスク SoTA SoTAの性能には及ばない FinetuneがReActの力を発揮する方法であると信じている(著者)
  • 34. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 33 目次 はじめに 関連研究 ReAct 知識集約型の推論タスク 意思決定タスク まとめ
  • 35. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 34 意思決定タスク ALFWorld [Shridhar+, 2020] テキストベースのゲーム 6種類のタスクを持つ (Pick, Clean, Heat, Cool, Look, Pick 2) エージェントは高レベルな目標を達成する 例:デスクランプ(明かり)の下で紙を調べる テキストアクションで家の中をナビゲート・インタラクション 例:コーヒーテーブル1に行く、紙を取る、デスクランプ1を使う WebShop [Yao+, 2022] 118万個の実世界商品と12k人の人間の指示 エージェントは指示に従って商品を購入する 例:「引出付きの無いとスタンドを探している、ニッケル仕立てで 価格は140ドル以下。」 Webインタラクションを通じて商品を購入 例:「”ナイトスタンド 引出”を検索」、「購入ボタンを押す」
  • 36. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 35 ALFWorld Promptの作成 各タスクタイプの訓練セットから3つのtrajectoryを作成 ロバスト性の評価のため6つのプロンプトを作成 3𝑃𝑃2通り(2-shot) 各trajectoryは以下の思考を含む(疎な思考) 目標の分解 サブ目標の完了を追跡 次のサブ目標の決定 どこにオブジェクトがあってそれをどうするのかを常識で推論 評価 134のテスト用ゲームで評価 各タスクタイプのエキスパートtrajectoryで訓練された 模倣学習エージェントのBUTLERと比較
  • 37. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 36 WebShop Promptの作成 Act 検索、商品選択、オプション選択、購入 で構成 ReAct 何を検索するか、いつ購入するか、 どのオプションが指示に関連するのか を決定する思考を追加 評価 500のテスト指示に対する平均スコアと成功率によって評価 スコア:選択した商品が要件を満たす割合 成功率:選択した商品が要件を全て満たす割合 模倣学習エージェントと比較 1012個の人が作ったtrajectoryで学習 さらにIL+RLを10587個の学習用指示で追加学習
  • 38. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 37 意思決定タスク 結果 ALFWorld(左表) ReActはActとBUTLERを上回る Prompt選択に対しロバスト (avg) WebShop(右表) ReActはActを上回る ReActは大幅な性能向上(SR: +10%) ActはILやIL+RLと同等の性能
  • 39. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 38 意思決定タスク 定性評価 ALFWorld Actは全く考えずに、目標をサブ目標に分解できない 環境の現在の状態を見失ったりする WebShop ReActはノイズの多い観測と行動のギャップを埋める推論によって 適切な商品・オプションを特定しやすい
  • 40. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 39 ALFWorld ReActのtrajectory例 (1/3) 目標 キレイなナイフをカウンターに置く サブ目標に分解 ナイフを見つける、シンクできれいにする、カウンターに置く サブ目標達成に向けた行動の計画 cabinet 1から順にチェックしていく
  • 41. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 40 ALFWorld ReActのtrajectory例 (2/3) 計画通り行動し、ナイフを発見&取得
  • 42. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 41 ALFWorld ReActのtrajectory例 (3/3) 次のサブ目標達成に向けた行動の計画 シンクに行ってナイフを洗う カウンターに置く
  • 43. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 42 ALFWorld Actのtrajectory例 (1/2) 目標 キレイなナイフをカウンターに置く Actはナイフの発見&取得は達成 シンクに行く前にナイフを洗浄しようとして失敗
  • 44. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 43 ALFWorld Actのtrajectory例 (2/2) その後、モデルの行動は改善されず 取得済みのナイフを探しに行く シンクに行かずにナイフを洗浄する (繰り返し) ReActでは思考によって現状と次の目標を具体的に認識可能 ナイフの取得が完了したこと 次のサブ目標はシンクに行って、ナイフを洗浄する
  • 45. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 44 ALFWorld 内部推論 vs 外部フィードバック Inner Monologue型のプロンプト ReAct-IM と比較 外部フィードバックからなる思考のプロンプトを作成 次の思考のみに制限 現在の目標を分解 完了すべき現在のサブ目標を考える ReActはReAct-IMを大幅に上回る 内部推論が重要
  • 46. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 45 WebShop ReActのtrajectory例 1/3 WebShop ReActはノイズの多い観測と行動のギャップを埋める推論によって 適切な商品・オプションを特定しやすい
  • 47. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 46 WebShop ReActのtrajectory例 2/3 WebShop ReActはノイズの多い観測と行動のギャップを埋める推論によって 適切な商品・オプションを特定しやすい
  • 48. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 47 WebShop ReActのtrajectory例 3/3 WebShop ReActはノイズの多い観測と行動のギャップを埋める推論によって 適切な商品・オプションを特定しやすい
  • 49. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 48 目次 はじめに 関連研究 ReAct 知識集約型の推論タスク 意思決定タスク まとめ
  • 50. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 49 まとめ 大規模言語モデルで行動と推論を相乗させるReActを提案 Few-shot prompt で実現 手動で思考を追加したpromptを作成 Finetuningも検討 知識集約型の推論タスク と 意思決定タスク でReActを評価 行動のみのprompt (Act) を一貫して上回る 知識集約型の推論タスク ReAct と CoT を組合せたヒューリスティックが最も良い ReActはFinetuningによる性能向上も大きい 意思決定タスク 模倣学習(IL)や強化学習(RL)を上回る Inner Monologue型のpromptより高性能 外部フィードバックだけではなく、内部推論(思考)も重要