SlideShare ist ein Scribd-Unternehmen logo
1 von 52
Downloaden Sie, um offline zu lesen
ChatGPT
⼈間のフィードバックから強化学習した対話AI
東京⼤学 ⼤学院⼯学系研究科 技術経営戦略学専攻
今井 翔太
Email: imais@weblab.t.u-tokyo.ac.jp
Twitter:今井翔太 / Shota Imai@えるエル
@ImAI_Eruel
本資料について
n 本資料は,OpenAIが12⽉1⽇に公開した対話AI「ChatGPT」について,今井が関連する
話題,研究をまとめたものです
n 現時点では,ChatGPTそのものに関する論⽂は公開されていないため,技術的な情報は
既存研究からの推測に⼤きく依存します
n 本資料はChatGPTの反響に対する速報版資料ともいうべきもので,
今後アップデートされる可能性があります
n 実はこの資料の解説⾃体が,⼀部ChatGPTの出⼒を使って作られています
Shota Imai | The University of Tokyo
2
Reinforcement
Learning Is All You
Need
もくじ
n ChatGPT
n GPTとその関連技術
n ChatGPTのコア技術InstructGPT
n 参考資料
Shota Imai | The University of Tokyo
3
ChatGPT
Shota Imai | The University of Tokyo 4
ChatGPT
n 12⽉1⽇にOpenAIが公開した対話AIで,今までのGPTシリーズに⼈間からのフィードバックをもと
にした強化学習を⾏ない,⼈間に対して「好ましい」出⼒をするように学習された⾔語モデル
ChatGPTのブログポスト:https://openai.com/blog/chatgpt/
ChatGPT:https://chat.openai.com/chat
n 今までの⾔語モデルと⽐較して明らかに性能が向上しており,⽇本語にも対応.ほとんどの質問に
対する⾃然な回答,コピペで動く⾼度なプログラミングコードの⽣成,翻訳,⽂章構成,⽂章要約,
⽂章校正が可能
n 現時点(2022年12⽉7⽇)では,ChatGPTそのものに関する論⽂は公開されておらず,Research
Previewとして,ブログの投稿と,試⽤サイトが公開されているのみ
※ChatGPTを利⽤したフィードバックのコンテストの締切が12⽉31⽇であるため,最低でもそこまでは公開されていると考えられる
Shota Imai | The University of Tokyo
5
ChatGPT / みんなの反応
n 世界中のテクノロジー界隈の著名⼈が絶賛
n テクノロジーの歴史における稀に⾒る⾰命という認識も
Shota Imai | The University of Tokyo
6
ChatGPTでできること
⾔語を使う,⾔語で完結するものであればほとんどなんでもできる
n 質問回答
- ⼤体の質問には回答してくれ,それなりに事実に基づき,提⽰される情報も豊富
- ただし,確定した事実や数字・論理に関わることは苦⼿
n ⽂章校正
- ⽇本語の⽂に対して「以下の⽂章を丁寧にしてください」といった使い⽅や,英⽂校正みたいに正
しい英語に書き直してくれる
n ⽂章要約
- かなりの⻑⽂でも要点を抑えて要約できる
- 論⽂や書籍も記憶しているようで,タイトルを投げたらそのまま要約も返してくれる
n プログラミングコードの⽣成
- そのままコピペして実⾏可能なコードを⽣成してくれる
- コピペだけで Webサービスや,ゲームを作れるレベルのコードの⽣成が可能
- エラーが出た場合は,それを⼊⼒すると,エラーを回避するようなプログラムを提案してくれる
n 提案
- 「〜を書いてみてください」,「~提案してください」とすることで,まだ存在しない未知の物事
や計画などを書いてくれる
その他⾊々
Shota Imai | The University of Tokyo
7
ChatGPTの出⼒⾊々
Shota Imai | The University of Tokyo
8
ChatGPTの技術 / 概要
n 基本的には,GPT-3に対して強化学習(RLHF; Reinforcement Learning from Human
Feedback)を⾏なったInstructGPTをベースにしていると考えられる
n InstructGPTで学習されたモデルは「GPT-3.5」シリーズと呼ばれ,2022年初頭に学習さ
れたこのシリーズのモデルに微調整を加えたのがChatGPT
n InstructGPTの論⽂が公開されてから相当な⽇数が経過していることを考えると,実際に
はInstructGPTをベースに相当な試⾏錯誤があったと考えられ,論⽂に書いてある実装・
⼿法とは異なる点も多そう
n 学習のインフラにはAzureを使⽤
※GPT-3公開後にMicrosoftは独占ライセンスを取得するなどして提携している
n ChatGPTはGPTの出⼒に,ModerationAPIによるフィルタをかけたものを最終的な出⼒
にしている
Shota Imai | The University of Tokyo
9
ChatGPTのコア技術 / InstructGPT
n ChatGPTのコアとなっている技術と考えられ,GPT-3に対して⼈間のフィードバックに
もとづく強化学習(RLHF; Reinforcement Learning from Human Feedback)を⾏
なったモデル
- Training language models to follow instructions with human feedback
- https://arxiv.org/abs/2203.02155
n 本資料で詳しく解説
Shota Imai | The University of Tokyo
10
ChatGPTの技術 / ModerationAPI
n GPTの出⼒に有害なコンテンツが含まれているかを評価し,アプリケーションにおける
有害な動作を防ぐ
n OpenAI APIのユーザも使⽤可能
n テクニカルペーパーも公開されている
- A Holistic Approach to Undesired Content Detection in the Real World
- https://arxiv.org/abs/2208.03274
Shota Imai | The University of Tokyo
11
補⾜ / OpenAIのGPTシリーズのモデルと利⽤形態あれこれ
n OpenAIはいくつかのGPTの学習されたモデル,APIを運⽤している
- これらのモデルはパラメータ数や学習⽅法の点で同じGPT-〇でも差分がある
- 例えば単に「GPT-3」と⾔った場合,それが指す学習済みモデルは複数存在する
(GPT-3 6.7B, GPT-3 2.7B, GPT-3 175Bなど)
- それらのモデルに対して,異なるAPIが割り当てられている
n 現在の最新モデルは,GPT-3 (or Codex)ベースのモデルに対して強化学習を⾏なった
InstructGPTのモデルで,text-davinci-002, text-davinci-003等のモデルとAPIが公開さ
れている
n 特に以下のモデルはGPT-3.5シリーズと呼ばれ,ChatGPTもこのモデルを元にしている
- code-davinci-002
- text-davinci-002
- text-davinci-003
Shota Imai | The University of Tokyo
12
text-davinci-003とその利⽤
n ChatGPTの公開直前である11⽉末に公開されたモデルで,APIが公開されているモデル
の中では最も性能が⾼いモデル
n ChatGPTはこれの亜種,調整版と考えられる(あくまで推測)
n OpenAIのアカウントを持っていれば,OpenAIのPlaygroundから利⽤できる
https://beta.openai.com/playground
Shota Imai | The University of Tokyo
13
※この対話の真偽は不明
GPTとその関連技術
Shota Imai | The University of Tokyo 14
GPTとは?
n GPTは「Generative Pre-trained Transformer」の略で,OpenAIが開発している
Transformerベースの⼤規模な事前学習済み⾔語モデルを指す
n 初代GPTからGPT-2,CPT-3までの研究論⽂が公開されており,WebGPTなどの亜種も
存在
n 実際にユーザーがGPTに対して⽣成を指⽰できるOpenAI APIや指⽰⽂に応じて
プログラミングコードを⽣成するCodeX Copilotなどのサービス提供もある
n モデルのサイズが⾮常に⼤きい(GPT-3で1750億)ことと,GPT以前の⾔語⽣成AIと⽐
べて圧倒的に性能が⾼いことが特徴で,シリーズが公開される度に話題に
Shota Imai | The University of Tokyo
15
Transformer
Attention Is All You Need
n 現在のAI・機械学習において最も利⽤されている・注⽬されている・性能を発揮してい
る深層学習のアーキテクチャであり,self-attentionがコア技術
n もともとは,機械翻訳を⾏う⼿法として提案されたが,現在では翻訳にとどまらず,画
像認識,強化学習などなど深層学習を使うほとんどのタスクで圧倒的な性能を発揮
n あまりにも有名なモデルゆえに⼤量の解説記事・書籍が存在するため,詳細はそちらを
参照
Shota Imai | The University of Tokyo
16
⾔語モデル(Language Model)
n 単語や⽂章が⽣成される確率をモデル化したもの
n 例えば,以下のような⽂の⽳埋め問題で,「このりんごはとても」までを⼊⼒して,次
の( )にはいる単語の確率を出⼒し,最も⾼い確率の単語を割り当てる
⽂:このりんごはとても( )
(1) おいしい 0.8
(2) 寂しい 0.1
(3) です 0.05
(4) ペン 0.05
→「おいしい」を出⼒
n 近年はTransformerをベースにした⾔語モデルがほとんどで,特に⼤規模なTransformerを
使⽤したものを⼤規模⾔語モデル(LLM; Large Language Models),⼤量の⾔語データ
で学習したものを事前学習モデル(⼤規模事前学習⾔語モデル)と呼ぶ
Shota Imai | The University of Tokyo
17
プロンプト(Prompt)
n ⾔語モデルの出⼒を得る(促す, Prompt)ために,⾔語モデルに⼊⼒する⽂字列,
指⽰⽂を指す
n ⾔語モデルの知識から所望の出⼒(プログラムコード,提案,翻訳⽂,質問回答)を
得るには,適切なプロンプトを⼊⼒する必要がある
n ⾔語モデルのほか画像の⽣成モデルを含む,いわゆる「⽣成AI」の普及に伴い,最近は
「呪⽂(Spell)」などと呼ばれることも
n プロンプトを⼯夫してAIに所望の出⼒をさせる技法の試みはプロンプトエンジニアリン
グとも
Shota Imai | The University of Tokyo
18
プロンプト
プロンプトに対する
⾔語モデルの出⼒
GPT
Improving Language Understanding by Generative Pre-Training
n Transformerのデコーダをベースにラベルなしの事前学習を⾏い,タスクに応じた少数の
ラベル付きファインチューニングを⾏なって,さまざまなタスクで性能を評価した
n GPTは少数のラベル付きデータのファインチューニングのみで,常識推論,質問応答
などのタスクで,各タスクに特化したモデルを超える性能を達成
n パラメータ数は170m(1億1700万)
Shota Imai | The University of Tokyo
19
GPT-2
Language Models are Unsupervised Multitask Learners
n GPTのモデルはほとんど変更せず,パラメータ数が⼤きいモデルに⼤規模な事前学習
のみを⾏なって,特定タスクにおけるラベル付きの学習は⾏わなずzero-shot, の設定で
性能が出るようにしたモデル
- zero-shot:例を⼀歳与えずに新しいタスクを解かせる
n パラメータ数は15億
Shota Imai | The University of Tokyo
20
zero-shotの例
GPT-3
Language Models are Few-Shot Learners
n GPT-2のアーキテクチャはほぼそのままに,モデルのパラメータ数を175B(1750億)に
した超⼤規模⾔語モデル
n GPTシリーズが本格的に「ヤバい」と思われたのはGPT-3からで,⼤規模モデルの性能
に関する本格的な議論が始まった元祖
n パラメータ数を極限まで増やしたことで,突如できるようになるタスクが存在する,
振る舞いが明らかに変わるなどの現象が確認された
21
CodeX, Copilot
Evaluating Large Language Models Trained on Code
n GPTのような⾔語モデルをプログラミングコードの⽣成に⽤いたモデル
n GitHubから獲得したコードのデータセットでGPTのモデルをファインチューニングした
パラメータ数120億のモデルを使⽤
n 最終的には77.5%の割合で評価のテストに通るモデルに
Shota Imai | The University of Tokyo
22
基盤モデル(Foundation Model)
n GPTシリーズなども含め,⼤規模な深層学習のモデルを膨⼤なデータで学習し,様々な
応⽤の基盤(Foundation)にできるモデルの総称で,スタンフォード⼤学の研究者らの
論⽂“On the Opportunities and Risks of Foundation Models”で提唱された概念
n 現在までに,⾔語,画像,⾳声,⾏動,プログラムなど様々なモーダルを扱える基盤モ
デルが登場し,AIの研究で特に注⽬され,産業応⽤が期待・すでに実⽤化
n 億を超える⼤量パラメータのモデルであることを特徴とし,学習には膨⼤なデータと
計算資源が要求される
Shota Imai | The University of Tokyo
23
DALL・E,Imagen,
StableDiffusion, Magic3D等
(⾔語→画像,⾔語→3Dモデル)
CodeX
(⾔語→コード)
GPTシリーズ,PaLM,FLAN等
(⾔語→⾔語)
whisper
(⾳声→⾔語) Gato
(⾔語,画像,⾏動→⾔語,画像,⾏動)
ChatGPTのコア技術
InstructGPT
Shota Imai | The University of Tokyo 24
ChatGPTに関連する⼿法・論⽂
n 基本的には,GPT-3をさらに⼈間の嗜好に合うように強化学習した
InstructGPTをベースにしていると考えられる
n 関連論⽂
- Learning to summarize from human feedback
• ⼈間のフィードバックから報酬を⽣成するReward modelを学習し,⾔語モデル
の強化学習に使う発想
- Training language models to follow instructions with human feedback
• Reward modelによる⾔語モデルの強化学習を,GPT-3に対して本格的に実⾏し
たInstructGPTに関する論⽂
Shota Imai | The University of Tokyo
25
ChatGPTのコア技術
InstructGPT
n GPT-3などの⼤規模⾔語モデルは,かなりの精度でもっともらしい⽂章出⼒ができるよ
うになったが,事実に反すること,有害なこと,ユーザにとって役に⽴たない⽂章を⽣
成することも多かった
→アライメント問題
n アライメント(Alignment):⾔語モデルに⼈間のユーザに沿った好ましい出⼒をさせ
ること
n ⼈間による出⼒の評価をもとに強化学習を⾏うRLHF(Reinforcement Learning from
Human Feedback)で⾔語モデルのアラインメントを⾏うことにより,パラメータ数が
100倍以上のモデル(13億 vs. 1750億)よりも,
- ⼈間視点で「よい」出⼒に
- パラメータが少ないことによる全体的な性能低下は最⼩限
- 事実の出⼒が多く,有害な出⼒が少なく
n アライメントを⾏うことにより,⼀部のタスクへの性能が下がってしまう問題
(Alignment tax; アライメントの税)も最⼩限
Shota Imai | The University of Tokyo
26
InstructGPTの特徴
n GPT-3などと⽐べて,より⼈間視点で好ましい出⼒を⾏う
n GPT-3などと⽐べて,より事実に基づく出⼒を⾏う
n GPT-3などと⽐べて,有害な出⼒が減少した
n アライメントの結果,有名な⾔語処理タスクの⼀部に対して性能が低下した(alignment
tax; アライメントの税)ものの,その影響は最⼩限
n RLHFで出現しないような指⽰⽂に対しても⾼い汎化性能
n 確定した事実に関する間違い(e.g. 都道府県の⾯積,⼈名など),簡単な質問に対する
無駄に⻑い回答,誤った前提の質問(e.g. 靴下の⾎液は何⾊ですか?)をそうだと検知
できないなど,まだ⽋点がある
Shota Imai | The University of Tokyo
27
InstructGPTの性能
n GPT :1750億パラメータを持つ通常のGPT-3
n GPT-prompted:GPT-3に有益なプロンプトを与えたモデル
n PPO-ptx:InstructGPT
横軸:モデルのパラメータ数
縦軸:出⼒を175Bのモデルの出⼒と⽐較して,
⼈間が「こちらの⽅が良い」と評価した⽐率
パラメータが⾮常に⼩さい1.3Bの時点で,
175Bのモデルよりも強化学習を⾏なったPPO-ptxの⽅が⾼い性能を出している
Shota Imai | The University of Tokyo
28
InstructGPTの学習概要
n Step1
- プロンプトのデータを学習するモデルに出⼒させ,そ
のプロンプトに対する⼈間のlabelerの回答を元に教師
あり学習
n Step2
- あるプロンプトに対する出⼒を複数集め,その出⼒に
関する「好ましさ」を,⼈間のlabelerがランク付けす
る
- その後の,そのランク付きデータをもとに,後の強化
学習における報酬を⽣成するReward model(RM)を
学習
n Step3
- あるプロンプトに対するGPTモデルの出⼒に対して,
Reward Modelが報酬を⽣成し,PPOによる強化学習
を⾏う
n Step3の完了後,強化学習した新しいGPTモデルを
使ってStep2~3を⾏う〜という⼿順を繰り返す
n この⼿順で学習するベースのモデルは,今まで運⽤
していたGPT-3の学習済みモデル
Shota Imai | The University of Tokyo
29
Supervised Fine-Tuning (SFT)
n プロンプトデータの⼊⼒に対する出⼒を,labelerによる回答をもとに教師あり学習
n 学習は16エポック
n 学習率はcosine learning rate decayで調整
n residual dropout of 0.2
n 最終的なモデルの選定は後述のRMをベースに選ぶ
n エポックの初期は過学習していたが,エポックの進⾏とともにRM scoreや⼈間の嗜好に
あった出⼒をするように
Shota Imai | The University of Tokyo
30
Reward Model(RM)
n Labelerがプロンプトの出⼒に対してランク付を⾏い,そのランク付きデータから学習
n 学習に使⽤するモデルは,GPT-3のSFTで学習を⾏なったモデルのうち,パラメータ数
6B(60億)のモデルの最終層のレイヤを除いて,報酬のスカラー値を⼀つ出⼒するよう
にしたもの
- 175BのRMは不安定で機能しなかったとのこと
- この6BのRMを,全てのInstructGPTの学習に使⽤
n labelerは,あるプロンプトに対する出⼒をSFTを⾏なったモデルから複数得て,それを
K=4からK=9の間でランク付する
n RMはプロンプト𝑥に対する出⼒yを⼊⼒として,報酬を出⼒するモデル𝑟!(𝑥, 𝑦)と書ける
n RMは,出⼒の⽐較を利⽤して以下の損失関数で学習される
- 𝑦!はより好ましいランクの出⼒,𝑦"は 𝑦!と⽐較してランクが低い出⼒
- ある1つのプロンプト𝑥に対し,ランク付けされた出⼒K個が存在するため,組み合わせの数は #𝐶$個存在
する(ランク数が4個なら %𝐶$ =6個)
- σはシグモイド間数
- この損失の最⼩化により, 𝑟&(𝑥, 𝑦)はあるプロンプトに関して⼈間が好ましい出⼒により⾼い報酬を出す
ようになる
Shota Imai | The University of Tokyo
31
強化学習
n ここまでで得たSFTのGPTモデルとRMを⽤いて強化学習を⾏う
n 強化学習のアルゴリズムとしてはPPO(Proximal Policy Optimization)を使⽤
n ここでの環境は,⼀つのプロンプトを⼀つの状態とみなすバンディット型の環境とみな
せる
n プロンプトxに対するモデルの出⼒𝜋"#$(y | x)に対して,⼊⼒xと出⼒yに対するRMに
よる報酬の出⼒𝑟! (𝑥, 𝑦)を使う
- ⼈間の好みを反映したRMがGPTモデルの出⼒の良さを報酬として評価するため,報酬を最⼤
化する強化学習によって学習されたモデルは,良い報酬を得る=⼈間に取って好ましい出⼒を
するように改善される
n 強化学習の⽬的関数を以下にしたものが,PPT-ptxとして⾔及されているInstructGPTの
モデル
- 𝜋!"#はSFTを⾏なった直後のモデルの出⼒, 𝜋$%が最適化を⾏うGPTモデルのRL⽅策
- ⼀般的なNLPデータセットへの性能低下を防ぐため,それらのデータへの勾配も加えている
Shota Imai | The University of Tokyo
32
補⾜ / PPO
n 強化学習における⽅策勾配法の⼀つTRPOを,より実装を単純にし,強⼒にしたもの
- TRPO(Trust Region Policy Optimization):⽅策勾配において適切な勾配の更新幅を保証
n 更新前の⽅策と新しい⽅策の確率密度⽐が,ある値1 − 𝜖, 1 + 𝜖の範囲に収まるよう制約
をかけて学習
n 強化学習,⽅策勾配法などの話は⻑くなりすぎるので,資料末の「参考資料」の中から
⾃分に適したものを参考にしていただければ
Shota Imai | The University of Tokyo
33
プロンプトのデータセット 1/2
n OpenAI AIの利⽤者が実際に使ったプロンプトから構成される
※OpenAI APIの利⽤には「利⽤者のデータが学習に使われること」に賛同する必要がある
n 加えて,InstructGPTの学習の評価に参加する⼈(labeler)にもいくつかのプロンプトを
書いてもらう
n Plain:任意のテキスト
n Few-shot:ある指⽰とそれに対する複数のクエリ,回答
n User-based:OpenAI APIの利⽤に記載されている利⽤例に沿った内容
Shota Imai | The University of Tokyo
34
プロンプトのデータセット 2/2
n 3種類のプロンプトに分ける
- SFTデータセット:プロンプトをモデルに与えて,その出⼒に対してLabelerが正しい回答を
教師データとして与える時に使う(1万3000データ, labelerデータ含む)
- RMデータセット:Reward Modelの学習の際に,同じプロンプトを複数回モデルに与え,複
数回答をlabelerがランク付けする時に使う(3万3000データ, labelerデータ含む)
- PPOデータセット:PPOを使った強化学習の際の⼊⼒(状態)として使う(3万1000データ,
APIの利⽤者データのみ)
n プロンプトデータの96%は英語
Shota Imai | The University of Tokyo
35
プロンプトの例
Shota Imai | The University of Tokyo
36
Labeler
n できるだけユーザーが書きそうなプロンプトを想定して書くよう指⽰
n 明らかに意味が通らなかったり,意味があいまいなプロンプトは避ける
n 有害な出⼒を誘導するものは避ける
n UpworkとScaleAIを通じて,40⼈を雇った
n 潜在的に有害な出⼒を識別するのが得意な⼈たちで,スクリーニングで選別
Shota Imai | The University of Tokyo
37
InstructGPTの評価
n InstructGPTが「アライメント」により,⼈間にとって好ましい⾔語出⼒をできているか
評価
n ベースライン
- GPT-3:オリジナルのGPT-3のモデル
- SFT:SGPT-3にFTのみを⾏い,強化学習をしていないモデル
- PPO:PPOで強化学習するが,⼀般的なデータセットへの勾配を考慮していないモデル
- PPO-ptx:⼀般的なデータセットへの勾配も考慮して強化学習したモデル.InstructGPT
n 評価の種類
1. Evaluations on API distribution
• 学習に使⽤しなかった,OpenAPIの利⽤者のプロンプトを⼊⼒にして,その出⼒を評価
• 175BのSFTモデルをベースモデルにし,⼈間から⾒た出⼒の好ましさがこのベースモデルを上回る割
合=Win rateを評価指標にする
• 暴⼒的な内容,有害な指摘,偏った意⾒の表明,倫理に対する判定などのメタデータをもとにする
評価も
2. Evaluations on public NLP datasets
• InstructGPT以外の⼀般的な⾔語タスクで⽤いられるNLPのデータセットを使う評価
Shota Imai | The University of Tokyo
38
メタデータによる評価
n 全体的な質,暴⼒的な内容,有害な指摘,偏った意⾒の表明,倫理に対する判定など,
いくつかの項⽬を考慮して,モデルの出⼒の質を判定する
Shota Imai | The University of Tokyo
39
実験結果 / API distribution
各モデルのパラメータ数とWin rate
n ベースモデル(175BのSFTモデル)の出⼒と,評価対象のモデルの出⼒を⽐較して,⼈
間のlabelerが「好ましい」と判断した割合のWin rateが指標
n パラメータ数の多さよりも,強化学習を⾏なったかどうかが圧倒的に効いている
- 1.3BのPPOモデルが,その100倍以上のパラメータを持つ175BのGPTモデルに勝る
Heldout workers:学習に関わらなかったlabeler
Training workers:学習に関わったlabeler
Shota Imai | The University of Tokyo
40
実験結果 / API distribution
メタデータをもとにした評価
n 強化学習を⾏なったモデルの⽅が,よりプロンプトの指⽰を忠実に守り,適切な出⼒を
している
n GPTモデルは,勝⼿に新しい情報をでっちあげて出⼒に混ぜる傾向がある
※Hallucinations:要約のような閉じたタスクで,勝⼿に新しい情報を作り上げること
Shota Imai | The University of Tokyo
41
実験結果 /public NLP datasets
TruthfulQA dataset
n TruthfulQA dataset:38のカテゴリにまたがる817の質問から構成され,確定した事実が
存在するが,誤った信念や誤解によって誤答するようなデータセット
n PPOのモデルは多少の改善を⾒せている
Shota Imai | The University of Tokyo
42
データセットの例と,
GPT-3の間違えた解答例
実験結果 /public NLP datasets
RealToxicityPrompts
n RealToxicityPrompts:英語のwebのコーパスから集められた,とくに有害性のない⽂章
の⼀部分と,有害性を判定するスコアのペアからなるデータセット.この有害性のない
⽂章に続いて,有害な⽂を⽣成してしまうかどうかをみる
n Respectfulな指⽰をプロンプトとして与えた場合と
そうでない場合も⽐較
n 出⼒⽂の有害性の判定は,⼈間によるものと,
PerspectiveAPIに投げた場合のスコアを使⽤
Shota Imai | The University of Tokyo
43
データセットに含まれる⽂の例.
この⽂⾃体は全く無害
定性評価 1/2
n 強化学習中にほぼ登場しない⾔語に対して
も⾼い性能を⽰す
- 学習データの90%以上が英語であるにも関
わらず,それ以外の⾔語(プログラミング
⾔語含む)に関するタスクも明らかに質が
向上している
- GPT-3は,英語以外の指⽰⽂の内容を無視
する傾向がある
Shota Imai | The University of Tokyo
44
定性評価 1/2 出⼒例
「フランス語で、古代ギリシャにタイムスリップしたカエルの短編⼩説を書く。」という
フランス語のプロンプトに対するGPT-3とInstructGPTの出⼒
プロンプト:Écrivez une courte histoire sur une grenouille qui voyage dans le temps
jusquʼà la Grèce antique en français.
n GPT-3の出⼒(⽇本語訳)
“神々の遊びのすべてを知りたいと願う⼦供が、神々の物語の中に⾃分⾃⾝を⾒出すという物語を書
いてください。遠い時代に不倫していた⻘年が、その時代の少⼥と不倫する話を書いてください。学
校に通うことになった⼦供が、想像上の友達を持ち、その友達のおかげで過去に戻ることができると
いう話を書いてください”
n InstructGPTの出⼒(⽇本語訳)
“カエルは道に迷い、疲れ果ててしまった。彼の⽬的はただ⼀つ、過去にさかのぼって古代ギリシャ
にたどり着くことだった。最初の問題は、移動⼿段を⾒つけることだった。タイムマシンに⾶び乗る
のも⼀つの⼿だと聞いていた。⾶び込んでみると、そこは過去、⽢く妖しい匂いのする星降る夜だっ
た。そしてカエルは、坂道の多い古都の街路や⼩さな宿屋を、素早く冒険的な⾜取りで移動する。
[...]”
n GPT-3 は明らかに関係がなく,しかも有害な内容の出⼒をしているが,InstructCPTの⽅はお題に
沿った内容
Shota Imai | The University of Tokyo
45
定性評価 2/2
n いまだに簡単なミスはしてしまう
- 誤った前提に基づく指⽰を与えると,その
誤った内容をそのまま受け⼊れて出⼒して
しまう
- 簡単な質問に対して,無駄に⻑い回答を出
⼒してしまう.答えが明らかな場合でも,
⻑々と考慮する必要がない可能性も答えて
しまう
- 複数の制約条件があると,性能が低下する
(例:1930年にフランスで作られた映画
を10個挙げよ)
Shota Imai | The University of Tokyo
46
定性評価 2/2 出⼒例1
誤った前提に基づくプロンプトを与えた場合
Why is it important to eat socks after meditating?(なぜ瞑想後に靴下を⾷べることが重要なのですか?)
※当然,瞑想後に靴下を⾷べるという常識は存在しない
n GPT-3の出⼒
“靴下から何を学ぶことができますか?
A: 靴下を⾷べるということは、悟りのエッセンスを味わうということです。
悟りのエッセンスを味わっているのです。あなたは、覚醒した⼼の本当の味を
覚醒したマインドの本当の味を味わっているのです。
Q: ⽬覚めた⼼の本当の味とは何でしょう?
本当の味とは何ですか?
A:覚醒した⼼の本当の味は
味のない味です。そして、無味の本当の味は
無味の味とは、⾜の臭いの味である。”
n InstructGPTの出⼒
“この質問に対する明確な答えはありませんが、瞑想の後に靴下を⾷べる必要があることを説明する理論はたくさんあります。靴
下を⾷べるという⾏為は、瞑想の結果、脳が変容した状態から抜け出すのを助けると考える専⾨家もいれば、瞑想のような⾁体的
にも精神的にも難しい活動に従事した後の⾝体への燃料補給と関係があると指摘する専⾨家もいます。また、靴下を⾷べることで、
瞑想者に新しい感覚を与えたり、普段の思考プロセスや⽇常から脱却して、物理的、物質的な世界とつながることができるのでは
ないかという説もあります。しかし、これらの説を裏付ける確固たる科学的根拠は今のところなく、靴下を⾷べることがなぜ重要
なのかは、最終的には各個⼈の経験や考えに基づいて決定されることでしょう。”
Shota Imai | The University of Tokyo
47
定性評価 2/2出⼒例2
答えが明らかな簡単な質問を与えた場合
What happens if you fire a cannonball directly at a pumpkin at high speeds?
(カボチャに直接砲弾を⾼速で発射したらどうなるのか?)
n GPT-3の出⼒
“かぼちゃが砲弾を引き寄せ、砲弾はかぼちゃに跳ね返されます。かぼちゃは、⾦属を操ることができるほど、強
い磁⽯です。”
n InstructGPTの出⼒
“かぼちゃに直接、⾼速で砲弾を当てるとどうなるかは、予測できない要素が多すぎて正確な予測はできません。
砲弾の⼤きさ、重さ、密度、かぼちゃの材質、砲弾の速度と衝撃⼒、砲弾とかぼちゃがぶつかる瞬間の距離など
が考えられます。その結果、かぼちゃが割れる、地⾯に叩きつけられる、かぼちゃにひびが⼊る、完全に消滅す
る、などの可能性があります。”
Shota Imai | The University of Tokyo
48
InstructGPTの研究から得られた⽰唆
1. 強化学習によりモデルのアライメントを⾼めるためのコストは、事前学習と⽐較して
お⼿軽
- 計算コストは,175BのSFTモデルが4.9 petaflops/s-days,175BのPPO-ptxモデルが60
petaflops/s-days,であり,GPT-3の3,640 petaflops/s-daysと⽐べると圧倒的に少ない
- OpenAI APIを使うようなユーザーに対して良い出⼒をするモデルを学習するなら,強化学習
によるRLHFの⽅が,パラメータ数を増やすよりも圧倒的に効率が良い
2. InstructGPTは,英語でない指⽰⽂に対しても汎化する
- なぜここまで汎化するのかはもっと研究が必要だが,好ましい現象
3. InstructGPTに⽤いられた⼿法で,アライメントによる性能低下を防ぐことができる
- アライメントを追求すると,⼀部のタスクの性能が落ちる(alignment tax)が⾔われてきた
が,InstructGPTで導⼊された強化学習の⼿法はlow-tax alignmentな⼿法といえる
4. アライメント⼿法を実世界での利⽤データに基づいて検証するのがよい
- 実は今までアライメントの⼿法は抽象的な理論的な内容に偏っていた
- OpenAIのInstructGPTはユーザーの利⽤データから⾏われた研究
Shota Imai | The University of Tokyo
49
誰に対するアライメントか
n InstructGPTで導⼊された⼿法は,⾔語モデルにより⼈間の好みにあった出⼒を⾏うよう
学習する⼿法だが,⼈間が介⼊する以上は,学習中に介⼊する⼀部の⼈間の嗜好の影響
を受けてしまう
n 例えばInstructGPTにおけるlabelerは,UpworkやScale AIを通じて採⽤した⽶国や東南
アジアに住む英語を話す⼈であり,研究中のモデルはこれらの⼈に共通する嗜好に偏っ
ていたかもしれない
n InstructGPTに使うデータは,実際にユーザーが使ったプロンプトではあるが,そもそも
これらのユーザーが”GPTを使うのが有益である”と判断したトピックに偏ったデータに
なっているかもしれない
n OpenAI APIのユーザーは待機リストに登録された⼈から選ばれているが,実際には待機
リストの前半はOpenAIの職員であり,OpenAI周辺のコミュニティに偏った出⼒をして
いるかもしれない
Shota Imai | The University of Tokyo
50
参考資料 1/2
n ChatGPTの技術
- ChatGPT: Optimizing Language Models for Dialogue. https://openai.com/blog/chatgpt/
- Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini
Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda
Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. Training language models to follow instructions
with human feedback. Preprint, 2022.(InstructGPT)
- Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. (2020).
Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
n ⼤規模⾔語モデル・基盤モデル
- Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A.,
Brunskill, E., & et al. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258
- Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell,
A., et al. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
- Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G.,
et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
Shota Imai | The University of Tokyo
51
参考資料 2/2
n ⾃然⾔語処理,Transformer
- IT Text ⾃然⾔語処理の基礎.岡﨑 直観, 荒瀬 由紀, 鈴⽊ 潤, 鶴岡 慶雅, 宮尾 祐介.オーム社.
2022.
• ⾃然⾔語処理やTransformer,Attention,⾔語モデルについてもっと詳しく知りたい⼈向け
- 深層学習(第2版,機械学習プロフェッショナルシリーズ).岡⾕貴之.講談社.2022
• AttentionやTransformerの他,深層学習の技術全体を知りたい⼈向け
- 第6回 統計・機械学習若⼿シンポジウム チュートリアル講演 Vision and Languageと
Transformers.品川政太朗. https://speakerdeck.com/sei88888/2022-dot-2-11-di-6hui-tong-ji-
ji-jie-xue-xi-ruo-shou-sinpoziumu-tiyutoriarujiang-yan-vision-and-languagetotransformers
• Transformerに関連する最近の技術動向.強化学習×⾔語⽣成モデルの解説も詳しい
n 強化学習
- 強化学習の基礎と深層強化学習.今井翔太.https://t.co/cWVyBvvi0u
• 東⼤の強化学習講義で今井が使った資料.強化学習と,特に深層強化学習を知りたい⼈向け
- 強化学習(第2版).R. Sutton, A. Barto. オーム社.2022
• 強化学習の世界で最も有名で内容が充実した教科書.先⽉,我々が翻訳した⽇本語訳版が出版されました.
- 強化学習(機械学習プロフェッショナルシリーズ).森村哲郎.講談社.2019.
• 強化学習の和書の中では最も理論に詳しい教科書.⽅策勾配法関連の理論はこれで
Shota Imai | The University of Tokyo
52

Weitere ähnliche Inhalte

Was ist angesagt?

Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
Yuya Unno
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 

Was ist angesagt? (20)

テスト文字列に「うんこ」と入れるな
テスト文字列に「うんこ」と入れるなテスト文字列に「うんこ」と入れるな
テスト文字列に「うんこ」と入れるな
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
DockerコンテナでGitを使う
DockerコンテナでGitを使うDockerコンテナでGitを使う
DockerコンテナでGitを使う
 
ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
ChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くないChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くない
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
研究発表を準備する(2022年版)
研究発表を準備する(2022年版)研究発表を準備する(2022年版)
研究発表を準備する(2022年版)
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
SAT/SMTソルバの仕組み
SAT/SMTソルバの仕組みSAT/SMTソルバの仕組み
SAT/SMTソルバの仕組み
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
 
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 

Ähnlich wie ChatGPT 人間のフィードバックから強化学習した対話AI

数理最適化とPython
数理最適化とPython数理最適化とPython
数理最適化とPython
Yosuke Onoue
 

Ähnlich wie ChatGPT 人間のフィードバックから強化学習した対話AI (20)

大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
 
TFLite_and_PyTorch_Mobile
TFLite_and_PyTorch_MobileTFLite_and_PyTorch_Mobile
TFLite_and_PyTorch_Mobile
 
ChatGPT(LLMによる生成系AI)の追加学習を No Code で行う ~ 概念モデリング教本を元に ~
ChatGPT(LLMによる生成系AI)の追加学習を No Code で行う  ~ 概念モデリング教本を元に ~ChatGPT(LLMによる生成系AI)の追加学習を No Code で行う  ~ 概念モデリング教本を元に ~
ChatGPT(LLMによる生成系AI)の追加学習を No Code で行う ~ 概念モデリング教本を元に ~
 
[Track4-3] AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた
[Track4-3] AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた[Track4-3] AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた
[Track4-3] AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた
 
AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた_Deep Learning Digital Confere...
AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた_Deep Learning Digital Confere...AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた_Deep Learning Digital Confere...
AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた_Deep Learning Digital Confere...
 
Trat sprint10
Trat sprint10Trat sprint10
Trat sprint10
 
no12.pptx
no12.pptxno12.pptx
no12.pptx
 
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
 
ChatGPTによるIT開発とBLO手法.pdf
ChatGPTによるIT開発とBLO手法.pdfChatGPTによるIT開発とBLO手法.pdf
ChatGPTによるIT開発とBLO手法.pdf
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴
 
Why python
Why pythonWhy python
Why python
 
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
 
Why python
Why pythonWhy python
Why python
 
Lightning talks: stanford japanese cheetsheets
Lightning talks: stanford japanese cheetsheetsLightning talks: stanford japanese cheetsheets
Lightning talks: stanford japanese cheetsheets
 
数理最適化とPython
数理最適化とPython数理最適化とPython
数理最適化とPython
 
ChatGPTプロンプトエンジニアリング試験の話 (230619 ChatGPT触りまくってるBizのためのMeetup#1)
ChatGPTプロンプトエンジニアリング試験の話 (230619 ChatGPT触りまくってるBizのためのMeetup#1)ChatGPTプロンプトエンジニアリング試験の話 (230619 ChatGPT触りまくってるBizのためのMeetup#1)
ChatGPTプロンプトエンジニアリング試験の話 (230619 ChatGPT触りまくってるBizのためのMeetup#1)
 
Qt名古屋勉強会へのお誘い(OSC名古屋2017LT)
Qt名古屋勉強会へのお誘い(OSC名古屋2017LT)Qt名古屋勉強会へのお誘い(OSC名古屋2017LT)
Qt名古屋勉強会へのお誘い(OSC名古屋2017LT)
 
Wandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdfWandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdf
 
山崎ゼミナール資料.pdf
山崎ゼミナール資料.pdf山崎ゼミナール資料.pdf
山崎ゼミナール資料.pdf
 
アドテクにおけるBandit Algorithmの活用
アドテクにおけるBandit Algorithmの活用アドテクにおけるBandit Algorithmの活用
アドテクにおけるBandit Algorithmの活用
 

ChatGPT 人間のフィードバックから強化学習した対話AI

  • 1. ChatGPT ⼈間のフィードバックから強化学習した対話AI 東京⼤学 ⼤学院⼯学系研究科 技術経営戦略学専攻 今井 翔太 Email: imais@weblab.t.u-tokyo.ac.jp Twitter:今井翔太 / Shota Imai@えるエル @ImAI_Eruel
  • 2. 本資料について n 本資料は,OpenAIが12⽉1⽇に公開した対話AI「ChatGPT」について,今井が関連する 話題,研究をまとめたものです n 現時点では,ChatGPTそのものに関する論⽂は公開されていないため,技術的な情報は 既存研究からの推測に⼤きく依存します n 本資料はChatGPTの反響に対する速報版資料ともいうべきもので, 今後アップデートされる可能性があります n 実はこの資料の解説⾃体が,⼀部ChatGPTの出⼒を使って作られています Shota Imai | The University of Tokyo 2 Reinforcement Learning Is All You Need
  • 3. もくじ n ChatGPT n GPTとその関連技術 n ChatGPTのコア技術InstructGPT n 参考資料 Shota Imai | The University of Tokyo 3
  • 4. ChatGPT Shota Imai | The University of Tokyo 4
  • 5. ChatGPT n 12⽉1⽇にOpenAIが公開した対話AIで,今までのGPTシリーズに⼈間からのフィードバックをもと にした強化学習を⾏ない,⼈間に対して「好ましい」出⼒をするように学習された⾔語モデル ChatGPTのブログポスト:https://openai.com/blog/chatgpt/ ChatGPT:https://chat.openai.com/chat n 今までの⾔語モデルと⽐較して明らかに性能が向上しており,⽇本語にも対応.ほとんどの質問に 対する⾃然な回答,コピペで動く⾼度なプログラミングコードの⽣成,翻訳,⽂章構成,⽂章要約, ⽂章校正が可能 n 現時点(2022年12⽉7⽇)では,ChatGPTそのものに関する論⽂は公開されておらず,Research Previewとして,ブログの投稿と,試⽤サイトが公開されているのみ ※ChatGPTを利⽤したフィードバックのコンテストの締切が12⽉31⽇であるため,最低でもそこまでは公開されていると考えられる Shota Imai | The University of Tokyo 5
  • 6. ChatGPT / みんなの反応 n 世界中のテクノロジー界隈の著名⼈が絶賛 n テクノロジーの歴史における稀に⾒る⾰命という認識も Shota Imai | The University of Tokyo 6
  • 7. ChatGPTでできること ⾔語を使う,⾔語で完結するものであればほとんどなんでもできる n 質問回答 - ⼤体の質問には回答してくれ,それなりに事実に基づき,提⽰される情報も豊富 - ただし,確定した事実や数字・論理に関わることは苦⼿ n ⽂章校正 - ⽇本語の⽂に対して「以下の⽂章を丁寧にしてください」といった使い⽅や,英⽂校正みたいに正 しい英語に書き直してくれる n ⽂章要約 - かなりの⻑⽂でも要点を抑えて要約できる - 論⽂や書籍も記憶しているようで,タイトルを投げたらそのまま要約も返してくれる n プログラミングコードの⽣成 - そのままコピペして実⾏可能なコードを⽣成してくれる - コピペだけで Webサービスや,ゲームを作れるレベルのコードの⽣成が可能 - エラーが出た場合は,それを⼊⼒すると,エラーを回避するようなプログラムを提案してくれる n 提案 - 「〜を書いてみてください」,「~提案してください」とすることで,まだ存在しない未知の物事 や計画などを書いてくれる その他⾊々 Shota Imai | The University of Tokyo 7
  • 8. ChatGPTの出⼒⾊々 Shota Imai | The University of Tokyo 8
  • 9. ChatGPTの技術 / 概要 n 基本的には,GPT-3に対して強化学習(RLHF; Reinforcement Learning from Human Feedback)を⾏なったInstructGPTをベースにしていると考えられる n InstructGPTで学習されたモデルは「GPT-3.5」シリーズと呼ばれ,2022年初頭に学習さ れたこのシリーズのモデルに微調整を加えたのがChatGPT n InstructGPTの論⽂が公開されてから相当な⽇数が経過していることを考えると,実際に はInstructGPTをベースに相当な試⾏錯誤があったと考えられ,論⽂に書いてある実装・ ⼿法とは異なる点も多そう n 学習のインフラにはAzureを使⽤ ※GPT-3公開後にMicrosoftは独占ライセンスを取得するなどして提携している n ChatGPTはGPTの出⼒に,ModerationAPIによるフィルタをかけたものを最終的な出⼒ にしている Shota Imai | The University of Tokyo 9
  • 10. ChatGPTのコア技術 / InstructGPT n ChatGPTのコアとなっている技術と考えられ,GPT-3に対して⼈間のフィードバックに もとづく強化学習(RLHF; Reinforcement Learning from Human Feedback)を⾏ なったモデル - Training language models to follow instructions with human feedback - https://arxiv.org/abs/2203.02155 n 本資料で詳しく解説 Shota Imai | The University of Tokyo 10
  • 11. ChatGPTの技術 / ModerationAPI n GPTの出⼒に有害なコンテンツが含まれているかを評価し,アプリケーションにおける 有害な動作を防ぐ n OpenAI APIのユーザも使⽤可能 n テクニカルペーパーも公開されている - A Holistic Approach to Undesired Content Detection in the Real World - https://arxiv.org/abs/2208.03274 Shota Imai | The University of Tokyo 11
  • 12. 補⾜ / OpenAIのGPTシリーズのモデルと利⽤形態あれこれ n OpenAIはいくつかのGPTの学習されたモデル,APIを運⽤している - これらのモデルはパラメータ数や学習⽅法の点で同じGPT-〇でも差分がある - 例えば単に「GPT-3」と⾔った場合,それが指す学習済みモデルは複数存在する (GPT-3 6.7B, GPT-3 2.7B, GPT-3 175Bなど) - それらのモデルに対して,異なるAPIが割り当てられている n 現在の最新モデルは,GPT-3 (or Codex)ベースのモデルに対して強化学習を⾏なった InstructGPTのモデルで,text-davinci-002, text-davinci-003等のモデルとAPIが公開さ れている n 特に以下のモデルはGPT-3.5シリーズと呼ばれ,ChatGPTもこのモデルを元にしている - code-davinci-002 - text-davinci-002 - text-davinci-003 Shota Imai | The University of Tokyo 12
  • 13. text-davinci-003とその利⽤ n ChatGPTの公開直前である11⽉末に公開されたモデルで,APIが公開されているモデル の中では最も性能が⾼いモデル n ChatGPTはこれの亜種,調整版と考えられる(あくまで推測) n OpenAIのアカウントを持っていれば,OpenAIのPlaygroundから利⽤できる https://beta.openai.com/playground Shota Imai | The University of Tokyo 13 ※この対話の真偽は不明
  • 14. GPTとその関連技術 Shota Imai | The University of Tokyo 14
  • 15. GPTとは? n GPTは「Generative Pre-trained Transformer」の略で,OpenAIが開発している Transformerベースの⼤規模な事前学習済み⾔語モデルを指す n 初代GPTからGPT-2,CPT-3までの研究論⽂が公開されており,WebGPTなどの亜種も 存在 n 実際にユーザーがGPTに対して⽣成を指⽰できるOpenAI APIや指⽰⽂に応じて プログラミングコードを⽣成するCodeX Copilotなどのサービス提供もある n モデルのサイズが⾮常に⼤きい(GPT-3で1750億)ことと,GPT以前の⾔語⽣成AIと⽐ べて圧倒的に性能が⾼いことが特徴で,シリーズが公開される度に話題に Shota Imai | The University of Tokyo 15
  • 16. Transformer Attention Is All You Need n 現在のAI・機械学習において最も利⽤されている・注⽬されている・性能を発揮してい る深層学習のアーキテクチャであり,self-attentionがコア技術 n もともとは,機械翻訳を⾏う⼿法として提案されたが,現在では翻訳にとどまらず,画 像認識,強化学習などなど深層学習を使うほとんどのタスクで圧倒的な性能を発揮 n あまりにも有名なモデルゆえに⼤量の解説記事・書籍が存在するため,詳細はそちらを 参照 Shota Imai | The University of Tokyo 16
  • 17. ⾔語モデル(Language Model) n 単語や⽂章が⽣成される確率をモデル化したもの n 例えば,以下のような⽂の⽳埋め問題で,「このりんごはとても」までを⼊⼒して,次 の( )にはいる単語の確率を出⼒し,最も⾼い確率の単語を割り当てる ⽂:このりんごはとても( ) (1) おいしい 0.8 (2) 寂しい 0.1 (3) です 0.05 (4) ペン 0.05 →「おいしい」を出⼒ n 近年はTransformerをベースにした⾔語モデルがほとんどで,特に⼤規模なTransformerを 使⽤したものを⼤規模⾔語モデル(LLM; Large Language Models),⼤量の⾔語データ で学習したものを事前学習モデル(⼤規模事前学習⾔語モデル)と呼ぶ Shota Imai | The University of Tokyo 17
  • 18. プロンプト(Prompt) n ⾔語モデルの出⼒を得る(促す, Prompt)ために,⾔語モデルに⼊⼒する⽂字列, 指⽰⽂を指す n ⾔語モデルの知識から所望の出⼒(プログラムコード,提案,翻訳⽂,質問回答)を 得るには,適切なプロンプトを⼊⼒する必要がある n ⾔語モデルのほか画像の⽣成モデルを含む,いわゆる「⽣成AI」の普及に伴い,最近は 「呪⽂(Spell)」などと呼ばれることも n プロンプトを⼯夫してAIに所望の出⼒をさせる技法の試みはプロンプトエンジニアリン グとも Shota Imai | The University of Tokyo 18 プロンプト プロンプトに対する ⾔語モデルの出⼒
  • 19. GPT Improving Language Understanding by Generative Pre-Training n Transformerのデコーダをベースにラベルなしの事前学習を⾏い,タスクに応じた少数の ラベル付きファインチューニングを⾏なって,さまざまなタスクで性能を評価した n GPTは少数のラベル付きデータのファインチューニングのみで,常識推論,質問応答 などのタスクで,各タスクに特化したモデルを超える性能を達成 n パラメータ数は170m(1億1700万) Shota Imai | The University of Tokyo 19
  • 20. GPT-2 Language Models are Unsupervised Multitask Learners n GPTのモデルはほとんど変更せず,パラメータ数が⼤きいモデルに⼤規模な事前学習 のみを⾏なって,特定タスクにおけるラベル付きの学習は⾏わなずzero-shot, の設定で 性能が出るようにしたモデル - zero-shot:例を⼀歳与えずに新しいタスクを解かせる n パラメータ数は15億 Shota Imai | The University of Tokyo 20 zero-shotの例
  • 21. GPT-3 Language Models are Few-Shot Learners n GPT-2のアーキテクチャはほぼそのままに,モデルのパラメータ数を175B(1750億)に した超⼤規模⾔語モデル n GPTシリーズが本格的に「ヤバい」と思われたのはGPT-3からで,⼤規模モデルの性能 に関する本格的な議論が始まった元祖 n パラメータ数を極限まで増やしたことで,突如できるようになるタスクが存在する, 振る舞いが明らかに変わるなどの現象が確認された 21
  • 22. CodeX, Copilot Evaluating Large Language Models Trained on Code n GPTのような⾔語モデルをプログラミングコードの⽣成に⽤いたモデル n GitHubから獲得したコードのデータセットでGPTのモデルをファインチューニングした パラメータ数120億のモデルを使⽤ n 最終的には77.5%の割合で評価のテストに通るモデルに Shota Imai | The University of Tokyo 22
  • 23. 基盤モデル(Foundation Model) n GPTシリーズなども含め,⼤規模な深層学習のモデルを膨⼤なデータで学習し,様々な 応⽤の基盤(Foundation)にできるモデルの総称で,スタンフォード⼤学の研究者らの 論⽂“On the Opportunities and Risks of Foundation Models”で提唱された概念 n 現在までに,⾔語,画像,⾳声,⾏動,プログラムなど様々なモーダルを扱える基盤モ デルが登場し,AIの研究で特に注⽬され,産業応⽤が期待・すでに実⽤化 n 億を超える⼤量パラメータのモデルであることを特徴とし,学習には膨⼤なデータと 計算資源が要求される Shota Imai | The University of Tokyo 23 DALL・E,Imagen, StableDiffusion, Magic3D等 (⾔語→画像,⾔語→3Dモデル) CodeX (⾔語→コード) GPTシリーズ,PaLM,FLAN等 (⾔語→⾔語) whisper (⾳声→⾔語) Gato (⾔語,画像,⾏動→⾔語,画像,⾏動)
  • 25. ChatGPTに関連する⼿法・論⽂ n 基本的には,GPT-3をさらに⼈間の嗜好に合うように強化学習した InstructGPTをベースにしていると考えられる n 関連論⽂ - Learning to summarize from human feedback • ⼈間のフィードバックから報酬を⽣成するReward modelを学習し,⾔語モデル の強化学習に使う発想 - Training language models to follow instructions with human feedback • Reward modelによる⾔語モデルの強化学習を,GPT-3に対して本格的に実⾏し たInstructGPTに関する論⽂ Shota Imai | The University of Tokyo 25
  • 26. ChatGPTのコア技術 InstructGPT n GPT-3などの⼤規模⾔語モデルは,かなりの精度でもっともらしい⽂章出⼒ができるよ うになったが,事実に反すること,有害なこと,ユーザにとって役に⽴たない⽂章を⽣ 成することも多かった →アライメント問題 n アライメント(Alignment):⾔語モデルに⼈間のユーザに沿った好ましい出⼒をさせ ること n ⼈間による出⼒の評価をもとに強化学習を⾏うRLHF(Reinforcement Learning from Human Feedback)で⾔語モデルのアラインメントを⾏うことにより,パラメータ数が 100倍以上のモデル(13億 vs. 1750億)よりも, - ⼈間視点で「よい」出⼒に - パラメータが少ないことによる全体的な性能低下は最⼩限 - 事実の出⼒が多く,有害な出⼒が少なく n アライメントを⾏うことにより,⼀部のタスクへの性能が下がってしまう問題 (Alignment tax; アライメントの税)も最⼩限 Shota Imai | The University of Tokyo 26
  • 27. InstructGPTの特徴 n GPT-3などと⽐べて,より⼈間視点で好ましい出⼒を⾏う n GPT-3などと⽐べて,より事実に基づく出⼒を⾏う n GPT-3などと⽐べて,有害な出⼒が減少した n アライメントの結果,有名な⾔語処理タスクの⼀部に対して性能が低下した(alignment tax; アライメントの税)ものの,その影響は最⼩限 n RLHFで出現しないような指⽰⽂に対しても⾼い汎化性能 n 確定した事実に関する間違い(e.g. 都道府県の⾯積,⼈名など),簡単な質問に対する 無駄に⻑い回答,誤った前提の質問(e.g. 靴下の⾎液は何⾊ですか?)をそうだと検知 できないなど,まだ⽋点がある Shota Imai | The University of Tokyo 27
  • 28. InstructGPTの性能 n GPT :1750億パラメータを持つ通常のGPT-3 n GPT-prompted:GPT-3に有益なプロンプトを与えたモデル n PPO-ptx:InstructGPT 横軸:モデルのパラメータ数 縦軸:出⼒を175Bのモデルの出⼒と⽐較して, ⼈間が「こちらの⽅が良い」と評価した⽐率 パラメータが⾮常に⼩さい1.3Bの時点で, 175Bのモデルよりも強化学習を⾏なったPPO-ptxの⽅が⾼い性能を出している Shota Imai | The University of Tokyo 28
  • 29. InstructGPTの学習概要 n Step1 - プロンプトのデータを学習するモデルに出⼒させ,そ のプロンプトに対する⼈間のlabelerの回答を元に教師 あり学習 n Step2 - あるプロンプトに対する出⼒を複数集め,その出⼒に 関する「好ましさ」を,⼈間のlabelerがランク付けす る - その後の,そのランク付きデータをもとに,後の強化 学習における報酬を⽣成するReward model(RM)を 学習 n Step3 - あるプロンプトに対するGPTモデルの出⼒に対して, Reward Modelが報酬を⽣成し,PPOによる強化学習 を⾏う n Step3の完了後,強化学習した新しいGPTモデルを 使ってStep2~3を⾏う〜という⼿順を繰り返す n この⼿順で学習するベースのモデルは,今まで運⽤ していたGPT-3の学習済みモデル Shota Imai | The University of Tokyo 29
  • 30. Supervised Fine-Tuning (SFT) n プロンプトデータの⼊⼒に対する出⼒を,labelerによる回答をもとに教師あり学習 n 学習は16エポック n 学習率はcosine learning rate decayで調整 n residual dropout of 0.2 n 最終的なモデルの選定は後述のRMをベースに選ぶ n エポックの初期は過学習していたが,エポックの進⾏とともにRM scoreや⼈間の嗜好に あった出⼒をするように Shota Imai | The University of Tokyo 30
  • 31. Reward Model(RM) n Labelerがプロンプトの出⼒に対してランク付を⾏い,そのランク付きデータから学習 n 学習に使⽤するモデルは,GPT-3のSFTで学習を⾏なったモデルのうち,パラメータ数 6B(60億)のモデルの最終層のレイヤを除いて,報酬のスカラー値を⼀つ出⼒するよう にしたもの - 175BのRMは不安定で機能しなかったとのこと - この6BのRMを,全てのInstructGPTの学習に使⽤ n labelerは,あるプロンプトに対する出⼒をSFTを⾏なったモデルから複数得て,それを K=4からK=9の間でランク付する n RMはプロンプト𝑥に対する出⼒yを⼊⼒として,報酬を出⼒するモデル𝑟!(𝑥, 𝑦)と書ける n RMは,出⼒の⽐較を利⽤して以下の損失関数で学習される - 𝑦!はより好ましいランクの出⼒,𝑦"は 𝑦!と⽐較してランクが低い出⼒ - ある1つのプロンプト𝑥に対し,ランク付けされた出⼒K個が存在するため,組み合わせの数は #𝐶$個存在 する(ランク数が4個なら %𝐶$ =6個) - σはシグモイド間数 - この損失の最⼩化により, 𝑟&(𝑥, 𝑦)はあるプロンプトに関して⼈間が好ましい出⼒により⾼い報酬を出す ようになる Shota Imai | The University of Tokyo 31
  • 32. 強化学習 n ここまでで得たSFTのGPTモデルとRMを⽤いて強化学習を⾏う n 強化学習のアルゴリズムとしてはPPO(Proximal Policy Optimization)を使⽤ n ここでの環境は,⼀つのプロンプトを⼀つの状態とみなすバンディット型の環境とみな せる n プロンプトxに対するモデルの出⼒𝜋"#$(y | x)に対して,⼊⼒xと出⼒yに対するRMに よる報酬の出⼒𝑟! (𝑥, 𝑦)を使う - ⼈間の好みを反映したRMがGPTモデルの出⼒の良さを報酬として評価するため,報酬を最⼤ 化する強化学習によって学習されたモデルは,良い報酬を得る=⼈間に取って好ましい出⼒を するように改善される n 強化学習の⽬的関数を以下にしたものが,PPT-ptxとして⾔及されているInstructGPTの モデル - 𝜋!"#はSFTを⾏なった直後のモデルの出⼒, 𝜋$%が最適化を⾏うGPTモデルのRL⽅策 - ⼀般的なNLPデータセットへの性能低下を防ぐため,それらのデータへの勾配も加えている Shota Imai | The University of Tokyo 32
  • 33. 補⾜ / PPO n 強化学習における⽅策勾配法の⼀つTRPOを,より実装を単純にし,強⼒にしたもの - TRPO(Trust Region Policy Optimization):⽅策勾配において適切な勾配の更新幅を保証 n 更新前の⽅策と新しい⽅策の確率密度⽐が,ある値1 − 𝜖, 1 + 𝜖の範囲に収まるよう制約 をかけて学習 n 強化学習,⽅策勾配法などの話は⻑くなりすぎるので,資料末の「参考資料」の中から ⾃分に適したものを参考にしていただければ Shota Imai | The University of Tokyo 33
  • 34. プロンプトのデータセット 1/2 n OpenAI AIの利⽤者が実際に使ったプロンプトから構成される ※OpenAI APIの利⽤には「利⽤者のデータが学習に使われること」に賛同する必要がある n 加えて,InstructGPTの学習の評価に参加する⼈(labeler)にもいくつかのプロンプトを 書いてもらう n Plain:任意のテキスト n Few-shot:ある指⽰とそれに対する複数のクエリ,回答 n User-based:OpenAI APIの利⽤に記載されている利⽤例に沿った内容 Shota Imai | The University of Tokyo 34
  • 35. プロンプトのデータセット 2/2 n 3種類のプロンプトに分ける - SFTデータセット:プロンプトをモデルに与えて,その出⼒に対してLabelerが正しい回答を 教師データとして与える時に使う(1万3000データ, labelerデータ含む) - RMデータセット:Reward Modelの学習の際に,同じプロンプトを複数回モデルに与え,複 数回答をlabelerがランク付けする時に使う(3万3000データ, labelerデータ含む) - PPOデータセット:PPOを使った強化学習の際の⼊⼒(状態)として使う(3万1000データ, APIの利⽤者データのみ) n プロンプトデータの96%は英語 Shota Imai | The University of Tokyo 35
  • 36. プロンプトの例 Shota Imai | The University of Tokyo 36
  • 37. Labeler n できるだけユーザーが書きそうなプロンプトを想定して書くよう指⽰ n 明らかに意味が通らなかったり,意味があいまいなプロンプトは避ける n 有害な出⼒を誘導するものは避ける n UpworkとScaleAIを通じて,40⼈を雇った n 潜在的に有害な出⼒を識別するのが得意な⼈たちで,スクリーニングで選別 Shota Imai | The University of Tokyo 37
  • 38. InstructGPTの評価 n InstructGPTが「アライメント」により,⼈間にとって好ましい⾔語出⼒をできているか 評価 n ベースライン - GPT-3:オリジナルのGPT-3のモデル - SFT:SGPT-3にFTのみを⾏い,強化学習をしていないモデル - PPO:PPOで強化学習するが,⼀般的なデータセットへの勾配を考慮していないモデル - PPO-ptx:⼀般的なデータセットへの勾配も考慮して強化学習したモデル.InstructGPT n 評価の種類 1. Evaluations on API distribution • 学習に使⽤しなかった,OpenAPIの利⽤者のプロンプトを⼊⼒にして,その出⼒を評価 • 175BのSFTモデルをベースモデルにし,⼈間から⾒た出⼒の好ましさがこのベースモデルを上回る割 合=Win rateを評価指標にする • 暴⼒的な内容,有害な指摘,偏った意⾒の表明,倫理に対する判定などのメタデータをもとにする 評価も 2. Evaluations on public NLP datasets • InstructGPT以外の⼀般的な⾔語タスクで⽤いられるNLPのデータセットを使う評価 Shota Imai | The University of Tokyo 38
  • 40. 実験結果 / API distribution 各モデルのパラメータ数とWin rate n ベースモデル(175BのSFTモデル)の出⼒と,評価対象のモデルの出⼒を⽐較して,⼈ 間のlabelerが「好ましい」と判断した割合のWin rateが指標 n パラメータ数の多さよりも,強化学習を⾏なったかどうかが圧倒的に効いている - 1.3BのPPOモデルが,その100倍以上のパラメータを持つ175BのGPTモデルに勝る Heldout workers:学習に関わらなかったlabeler Training workers:学習に関わったlabeler Shota Imai | The University of Tokyo 40
  • 41. 実験結果 / API distribution メタデータをもとにした評価 n 強化学習を⾏なったモデルの⽅が,よりプロンプトの指⽰を忠実に守り,適切な出⼒を している n GPTモデルは,勝⼿に新しい情報をでっちあげて出⼒に混ぜる傾向がある ※Hallucinations:要約のような閉じたタスクで,勝⼿に新しい情報を作り上げること Shota Imai | The University of Tokyo 41
  • 42. 実験結果 /public NLP datasets TruthfulQA dataset n TruthfulQA dataset:38のカテゴリにまたがる817の質問から構成され,確定した事実が 存在するが,誤った信念や誤解によって誤答するようなデータセット n PPOのモデルは多少の改善を⾒せている Shota Imai | The University of Tokyo 42 データセットの例と, GPT-3の間違えた解答例
  • 43. 実験結果 /public NLP datasets RealToxicityPrompts n RealToxicityPrompts:英語のwebのコーパスから集められた,とくに有害性のない⽂章 の⼀部分と,有害性を判定するスコアのペアからなるデータセット.この有害性のない ⽂章に続いて,有害な⽂を⽣成してしまうかどうかをみる n Respectfulな指⽰をプロンプトとして与えた場合と そうでない場合も⽐較 n 出⼒⽂の有害性の判定は,⼈間によるものと, PerspectiveAPIに投げた場合のスコアを使⽤ Shota Imai | The University of Tokyo 43 データセットに含まれる⽂の例. この⽂⾃体は全く無害
  • 44. 定性評価 1/2 n 強化学習中にほぼ登場しない⾔語に対して も⾼い性能を⽰す - 学習データの90%以上が英語であるにも関 わらず,それ以外の⾔語(プログラミング ⾔語含む)に関するタスクも明らかに質が 向上している - GPT-3は,英語以外の指⽰⽂の内容を無視 する傾向がある Shota Imai | The University of Tokyo 44
  • 45. 定性評価 1/2 出⼒例 「フランス語で、古代ギリシャにタイムスリップしたカエルの短編⼩説を書く。」という フランス語のプロンプトに対するGPT-3とInstructGPTの出⼒ プロンプト:Écrivez une courte histoire sur une grenouille qui voyage dans le temps jusquʼà la Grèce antique en français. n GPT-3の出⼒(⽇本語訳) “神々の遊びのすべてを知りたいと願う⼦供が、神々の物語の中に⾃分⾃⾝を⾒出すという物語を書 いてください。遠い時代に不倫していた⻘年が、その時代の少⼥と不倫する話を書いてください。学 校に通うことになった⼦供が、想像上の友達を持ち、その友達のおかげで過去に戻ることができると いう話を書いてください” n InstructGPTの出⼒(⽇本語訳) “カエルは道に迷い、疲れ果ててしまった。彼の⽬的はただ⼀つ、過去にさかのぼって古代ギリシャ にたどり着くことだった。最初の問題は、移動⼿段を⾒つけることだった。タイムマシンに⾶び乗る のも⼀つの⼿だと聞いていた。⾶び込んでみると、そこは過去、⽢く妖しい匂いのする星降る夜だっ た。そしてカエルは、坂道の多い古都の街路や⼩さな宿屋を、素早く冒険的な⾜取りで移動する。 [...]” n GPT-3 は明らかに関係がなく,しかも有害な内容の出⼒をしているが,InstructCPTの⽅はお題に 沿った内容 Shota Imai | The University of Tokyo 45
  • 46. 定性評価 2/2 n いまだに簡単なミスはしてしまう - 誤った前提に基づく指⽰を与えると,その 誤った内容をそのまま受け⼊れて出⼒して しまう - 簡単な質問に対して,無駄に⻑い回答を出 ⼒してしまう.答えが明らかな場合でも, ⻑々と考慮する必要がない可能性も答えて しまう - 複数の制約条件があると,性能が低下する (例:1930年にフランスで作られた映画 を10個挙げよ) Shota Imai | The University of Tokyo 46
  • 47. 定性評価 2/2 出⼒例1 誤った前提に基づくプロンプトを与えた場合 Why is it important to eat socks after meditating?(なぜ瞑想後に靴下を⾷べることが重要なのですか?) ※当然,瞑想後に靴下を⾷べるという常識は存在しない n GPT-3の出⼒ “靴下から何を学ぶことができますか? A: 靴下を⾷べるということは、悟りのエッセンスを味わうということです。 悟りのエッセンスを味わっているのです。あなたは、覚醒した⼼の本当の味を 覚醒したマインドの本当の味を味わっているのです。 Q: ⽬覚めた⼼の本当の味とは何でしょう? 本当の味とは何ですか? A:覚醒した⼼の本当の味は 味のない味です。そして、無味の本当の味は 無味の味とは、⾜の臭いの味である。” n InstructGPTの出⼒ “この質問に対する明確な答えはありませんが、瞑想の後に靴下を⾷べる必要があることを説明する理論はたくさんあります。靴 下を⾷べるという⾏為は、瞑想の結果、脳が変容した状態から抜け出すのを助けると考える専⾨家もいれば、瞑想のような⾁体的 にも精神的にも難しい活動に従事した後の⾝体への燃料補給と関係があると指摘する専⾨家もいます。また、靴下を⾷べることで、 瞑想者に新しい感覚を与えたり、普段の思考プロセスや⽇常から脱却して、物理的、物質的な世界とつながることができるのでは ないかという説もあります。しかし、これらの説を裏付ける確固たる科学的根拠は今のところなく、靴下を⾷べることがなぜ重要 なのかは、最終的には各個⼈の経験や考えに基づいて決定されることでしょう。” Shota Imai | The University of Tokyo 47
  • 48. 定性評価 2/2出⼒例2 答えが明らかな簡単な質問を与えた場合 What happens if you fire a cannonball directly at a pumpkin at high speeds? (カボチャに直接砲弾を⾼速で発射したらどうなるのか?) n GPT-3の出⼒ “かぼちゃが砲弾を引き寄せ、砲弾はかぼちゃに跳ね返されます。かぼちゃは、⾦属を操ることができるほど、強 い磁⽯です。” n InstructGPTの出⼒ “かぼちゃに直接、⾼速で砲弾を当てるとどうなるかは、予測できない要素が多すぎて正確な予測はできません。 砲弾の⼤きさ、重さ、密度、かぼちゃの材質、砲弾の速度と衝撃⼒、砲弾とかぼちゃがぶつかる瞬間の距離など が考えられます。その結果、かぼちゃが割れる、地⾯に叩きつけられる、かぼちゃにひびが⼊る、完全に消滅す る、などの可能性があります。” Shota Imai | The University of Tokyo 48
  • 49. InstructGPTの研究から得られた⽰唆 1. 強化学習によりモデルのアライメントを⾼めるためのコストは、事前学習と⽐較して お⼿軽 - 計算コストは,175BのSFTモデルが4.9 petaflops/s-days,175BのPPO-ptxモデルが60 petaflops/s-days,であり,GPT-3の3,640 petaflops/s-daysと⽐べると圧倒的に少ない - OpenAI APIを使うようなユーザーに対して良い出⼒をするモデルを学習するなら,強化学習 によるRLHFの⽅が,パラメータ数を増やすよりも圧倒的に効率が良い 2. InstructGPTは,英語でない指⽰⽂に対しても汎化する - なぜここまで汎化するのかはもっと研究が必要だが,好ましい現象 3. InstructGPTに⽤いられた⼿法で,アライメントによる性能低下を防ぐことができる - アライメントを追求すると,⼀部のタスクの性能が落ちる(alignment tax)が⾔われてきた が,InstructGPTで導⼊された強化学習の⼿法はlow-tax alignmentな⼿法といえる 4. アライメント⼿法を実世界での利⽤データに基づいて検証するのがよい - 実は今までアライメントの⼿法は抽象的な理論的な内容に偏っていた - OpenAIのInstructGPTはユーザーの利⽤データから⾏われた研究 Shota Imai | The University of Tokyo 49
  • 50. 誰に対するアライメントか n InstructGPTで導⼊された⼿法は,⾔語モデルにより⼈間の好みにあった出⼒を⾏うよう 学習する⼿法だが,⼈間が介⼊する以上は,学習中に介⼊する⼀部の⼈間の嗜好の影響 を受けてしまう n 例えばInstructGPTにおけるlabelerは,UpworkやScale AIを通じて採⽤した⽶国や東南 アジアに住む英語を話す⼈であり,研究中のモデルはこれらの⼈に共通する嗜好に偏っ ていたかもしれない n InstructGPTに使うデータは,実際にユーザーが使ったプロンプトではあるが,そもそも これらのユーザーが”GPTを使うのが有益である”と判断したトピックに偏ったデータに なっているかもしれない n OpenAI APIのユーザーは待機リストに登録された⼈から選ばれているが,実際には待機 リストの前半はOpenAIの職員であり,OpenAI周辺のコミュニティに偏った出⼒をして いるかもしれない Shota Imai | The University of Tokyo 50
  • 51. 参考資料 1/2 n ChatGPTの技術 - ChatGPT: Optimizing Language Models for Dialogue. https://openai.com/blog/chatgpt/ - Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. Training language models to follow instructions with human feedback. Preprint, 2022.(InstructGPT) - Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. (2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325. n ⼤規模⾔語モデル・基盤モデル - Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., & et al. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258 - Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165. - Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374. Shota Imai | The University of Tokyo 51
  • 52. 参考資料 2/2 n ⾃然⾔語処理,Transformer - IT Text ⾃然⾔語処理の基礎.岡﨑 直観, 荒瀬 由紀, 鈴⽊ 潤, 鶴岡 慶雅, 宮尾 祐介.オーム社. 2022. • ⾃然⾔語処理やTransformer,Attention,⾔語モデルについてもっと詳しく知りたい⼈向け - 深層学習(第2版,機械学習プロフェッショナルシリーズ).岡⾕貴之.講談社.2022 • AttentionやTransformerの他,深層学習の技術全体を知りたい⼈向け - 第6回 統計・機械学習若⼿シンポジウム チュートリアル講演 Vision and Languageと Transformers.品川政太朗. https://speakerdeck.com/sei88888/2022-dot-2-11-di-6hui-tong-ji- ji-jie-xue-xi-ruo-shou-sinpoziumu-tiyutoriarujiang-yan-vision-and-languagetotransformers • Transformerに関連する最近の技術動向.強化学習×⾔語⽣成モデルの解説も詳しい n 強化学習 - 強化学習の基礎と深層強化学習.今井翔太.https://t.co/cWVyBvvi0u • 東⼤の強化学習講義で今井が使った資料.強化学習と,特に深層強化学習を知りたい⼈向け - 強化学習(第2版).R. Sutton, A. Barto. オーム社.2022 • 強化学習の世界で最も有名で内容が充実した教科書.先⽉,我々が翻訳した⽇本語訳版が出版されました. - 強化学習(機械学習プロフェッショナルシリーズ).森村哲郎.講談社.2019. • 強化学習の和書の中では最も理論に詳しい教科書.⽅策勾配法関連の理論はこれで Shota Imai | The University of Tokyo 52