SlideShare ist ein Scribd-Unternehmen logo
1 von 37
Downloaden Sie, um offline zu lesen
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
マルチエージェント強化学習における近年の
協調的方策学習アルゴリズムの発展
Shota Imai(東⼤ 松尾研) @ImAI_Eruel
DL輪読会2022/11/25
書誌情報
以下の論⽂の内容が中⼼
n The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games
- NeurIPS2022
n Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning
- ICLR2022
n Multi-Agent Reinforcement Learning is a Sequence Modeling Problem
- NeurIPS2023
Shota Imai | The University of Tokyo
2
発表概要
n マルチエージェント強化学習は,シングルRLとは異なる概念に基づきアルゴリズムが発
展し,2021年までは⼀部の概念に基づく⼿法が⽀配的だった
n ⼀⽅2022年以降,シングルRLのアルゴリズムの強みの再評価と新たな⽅策学習のパラダ
イムが主流になり,Transformerも本格的に使⽤されるように
n 今回の発表では上記のアルゴリズムの発展の整理と各アルゴリズム/概念を紹介
Shota Imai | The University of Tokyo
3
Transformer is
All you Need
深層強化学習以降のマルチエージェント強化学習のアルゴリズム
Shota Imai | The University of Tokyo
4
深層強化学習以降のマルチエージェント強化学習のアルゴリズム
Shota Imai | The University of Tokyo
5
本⽇の発表に関係する⼿法
マルチエージェント深層強化学習
n 深層強化学習によって、複数エージェントが絡むタスクで⾼い性能を発揮するエージェ
ントの⽅策のセットを獲得することが⽬標
n 環境内の複数エージェントが同時に強化学習を⾏なっている設定
n 特に、実機を⽤いた難しい協調タスクへの応⽤が期待され、現在は計算機上での⽐較的
難しいタスクをベンチマークとしてアルゴリズムの研究が進む
n 有名な⼿法
- MADDPG (Multi-Agent Deep Deterministic Policy Gradients)
- COMA (Counterfactual Multi-Agent Policy Gradients)
- VDN (Value-Decomposition Networks)
- QMIX
- AlphaStar
6
マルチエージェント深層強化学習に関する記号の定義
• 環境の状態:𝑠 ∈ 𝑆
• ⾏動:各エージェント𝑎 ∈ 𝐴 ≡ {1, … , 𝑛}の⾏動u!
∈ 𝑈
• 共同⾏動(joint action):𝐮 ∈ 𝑈 ≡ 𝑈"
• 状態遷移関数:𝑃(𝑠′|𝑠, 𝑢): 𝑆×𝑈×𝑆 → [0,1]
• 部分観測関数:𝑂(𝑠, 𝑎): 𝑆×𝐴 → 𝑜
• 報酬関数:𝑟(𝑠, 𝑢): 𝑆×𝑈 → 𝑅
マルチエージェント強化学習の問題設定の分類
n 中央集権型学習-中央集権型実⾏ (AlphaStar等)
- 環境内にエージェントは複数いるが、各エージェントの⽅策を
出⼒するモデルは単⼀で、モデルへの⼊⼒も、各エージェント
の観測をまとめて受け取る設定
- ⽅策モデルの処理能⼒に左右され、個別エージェントの観測の
情報の共有が無制限という仮定が必要
n 分散型学習-分散型実⾏(IQL, その他古典的⼿法)
- ⼀番難しい設定で、全てのエージェントが学習/テスト時ともに
個別の観測を受け取って学習・⾏動する
- 深層学習以前のマルチエージェント強化学習や、DQN登場直後
の問題設定はこれ
- IQL (Independent Q-Learners)としてまとめられることも
n 中央集権型学習-分散型実⾏(MADDPG, COMA等)
- 現在のMARLの主流設定(後述)
- 学習時に追加の中央情報を使うが、
テスト時は分散的
7
⽅策モデル:
!!
"!
$!
)
⽅策モデル:
!"
""
$"
)
⽅策モデル:
!#
"#
$#
)
⽅策モデル:
!! "! $!)
⽅策モデル:
!" "" $")
⽅策モデル:
!# "# $#)
学習時 テスト時
⽅策モデル:
!!
"!
$!
)
⽅策モデル:
!"
""
$"
)
⽅策モデル:
!#
"#
$#
)
中央学習器:
Q(! | $)等
損失計算
勾配
⼊⼒
中央集権型学習分散型実⾏
CTDE; Centralized Learning Distributed Execution
n 現在のMARLの最重要概念
n 中央集権型学習:学習時のみ,勾配を計算する時に全体のエージェントの情報を含む環境の「グローバルな情
報」を使う
(e.g, 各エージェントの⽅策パラメータの勾配計算に部分観測に加え真の状態sを使う)
n 分散型実⾏:テスト時には,各エージェントは⾃⾝の部分観測のみを⼊⼒として⽅策を実⾏
(例)
学習時には,全エージェントの情報sやuを使って,⽅策勾配を
のように計算し,テスト時には各エージェントは⽅策𝜋(𝑢!|𝜏!)のみを使い,グローバルな情報の⼊⼒を必要とし
ない
n COMA[Foerster+ 2017]以降,特に⽤いられるアプローチで,
“in many cases, learning can take place in a simulator or a laboratory in which extra state information is
available and agents can communicate freely”[Foerster+ 2016]
つまり,「マルチエージェントの学習は,研究的な環境でシミュレータ等を使えるため,学習を促進するために
追加の状態の情報を使ってもよい」という仮定によるアプローチ
n 本来エージェントが動作するテスト環境(Execution時)は,基本的に各エージェントが個別の観測だけを受け
取って強調しているため,グローバルな情報は使えない
Shota Imai | The University of Tokyo
8
深層強化学習以降のマルチエージェント強化学習のアルゴリズム
Shota Imai | The University of Tokyo
9
深層強化学習以降のマルチエージェント強化学習のアルゴリズム
Shota Imai | The University of Tokyo
10
本⽇の発表に関係する⼿法
初期のCTDE型⼿法
n COMA(Counterfactual Multi-Agent Policy Gradients)
- CTDEが導⼊された⼿法
- シングルRLの⽅策勾配をCTDEで改良
n MADDPG(Multi-Agent Deterministic Policy Gradients)
- DDPGをCTDEで改良
Shota Imai | The University of Tokyo
11
IGM原理に基づく価値分解型の⼿法
n VDN
- 価値分解型⼿法の元祖
- 各エージェントの個別価値の和とCTDEの勾配計算時に⽤いる共同価値を⼀致させる
n QMIX
- 最もよく使われるMARLの代表的アルゴリズム
- HypernetworkベースのMixing networkで共同価値を計算
n QTRAN
- IGM原理が提唱された⼿法
- 共同価値を学習しやすい形に変換
n QPLEX
- シングルRLでも使われたDueling Networkを使⽤
- 個別価値と共同価値の両⽅にDueling Networkの機構を組み込む
Shota Imai | The University of Tokyo
12
IGM原理(Individual Global-Max Principle)
n 各エージェント𝑎が個別の観測𝑜!(または観測の履歴𝜏!)を基に出⼒する⾏動価値𝑄!と,
CTDE型の⼿法で勾配を計算する時に⽤いる𝑄"#(𝜏, 𝒖)について以下の関係を満たす場合,
この⼿法における⾏動価値はIGMを満たす
n つまり各エージェント個体がそれぞれ「最適だと思っている」(=⾏動価値が最も⾼い)
⾏動をまとめた共同⾏動が,エージェント全体としても現在の状態(or軌道)の下で最
も⾼い⾏動価値を持つ,という状況を満たす
n IGMを満たさない場合,学習時の共同価値が最⼤の時と個別のエージェントの価値の最
⼤の時がずれるため,分散型実⾏時に各エージェントが個別価値ベースで⾏動を選択す
ると,全体としての最適⾏動にならない
n QTRANで提唱される前のVDNやQMIXも,実はこの性質を持っていた
Shota Imai | The University of Tokyo
13
IGM原理を満たす⼿法の無双
n QMIX以降は,MARL⼿法の主要ベンチマークにおいて,IGMを満たすアルゴリズムの無
双が続く(Q〇〇や〇MIX等の⼿法が⼤量に出現)
Shota Imai | The University of Tokyo
14
新たな潮流
MARLにおけるシングルRLのアルゴリズムの強さの発⾒
n そもそも初期のMARLでは,DQN,PPOなどのシングルRLで使われていたアルゴリズム
をそのまま適⽤する⼿法が普通だった
n あまり性能が出ないため,価値分解,IGM原理,役割学習など,MARL特化型の⼿法が誕
⽣
疑問
実はシングルRLをMARLに適⽤しても性能が出なかったのは,シングルRL
における実装・ハイパーパラメータが良くなかっただけで,この辺を
ちょっと変えればMARLでも機能するのでは?
Shota Imai | The University of Tokyo
15
MAPPO(Multi-Agent Proximal Policy Optimization)
n シングルRLでよく使われるPPOを,学習アルゴリズムはそのままにハイパラや実装を
MARL向けに調整した⼿法
n MARLで重要とされてきたIGM原理を満たさず,役割学習などの機構も持たないが,既存
のMARLアルゴリズムを圧倒する性能を発揮
Shota Imai | The University of Tokyo
16
おさらい / PPO
n TRPOを改良した⼿法で,より実装を単純にし,強⼒にしたもの
- TRPO(Trust Region Policy Optimization):⽅策勾配において適切な勾配の更新幅を保証
n 更新前の⽅策と新しい⽅策の確率密度⽐が,ある値1 − 𝜖, 1 + 𝜖の範囲に収まるよう制約
をかけて学習
Shota Imai | The University of Tokyo
17
MAPPOの⼯夫
n 基本的なアルゴリズムはシングルRLのPPOとまったく同じで,やったことは価値の計算
にCTDE的な⼿法を取り⼊れたことと,ハイパーパラメータをMARL向けに調整したのみ
n 論⽂で指摘された重要な⼯夫要素
1. 価値関数の標準化をしよう
2. CTDEにおけるグローバルな情報と個別エージェントの情報を両⽅うまく使ou
3. 学習のエポック数はとても重要
4. PPOのクリッピングに使うεは0.2以下にしよう
5. バッチサイズは⼤きく使⽤
Shota Imai | The University of Tokyo
18
実験結果 / MAPPOの強さ
n SMACの各タスクで実験(実際には他にもタスクをやってますが割愛)
n 実質的に全てのタスクでSOTA
n 今までのMARL界隈の努⼒はなんだったのか
Shota Imai | The University of Tokyo
19
実装上の⼯夫の効果 / 価値関数の標準化
Shota Imai | The University of Tokyo
20
実装上の⼯夫の効果 / グローバル情報と個別情報の使い⽅
n CTDEで使うグローバルな情報についての定義をいくつか設定し,それを学習に使った場
合でどう性能が変化するかを分析
- CL(concatenation of local observations):全てのエージェントの観測をconcatしたものを
グローバル情報とする
- EP(EnvironmentProvided global state ):環境・全エージェントの要約情報をグローバル情
報とする
- AS(Agent-Specific Global State ):各エージェント固有の観測とグローバル情報を組み合
わせる
- FP(Featured-Pruned Agent-Specific Global State):ASで,各エージェントで被っている
う情報を削除したもの
Shota Imai | The University of Tokyo
21
実装上の⼯夫の効果 / エポック数の調整
Shota Imai | The University of Tokyo
22
実装上の⼯夫の効果 / クリッピングのεの調整
Shota Imai | The University of Tokyo
23
実装上の⼯夫の効果 / バッチサイズ
Shota Imai | The University of Tokyo
24
HAPPO(Heterogeneous-Agent Proximal Policy Optimization)
n MAPPOはアルゴリズムの性質上,全てのエージェントが同じパラメータを共有する
Homogeneousな設定でしか使⽤できない
- この設定はParameter Sharingと呼ばれるMARLにおける代表的な⼯夫
n ⾏動空間が違うエージェントで構成されるMARLのタスクでもMAPPOのようなやり⽅で
学習するため,HAPPOを提案
n 新たにAdvantage Decompositionという概念と,それをベースにしたsequential policy
updateをPPOに取り⼊れた
n かなり理論的なことも議論している論⽂(今回は割愛)
※実際にはHATRPOの導⼊がメインの論⽂だが,TRPOを簡単にしたHAPPOの⽅が⼀般的
Shota Imai | The University of Tokyo
25
MAPPOの問題点と改良
MAPPOの更新式
𝜃は全てのエージェントで同じパラメータなので,⾏動空間が異なるなどしてパラメータを
共有できない場合は適⽤できない
n いい感じに異なるパラメータを持つエージェントをPPO的に⽅策学習できるやり⽅はな
いか?
n 𝐴$を各エージェントでいい感じにして,個別に⽅策更新すればいけそう?
Shota Imai | The University of Tokyo
26
Multi-Agent Advantage Decomposition
n 𝑖%:'をエージェントの順列とすると以下が成り⽴つ
n 各エージェントが正のアドバンテージを持つ⾏動aを選択し,続くエージェントも先の
エージェントの⾏動を考慮した上で正のアドバンテージを持つ⾏動を選択・・・と繰り
返すと,全体の共同アドバンテージ𝐴$
(":$
は正の値になることが保証される
n この性質を利⽤して,各エージェントのPPOの更新を以下のように⾏う
Shota Imai | The University of Tokyo
27
HAPPOの⽅策学習
n アルゴリズムは⾮常に単純
n 各イテレーションでエージェントの順番をランダムに決めて,その順に⽅策更新を繰り
返す
Shota Imai | The University of Tokyo
28
HAPPO / 実験結果
Shota Imai | The University of Tokyo
29
SMAC
MA Mujoco
MAT(Multi-Agent Transformer)
n HAPPOで提案されたAdvantage DecompositionとSequential Policy Updateをベースに,
MARLの⾏動⽣成・学習を系列モデリングとして定式化
- 論⽂タイトル: Multi-Agent Reinforcement Learning is A Sequence Modeling Problem
n 系列モデリングの最強⼿法であるTransformerを取り⼊れることで, MARLの様々なタ
スクで圧倒的な性能を発揮
n さらに,Transformerが得意とする事前学習についても検討を⾏い,MARLでエージェン
ト数が違うタスクへのFew/Zero-shot学習が成功することも証明
Shota Imai | The University of Tokyo
30
系列モデリング問題としてのMARL
左:従来のMARL.各エージェントの⾏動に系列的な関係はない
右:各エージェントの⾏動が系列的で,出⼒⾏動が順に別エージェントに影響を与える
Shota Imai | The University of Tokyo
31
MATのアーキテクチャ
n 従来のTransformerの機構はそのままに,⼊⼒トークンを各エージェントの観測にし,エ
ンコーダで価値の出⼒を追加,出⼒が各エージェントの⾏動の⾃⼰回帰的な⽣成
n ⽅策の学習アルゴリズムはMAPPOを踏襲
Shota Imai | The University of Tokyo
32
MAT / 実験結果(SMAC)
n ほとんど全てのタスクで上限に近い圧倒的な性能
Shota Imai | The University of Tokyo
33
MAT / 実験結果(MAMujoco)
Shota Imai | The University of Tokyo
34
MAT / 事前学習の実験
n 複数環境で性能が出るようにMATで学習したエージェントが,エージェント数を変える
などした別タスクでも性能を発揮できるかどうか
【実験設定】
n SMAC:3m, 8m vs 9m, 10m vs 11m, 25m, 3s vs 3z, 2s3z, 3s5z, MMMで学習したモデル
をエージェント数が異なる5m vs 6m, 8m, 27m vs 30m, 2s vs 1sc, 1c3s5z, MMM2に適⽤
n MA Mujoco:全ての部位が揃ったHalfCheetahで学習したモデルを,⼀部の部位が動か
なくなったHalfCheetahに適⽤
n 事前学習のサンプル数は10M
Shota Imai | The University of Tokyo
35
事前学習の実験結果
n SMAC
n MA Mujoco
Shota Imai | The University of Tokyo
36
所感
n やっぱりTransformerは最強
n MARLにおけるTransformerを使った⼿法は始まったばかりで,今後関連研究が量産され
そうな気配
n MAT⾃体はものすごくシンプルなTransformerベースなので,もともと別界隈で
Transformerをいじくり回していた⼈間が合流しれ少し改良すればMARLに⾰命を起こせ
るかも(?)
Shota Imai | The University of Tokyo
37

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
 
深層強化学習と実装例
深層強化学習と実装例深層強化学習と実装例
深層強化学習と実装例
 

Ähnlich wie 【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展

Ähnlich wie 【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展 (9)

Batch Reinforcement Learning
Batch Reinforcement LearningBatch Reinforcement Learning
Batch Reinforcement Learning
 
Wandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdfWandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdf
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
 
MARL communication (CommNet, TarMAC 論文紹介)
MARL communication (CommNet, TarMAC 論文紹介)MARL communication (CommNet, TarMAC 論文紹介)
MARL communication (CommNet, TarMAC 論文紹介)
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
 
集合知メカニズムの研究
集合知メカニズムの研究集合知メカニズムの研究
集合知メカニズムの研究
 

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

Kürzlich hochgeladen (7)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展