SlideShare ist ein Scribd-Unternehmen logo
1 von 25
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Learning Latent Dynamics for Planning from Pixels
ShoheiTaniguchi, Matsuo Lab
書誌情報
Learning Latent Dynamics for Planning from Pixels
Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David
Ha, Honglak Lee, James Davidson
• 2018年11月12日にarXivに投稿された論文
• 著者はGoogle Brain, DeepMind, Google Research
選定理由
• 状態表現学習への興味
• 最近自分が考えていたことに近い気がした
• (hardmaruがツイートしていて気になった)
2
アウトライン
1. 背景知識
– 状態表現学習
– モデルベースの難点
2. 提案手法
– 潜在空間上でのプランニング
– 再帰的な状態空間モデル
– 複数ステップ先の予測モデル
3. 実験
4. まとめ
3
状態表現学習
• 強化学習においてエージェントの観測と行動の系列から、各タイムステップ
におけるエージェントの状態の抽象表現(状態表現)を学習する枠組みのこ
と
• モデルベース強化学習の文脈で用いられる用語
• 詳しくはこのレビュー論文と解説スライドを参照
State Representation Learning for Control: An Overview
https://arxiv.org/abs/1802.04181
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の
獲得に向けて-
https://www.slideshare.net/DeepLearningJP2016/dl-124128933
4
状態表現学習
なぜ状態表現学習が大事なのか
• モデルフリーの深層強化学習は多くの分野で成功
e.g. 囲碁, 将棋, ゲームAI (Atariなど), etc.
• 実世界に適応可能なエージェントの実現には未だ多くの課題
① サンプル効率
• 学習に膨大なサンプルを要するが実世界で集められるサンプルには限りがある
② 汎化
• 別のタスクへの転移ができない(タスクへの汎化)
• 環境が変化すると全く機能しない(環境への汎化)
• 環境のダイナミクスを含んだ状態表現学習とプランニングを分けて考える
モデルベースが今後重要
– 状態表現は他タスクにおいても有用な表現であるため、容易に転移可能
– 状態表現をメタ学習できれば環境の変化にもfew shotに適応できるはず 5
状態表現学習
いい状態表現とは ([Böhmer et al., 2015] の定義)
① マルコフ性
– 現在の状態と行動のみから次の状態が予測できるほど圧縮された表現
– マルコフ決定過程を仮定したRLアルゴリズムとの相性が良い
② 方策 (policy) の改善に使える
③ 未知だが似た特徴をもつ状態に対して汎化する
④ 低次元
6
モデルベースの難点
1. モデルの学習のミスがプランニングに大きな影響を及ぼす
– 基本的にモデルが環境の全てを学習しきることは不可能
– しかし、プランニング側はモデルがミスをしていたら対処する術がない
2. モデルの学習のためのデータをどう集めるか
– [Ha et al., 2018]のWorld modelsのようにランダムポリシーで環境を適当に探索させ
ることもできるが、効率的ではない
3. モデルの学習においてタスクを解くために必要な知識が状態表現から欠
落してしまう可能性がある
– これについては、モデルの学習に報酬情報を含めることで解決できるが、逆にその
場合は他タスクへの転移が難しくなる
7
アウトライン
1. 背景知識
– 状態表現学習
– モデルベースの難点
2. 提案手法
– 潜在空間上でのプランニング
– 再帰的な状態空間モデル
– 複数ステップ先の予測モデル
3. 実験
4. まとめ
8
提案手法
Deep Planning Network (PlaNet)
① 潜在空間上でのプランニング
– ダイナミクス(状態表現)のモデルの学習のためのデータの収集を潜在空間上での
プランニングを用いてオンラインで行なった
– 約50倍のサンプル効率でモデルフリーの手法であるA3Cを圧倒し、D4PGとほぼ同
等のスコアを達成
② 再帰的な状態空間モデル
– 状態表現の不確実性を考慮しつつ、長い系列情報を失うことなく良い表現を獲得す
るためのモデルを提案
③ 複数ステップ先の予測モデル
– 通常のダイナミクスモデルは1ステップ先の予測のみを考慮するが、任意ステップ先
の予測 (overshooting)を考慮した状態表現学習を行う
9
潜在空間上でのプランニング
• ダイナミクスモデルの学習とそのためのデータの収集を交互に行う
• データの収集の際、エージェントはモデルの潜在空間上でのプランニングで得られる方
策を用いて探索する
• プランニングの学習にはCross Entropy Method (CEM) を使用
10
モデルの学習
データの収集
プランニングの学習
アウトライン
1. 背景知識
– 状態表現学習
– モデルベースの難点
2. 提案手法
– 潜在空間上でのプランニング
– 再帰的な状態空間モデル
– 複数ステップ先の予測モデル
3. 実験
4. まとめ
11
再帰的な状態空間モデル
プランニングのための良い状態表現の要素として以下の2つを主張
① 不確実性を考慮している
– 完全観測でない限り、エージェントの状態は常に不確実性を含んでいる
– 決定論的なモデルでは不十分
② 長期の系列情報を保持している
– 状態表現は過去の観測系列をなるべくうまく圧縮した表現であってほしい
これらを包括したRecurrent state-space model (RSSM) を提案
12
再帰的な状態空間モデル
13
比較手法 提案手法
再帰的な状態空間モデル
RSSMのアーキテクチャ
• 細かいアーキテクチャについては論文内に記述がないが、おそらく以下の
ような形
• SSMではDeterministic RNNがなく、InferenceとPriorに𝑠𝑡−1と𝑎 𝑡−1が直接入
る
14
𝑠𝑡, ℎ 𝑡
𝑜𝑡, 𝑟𝑡𝑜𝑡, 𝑟𝑡, ℎ 𝑡 Generation
𝑝(𝑜𝑡|𝑠𝑡)
Inference
𝑞(𝑠𝑡|𝑜𝑡, ℎ 𝑡)
Prior
𝑞(𝑠𝑡|ℎ 𝑡) 𝑠𝑡
KL
ℎ 𝑡
Deterministic
RNN
𝑓(ℎ 𝑡−1, 𝑠𝑡−1, 𝑎 𝑡−1)
ℎ 𝑡−1
𝑠𝑡−1
𝑎 𝑡−1
再帰的な状態空間モデル
確率的な潜在表現のモデリングにはVAEを使用
15
SSMの変分下限
再帰的な状態空間モデル
疑問点
• 論文内では提案手法 (RSSM) も前頁の変分下限で学習できるとしているが、
明らかに違う気がする(なぜhを完全に無視しているのかわからない)
– おそらく正しい下限は↓
ln 𝑝(𝑜1:𝑇, |𝑎1:𝑇)
≥ E 𝑝 ℎ1:𝑇, 𝑠1:𝑇, 𝑎1:𝑇
𝑡=1
𝑇
E 𝑞 𝑠 𝑡
ln 𝑝 𝑜𝑡, 𝑠𝑡, ℎ 𝑡 − DKL[𝑞(𝑠𝑡)||𝑝(𝑠𝑡|ℎ 𝑡)]
– 期待値はモンテカルロ近似するので実装上は確かに変わらない
• SSMのマルコフ性を壊しているのでそもそも良いモデルなのか疑問
ここでは一旦この辺りは気にしないことにして進めます
16
アウトライン
1. 背景知識
– 状態表現学習
– モデルベースの難点
2. 提案手法
– 潜在空間上でのプランニング
– 再帰的な状態空間モデル
– 複数ステップ先の予測モデル
3. 実験
4. まとめ
17
複数ステップ先の予測モデル
• p13の変分下限は1ステップ先の予測のみに基づいて導かれている
• もしモデルが完璧に学習できているとすれば、それを用いて複数ステップ先
の予測もできるので問題ない
e.g. 𝑝 𝑠𝑡+2 𝑠𝑡, 𝑎 𝑡, 𝑎 𝑡+1 = 𝑝 𝑠𝑡+2 𝑠𝑡+1, 𝑎 𝑡+1 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎 𝑡 𝑑𝑠𝑡+1
• しかし、現実にはモデルが環境を完全に学習しきることはあり得ない
• そこで以下のような下限を考えてdステップ先の予測 (overshooting) を学習
させる
18
複数ステップ先の予測モデル
• 前頁の下限はdステップ先のみを考えているが、これを任意のステップ先の
予測に拡張して、以下の下限を目的関数として採用する
(ただし、𝛽 𝑑 はハイパラ)
19
アウトライン
1. 背景知識
– 状態表現学習
– モデルベースの難点
2. 提案手法
– 潜在空間上でのプランニング
– 再帰的な状態空間モデル
– 複数ステップ先の予測モデル
3. 実験
4. まとめ
20
実験
DeepMind control suiteの4つのタスクで実験
• 結果はモデル間 (RNN, SSM, RSSM) の比較と、overshootingの有無での比
較を行なっている
• 2つのモデルフリーの手法 (A3C, D4PG) との比較も行なっている
21
実験結果
22
https://www.youtube.com/watch?v=TeUceNCmq34
実験結果
Overshootingの有無
長期の予測が重要なWalker Walkで顕著な差がついている
23
実験結果
モデル比較
Cheetah Runでは提案手法がD4PGを上回る結果に
24
まとめ
• モデルベース強化学習のフレームワークとして3つの新規性を持つ手法を
提案
① モデルの学習とデータ収集・プランニングをオンラインで行う手法を提案し、サンプ
ル効率を向上
② 状態表現の不確実性を考慮し、かつ長い系列情報をうまく圧縮するためのVAE
ベースのダイナミクスモデルを提案
③ モデルの学習において複数ステップ先の予測モデルを考慮させることで、モデルの
不完全性による長期の予測での誤差の蓄積を避けることを実現
• 提案手法は強力なモデルフリーの手法に匹敵するスコアを記録
感想
• overshootingは面白いがハイパラ増えるしどうなんだろうという感想
• モデルが完全に学習しきらないことをどう考慮するかは今後のトピックの1
つになりそう
25

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 

Ähnlich wie [DL輪読会]Learning Latent Dynamics for Planning from Pixels

2011 splc-a scalable goal-oriented approach to software variability recovery
2011 splc-a scalable goal-oriented approach to software variability recovery2011 splc-a scalable goal-oriented approach to software variability recovery
2011 splc-a scalable goal-oriented approach to software variability recovery
n-yuki
 

Ähnlich wie [DL輪読会]Learning Latent Dynamics for Planning from Pixels (17)

Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
Deeplearning lt.pdf
Deeplearning lt.pdfDeeplearning lt.pdf
Deeplearning lt.pdf
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
2011 splc-a scalable goal-oriented approach to software variability recovery
2011 splc-a scalable goal-oriented approach to software variability recovery2011 splc-a scalable goal-oriented approach to software variability recovery
2011 splc-a scalable goal-oriented approach to software variability recovery
 
文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields
文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields
文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
 
[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs[DL輪読会]Training RNNs as Fast as CNNs
[DL輪読会]Training RNNs as Fast as CNNs
 
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
 
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェース
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
 
抽出型要約と言い換えによる生成型要約の訓練データ拡張
抽出型要約と言い換えによる生成型要約の訓練データ拡張抽出型要約と言い換えによる生成型要約の訓練データ拡張
抽出型要約と言い換えによる生成型要約の訓練データ拡張
 

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]Learning Latent Dynamics for Planning from Pixels