[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning

DEEP LEARNING JP
[DL Papers] Learning to Reach Goals via Iterated Supervised Learning
XIN ZHANG, Matsuo Lab
http://deeplearning.jp/

目次
2
1. 書誌情報
2. Introduction
3. Preliminaries
4. Learning Goal-Conditioned Policies with Self-imitation
5. Related Works
6. Experiment Evaluation
7. Discussion

書誌情報
3
• タイトル：
– Learning to Reach Goals via Iterated Supervised Learning
• 著者
– Dibya Ghosh, Abhishek Gupta, Ashwin Reddy, Justin Fu, Coline Devin, Benjamin
Eysenbach* , Sergey Levine
• 所属：UC Berkeley, ( * : Carnegie Mellon University)
• 投稿日：2020/10/02 (arXiv), ICRL Oral (7788)
• 概要
– 教師ありの模倣学習はスパースな報酬に対応できるが、デモの作成コストが高い
– デモや価値関数なしで、自身の軌道を模倣学習して方策を求める手法を提案
– あと知恵で、「自分の軌道が正しかった」のようなラベルをつけ、イテレーションごとに
方策を更新していく

Introduction
4
サンプル効率問題
- Deep Reinforcement Learningはサンプル効率問題があり、不安定
- デモンストレーションから学習するのは良さそうだが、デモの作成にコスト

ゴールが与えられた状態で方策を学習する設定において、手法を提案
- 方策に基づいて動かした軌道は、正しい軌道となるようにゴールを変える
- これによって、Agentが自身の軌道に対する解釈が変えられる
Goal-conditioned supervised learning（GCSL）
5

- つまりこういうこと
- 人：Aまでに行きなさい
- ロボット：実際Bに行ってしまった
- 人：Bまで行きなさいというつもりだったから、よくやったね！
- 人：Bまでの行き方は覚えておいてね！
6
A B

GCSL
7
著者のブログ（トイデータ・コード付き）

- メリット：
- simpler
- more stable
- less sensitive to hyperparameters than value-based methods
- 価値関数、報酬が必要ない
- デメリット：
- 探索効率：自身の軌道が教師データとなり、学習進めているため
8

補足：定式化及び理論の証明
9
• Goal reachingにおける目的関数
• Goal-conditioned RLにおける目的関数
• Goal-conditioned imitation learningにおける目的関数

• GCSLにおいて、最大化するもの
• GCSLで学習した収益は、通常のRLの下限となる
• deterministic transitionsな環境において、JGCSL(π) の学習は真のパフーマ
ンスの向上につながる
補足：GCSLの定式化及び理論的な話（Appendix Bを参照）
10

Related Works
11
• Hindsight Experience Replay（HER ）輪読会資料
– 離散な報酬設定において、報酬などをリラベリングし、データ効率を最大化する
– ただし、価値関数の推定に苦しむ
– GCSL does not maintain or estimate a value function,
• Supervise imitation Leraning
– 似たような論文はある人間で生成したデータでリラベリングしている
– GCSLは自分の軌道から学習す
• direct policy search
– 報酬、価値関数を用いる
• self-imitation algorithms
– well-shaped reward を用いる

Experiments
12
1. Does GCSL effectively learn goal-conditioned policies from scratch?
2. Can GCSL learn behaviors more effectively than standard RL
3. Is GCSL less sensitive to hyperparameters than value-based methods?
4. Can GCSL incorporate demonstration data more effectively than value-based methods?

Experiments：Learning Goal-Conditioned Policies
13

Experiments：Analysis of Learning Progress and Learned
Behaviors
14

Experiments：Robustness to Hyperparameters
15
Is GCSL less sensitive to hyperparameters than value-based methods?

Experiments：Initializing with Demonstrations
16

Discussion
17
GCSLは、自身のデータを教師データと見なして、学習に成功している
- 以下のものが必要ないため、シンプル
- 報酬の設計、
- エキスパートの軌道
- 価値関数の学習
- PPO、TD 3-HERと複数の実験で比較し、効果がある
- 理論的にも、決められた条件ではRLの最適化下限や精度の保証があ
る
- ただし、GCSL is limited in exploration

感想
18
- シンプルなアイデアで重要な課題（デモの作成コストとか）を解い
ているのが、筋の良さが感じられた
- 疑問：状態が重複するような軌道は、どう処理するのか？
- 気になる関連論文
- Goal-conditioned Imitation Learning
- Go-Explore
- First return then explore (a new version of Go-Explore)

参考文献
19
- https://zhuanlan.zhihu.com/p/313667439
- 著者のトイデータを用いた実装で説明
https://dibyaghosh.com/blog/rl/gcsl.html

[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (14)

Ähnlich wie [DL輪読会]Learning to Reach Goals via Iterated Supervised Learning

Ähnlich wie [DL輪読会]Learning to Reach Goals via Iterated Supervised Learning (9)

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (9)

[DL輪読会]Learning to Reach Goals via Iterated Supervised Learning