11. Related Works
11
• Hindsight Experience Replay(HER )輪読会資料
– 離散な報酬設定において、報酬などをリラベリングし、データ効率を最大化する
– ただし、価値関数の推定に苦しむ
– GCSL does not maintain or estimate a value function,
• Supervise imitation Leraning
– 似たような論文はある人間で生成したデータでリラベリングしている
– GCSLは自分の軌道から学習す
• direct policy search
– 報酬、価値関数を用いる
• self-imitation algorithms
– well-shaped reward を用いる
12. Experiments
12
1. Does GCSL effectively learn goal-conditioned policies from scratch?
2. Can GCSL learn behaviors more effectively than standard RL
3. Is GCSL less sensitive to hyperparameters than value-based methods?
4. Can GCSL incorporate demonstration data more effectively than value-based methods?