4. 1. Introduction
RL에서 Learning to learning 이라고 알려져 있는 meta-learning은 특정
value function을 알고 있다면 policy update rule을 스스로 학습하고
unseen task에 적용이 가능하다는 연구들이 나오고 있다.
Scratch부터 RL의 학습을 최적화하는 방향으로
스스로 찾을 수는 없을까?
5. 1. Introduction
This study contributes:
1. Agent의 policy와 semantic prediction vector를 학습하는 방법을 모델이
직접 찾을 수 있고 좋은 성능을 가질 수 있는 feasibility를 보여주었다.
2. Semantic prediction vector에 어떠한 가정도 넣지 않아 사용자의 설정을
더 최소화하고 meta-learning에 가까운 모델이 되었다.
3. 간단한 task들을 통해 만들어진 RL 학습 알고리즘이 복잡한 task에도
유의미한 성능을 보여주었다.
7. 2. LPG
Learned Policy Gradient (LPG)
1. 몇 번의 행동 후 특정 상황에서의 점프
타이밍을 배운다.
2. 여러 번의 의사결정으로 몬스터 속도,
지름길 등 게임 전략들을 배운다.
3. 게임이 끝나고 점수를 더 높이기 위해서
어떻게 하면 게임 전략을 더 많이 배울 수
있을지 고민한다.
4. 다른 게임에서 게임 전략을 더 많이 터득
할 수 있는 노하우를 적용한다.
9. 2. LPG
Learned Policy Gradient (LPG)
LPG parameterized by 𝜂 (Backward LSTM)
agent parameterized by θ
There are TWO learnable model
최종 목적 : optimized 𝜼 찾기
10. 2. LPG
Learned Policy Gradient (LPG)
① agent가 𝜃의 parameter를 이용해 2개의 값 출력
1. 문제에 대한 action을 뽑을 분포 policy 𝜋𝜃
2. 문제의 action을 선택할 정보를 추정한 prediction 𝑦𝜃
게임 중 행동에 대한
선택과 기준
11. 2. LPG
Learned Policy Gradient (LPG)
② agent가 𝑇 time-step 만큼 action을 취해 trajectory를 형성하고 LPG에서 나온
agent의 학습을 도와줄 정답 target 𝜋, 𝑦에 가깝게 agent의 𝜃 update
많은 행동으로 여
러 전략 터득
12. 2. LPG
Learned Policy Gradient (LPG)
③ 여러 상황 environment 들에 대해 각각의 agent들이 𝑇 time-step마다 학습되고
모든 environment가 끝나면 total reward가 최대가 되도록 LPG의 𝜂 update
점수를 더 높일 게임
노하우 학습
20. 4) Balancing Agent Hyperparameters for Stabilisation (𝜶)
한번에 다양한 environment를 학습하게 되는데 모두 동일한 parameter(e.g., learning
rate)를 적용하면 학습이 unstable하기 때문에 동적으로 parameter 설정
𝜂∗
= 𝑎𝑟𝑔max
𝜂
𝔼ℰ~𝑝 ℰ max
𝛼
𝔼𝜃0~𝑝 Θ [𝐺]
3. Details in LPG Architecture
𝛼~𝑝(𝛼|ℰ)
주어진 ℰ environment마다 G를 높이는 파라미터가 뽑힐 확률을
높인다. (𝛼=learning rate, KL-Divergence weight 사용)
21. 3. Details in LPG Architecture
Ablation Study Result