ProximalPolicyOptimization

•Als PPTX, PDF herunterladen•

0 gefällt mir•43 views

논문은 환경과 상호작용을 통해 데이터를 샘플링하고 확률적 경사 상승법을 사용하여 "대리" 목표 함수를 최적화하는 강화 학습을 위한 새로운 정책 경사 방법들을 제안합니다. 표준 정책 경사 방법은 데이터 샘플마다 한 번의 경사 업데이트를 수행하지만, 미니배치 업데이트를 여러 에폭 수행할 수 있는 독창적인 목표 함수를 제안합니다. 이 새로운 방법을 근접 정책 최적화(Proximal Policy Optimization, PPO)라고 부르며, 신뢰 영역 정책 최적화(Trust Region Policy Optimization, TRPO)의 일부 이점이 있지만, 구현이 훨씬 간단하고 일반적이며 샘플 복잡성 면에서도 뛰어납니다(실제로). 실험에서는 PPO를 로봇 보행 시뮬레이션과 아타리 게임 등의 벤치마크 작업에 적용하였으며, 이를 통해 PPO가 다른 온라인 정책 경사 방법보다 우수하며, 전반적으로 샘플 복잡성, 단순성, 실제 소요 시간 면에서 유리한 균형을 이루고 있다는 것을 보여줍니다.

Daten & Analysen

Proximal Policy Optimization Algorithm
김현성(발표자),주정헌,백승언,박혜진,이도현
ICML2017
OpenAI

Introduction
Part 1
 문제점 제기
 Deep Q Learning : 단순하지만 연속 컨트롤 도메인에서 제대로 동작하지 못함
 Vanilla PG(A3C) : 데이터 효율성과 모델의 강건함이 떨어짐
 TRPO : 너무 복잡하고 Dropout과 같은 노이즈를 더하거나 정책과 가치 함수가 파라미터
를 공유하는 구조와 호환되지 않음.
 개선 : Probability Ratio Clipping
 First-order Optimization
 TRPO의 성능을 유지 : 정책의 성능의 하한을 유지

Background
Part 2
 Policy Gradient
• 정책 학습을 위해 아래의 목적함수와 정책 경사도를 사용
• 정책 업데이트 시 매우 크게 업데이트를 수행하여 성능 저하를 일으킬 수 있음.
 Trust Region Policy Optimization
• 목적함수를 통해 정책 업데이트할 때 업데이트가 되는 크기에 제약 조건을 둠
• Second-order optimization으로 최적화를 하기 때문에 복잡함.

ClippedSurrogateObjective
Part 3
 Clipping Probability Ratio
• 정책 확률의 비율을 클립핑하는 Surrogate Objective 설계
• 𝑟𝑡(𝜃)가 [1 − 𝜖, 1 + 𝜖]를 벗어나는 움직임을 제거하는 것을 의미
• 정책 업데이트 시 업데이트 크기에 대한 제한을 둠으로써 정책 성능에 하한이 형성됨.

ClippedSurrogateObjective
Part 3
 Advantage에 따른 목적함수의 변화
• Advantage가 양수여서 정책을 더욱 개선하고자 할 때는 작게 움직이고, 음수여서 정책을
악화되는 방향이면 크게 움직여 업데이트가 되도록 함.

ClippedSurrogateObjective
Part 3
 Clipped Surrogate Objective에 대한 직관
• Clipped Surrogate objective는 그렇지 않은 함수의 값의 하한이 됨

AdaptiveKLPenaltyCoefficient
Part 4
 조절 가능한 KL Penalty의 계수항
• Clipped surrogate objective보다는 성능이 좋지는 않지만 베이스라인으로 채택
• 위의 식에서 하이퍼파라미터 1.5, 2나 𝑑𝑡𝑎𝑟𝑔 는 휴리스틱하게 설정했지만 크게 알고리즘
성능에 민감하게 작용하진 않음.

Algorithm
Part 5
 실제적인 PPO 구현
• Actor-Critic 구조를 사용하고 Policy와 Value Func.의 파라미터를 공유하면
 𝑐1, 𝑐2는 계수, 𝑆는 엔트로피항, 𝐿𝑡
𝑉𝐹
= ( 𝑉𝜃 𝑠𝑡 − 𝑉𝑡
𝑡𝑎𝑟
)2
• Generalized Advantage Estimation(GAE) 적용

Experiments
Part 6
 Objective 간 비교
• 7개 로보틱스 시뮬레이션 태스크로 테스트
• 마지막 100개 에피소드의 평균 보상 점수를 정규화

Experiments
Part 6
 연속 도메인에서 다른 알고리즘과 비교

Experiments
Part 6
 Atari 도메인에서 다른 알고리즘과 비교
• 49개의 Atari game을 세개의 알고리즘으로 테스트한 후 각 알고리즘마다 가장 높은 점수
를 얻은 게임의 수
• 점수 지표를 2가지로 나눠서 평가함. (1)번은 얼마나 빠르게 학습되는지, (2)번은 최종 성
능이 얼마나 되는 지를 보기 위함.

Empfohlen

MOReL: Model-Based Offline Reinforcement Learningtaeseon ryu

Soft Actor-Critic Algorithms and Applications 한국어 리뷰태영 정

Chapter 8 - optimization for training deep modelsKyeongUkJang

(Nlp)fine tuning 대회_참여기OverDeep

"From image level to pixel-level labeling with convolutional networks" Paper ...LEE HOSEONG

Bert3q KorQuAD Finetuning NLP ChallengeOverDeep

가깝고도 먼 TrpoWoong won Lee

Policy Gradient를 이용한 인공지능 ETF 포트폴리오 매니저Gyusu Han

Empfohlen

MOReL: Model-Based Offline Reinforcement Learningtaeseon ryu

Soft Actor-Critic Algorithms and Applications 한국어 리뷰태영 정

Chapter 8 - optimization for training deep modelsKyeongUkJang

(Nlp)fine tuning 대회_참여기OverDeep

"From image level to pixel-level labeling with convolutional networks" Paper ...LEE HOSEONG

Bert3q KorQuAD Finetuning NLP ChallengeOverDeep

가깝고도 먼 TrpoWoong won Lee

Policy Gradient를 이용한 인공지능 ETF 포트폴리오 매니저Gyusu Han

Introduction to SAC(Soft Actor-Critic)Suhyun Cho

Image data augmentatiionSubin An

2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)JMP Korea

2-1: 석유 화학 산업에서의 JMP 활용 사례JMP Discovery Summit Korea 2023

모두를 위한 PG 여행 가이드RLKorea

PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...Sunghoon Joo

Pycon korea 2018 kaggle tutorial(kaggle break)Yeonmin Kim

VoxelNettaeseon ryu

OpineSum Entailment-based self-training for abstractive opinion summarization...taeseon ryu

3D Gaussian Splattingtaeseon ryu

JetsonTX2 Python taeseon ryu

Hyperbolic Image Embedding.pptxtaeseon ryu

MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정taeseon ryu

LLaMA Open and Efficient Foundation Language Models - 230528.pdftaeseon ryu

YOLO V6taeseon ryu

Dataset Distillation by Matching Training Trajectories taeseon ryu

RL_UpsideDowntaeseon ryu

Packed Levitated Marker for Entity and Relation Extractiontaeseon ryu

Scaling Instruction-Finetuned Language Modelstaeseon ryu

Visual prompt tuningtaeseon ryu

mPLUGtaeseon ryu

variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdftaeseon ryu

Weitere ähnliche Inhalte

Ähnlich wie ProximalPolicyOptimization

Introduction to SAC(Soft Actor-Critic)Suhyun Cho

Image data augmentatiionSubin An

2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)JMP Korea

2-1: 석유 화학 산업에서의 JMP 활용 사례JMP Discovery Summit Korea 2023

모두를 위한 PG 여행 가이드RLKorea

PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...Sunghoon Joo

Pycon korea 2018 kaggle tutorial(kaggle break)Yeonmin Kim

Ähnlich wie ProximalPolicyOptimization (7)

Introduction to SAC(Soft Actor-Critic)

Image data augmentatiion

2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)

2-1: 석유 화학 산업에서의 JMP 활용 사례

모두를 위한 PG 여행 가이드

PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...

Pycon korea 2018 kaggle tutorial(kaggle break)

Mehr von taeseon ryu

VoxelNettaeseon ryu

OpineSum Entailment-based self-training for abstractive opinion summarization...taeseon ryu

3D Gaussian Splattingtaeseon ryu

JetsonTX2 Python taeseon ryu

Hyperbolic Image Embedding.pptxtaeseon ryu

MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정taeseon ryu

LLaMA Open and Efficient Foundation Language Models - 230528.pdftaeseon ryu

YOLO V6taeseon ryu

Dataset Distillation by Matching Training Trajectories taeseon ryu

RL_UpsideDowntaeseon ryu

Packed Levitated Marker for Entity and Relation Extractiontaeseon ryu

Scaling Instruction-Finetuned Language Modelstaeseon ryu

Visual prompt tuningtaeseon ryu

mPLUGtaeseon ryu

variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdftaeseon ryu

Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdftaeseon ryu

The Forward-Forward Algorithmtaeseon ryu

Towards Robust and Reproducible Active Learning using Neural Networkstaeseon ryu

BRIO: Bringing Order to Abstractive Summarizationtaeseon ryu

Dream2Control paper reviewtaeseon ryu

Mehr von taeseon ryu (20)

VoxelNet

OpineSum Entailment-based self-training for abstractive opinion summarization...

3D Gaussian Splatting

JetsonTX2 Python

Hyperbolic Image Embedding.pptx

MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정

LLaMA Open and Efficient Foundation Language Models - 230528.pdf

YOLO V6

Dataset Distillation by Matching Training Trajectories

RL_UpsideDown

Packed Levitated Marker for Entity and Relation Extraction

Scaling Instruction-Finetuned Language Models

Visual prompt tuning

mPLUG

variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf

Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf

The Forward-Forward Algorithm

Towards Robust and Reproducible Active Learning using Neural Networks

BRIO: Bringing Order to Abstractive Summarization

Dream2Control paper review

ProximalPolicyOptimization

1. Proximal Policy Optimization Algorithm 김현성(발표자),주정헌,백승언,박혜진,이도현 ICML2017 OpenAI

2. Introduction Part 1  문제점 제기  Deep Q Learning : 단순하지만 연속 컨트롤 도메인에서 제대로 동작하지 못함  Vanilla PG(A3C) : 데이터 효율성과 모델의 강건함이 떨어짐  TRPO : 너무 복잡하고 Dropout과 같은 노이즈를 더하거나 정책과 가치 함수가 파라미터 를 공유하는 구조와 호환되지 않음.  개선 : Probability Ratio Clipping  First-order Optimization  TRPO의 성능을 유지 : 정책의 성능의 하한을 유지

3. Background Part 2  Policy Gradient • 정책 학습을 위해 아래의 목적함수와 정책 경사도를 사용 • 정책 업데이트 시 매우 크게 업데이트를 수행하여 성능 저하를 일으킬 수 있음.  Trust Region Policy Optimization • 목적함수를 통해 정책 업데이트할 때 업데이트가 되는 크기에 제약 조건을 둠 • Second-order optimization으로 최적화를 하기 때문에 복잡함.

4. ClippedSurrogateObjective Part 3  Clipping Probability Ratio • 정책 확률의 비율을 클립핑하는 Surrogate Objective 설계 • 𝑟𝑡(𝜃)가 [1 − 𝜖, 1 + 𝜖]를 벗어나는 움직임을 제거하는 것을 의미 • 정책 업데이트 시 업데이트 크기에 대한 제한을 둠으로써 정책 성능에 하한이 형성됨.

5. ClippedSurrogateObjective Part 3  Advantage에 따른 목적함수의 변화 • Advantage가 양수여서 정책을 더욱 개선하고자 할 때는 작게 움직이고, 음수여서 정책을 악화되는 방향이면 크게 움직여 업데이트가 되도록 함.

6. ClippedSurrogateObjective Part 3  Clipped Surrogate Objective에 대한 직관 • Clipped Surrogate objective는 그렇지 않은 함수의 값의 하한이 됨

7. AdaptiveKLPenaltyCoefficient Part 4  조절 가능한 KL Penalty의 계수항 • Clipped surrogate objective보다는 성능이 좋지는 않지만 베이스라인으로 채택 • 위의 식에서 하이퍼파라미터 1.5, 2나 𝑑𝑡𝑎𝑟𝑔 는 휴리스틱하게 설정했지만 크게 알고리즘 성능에 민감하게 작용하진 않음.

8. Algorithm Part 5  실제적인 PPO 구현 • Actor-Critic 구조를 사용하고 Policy와 Value Func.의 파라미터를 공유하면  𝑐1, 𝑐2는 계수, 𝑆는 엔트로피항, 𝐿𝑡 𝑉𝐹 = ( 𝑉𝜃 𝑠𝑡 − 𝑉𝑡 𝑡𝑎𝑟 )2 • Generalized Advantage Estimation(GAE) 적용

9. Experiments Part 6  Objective 간 비교 • 7개 로보틱스 시뮬레이션 태스크로 테스트 • 마지막 100개 에피소드의 평균 보상 점수를 정규화

10. Experiments Part 6  연속 도메인에서 다른 알고리즘과 비교

11. Experiments Part 6  Atari 도메인에서 다른 알고리즘과 비교 • 49개의 Atari game을 세개의 알고리즘으로 테스트한 후 각 알고리즘마다 가장 높은 점수 를 얻은 게임의 수 • 점수 지표를 2가지로 나눠서 평가함. (1)번은 얼마나 빠르게 학습되는지, (2)번은 최종 성 능이 얼마나 되는 지를 보기 위함.

12. Q&A