SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Proximal Policy Optimization Algorithm
김현성(발표자),주정헌,백승언,박혜진,이도현
ICML2017
OpenAI
Introduction
Part 1
 문제점 제기
 Deep Q Learning : 단순하지만 연속 컨트롤 도메인에서 제대로 동작하지 못함
 Vanilla PG(A3C) : 데이터 효율성과 모델의 강건함이 떨어짐
 TRPO : 너무 복잡하고 Dropout과 같은 노이즈를 더하거나 정책과 가치 함수가 파라미터
를 공유하는 구조와 호환되지 않음.
 개선 : Probability Ratio Clipping
 First-order Optimization
 TRPO의 성능을 유지 : 정책의 성능의 하한을 유지
Background
Part 2
 Policy Gradient
• 정책 학습을 위해 아래의 목적함수와 정책 경사도를 사용
• 정책 업데이트 시 매우 크게 업데이트를 수행하여 성능 저하를 일으킬 수 있음.
 Trust Region Policy Optimization
• 목적함수를 통해 정책 업데이트할 때 업데이트가 되는 크기에 제약 조건을 둠
• Second-order optimization으로 최적화를 하기 때문에 복잡함.
ClippedSurrogateObjective
Part 3
 Clipping Probability Ratio
• 정책 확률의 비율을 클립핑하는 Surrogate Objective 설계
• 𝑟𝑡(𝜃)가 [1 − 𝜖, 1 + 𝜖]를 벗어나는 움직임을 제거하는 것을 의미
• 정책 업데이트 시 업데이트 크기에 대한 제한을 둠으로써 정책 성능에 하한이 형성됨.
ClippedSurrogateObjective
Part 3
 Advantage에 따른 목적함수의 변화
• Advantage가 양수여서 정책을 더욱 개선하고자 할 때는 작게 움직이고, 음수여서 정책을
악화되는 방향이면 크게 움직여 업데이트가 되도록 함.
ClippedSurrogateObjective
Part 3
 Clipped Surrogate Objective에 대한 직관
• Clipped Surrogate objective는 그렇지 않은 함수의 값의 하한이 됨
AdaptiveKLPenaltyCoefficient
Part 4
 조절 가능한 KL Penalty의 계수항
• Clipped surrogate objective보다는 성능이 좋지는 않지만 베이스라인으로 채택
• 위의 식에서 하이퍼파라미터 1.5, 2나 𝑑𝑡𝑎𝑟𝑔 는 휴리스틱하게 설정했지만 크게 알고리즘
성능에 민감하게 작용하진 않음.
Algorithm
Part 5
 실제적인 PPO 구현
• Actor-Critic 구조를 사용하고 Policy와 Value Func.의 파라미터를 공유하면
 𝑐1, 𝑐2는 계수, 𝑆는 엔트로피항, 𝐿𝑡
𝑉𝐹
= ( 𝑉𝜃 𝑠𝑡 − 𝑉𝑡
𝑡𝑎𝑟
)2
• Generalized Advantage Estimation(GAE) 적용
Experiments
Part 6
 Objective 간 비교
• 7개 로보틱스 시뮬레이션 태스크로 테스트
• 마지막 100개 에피소드의 평균 보상 점수를 정규화
Experiments
Part 6
 연속 도메인에서 다른 알고리즘과 비교
Experiments
Part 6
 Atari 도메인에서 다른 알고리즘과 비교
• 49개의 Atari game을 세개의 알고리즘으로 테스트한 후 각 알고리즘마다 가장 높은 점수
를 얻은 게임의 수
• 점수 지표를 2가지로 나눠서 평가함. (1)번은 얼마나 빠르게 학습되는지, (2)번은 최종 성
능이 얼마나 되는 지를 보기 위함.
Q&A

Weitere ähnliche Inhalte

Ähnlich wie ProximalPolicyOptimization

Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Suhyun Cho
 
Image data augmentatiion
Image data augmentatiionImage data augmentatiion
Image data augmentatiionSubin An
 
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)JMP Korea
 
모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드RLKorea
 
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...Sunghoon Joo
 
Pycon korea 2018 kaggle tutorial(kaggle break)
Pycon korea 2018 kaggle tutorial(kaggle break)Pycon korea 2018 kaggle tutorial(kaggle break)
Pycon korea 2018 kaggle tutorial(kaggle break)Yeonmin Kim
 

Ähnlich wie ProximalPolicyOptimization (7)

Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)
 
Image data augmentatiion
Image data augmentatiionImage data augmentatiion
Image data augmentatiion
 
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)
 
2-1: 석유 화학 산업에서의 JMP 활용 사례
2-1: 석유 화학 산업에서의 JMP 활용 사례2-1: 석유 화학 산업에서의 JMP 활용 사례
2-1: 석유 화학 산업에서의 JMP 활용 사례
 
모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드모두를 위한 PG 여행 가이드
모두를 위한 PG 여행 가이드
 
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...
 
Pycon korea 2018 kaggle tutorial(kaggle break)
Pycon korea 2018 kaggle tutorial(kaggle break)Pycon korea 2018 kaggle tutorial(kaggle break)
Pycon korea 2018 kaggle tutorial(kaggle break)
 

Mehr von taeseon ryu

OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...taeseon ryu
 
3D Gaussian Splatting
3D Gaussian Splatting3D Gaussian Splatting
3D Gaussian Splattingtaeseon ryu
 
Hyperbolic Image Embedding.pptx
Hyperbolic  Image Embedding.pptxHyperbolic  Image Embedding.pptx
Hyperbolic Image Embedding.pptxtaeseon ryu
 
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정taeseon ryu
 
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdfLLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdftaeseon ryu
 
Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories taeseon ryu
 
Packed Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation ExtractionPacked Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation Extractiontaeseon ryu
 
Scaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language ModelsScaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language Modelstaeseon ryu
 
Visual prompt tuning
Visual prompt tuningVisual prompt tuning
Visual prompt tuningtaeseon ryu
 
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdfvariBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdftaeseon ryu
 
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdfReinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdftaeseon ryu
 
The Forward-Forward Algorithm
The Forward-Forward AlgorithmThe Forward-Forward Algorithm
The Forward-Forward Algorithmtaeseon ryu
 
Towards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural NetworksTowards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural Networkstaeseon ryu
 
BRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive SummarizationBRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive Summarizationtaeseon ryu
 
Dream2Control paper review
Dream2Control paper reviewDream2Control paper review
Dream2Control paper reviewtaeseon ryu
 

Mehr von taeseon ryu (20)

VoxelNet
VoxelNetVoxelNet
VoxelNet
 
OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...
 
3D Gaussian Splatting
3D Gaussian Splatting3D Gaussian Splatting
3D Gaussian Splatting
 
JetsonTX2 Python
 JetsonTX2 Python  JetsonTX2 Python
JetsonTX2 Python
 
Hyperbolic Image Embedding.pptx
Hyperbolic  Image Embedding.pptxHyperbolic  Image Embedding.pptx
Hyperbolic Image Embedding.pptx
 
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
 
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdfLLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
 
YOLO V6
YOLO V6YOLO V6
YOLO V6
 
Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories
 
RL_UpsideDown
RL_UpsideDownRL_UpsideDown
RL_UpsideDown
 
Packed Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation ExtractionPacked Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation Extraction
 
Scaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language ModelsScaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language Models
 
Visual prompt tuning
Visual prompt tuningVisual prompt tuning
Visual prompt tuning
 
mPLUG
mPLUGmPLUG
mPLUG
 
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdfvariBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
 
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdfReinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
 
The Forward-Forward Algorithm
The Forward-Forward AlgorithmThe Forward-Forward Algorithm
The Forward-Forward Algorithm
 
Towards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural NetworksTowards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural Networks
 
BRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive SummarizationBRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive Summarization
 
Dream2Control paper review
Dream2Control paper reviewDream2Control paper review
Dream2Control paper review
 

ProximalPolicyOptimization

  • 1. Proximal Policy Optimization Algorithm 김현성(발표자),주정헌,백승언,박혜진,이도현 ICML2017 OpenAI
  • 2. Introduction Part 1  문제점 제기  Deep Q Learning : 단순하지만 연속 컨트롤 도메인에서 제대로 동작하지 못함  Vanilla PG(A3C) : 데이터 효율성과 모델의 강건함이 떨어짐  TRPO : 너무 복잡하고 Dropout과 같은 노이즈를 더하거나 정책과 가치 함수가 파라미터 를 공유하는 구조와 호환되지 않음.  개선 : Probability Ratio Clipping  First-order Optimization  TRPO의 성능을 유지 : 정책의 성능의 하한을 유지
  • 3. Background Part 2  Policy Gradient • 정책 학습을 위해 아래의 목적함수와 정책 경사도를 사용 • 정책 업데이트 시 매우 크게 업데이트를 수행하여 성능 저하를 일으킬 수 있음.  Trust Region Policy Optimization • 목적함수를 통해 정책 업데이트할 때 업데이트가 되는 크기에 제약 조건을 둠 • Second-order optimization으로 최적화를 하기 때문에 복잡함.
  • 4. ClippedSurrogateObjective Part 3  Clipping Probability Ratio • 정책 확률의 비율을 클립핑하는 Surrogate Objective 설계 • 𝑟𝑡(𝜃)가 [1 − 𝜖, 1 + 𝜖]를 벗어나는 움직임을 제거하는 것을 의미 • 정책 업데이트 시 업데이트 크기에 대한 제한을 둠으로써 정책 성능에 하한이 형성됨.
  • 5. ClippedSurrogateObjective Part 3  Advantage에 따른 목적함수의 변화 • Advantage가 양수여서 정책을 더욱 개선하고자 할 때는 작게 움직이고, 음수여서 정책을 악화되는 방향이면 크게 움직여 업데이트가 되도록 함.
  • 6. ClippedSurrogateObjective Part 3  Clipped Surrogate Objective에 대한 직관 • Clipped Surrogate objective는 그렇지 않은 함수의 값의 하한이 됨
  • 7. AdaptiveKLPenaltyCoefficient Part 4  조절 가능한 KL Penalty의 계수항 • Clipped surrogate objective보다는 성능이 좋지는 않지만 베이스라인으로 채택 • 위의 식에서 하이퍼파라미터 1.5, 2나 𝑑𝑡𝑎𝑟𝑔 는 휴리스틱하게 설정했지만 크게 알고리즘 성능에 민감하게 작용하진 않음.
  • 8. Algorithm Part 5  실제적인 PPO 구현 • Actor-Critic 구조를 사용하고 Policy와 Value Func.의 파라미터를 공유하면  𝑐1, 𝑐2는 계수, 𝑆는 엔트로피항, 𝐿𝑡 𝑉𝐹 = ( 𝑉𝜃 𝑠𝑡 − 𝑉𝑡 𝑡𝑎𝑟 )2 • Generalized Advantage Estimation(GAE) 적용
  • 9. Experiments Part 6  Objective 간 비교 • 7개 로보틱스 시뮬레이션 태스크로 테스트 • 마지막 100개 에피소드의 평균 보상 점수를 정규화
  • 10. Experiments Part 6  연속 도메인에서 다른 알고리즘과 비교
  • 11. Experiments Part 6  Atari 도메인에서 다른 알고리즘과 비교 • 49개의 Atari game을 세개의 알고리즘으로 테스트한 후 각 알고리즘마다 가장 높은 점수 를 얻은 게임의 수 • 점수 지표를 2가지로 나눠서 평가함. (1)번은 얼마나 빠르게 학습되는지, (2)번은 최종 성 능이 얼마나 되는 지를 보기 위함.
  • 12. Q&A