Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

Lab_Study_0615.pptx

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Wird geladen in …3
×

Hier ansehen

1 von 6 Anzeige

Weitere Verwandte Inhalte

Ähnlich wie Lab_Study_0615.pptx (20)

Aktuellste (20)

Anzeige

Lab_Study_0615.pptx

  1. 1. 산업경영공학과산업지능연구실 2022. 06. 15 발표자 : 이동진
  2. 2. 2 • DQN 모델의 문제점 1. Action이 이산공간 값으로 나타남 2. Action의 차원 수가 클 수록 학습 성능이 떨어짐(차원의 저주) • DDPG의 아이디어 • Actor-critic 알고리즘의 적용을 통해 Continuous한 Action의 policy를 학습 할 수 있음 - Actor-critic 알고리즘: Action을 선택하는 actor-network와 action의 가치를 평가하는 critic-network로 구성됨 • DQN 모델의 아이디어를 채용하여 학습 성능을 향상시킴 - Target network - Replay memory 출처: https://medium.com/intro-to-artificial-intelligence/deep-deterministic-policy-gradient-ddpg-an-off-policy-reinforcement-learning-algorithm-38ca8698131b
  3. 3. 3 • DDPG 모델 프레임워크 출처: Kang, Chaohai & Rong, Chuiting & Ren, Weijian & Huo, Fengcai & Liu, Pengyun. (2021). Deep Deterministic Policy Gradient Based on Double Network Prioritized Experience Replay. IEEE Access. PP. 1-1. 10.1109/ACCESS.2021.3074535.
  4. 4. 4 • DDPG 모델 pseudo code 출처: Lillicrap, Timothy P. and Hunt, Jonathan J. and Pritzel, Alexander and Heess, Nicolas and Erez, Tom and Tassa, Yuval and Silver, David and Wierstra, Daan. (2015), Continuous control with deep reinforcement learning, arXiv Network, Target network 초기화 Noise 초기화, 초기 state 생성 Action 실행 및 환경의 SARS 반환 Critic network 학습 Actor network 학습 Target Actor 및 Critic 업데이트
  5. 5. 5 • Critic network의 학습은 DQN의 Q-network 학습과 유사함 • Loss function: • Target value: • Critic network의 Loss를 최소화하도록 학습함 Target Actor가 전달한 Action 사용 Xt = st, ut = at 출처: https://pasus.tistory.com/137
  6. 6. 6 • Actor network의 파라미터는 Critic network의 평가(Q)를 최대화하도록 학습함 • Q를 최대화하는 파라미터 학습을 위해 경사상승법(gradient ascent) 사용함 Xt = st 출처: https://pasus.tistory.com/137

×