5. 논문 소개
•“IMPALA: Scalable Distributed Deep-RL with Importance
Weighted Actor-Learner Architectures”
•DeepMind, 2018
•빠른 학습을 위한 액터-러너 구성 분산(~수천 대) 강화 학습
•Off-Policy PG를 위해 중요도 샘플링 이용 V-trace 제안
•DMLab-30, Atari-57 등 Multi-Task에서 우수한 결과
6. 비슷한 연구
•“Distributed Prioritized Experience Replay” (Ape-X)
•Google, 2018 (D. Silver)
•IMPALA와 비슷한 시기에 발표
•우선 경험 리플레이 방법으로 정책 지연 대응
•구현 발표 - https://www.slideshare.net/ssuser163469/
distributed-prioritized-experience-replay
12. Ape-X와 IMPALA 차이점
Ape-X IMPALA
러너 단일 러너 멀티 러너 가능
데이터 병렬화 중앙 집중 러너별 독립
경험 선별 Prioritization NA
정책 지연 대응 NA V-Trace
경사 병렬화 NA 러너들 간 공유
가중치 단일 가중치를 액터가 받음 복수 가중치를 액터가 병합
액터 전송 데이터 경험 + 우선도 경험 + 로짓 + LSTM상태