Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

안.전.제.일. 강화학습!

안녕하세요.

이번에 '1st 함께하는 딥러닝 컨퍼런스'에서 "안.전.제.일. 강화학습"이란 주제로 발표한 이동민이라고 합니다.

컨퍼런스 관련 링크는 다음과 같습니다.
https://tykimos.github.io/2018/06/28/ISS_1st_Deep_Learning_Conference_All_Together/

그리고 대략적인 개요는 다음과 같습니다.
1. What is Artificial Intelligence?
2. What is Reinforcement Learning?
3. What is Artificial General Intelligence?
4. Planning and Learning
5. Safe Reinforcement Learning

또한 이 자료에는 "Imagination-Augmented Agents for Deep Reinforcement Learning"이라는 논문을 자세히 설명하였습니다.

많은 분들이 보시고 도움이 되셨으면 좋겠습니다~!

  • Loggen Sie sich ein, um Kommentare anzuzeigen.

안.전.제.일. 강화학습!

  1. 1. 안.전.제.일. 강화학습! 이동민 1st 함께하는 딥러닝 컨퍼런스 Jun 28, 2018
  2. 2. 이동민 • 한양대학교 컴퓨터공학 전공 • RLI Study 리더 - 2017.12 : 김성훈 교수님의 ‘모두의 RL’ - 2018. 1 ~ 3 : ‘파이썬과 케라스로 배우는 강화학습’ - 2018. 4 ~ 6 : ‘Reinforcement Learning: An Introduction’ written by Richard S. Sutton and Andrew G. Barto • RL KOREA, 피지여행 프로젝트 - REINFORCE 부터 PPO 까지 7개의 논문 정리
  3. 3. 요즘 연애하느라 잠을 많이 못자고 있습니다..
  4. 4. 강화학습과 연애중입니다! ㅎㅎㅎ (밀당을 엄청 잘하더라구요..)
  5. 5. 그리고 어릴 때부터 친했던 친구를 소개해드리겠습니다!
  6. 6. 그래도 알고 보면 재미있는 친구입니다. 너무 미워하지 말아주세요! 수학입니다..!
  7. 7. 그래서 저는 강화학습에 나오는 이론과 수식을 굉장히 좋아합니다!
  8. 8. 1. What is Artificial Intelligence? 2. What is Reinforcement Learning? 3. What is Artificial General Intelligence? 4. Planning and Learning 5. Safe Reinforcement Learning 안.전.제.일. 강화학습! Outline
  9. 9. 1. What is Artificial Intelligence? 2. What is Reinforcement Learning? 3. What is Artificial General Intelligence? 4. Planning and Learning 5. Safe Reinforcement Learning Outline 제가 왜 강화학습을 공부하는지 or 왜 강화학습을 알아야 하는지
  10. 10. 1. What is Artificial Intelligence? 2. What is Reinforcement Learning? 3. What is Artificial General Intelligence? 4. Planning and Learning 5. Safe Reinforcement Learning Outline 최근에는 어디에 집중하고 있는지
  11. 11. What is Artificial Intelligence?
  12. 12. 딥러닝을 공부하다가 문뜩 이런 생각을 하게 되었습니다. ‘나는 이 분야를 왜 공부할까?’, ‘단지 학습되는 것이 재밌기 때문일까?’, ‘AI의 궁극적인 목적은 무엇일까?’, ’이 분야에 계시는 분들은 왜 AI에 대해서 공부하고 연구할까?’, ‘이 분야에서 내가 할 수 있는 것은 무엇일까?’
  13. 13. 그래서 많은 자료를 찾아보던 중에
  14. 14. Reference - YouTube 영상 https://www.youtube.com/watch?v=eKA4EPpLCIU&t=871s - SlideShare 자료 https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai NAVER AI Research Engineer이신 송호연님의 영상과 자료를 6개월 동안 보면서 이 분야에 대해 많은 생각을 하게 되었습니다.
  15. 15. 인공지능에 대한 3가지 정의 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  16. 16. 인공지능에 대한 3가지 정의 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  17. 17. 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai The Turing Test
  18. 18. The Turing Test 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  19. 19. 인공지능에 대한 3가지 정의 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  20. 20. Model of The Mind 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  21. 21. 인공지능에 대한 3가지 정의 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai ‘너무 추상적인데..좀 더 명확한 정의가 없을까?’
  22. 22. 인공지능에 대한 3가지 정의 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  23. 23. Optimal Decision Maker 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai
  24. 24. Optimal Decision Maker 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai ‘나도 지능을 얻을 때 어떠한 환경이 있었고, 그 환경과 계속 상호작용하면서 특정한 값(or anything good)을 최대화하는 것 같은데..?!’
  25. 25. Optimal Decision Maker 출처 : Deepmind StarCraft 2 AI 이미지 출처 : https://www.slideshare.net/NaverEngineering/deepmind-starcraft-ii-ai 이 정의가 바로 강화학습!
  26. 26. What is Reinforcement Learning?
  27. 27. 강화학습이란? 이미지 출처 : http://blog.naver.com/PostView.nhn?blogId=magnking&logNo=221124537501, https://insightcampus.co.kr/rl02/
  28. 28. 강화학습이란? 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73
  29. 29. 강화학습이란? 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73 - Agent는 환경의 상태(State)를 통해 행동(Action)을 한다. - 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다. - Agent는 행동의 결과로 나타나는 보상을 통해 학습한다. - 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
  30. 30. 강화학습이란? 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73 - Agent는 환경의 상태(State)를 통해 행동(Action)을 한다. - 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다. - Agent는 행동의 결과로 나타나는 보상을 통해 학습한다. - 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
  31. 31. 강화학습이란? 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73 - Agent는 환경의 상태(State)를 통해 행동(Action)을 한다. - 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다. - Agent는 행동의 결과로 나타나는 보상을 통해 학습한다. - 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
  32. 32. 강화학습이란? 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73 - Agent는 환경의 상태(State)를 통해 행동(Action)을 한다. - 환경은 Agent에게 그 행동에 대한 다음 상태와 보상(Reward)을 준다. - Agent는 행동의 결과로 나타나는 보상을 통해 학습한다. - 따라서 Agent는 보상을 얻게 하는 행동을 점점 많이 하도록 학습한다.
  33. 33. 출처 : [카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 이미지 출처 : https://brunch.co.kr/@kakao-it/73 강화학습이란? - 상태(State) : 정적인 요소 + 동적인 요소(ex. 속도, 가속도 등) - 행동(Action) : 어떠한 상태에서 취할 수 있는 행동(ex. 상, 하, 좌, 우) - 보상(Reward) : Agent가 학습할 수 있는 유일한 정보 (다른 머신러닝 기법과 다르게 만들어주는 가장 핵심적인 요소!) - 정책(Policy) : 모든 상태에 대해 Agent가 어떤 행동을 해야 하는지 정해놓은 것 강화학습의 목적 : 최적의(Optimal) 정책을 찾는 것!
  34. 34. 강화학습 자랑 Link
  35. 35. 강화학습 자랑 Link Link
  36. 36. What is Artificial General Intelligence?
  37. 37. Artificial General Intelligence(AGI)를 생각하고 연구하는 대표적인 세 그룹
  38. 38. Artificial General Intelligence(AGI)를 생각하고 연구하는 대표적인 세 그룹
  39. 39. “강화학습은 범용인공지능으로 가기 위한 단계 중 하나이다.” Google DeepMind CEO Demis Hassabis
  40. 40. DeepMind Mission 1. Solve intelligence 2. Use it to solve everything else
  41. 41. DeepMind Mission 1. 지능을 해결하자. 2. 그것을 그 밖의 다른 모든 것을 해결하는 데에 사용하자.
  42. 42. 다시 말해 “하나의 알고리즘을 통해서 모든 문제를 해결할 수 있는 Meta-solution을 얻겠다.”
  43. 43. 이미지 출처 : https://m.blog.naver.com/PostView.nhn?blogId=blogstock&logNo=220417224514&proxyReferer=https%3A%2F%2Fwww.google.co.kr%2F
  44. 44. 네.
  45. 45. 그래서
  46. 46. 지금까지는 조금 일반적인 내용을 다뤄 봤습니다. (봤죠? 강화학습 짱이죠?ㅎㅎ)
  47. 47. 본격적인 내용에 앞서 오늘 발표 주제가 왜 “안.전.제.일. 강화학습!”인지를 말씀드리자면..
  48. 48. https://www.alexirpan.com/2018/02/14/rl-hard.html 강화학습 너무 뭐라하지마요 ㅠㅠ
  49. 49. 그래서 생각해본 것이 바로
  50. 50. “어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?”
  51. 51. “어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?” “결국 이 문제 때문에 강화학습을 여러 task에 적용하기가 힘든 것이 아닐까?”
  52. 52. “어떠한 연구들이 진행되고 있을까?” 논문읽자 동마나!!!
  53. 53. Planning and Learning
  54. 54. 여러분들은 어떠한 일을 할 때 미리 머리속으로 계획을 세워 두고 하시나요?
  55. 55. 여러분들은 어떠한 일을 할 때 미리 머리속으로 계획을 세워 두고 하시나요? Ex. 공부할 때, 운동할 때, 요리할 때 등
  56. 56. 여러분들은 어떠한 일을 할 때 미리 머리속으로 계획을 세워 두고 하시나요? Ex. 공부할 때, 운동할 때, 요리할 때 등 상상을 통해 계획을 세운다.
  57. 57. Imagination 상상(Imagination)이란? - 실제로 경험하지 않은 현상이나 사물에 대하여 마음속으로 그려 봄. - 외부 자극에 의하지 않고 기억된 생각이나 새로운 심상을 떠올리는 일.
  58. 58. Imagination-based Planning 계획을 설정
  59. 59. Imagination-based Planning 계획을 설정 ↓ 계획을 평가
  60. 60. Imagination-based Planning 계획을 설정 ↓ 계획을 평가 ↓ 계획을 실행
  61. 61. Reinforcement Learning(RL)의 두 가지 관점 Model-based RL Model-free RL
  62. 62. Reinforcement Learning(RL)의 두 가지 관점 Model-based RL Model-free RL
  63. 63. Model-based RL Model
  64. 64. Model-based RL Model 환경이 어떻게 agent의 행동(action)에 반응할 것인지를 예측하기 위해 만든 것. 다시 말해 imagination(simulation)을 하기 위해 만든 것.
  65. 65. Model-based RL 환경이 어떻게 agent의 행동(action)에 반응할 것인지를 예측하기 위해 만든 것. 다시 말해 imagination(simulation)을 하기 위해 만든 것. Transition function : 𝑷(𝒔′ |𝒔, 𝒂) Reward function : 𝑹(𝒔, 𝒂, 𝒔′ ) Model
  66. 66. Model-based RL 낙하한 거리 ℎ = 1 2 𝑔𝑡2 (𝑔: 중력가속도 9.81 𝑚/𝑠2, 𝑡: 시간 sec) 공의 초기 높이가 50m이다. 공을 낙하시키는 경우 2초 뒤 공의 높이는?? 50𝑚 − 0.5 × 9.81𝑚/𝑠2 × 2𝑠 2 ≈ 30.38𝑚 공을 직접 낙하시키지 않아도 높이를 알 수 있다! Ex) 공의 자유 낙하 운동
  67. 67. Model-based RL Planning Model을 통해 imagination(simulation)하여 어떠한 policy를 만들고 향상시키는 과정.
  68. 68. Model-based RL Planning Model을 통해 imagination(simulation)하여 어떠한 policy를 만들고 향상시키는 과정.
  69. 69. Model-based RL Model + Planning Ex. Q-Planning, Rollout Algorithms, Monte-Carlo Tree Search
  70. 70. Reinforcement Learning(RL)의 두 가지 관점 Model-based RL Model-free RL
  71. 71. Model-free RL Learning
  72. 72. Model-free RL Learning 실제로 행동(Acting)하여 시행착오(Trial and Error)를 통해 학습하는 것.
  73. 73. Model-free RL Learning 실제로 행동(Acting)하여 시행착오(Trial and Error)를 통해 학습하는 것. Ex. Q-Learning, DQN, A3C
  74. 74. 대표적인 Model-free RL Algorithm 출처 : 파이썬과 케라스로 배우는 강화학습 저자특강, RLCode와 A3C 쉽고 깊게 이해하기 이미지 출처 : https://www.slideshare.net/WoongwonLee/ss-78783597, https://www.slideshare.net/WoongwonLee/rlcode-a3c DQN(Deep Q-Network) A3C (Asynchronous Advantage Actor-Critic)
  75. 75. Model-free RL Algorithm DQN(Deep Q-Network) A3C (Asynchronous Advantage Actor-Critic) Double DQN Prioritized DQN Dueling DQN Noisy DQN Distributional DQN Rainbow . . . REINFORCE A2C ACER ACKTR DDPG TRPO PPO . . .
  76. 76. Model-based RL vs. Model-free RL Model-based RL Model-free RL Good 같은 환경에서 다양한 task 가능 Sample efficiency No Model Complex task에 대한 해결 능력 Bad Model Error Planning을 함으로써 Computation cost 증가 엄청난 양의 training data 같은 환경에서 다양한 task의 어려움
  77. 77. Reinforcement Learning(RL)의 두 가지 관점 Model-based RL Model-free RL
  78. 78. Model-based RL Model-free RL+ ‘두 가지를 상호보완하기 위해 합칠 수는 없을까?’
  79. 79. Model-based RL Model-free RL+ “Fusion Ha!”
  80. 80. Model-based RL Model-free RL+ “찌요오오오오옹오오옹~!!!”
  81. 81. 이 논문에서 우리가 알아야 할 Neural Network
  82. 82. Convolutional Neural Network (CNN) 출처 : Deep Learning CNN’s in Tensorflow with GPUs 이미지 출처 : https://hackernoon.com/deep-learning-cnns-in-tensorflow-with-gpus-cba6efe0acc2
  83. 83. Recurrent Neural Network (RNN) 출처 : LSTM(RNN) 소개 이미지 출처 : https://brunch.co.kr/@chris-song/9
  84. 84. Long Short Term Memory Network (LSTM) 출처 : LSTM(RNN) 소개 이미지 출처 : https://brunch.co.kr/@chris-song/9
  85. 85. 총 3가지의 Neural Network를 안다는 가정하에 설명을 해보겠습니다.
  86. 86. 전체 architecture를 살펴봅시다..!
  87. 87. 출처 : Imagination-Augmented Agents for Deep Reinforcement Learning 이미지 출처 : https://arxiv.org/pdf/1707.06203.pdf
  88. 88. 크게 3가지 architecture로 구성
  89. 89. 1. Imagination core
  90. 90. 2. Single Imagination rollout
  91. 91. 3. Full I2A Architecture
  92. 92. 출처 : Imagination-Augmented Agents for Deep Reinforcement Learning 이미지 출처 : https://arxiv.org/pdf/1707.06203.pdf 하나씩 설명해 보겠습니다.
  93. 93. 1. Imagination core
  94. 94. 무엇을 input으로 받고, 무엇이 output으로 나오는가?
  95. 95. input Model Transition function : 𝑷(𝒔′ |𝒔, 𝒂) Reward function : 𝑹(𝒔, 𝒂, 𝒔′ )
  96. 96. output Model Transition function : 𝑷(𝒔′ |𝒔, 𝒂) Reward function : 𝑹(𝒔, 𝒂, 𝒔′ )
  97. 97. Policy Net?
  98. 98. 실제로 관찰한 것
  99. 99. 실제로 관찰한 것 Imagination을 통해 관찰한 것
  100. 100. A2C 기반 Network (논문에서 어떠한 Algorithm을 사용했는지에 대한 언급은 없었습니다.)
  101. 101. 출처 : RLCode와 A3C 쉽고 깊게 이해하기 이미지 출처 : https://www.slideshare.net/WoongwonLee/rlcode-a3c A2C 기반 Network
  102. 102. A2C 기반 Network Distillation strategy 사용
  103. 103. Distillation strategy “Imagination-augmented policy를 증류(distillation)하여 Model-free policy를 만든다.”
  104. 104. “Imagination-augmented policy를 증류(distillation)..?하여 Model-free policy를 만든다.” ‘증류가 뭐지..뭘까..알고싶다..하.. 내가 증류되는 기분이다..’
  105. 105. 증류(distillation)란, 기존의 policy에서 불필요한 부분을 증류하여 더 나은 policy를 만드는 것.
  106. 106. Distillation strategy Imagination-augmented policy를 증류(distillation)하여 Model-free policy를 만든다. 다시 말해 imagination-augmented policy와 model-free policy 사이의 전체의 loss를 Cross entropy auxiliary loss에 추가한다.
  107. 107. 1. Imagination core
  108. 108. 2. Single Imagination rollout
  109. 109. 2. Single Imagination rollout?
  110. 110. Rollout ‘레드카펫..?! ’
  111. 111. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
  112. 112. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
  113. 113. Rollout Algorithm의 목적 ‘내가 지금 있는 상태에서 어떠한 행동을 해야 좋을까?’를 Simulation을 통해 구하는 것. 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc
  114. 114. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc Monte-Carlo control 기반으로써 레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다. Simulated trajectories의 return 값들을 평균을 냄으로써 각각의 행동의 가치를 평가한다. 최적의 policy를 찾는 것이 아니라 그저 빠르게 simulation을 하는 것이 목적이다.
  115. 115. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc Monte-Carlo control 기반으로써 레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다. Simulated trajectories의 return 값들을 평균을 냄으로써 각각의 행동의 가치를 평가한다. 최적의 policy를 찾는 것이 아니라 그저 빠르게 simulation을 하는 것이 목적이다.
  116. 116. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc Monte-Carlo control 기반으로써 레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다. Simulated trajectories의 return 값들을 평균을 냄으로써 각각의 행동의 가치를 평가한다. 최적의 policy를 찾는 것이 아니라 그저 빠르게 simulation을 하는 것이 목적이다. 𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾2 𝑅𝑡+3 + ⋯ = σ 𝑘=0 ∞ 𝛾 𝑘 𝑅𝑡+𝑘+1
  117. 117. Rollout Algorithm 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc Monte-Carlo control 기반으로써 레드카펫을 쭉 밀어서 끝까지 펴는 것과 같다. Simulated trajectories의 return 값들을 평균을 냄으로써 각각의 행동의 가치를 평가한다. 최적의 policy를 찾는 것이 아니라 그저 빠르게 simulation을 하는 것이 목적이다.
  118. 118. 2. Single Imagination rollout
  119. 119. 2-1. imagine future Unsupervised 방식의 recurrent한 architecture
  120. 120. Rollout 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc 기존의 Rollout I2A의 Rollout
  121. 121. Rollout 출처 : TRPO (Trust Region Policy Optimization) : In depth Research Paper Review 이미지 출처 : https://www.youtube.com/watch?v=CKaN5PgkSBc 기존의 Rollout I2A의 Rollout 차이점!
  122. 122. 2-2. encode CNN + LSTM 사용 2-1. imagine future Unsupervised 방식의 recurrent한 architecture
  123. 123. CNN + LSTM 사용 각각의 Encoder는 하나의 imagined trajectory를 순차적으로 다루는 LSTM Cell을 사용한다. 각각의 Encoder는 Bellman backup operation을 흉내 내듯이 반대순서로 LSTM에 넣어진다. imagined rollout을 처리하는 rollout encoder를 사용하여 “learn to interpret”(해석하여 학습)을 한다. 다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을 추출하거나 or 필요하다면 그 정보를 무시한다.
  124. 124. CNN + LSTM 사용 각각의 Encoder는 하나의 imagined trajectory를 순차적으로 다루는 LSTM Cell을 사용한다. 각각의 Encoder는 Bellman backup operation을 흉내 내듯이 반대순서로 LSTM에 넣어진다. imagined rollout을 처리하는 rollout encoder를 사용하여 “learn to interpret”(해석하여 학습)을 한다. 다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을 추출하거나 or 필요하다면 그 정보를 무시한다.
  125. 125. CNN + LSTM 사용 각각의 Encoder는 하나의 imagined trajectory를 순차적으로 다루는 LSTM Cell을 사용한다. 각각의 Encoder는 Bellman backup operation(?)을 흉내 내듯이 반대순서로 LSTM에 넣어진다. imagined rollout을 처리하는 rollout encoder를 사용하여 “learn to interpret”(해석하여 학습)을 한다. 다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을 추출하거나 or 필요하다면 그 정보를 무시한다.
  126. 126. Bellman backup operation
  127. 127. Bellman backup operation 코딩에서의 등호의 의미와 같이 오른쪽의 식을 왼쪽에 대입한다는 개념이다. 다시 말해 미래의 값(nest state-value function) 으로 현재의 value function을 구한다는 것이다.
  128. 128. CNN + LSTM 사용 각각의 Encoder는 하나의 imagined trajectory를 순차적으로 다루는 LSTM Cell을 사용한다. 각각의 Encoder는 Bellman backup operation을 흉내 내듯이 반대순서로 LSTM에 넣어진다. imagined rollout을 처리하는 rollout encoder를 사용하여 “learn to interpret”(해석하여 학습)을 한다. 다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을 추출하거나 or 필요하다면 그 정보를 무시한다.
  129. 129. CNN + LSTM 사용 각각의 Encoder는 하나의 imagined trajectory를 순차적으로 다루는 LSTM Cell을 사용한다. 각각의 Encoder는 Bellman backup operation을 흉내 내듯이 반대순서로 LSTM에 넣어진다. imagined rollout을 처리하는 rollout encoder를 사용하여 “learn to interpret”(해석하여 학습)을 한다. 다시 말해 agent의 결정에 대해 어떠한 유용한 정보들을 추출하거나 or 필요하다면 그 정보를 무시한다.
  130. 130. 2-2. encode CNN + LSTM 사용 2-1. imagine future Unsupervised 방식의 RNN 사용 2. Single Imagination rollout
  131. 131. 3. Full I2A Architecture
  132. 132. Aggregator는 서로 다른 rollout encoder에서 나온 encoded value들을 concatenate 3-1. Model-based path
  133. 133. A3C 기반 Network 3-2. Model-free path3-1. Model-based path Aggregator
  134. 134. 출처 : RLCode와 A3C 쉽고 깊게 이해하기 이미지 출처 : https://www.slideshare.net/WoongwonLee/rlcode-a3c A3C 기반 Network
  135. 135. 3. Full I2A Architecture A3C 기반 Network 3-2. Model-free path3-1. Model-based path Aggregator
  136. 136. 실험과 성능
  137. 137. Sokoban Experiment Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임! Box를 미는 것 밖에 안되기 때문에 action을 되돌릴 수 없다. 새로운 단계마다 random한 episode를 생성하기 때문에 구체적인 puzzle의 위치를 기억할 수 없다. 사람도 해결하기 힘들다..
  138. 138. Sokoban Experiment Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임! Box가 벽에 닿아있거나 2개가 연속으로 있을 경우 Box를 밀지 못한다. 새로운 단계마다 random한 episode를 생성하기 때문에 구체적인 puzzle의 위치를 기억할 수 없다. 사람도 해결하기 힘들다..
  139. 139. Sokoban Experiment Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임! Box가 벽에 닿아있거나 2개가 연속으로 있을 경우 Box를 밀지 못한다. 새로운 단계마다 random한 episode를 생성하기 때문에 구체적인 target의 위치를 기억할 수 없다. 사람도 해결하기 힘들다..
  140. 140. Sokoban Experiment Sokoban은 agent가 주어진 target 위치로 box들을 밀어야 하는 고전 planning 게임! Box가 벽에 닿아있거나 2개가 연속으로 있을 경우 Box를 밀지 못한다. 새로운 단계마다 random한 episode를 생성하기 때문에 구체적인 target의 위치를 기억할 수 없다. ∴ 사람도 해결하기 힘들다..
  141. 141. Sokoban Experiment https://drive.google.com/drive/folders/0B4tKsKnCCZtQY2tTOThucHVxUTQ 4boxes 7boxes 하지만 I2A는 잘 해결했다고 합니다!
  142. 142. I2A의 성능 우왕 I2A 짱짱! +_+!!
  143. 143. I2A의 장단점
  144. 144. I2A의 장점 1. 단독으로 쓰인 Model-free baseline들보다 성능이 우수하다. 2. Imagination을 통해 agent가 좀 더 나은 길을 갈 수 있도록 한다. 3. “learn to interpret”하기 때문에 불완전한 환경의 모델도 다룰 수 있다. 4. 하나의 환경의 모델로 여러 task들을 해결하는 데에 사용될 수 있다.
  145. 145. I2A의 단점 1. 환경과 상호작용을 할 때마다 simulation을 하기 때문에 model-free baseline보다 느리다. 2. Imagination의 계산량은 rollout의 깊이와 수에 linear하게 증가한다. 3. Simulation을 할 수 없는 환경이라면 I2A를 쓸 수 없다. 4. 굳이 환경의 모델을 Network로 써야 될 필요가 없을 수도 있다.
  146. 146. 더 자세한 내용은 제 블로그를 참고 해주세요! http://dongminlee.tistory.com/6
  147. 147. Safe Reinforcement Learning
  148. 148. “어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?”
  149. 149. “어떻게 하면 강화학습을 더 안전하고 빠르게 학습할 수 있을까?” “다른 연구들은 어떤 것들이 있을까?”
  150. 150. Safe RL과 관련된 총 10개의 논문을 찾았습니다!
  151. 151. 그래서 현재 팀을 만들어서 논문을 차근차근 리뷰하고 있습니다.
  152. 152. 제일 먼저 접한 Survey 논문입니다. 무려 44페이지 ㄷㄷ..
  153. 153. 그래서 전반적인 Safe RL에 대해서 말씀드리려고 했지만.. 시간 관계상 다음 기회에..ㅠㅠ
  154. 154. 추후에 정리하여 공유하도록 하겠습니다!
  155. 155. References - DeepMind StarCraft 2 AI (YouTube Link, SlideShare Link) - 딥러닝 ‘DQN’ 알고리즘의 놀라운 학습 능력 (Link) - 파이썬과 케라스로 배우는 강화학습 저자특강 (Link) - RLCode와 A3C 쉽고 깊게 이해하기 (Link) - Reinforcement Learning: An Introduction (Link) - Planning and Learning with Tabular Methods (reviewed by D. Lee, Link) - Paper: Imagination-Augmented Agents for Deep Reinforcement Learning (Link) - Paper: A Comprehensive Survey on Safe Reinforcement Learning (Link)
  156. 156. 끝으로
  157. 157. 강화학습이 아직은 많이 연구되어야 하는 보석같은 아이지만..
  158. 158. 그래도 강화학습 많이 사랑해주세요!
  159. 159. 더불어 RL KOREA도 많이 사랑해주세요!
  160. 160. 감사합니다!

×