Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Safe Reinforcement Learning

안녕하세요. 이동민입니다. :)

2018. 8. 9일에 한국항공우주연구원에서 발표한 "Safe Reinforcement Learning" 발표 자료입니다.

목차는 다음과 같습니다.
1. Reinforcement Learning
2. Safe Reinforcement Learning
3. Optimization Criterion
4. Exploration Process

강화학습 계속 공부하면서 실제로 많은 분들이 쓸 수 있게 하려면 더 안전하고 빨라야한다는 생각이 들었습니다. 그래서 이에 관련하여 논문과 각종 자료들로 공부하여 발표하였습니다.

많은 분들께 도움이 되었으면 좋겠습니다. 감사합니다!

  • Als Erste(r) kommentieren

Safe Reinforcement Learning

  1. 1. 02 , 1 2 202 A9 8
  2. 2. d • m S rS • 7 K a . h i Ob 7P , N . O y eo P , N . O AEGB I AFAG 7A IGEGC. G G I K E GP LIE AG E I K G G G IAL 4 0 I , - N . ug ! • 7 69 2 wn ~ t 2 839 12 f ::9 w R c a
  3. 3. 2 . 4 2 1 2 . 4 2 1 242 2 2 2 3 2 . 2 . 4 2 1 32
  4. 4. : : A@ ?I 7 . 3/ / - -
  5. 5. i ) n ( /ooc wu r p h i n ( 7?? ( @:37 3 ? :? h [s .? ? t 3? : e :?b b g [sd [ - A k :? h R I I [ t ] :? [ a i S
  6. 6. i ) n ( /ooc wu r p h i n ( 7?? ( @:37 3 ? :? h [s .? ? t 3? : e :?b b g [sd [ - A k :? h R I I [ t ] :? [ a i S
  7. 7. i ) n ( /ooc wu r p h i n ( 7?? ( @:37 3 ? :? h [s .? ? t 3? : e :?b b g [sd [ - A k :? h R I I [ t ] :? [ a i S
  8. 8. i ) n ( /ooc wu r p h i n ( 7?? ( @:37 3 ? :? h [s .? ? t 3? : e :?b b g [sd [ - A k :? h R I I [ t ] :? [ a i S
  9. 9. dp ) ( u a Ou a A R O : ( S i c O A w k y ( : d c lr e G x t u a! . B ( P i : On g y m do u ( uo - n ! + ? ,
  10. 10. dp ) ( u a Ou a A R O : ( S i c O A w k y ( : d c lr e G x t u a! . B ( P i : On g y m do u ( uo - n ! + ? ,
  11. 11. dp ) ( u a Ou a A R O : ( S i c O A w k y ( : d c lr e G x t u a! . B ( P i : On g y m do u ( uo - n ! + ? ,
  12. 12. dp ) ( u a Ou a A R O : ( S i c O A w k y ( : d c lr e G x t u a! . B ( P i : On g y m do u ( uo - n ! + ? ,
  13. 13. dp ) ( u a Ou a A R O : ( S i c O A w k y ( : d c lr e G x t u a! . B ( P i : On g y m do u ( uo - n ! + ? ,
  14. 14. - / 8.4 1 20 4/ - 4 - 0/ :
  15. 15. ? ?
  16. 16. !
  17. 17. !
  18. 18. .
  19. 19. .
  20. 20. !
  21. 21. / / . / . / / ./ . / / / / / - . / -
  22. 22. -, , /, , , - /, , , / / , , , , , , - , , , -, . /, , .
  23. 23. L L L
  24. 24. L L L !" = $"%& + ($"%) + () $"%* + ⋯ = ∑-./ 0 (- $"%-%&
  25. 25. L L L
  26. 26. L L L
  27. 27. -1 C E - 2 .2 2 - 2 2 2 - 2 2 -2 2 2
  28. 28. -1 C E - 2 .2 2 - 2 2 2 - 2 2 -2 2 2
  29. 29. -1 C E - 2 .2 2 - 2 2 2 - 2 2 -2 2 2
  30. 30. - 2 E BI C 22 . 2 2 21 2 2 2 2
  31. 31. - 2 E BI C 22 . 2 2 21 2 2 2 2
  32. 32. . - R C E 1B 2 - P O SLO I W I!
  33. 33. - 2 E BI C 22 . 2 2 21 2 2 2 2
  34. 34. !
  35. 35. -
  36. 36. - - - - - - - - - -
  37. 37. - - - - - - - - - - - - - - -
  38. 38. -
  39. 39. -
  40. 40. - - - - -
  41. 41. Ω" " #$, &$, #', &', … C - C
  42. 42. - - - - - C !
  43. 43. - C
  44. 44. - C
  45. 45. - C
  46. 46. - C
  47. 47. - C
  48. 48. -
  49. 49. id , - h , ,., c e ., i , ,., Wk , ,., , l , ,., h h a . Ch . . Ch , , b
  50. 50. id , - c e - i - Wk C - l . - a - - . - . . b
  51. 51. id , - c e - i - Wk C - l . - a - - . - . . b
  52. 52. Worst case !"# $(&') 100 0 &' !"# High Reward
  53. 53. Worst case !"# $(&') 100 0 &' !"# High Reward
  54. 54. Worst case !"# $(&') 100 0 &' !"# High Reward
  55. 55. Worst case !"# $(&') 100 0 &' !"# High Reward
  56. 56. !
  57. 57. C ! "# $ ! %# & '#
  58. 58. C ! "# $ ! %# & '#
  59. 59. C ! "# $ ! %# & '#
  60. 60. C ! "# $ ! %# & '#
  61. 61. ! C
  62. 62. .
  63. 63. NO P I K TS /. BC :? /? :5 . C:=: C:? C B 5 / : P R TS CC B ? C 5?= C5 ( / )5
  64. 64. O N T KR S ! / B C ? = / I ? ? : C B : B P : C 5 :) ( .
  65. 65. a P T cK eO aR aI b a Sd N /. BC :? /? :5 . C:=: C:? C B 5 / : CC B ? C 5?= C5 ( / )5
  66. 66. OPS S T KI b a N /. BC :? /? :5 . C:=: C:? C B 5 / : R CC B ? C 5?= C5 ( / )5
  67. 67. O b NT S c I dP bK a /. BC :? /? :5 . C:=: C:? C B 5 / : R a CC B ? C 5?= C5 ( / )5
  68. 68. N e T O P dR N K e b dR ! ca / B C ? = / I ? ? : C B : B S ca : C 5 :) ( .
  69. 69. N !!! PO / B C ? = / I ? ? : C B : B K PO : C 5 :) ( .
  70. 70. .
  71. 71. E E A 8 !
  72. 72. !
  73. 73. - 2 E BI C 22 2 2 2 . 2 2 21 2
  74. 74. . E . K L L K
  75. 75. .
  76. 76. P ! 2:11 1 3 L D M a ./: 3 9 5 1 3/:1 71 72- 7 11 9/:
  77. 77. . R . E
  78. 78. . .
  79. 79. .
  80. 80. ! !
  81. 81. ! !
  82. 82. ! !
  83. 83. . 2 . 2 1
  84. 84. . 2 1
  85. 85. . A 12 A 12 ?
  86. 86. - , . 1 21 ? -: 2 - - , ( 1- - - , ( ) )
  87. 87. ? . 1 2
  88. 88. 1 ? 2 . .
  89. 89. . 2 1
  90. 90. ) ( 2 . 2 2 1 1 : !", $", !%, $%, … E ) T?
  91. 91. : / . : / A :: : . : :
  92. 92. . . : . . . . . / . . : . A :: : / . .. : : . . : . : . .
  93. 93. ! = { $%, '% , $(, '( , … }
  94. 94. ! = { $%, '% , $(, '( , … }
  95. 95. !(#, %)' = { #*, %* , #+, %+ , … }
  96. 96. !(#, %)' = { #*, %* , #+, %+ , … }
  97. 97. !(#, %)' = { #*, %* , #+, %+ , … } .
  98. 98. ? ML ? 7 C7 7 ? 7 7? 7 ? ? 4 C7 ? = 7 I ML : C H 47 : . / 2 7 7 H 47 &C
  99. 99. O Z I L N E 8 . : . : . :/: ?= 8. = AAA :? ?/ :8 A.
  100. 100. 8 & /= = : ? = : E : 8 E 8 8 8= H & 7 & E= = 7 ?. ? E=
  101. 101. A SR 1//8 0 (& ) . G ADA G:G H IKGG D :HN LA= P Q SR GI MMM N K K D M: L )2=.M8 0 ? : KH N K K D((I
  102. 102. !" #"
  103. 103. !" #"
  104. 104. ! "# $#
  105. 105. ! "# $# !($#|"#)
  106. 106. .
  107. 107. .
  108. 108. .
  109. 109. !
  110. 110. .
  111. 111. , ) . ( ) C
  112. 112. L D !
  113. 113. :CDCNC ACO 1CCM :CG DLNAC C P 5C N G 1LCO P LNH CP IL 5G H 0L MNC C OGRC NRCT L DC :CG DLNAC C P 5C N G ( ' 9 MCN 5G H N OP :C GL 9LIGAT 8MPG G PGL ( ' 9 MCN 5G H :98 N OP :C GL 9LIGAT 8MPG G PGL - 4 BCMP :COC NA 9 MCN :CRGCS L C 5G H I LNGP O DLN 4 RCNOC :CG DLNAC C P 5C N G ( 9 MCN 5G H MMNC PGACO GM 5C N G RG 4 RCNOC :CG DLNAC C P 5C N G ( ) 9 MCN 5G H 9: (,- MMNC PGACO GM 5C N G RG 4 RCNOC :CG DLNAC C P 5C N G 99 5G H DC IPG C P :CG DLNAC C P 5C N G DLN PL L L O 1NGRG 99 5G H 4 PNLB APGL LD 4 RCNOC :CG DLNAC C P 5C N G 99 5G H 4 RCNOC :CG DLNAC C P 5C N G OCB L 0NGPGA I P PC L C 5G H 4 GP PGL 5C N G DLN 8 NL LP OG 4 PC L C 5G H :L LP IC N O PL MI T P IC PC GO T G GP PGL L C 5G H 422: 9 ( ' - 1CCM G GA M MCN O MMIC C P NT RGBCL L C 5G H
  114. 114. !
  115. 115. !

    Als Erste(r) kommentieren

    Loggen Sie sich ein, um Kommentare anzuzeigen.

  • jaeminkim5437

    Aug. 10, 2018
  • wall72

    Aug. 10, 2018
  • ssuser16965f

    Aug. 10, 2018
  • IlAhnCheong

    Aug. 10, 2018
  • hosikchae

    Aug. 12, 2018
  • yeonshimshim

    Aug. 13, 2018
  • precariat

    Aug. 13, 2018
  • younginlee984

    Aug. 13, 2018
  • JunhoLee124

    Aug. 14, 2018
  • YoungJaeKwon3

    Aug. 14, 2018
  • hongjunk

    Aug. 16, 2018
  • jaehyeonBahk

    Aug. 20, 2018
  • changyullee5

    Nov. 15, 2018
  • ssuser48fdf5

    Jul. 31, 2019
  • janghoonchoi9

    Aug. 21, 2019

안녕하세요. 이동민입니다. :) 2018. 8. 9일에 한국항공우주연구원에서 발표한 "Safe Reinforcement Learning" 발표 자료입니다. 목차는 다음과 같습니다. 1. Reinforcement Learning 2. Safe Reinforcement Learning 3. Optimization Criterion 4. Exploration Process 강화학습 계속 공부하면서 실제로 많은 분들이 쓸 수 있게 하려면 더 안전하고 빨라야한다는 생각이 들었습니다. 그래서 이에 관련하여 논문과 각종 자료들로 공부하여 발표하였습니다. 많은 분들께 도움이 되었으면 좋겠습니다. 감사합니다!

Aufrufe

Aufrufe insgesamt

2.546

Auf Slideshare

0

Aus Einbettungen

0

Anzahl der Einbettungen

46

Befehle

Downloads

102

Geteilt

0

Kommentare

0

Likes

15

×