introduction to double deep Q-learning

ディープラーニングの最新動向
強化学習とのコラボ編②　DDQN
2016/6/24
株式会社ウェブファーマー
大政　孝充

今回取り上げるのはこれ
[1]H. V. Hasselt, et al. “Deep Reinforcement Learning with
Double Q-learning” arXiv:1509.06461, 2015.
と、そのもとになってる論文
[2]H. V. Hasselt. “Double Q-learning” Advances in NIPS,
23:2613-26212015.
DQNを改良し、ゲームでさらなる高得点を叩き出した！

もともとのDQNはこれ
[3]V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves I.
Antonoglou, D. Wierstra, M. Riedmiller. “Playing Atari with
Deep Reinforcement Learning” arXiv:1312.5602, 2013.
もしくは
[4]V. Mnih, et al. “Human-level control through deep
reinforcement learning” nature, 2015.

DQNの解説は
DQNの解説に関しては、[3]塚原裕史氏「論文紹介　Playing Atari with
Deep Reinforcement Learning」
http://www.slideshare.net/htsukahara/paper-intoduction-playing-atari-
with-deep-reinforcement-learning
や[4]藤田康博氏「Playing Atari with Deep Reinforcement Learning」
http://www.slideshare.net/mooopan/ss-30336609
あるいは[5]私の「ディープラーニングの最新動向　強化学習とのコラボ
編①　DQN」
http://www.slideshare.net/ssuser07aa33/introduction-to-deep-q-learning
などを参考にして下さい

今回はここだけ解説
①DQNの何が問題か
②DQNをどう改良してDDQNとしたか

まず①番

DQN（2013ヴァージョン）のアルゴリズム
[3] より

DQN（2013ヴァージョン）のアルゴリズム
[3] より
actionを選択するための
モデル（　）とactionを評
価するためのモデル
（　）が同じ
θ
θ
actionを過大評価
してしまう
詳細は[2]参照

DQN（natureヴァージョン）のアルゴリズム
[4] より

[4] より
　はたまに(C steps）　　
に更新される
Q
∧
Q

[1] より
　　の各action value算
出として、たまに更新さ
れてる　　を使用する
φj+1
Q
∧

[1] より
よって行動を選択する
ためのaction value（　）
と行動を評価するため
のaction value（　）は微
妙に違う
Q
∧
Q
actionの過大評価
は若干削減された？
もっと削減するには・・・
DDQN！

次に②番

DDQNだとここを変更する
[4] より
rj +γ Q
∧
φj+1,argmax
a'
Q φj+1,a';θ( );θ−⎛
⎝
⎜
⎞
⎠
⎟
こうする
これを

まず　　に　　を入力して出た action value
の中で最大となる　　を選択する
次に　　に　　を入力するして出た action
value　　のうち、　　に対応するものを選択す
る
　　に　　を入力して出た各 action value 　　
の中で最大のものを採用rj +γ max
a'
Q
∧
φj+1,a';θ−
( )
actionの評価を変更する
rj +γ Q
∧
φj+1,argmax
a'
Q φj+1,a';θ( );θ−⎛
⎝
⎜
⎞
⎠
⎟
φj+1
Q
∧
θ−
φj+1 Q
φj+1
a'
a'
Q
∧
θ
θ−
過大評価はかな
り削減される！？

introduction to double deep Q-learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from WEBFARMER. ltd.

More from WEBFARMER. ltd. (20)

introduction to double deep Q-learning