SlideShare a Scribd company logo
1 of 16
Download to read offline
ディープラーニングの最新動向
強化学習とのコラボ編② DDQN	
2016/6/24
株式会社ウェブファーマー
大政 孝充
今回取り上げるのはこれ	
[1]H. V. Hasselt, et al. “Deep Reinforcement Learning with
Double Q-learning” arXiv:1509.06461, 2015.
と、そのもとになってる論文
[2]H. V. Hasselt. “Double Q-learning” Advances in NIPS,
23:2613-26212015.
DQNを改良し、ゲームでさらなる高得点を叩き出した!
もともとのDQNはこれ	
[3]V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves I.
Antonoglou, D. Wierstra, M. Riedmiller. “Playing Atari with
Deep Reinforcement Learning” arXiv:1312.5602, 2013.
もしくは
[4]V. Mnih, et al. “Human-level control through deep
reinforcement learning” nature, 2015.
DQNの解説は	
DQNの解説に関しては、[3]塚原裕史氏「論文紹介 Playing Atari with
Deep Reinforcement Learning」
http://www.slideshare.net/htsukahara/paper-intoduction-playing-atari-
with-deep-reinforcement-learning
や[4]藤田康博氏「Playing Atari with Deep Reinforcement Learning」
http://www.slideshare.net/mooopan/ss-30336609
あるいは[5]私の「ディープラーニングの最新動向 強化学習とのコラボ
編① DQN」
http://www.slideshare.net/ssuser07aa33/introduction-to-deep-q-learning
などを参考にして下さい
今回はここだけ解説	
①DQNの何が問題か
②DQNをどう改良してDDQNとしたか
①DQNの何が問題か
②DQNをどう改良してDDQNとしたか
まず①番
DQN(2013ヴァージョン)のアルゴリズム	
[3] より
DQN(2013ヴァージョン)のアルゴリズム	
[3] より
actionを選択するための
モデル( )とactionを評
価するためのモデル
( )が同じ
θ
θ
actionを過大評価
してしまう
詳細は[2]参照
DQN(natureヴァージョン)のアルゴリズム	
[4] より
DQN(natureヴァージョン)のアルゴリズム	
[4] より
 はたまに(C steps)  
に更新される
Q
∧
Q
DQN(natureヴァージョン)のアルゴリズム	
[1] より
  の各action value算
出として、たまに更新さ
れてる  を使用する
φj+1
Q
∧
DQN(natureヴァージョン)のアルゴリズム	
[1] より
よって行動を選択する
ためのaction value(  )
と行動を評価するため
のaction value(  )は微
妙に違う
Q
∧
Q
actionの過大評価	
は若干削減された?
もっと削減するには・・・
DDQN!
次に②番	
①DQNの何が問題か
②DQNをどう改良してDDQNとしたか
DDQNだとここを変更する	
[4] より
rj +γ Q
∧
φj+1,argmax
a'
Q φj+1,a';θ( );θ−⎛
⎝
⎜
⎞
⎠
⎟
こうする
これを
まず  に   を入力して出た action value
の中で最大となる  を選択する
次に  に   を入力するして出た action
value  のうち、  に対応するものを選択す
る
  に   を入力して出た各 action value   
の中で最大のものを採用rj +γ max
a'
Q
∧
φj+1,a';θ−
( )
actionの評価を変更する	
rj +γ Q
∧
φj+1,argmax
a'
Q φj+1,a';θ( );θ−⎛
⎝
⎜
⎞
⎠
⎟
φj+1
Q
∧
θ−
φj+1 Q
φj+1
a'
a'
Q
∧
θ
θ−
過大評価はかな
り削減される!?
終わり

More Related Content

What's hot

What's hot (20)

DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
[DL輪読会]AlphaStarとその関連技術
[DL輪読会]AlphaStarとその関連技術[DL輪読会]AlphaStarとその関連技術
[DL輪読会]AlphaStarとその関連技術
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類動画像を用いた経路予測手法の分類
動画像を用いた経路予測手法の分類
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
論文紹介 : Unifying count based exploration and intrinsic motivation
論文紹介 : Unifying count based exploration and intrinsic motivation論文紹介 : Unifying count based exploration and intrinsic motivation
論文紹介 : Unifying count based exploration and intrinsic motivation
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
 

More from WEBFARMER. ltd.

More from WEBFARMER. ltd. (20)

論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル
 
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaThe 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
 
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELSPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
 
Nips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfNips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdf
 
第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)
 
Chainer Meetup 発表資料
Chainer Meetup 発表資料Chainer Meetup 発表資料
Chainer Meetup 発表資料
 
SLAM_study_document
SLAM_study_documentSLAM_study_document
SLAM_study_document
 
Study Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdStudy Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltd
 
Nips20180127
Nips20180127Nips20180127
Nips20180127
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマー
 
DRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasaDRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasa
 
Connect_GANs_Actor-Critic
Connect_GANs_Actor-CriticConnect_GANs_Actor-Critic
Connect_GANs_Actor-Critic
 
Ml15min発表資料(提出用)
Ml15min発表資料(提出用)Ml15min発表資料(提出用)
Ml15min発表資料(提出用)
 
Introduction to GAN model
Introduction to GAN modelIntroduction to GAN model
Introduction to GAN model
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep Compression
 
ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229
 
Introduction to Neural Turning Machine
Introduction to Neural Turning MachineIntroduction to Neural Turning Machine
Introduction to Neural Turning Machine
 
人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)
 
Hackathon 161010 pressen
Hackathon 161010 pressenHackathon 161010 pressen
Hackathon 161010 pressen
 

introduction to double deep Q-learning