SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
ディープラーニングの最新動向
強化学習とのコラボ編⑥ A3C	
2017/1/11
株式会社ウェブファーマー
大政孝充
今回取り上げるのはこれ	
[1] Volodymyr Mnih, Adria` Puigdome`nech Badia, Mehdi
Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David
Silver, and Koray Kavukcuoglu. Asynchronous methods for
deep reinforcement learning. In Proceedings of the 33rd
International Conference on Machine Learning (ICML), pp.
1928–1937, 2016.
Asynchronousな手法によりreplay memoryを廃し、DQNより
高速かつ高精度な学習を達成した!
DQNからA3Cまでのイメージ	
DQN
2013NIPs	
並列処理のしくみ
DQN
2015Nature
UNREAL
Q学習な手法
A3C
psedoな報酬
DistBrief Gorila
actore-criticな手法
Asynchronous
なDQN
強化学習の基本①	
Li θi( )= E r +γ max
a'
Q s',a';θi−1( )−Q s,a;θi( )( )
2
1-step Q学習の損失関数	
actor-criticにおける
目的関数の勾配	
1-step Sarsaの損失関数	 Li θi( )= E r +γQ s',a';θi−1( )−Q s,a;θi( )( )
2
n-step Q学習の損失関数	 Li θi( )= E γk
rt+k
k=0
n
∑ + maxγ
a'
n
Q s',a';θi−1( )−Q s,a;θi( )
⎛
⎝
⎜
⎞
⎠
⎟
2
∇θ J θ( )= E ∇θ logπ at | st;θ( ) Rt −Vπ
st( )( )⎡
⎣
⎤
⎦
r
γ Q s,a;θi( )
Vπ
st( )
:割引率	
:報酬	
:状態 s で行動 a を取る場合の行動価値関数	
:状態 s の価値関数
強化学習の基本②	
Li θi( )= E r +γ max
a'
Q s',a';θi−1( )−Q s,a;θi( )( )
2
1-step Q学習の損失関数	
これがDQNの場合	
L θ( )= Es,a,r,s'≈D r +γ max
a'
Q s',a';θ−
( )−Q s,a;θ( )( )
2
DQNの損失関数	
:experience replay memory	
:ターゲット・ネットワーク	
D
θ−
強化学習の基本③
actor-critic法のシステム	
Value
Function	
Policy
Critic
Environment
Sutton, Berto. “Reinforcement Learning –an introduction.” 1998.	
state
reward
Actor
TD
error action
DQN(NIPs 2013)のしくみ	
Nair, et. al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
DQN(nature 2015)のしくみ	
Nair, et. al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
DistBeliefのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.	
ここでcomputer間
のやりとり
Downpour SGDのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.	
最新のparameterを
保持するmaster	
replicaから要求があったら、
その時点の最新parameterを
返す → replicaによってある
時点で使ってるparameterが
違う → asyncronous
SGDの計算が終
わったら勾配を返
す	
DistBeliefで勾配計
算	
ミニバッチをreplicaご
とに分割
Sandblaster L-BFGSのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.
Gorilaのしくみ	
A. Nair, et al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
Gorilaのしくみ ver.1
共有のreplay memoryを使用	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
ActorのcomputerとLearnerの
computer1つずつで1セットとする	
Actor	 Learner	
全部でNセット	
replay memoryは1
つを共有する	
Replay
Memory
Gorilaのしくみ ver.2(bundled mode)
個別のreplay memoryを使用	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
・
・
・	
ActorのcomputerとLearnerの
computer1つずつで1セットとする	
Actor	 Learner	
全部でNセット	
replay memoryはそれぞれ
のcomputerに配置
Gorila(bundled mode)から
asynchronousなDQNへの変更点①	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
・
・
・	
CPU上の1つのスレッドに対応	
Actor	 Learner	
replay memoryを廃止
Gorila(bundled mode)から
asynchronousなDQNへの変更点②	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
代わりに勾配を溜め込む	
gradients	
gradients
Gorila(bundled mode)から
asynchronousなDQNへの変更点③	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server for Q-Network	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
gradients	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
Target Q-Network用のserverを作る
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ①	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
θをコピー	   をコピー	
gradients	
gradients	
θ−
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ②	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
状態 s で行動 a をとり、s’ や r を観測	
gradients
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ③	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
L θ( )= Es,a,r,s'≈D r +γ max
a'
Q s',a';θ−
( )−Q s,a;θ( )( )
2
Lossを計算
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ④	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
勾配を溜め込む	 dθ ← dθ +
∂L θ( )
∂θ
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ⑤	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
定期的に勾配の積算値  を送り学習する	dθ
A3Cのしくみ	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
A3Cの流れ①	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θをコピー	   をコピー	θv
θ '
θ '
A3Cの流れ②	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
   ステップ間、状態   で方策        
に従い行動   をとる。
tmax π at | st;θ '( )
at
st
V st,θv '( ) を計算する
θ '
θ '
A3Cの流れ③	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
とそれぞれの勾
配を計算する	
R = γi−1
rt−i
i=1
tmax
∑ +V st,θv '( )
dθ = ∇θ ' logπ ai | si;θ '( ) R −V si;θv '( )( )
dθv = dθv +
∂ R −V si;θv '( )( )
2
∂θv '
A3Cの流れ④	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
それぞれの勾配を溜め込む
A3Cの流れ④	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
ごとに勾配の積算値  を送り学習	dθtmax ごとに勾配の積算値  を送り学習	tmax dθv
速度の比較	
DQNとasynchronousな4つの手法との速度に関する比較
asynchronousな手法は概ねDQNより学習速度が早いが、特
にA3Cが早い
速度の比較	
asynchronousな4つの手法において、CPUのスレッドを増や
した場合の速度の増加率
1-step Q学習や 1-step SARSAは増加率が高い
性能の比較	
DQNとasynchronousな4つの手法との得点に関する比較
asynchronousな手法は概ねDQNを上回る
結論	
l  asynchronousな4つの手法はDQNよりも学習速度が早い。
特にA3Cが早い。
l  asynchronousな4つの手法はDQNよりも概ね得点が高い

Weitere ähnliche Inhalte

Was ist angesagt?

深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題についてjkomiyama
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingYasunori Ozaki
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習Mitsuhisa Ohta
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement LearningDeep Learning JP
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
 
Trust Region Policy Optimization
Trust Region Policy OptimizationTrust Region Policy Optimization
Trust Region Policy Optimizationmooopan
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 

Was ist angesagt? (20)

深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
Trust Region Policy Optimization
Trust Region Policy OptimizationTrust Region Policy Optimization
Trust Region Policy Optimization
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
深層強化学習と実装例
深層強化学習と実装例深層強化学習と実装例
深層強化学習と実装例
 

Andere mochten auch

A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話mooopan
 
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Taehoon Kim
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介mooopan
 
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...John Liu
 
強化学習その4
強化学習その4強化学習その4
強化学習その4nishio
 
アクターモデルについて
アクターモデルについてアクターモデルについて
アクターモデルについてTakamasa Mitsuji
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)徹 上野山
 

Andere mochten auch (8)

A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
 
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
 
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
 
アクターモデルについて
アクターモデルについてアクターモデルについて
アクターモデルについて
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
 

Ähnlich wie Introduction to A3C model

2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介Hiroki Nakahara
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
Hello, DirectCompute
Hello, DirectComputeHello, DirectCompute
Hello, DirectComputedasyprocta
 
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とはKubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは株式会社クライム
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめNVIDIA Japan
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門1070: CUDA プログラミング入門
1070: CUDA プログラミング入門NVIDIA Japan
 
Tf勉強会(4)
Tf勉強会(4)Tf勉強会(4)
Tf勉強会(4)tak9029
 
Implementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASICImplementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASICKazuhiro Hishinuma
 
並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.jsYoshiiro Ueno
 
Kobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテルKobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテルtnoda
 
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common LispLisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lispmasayukitakagi
 
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也Preferred Networks
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れKazuki Motohashi
 
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望Kohei KaiGai
 

Ähnlich wie Introduction to A3C model (20)

2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
KDDCUP2020 ML Track2
KDDCUP2020 ML Track2KDDCUP2020 ML Track2
KDDCUP2020 ML Track2
 
研究を加速するChainerファミリー
研究を加速するChainerファミリー研究を加速するChainerファミリー
研究を加速するChainerファミリー
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
Hello, DirectCompute
Hello, DirectComputeHello, DirectCompute
Hello, DirectCompute
 
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とはKubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめ
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
 
Tf勉強会(4)
Tf勉強会(4)Tf勉強会(4)
Tf勉強会(4)
 
Implementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASICImplementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASIC
 
ADVENTURE_Thermalの概要
ADVENTURE_Thermalの概要ADVENTURE_Thermalの概要
ADVENTURE_Thermalの概要
 
並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js
 
Math works gdlc2019
Math works gdlc2019Math works gdlc2019
Math works gdlc2019
 
Kobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテルKobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテル
 
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common LispLisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
 
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
 
Wssit slide
Wssit slideWssit slide
Wssit slide
 
Fusion4dIntroduction
Fusion4dIntroductionFusion4dIntroduction
Fusion4dIntroduction
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
 

Mehr von WEBFARMER. ltd.

論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデルWEBFARMER. ltd.
 
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaThe 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaWEBFARMER. ltd.
 
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELSPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELWEBFARMER. ltd.
 
Nips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfNips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfWEBFARMER. ltd.
 
第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)WEBFARMER. ltd.
 
Chainer Meetup 発表資料
Chainer Meetup 発表資料Chainer Meetup 発表資料
Chainer Meetup 発表資料WEBFARMER. ltd.
 
Study Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdStudy Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdWEBFARMER. ltd.
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーWEBFARMER. ltd.
 
Connect_GANs_Actor-Critic
Connect_GANs_Actor-CriticConnect_GANs_Actor-Critic
Connect_GANs_Actor-CriticWEBFARMER. ltd.
 
Ml15min発表資料(提出用)
Ml15min発表資料(提出用)Ml15min発表資料(提出用)
Ml15min発表資料(提出用)WEBFARMER. ltd.
 
Introduction to GAN model
Introduction to GAN modelIntroduction to GAN model
Introduction to GAN modelWEBFARMER. ltd.
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection modelWEBFARMER. ltd.
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep CompressionWEBFARMER. ltd.
 
ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229WEBFARMER. ltd.
 
Introduction to Neural Turning Machine
Introduction to Neural Turning MachineIntroduction to Neural Turning Machine
Introduction to Neural Turning MachineWEBFARMER. ltd.
 
人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)WEBFARMER. ltd.
 
Hackathon 161010 pressen
Hackathon 161010 pressenHackathon 161010 pressen
Hackathon 161010 pressenWEBFARMER. ltd.
 

Mehr von WEBFARMER. ltd. (20)

論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル
 
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaThe 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
 
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELSPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
 
Nips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfNips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdf
 
第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)
 
Chainer Meetup 発表資料
Chainer Meetup 発表資料Chainer Meetup 発表資料
Chainer Meetup 発表資料
 
SLAM_study_document
SLAM_study_documentSLAM_study_document
SLAM_study_document
 
Study Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdStudy Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltd
 
Nips20180127
Nips20180127Nips20180127
Nips20180127
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマー
 
DRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasaDRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasa
 
Connect_GANs_Actor-Critic
Connect_GANs_Actor-CriticConnect_GANs_Actor-Critic
Connect_GANs_Actor-Critic
 
Ml15min発表資料(提出用)
Ml15min発表資料(提出用)Ml15min発表資料(提出用)
Ml15min発表資料(提出用)
 
Introduction to GAN model
Introduction to GAN modelIntroduction to GAN model
Introduction to GAN model
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep Compression
 
ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229
 
Introduction to Neural Turning Machine
Introduction to Neural Turning MachineIntroduction to Neural Turning Machine
Introduction to Neural Turning Machine
 
人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)
 
Hackathon 161010 pressen
Hackathon 161010 pressenHackathon 161010 pressen
Hackathon 161010 pressen
 

Kürzlich hochgeladen

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Kürzlich hochgeladen (8)

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

Introduction to A3C model