SlideShare ist ein Scribd-Unternehmen logo
1 von 44
Downloaden Sie, um offline zu lesen
【論文紹介】
PGQ: Combining Policy Gradient
And Q-learning
O’Donoghue et al. ICLR 2017
Sotetsu KOYAMADA (@sotetsuk)
Table of Contents
■ 論文概要
■ 強化学習の問題設定と定義
■ Q学習と方策勾配法のReview
■ 論文の理論的結果 (1)
■ 論文の理論的結果 (2)
■ 提案手法の説明: PGQ
■ 実験結果
■ 参考文献
論文概要
紹介する理由
1. 強化学習における二つの別々の主要なアプローチの統
合を試みている
■ 理論的に興味深い
■ 実用面からも長所を組み合わせることが期待できる
2. Atariベンチマークでの強い実験結果
ICLR2017レビュアーのコメント
https://openreview.net/forum?id=B1kJ6H9ex
It has the potential to be an impactful paper, with the
most positive comment noting that it "will likely influence
a broad swath of RL".
TL;DR (1)
理論的貢献 (1)
エントロピー正則化付きの方策勾配法の停留点におい
て、方策とアドバンテージ関数(Q関数)の間に次式の関
係性を示し、この関係から方策勾配法において明示的に
推定しなくても適切な行動価値関数を導出できる。
理論的貢献 (2)
エントロピー正則化付きのActor-critic法と行動価値を推
定する手法 (Q学習やSARSA) は更新則が等しくなる(特
別な場合)。とくに、Actor-critc法をAdvantage
function learningと見なすことが出来る。
TL;DR (3)
PGQの提案と評価
理論的貢献(1)の結果から得られる行動価値関数をベルマ
ン最適方程式を満たすように正則化をかけたアルゴリズ
ムPGQを提案。これは のときはエントロピー正則
化付きの方策勾配法、 のときは特殊な構造のQ学
習をしていると捉えられる。AtariドメインでMedianで
も人を上回り、DQNやA3Cと比べても一人負けするゲー
ムが存在しないという安定性を見せた。
η = 0
η = 1
強化学習の問題設定と定義
一般的な強化学習の問題設定 (1)
マルコフ決定過程 (MDP)
環境 は現在の 状態 と 行動 にだけ依存して未知の 状態遷
移確率 から次の 状態 と 即時報酬 を返す
エージェント は現在の 状態 と 報酬 を観測し、現在の 方
策 に基づいて次の 行動 を返す
サンプル系列 が生成される
P
( , ) ∼ P(⋅ | , )Xt+1 Rt+1 Xt At
π
∼ π(⋅ | )At Xt
( , , , , , …)X0 A0 R1 X1 A1
一般的な強化学習の問題設定 (2)
コントロール
目的関数 を最適化するように方策を学習する(例: 割
引報酬和の期待値)
J
J(π) = E
[ ]∑
t=1
∞
γ
t
Rt+1
ある方策に基づく価値関数
Def. 行動価値関数 (期待値は状態遷移確率と方策 )
Def. 方策 に基づくベルマン作用素
(ただし、 )
この行動価値関数 は、ベルマン作用素の不動点 (i.e.,
) として求まる(める)
π
(x, a) := E
[
| = x, = a
]
Q
π
∑
t=0
∞
γ
t
Rt+1 X0 A0
π
Q(x, a) = r(x, a) + γ π( | )P( |x, a)Q( , )T
π
∑
,x
′
a
′
a
′
x
′
x
′
x
′
a
′
r(x, a) = E [ | = x, = a]Rt+1 Xt At
Q
π
Q = QT
π
最適行動価値
理想的な行動を取ったとすると、最適化したい指標が期
待的にどうなるか
Def. 最適行動価値関数
Def. ベルマン最適作用素
最適行動価値関数 は、ベルマン最適作用素の不動点
(i.e., ) として求まる(める)
(x, a) := (x, a)Q
∗
max
π
Q
π
Q(x, a) := r(x, a) + γ P( |x, a) Q( , )T
∗
∑
x
′
x
′
max
a
′
x
′
a
′
Q
∗
Q = QT
∗
強化学習(コントロール)の二系統
価値ベース
■ (行動)価値関数を直接推定・最適化する
■ Q学習 [Watkins89] SARSA [Rummery&Niranjan94]
■ w/ 深層学習: DQN [Mnih+13, 15]
方策ベース
■ 方策を直接推定・最適化する
■ 方策勾配法 [Sutton+99]
■ w/ 深層学習: A3C [Mnih+16]
Q学習, SARSA, 方策勾配法
のReview
SARSA, Q学習
SARSAは現在の方策に基づく行動価値関数を、Q学習は
最適行動価値関数をパラメトライズしてベルマン作用素
の不動点を求めるよう更新する:
■ サンプリングは現在の に基づいた -グリーディ方
策かボルツマン方策が用いられることが多い
■ ターゲットが現在の推定している に依存している
のでブートストラップになっている(TD法全般に共通)
■ それぞれ適切な条件下で最適行動価値関数へ収束する
(SARSAは 方策改善 も必要とする (e.g., GLIEを満たす方
策を用いる[Singh+00]))
( − ) = E [( − ) ]∇θ T
π
Qθ Qθ T
π
Qθ Qθ ∇θ Qθ
( − ) = E [( − ) ]∇θ T
∗
Qθ Qθ T
∗
Qθ Qθ ∇θ Qθ
Qθ
ϵ
Qθ
方策勾配法
方策 をパラメトライズした上で を直接最適化する
■ 方策勾配定理 [Sutton+99]
■ からサンプルを生成してサンプル平均を取れば 不偏
推定量が計算できるので、それを使って更新を行なう
■ 逆に のような推定している分布に関するサンプリン
グが必要なような確率的最適化の場面では強化学習以外
の文脈でも使われる (e.g., hard attention [Mnih+14,
Xu+15] , sequence generatioon [Ranzato+16,
Bahdanau+17])
π πθ
J(θ) = E [ (x, a) log(π(a|x))]∇θ Q
π
∇θ
π
π
方策勾配法
は現実的には他のものが使われる
■ 実際の即時報酬 (REINFORCE[Williams+92])
■ 実際の報酬の複数ステップ先読み版
また、推定量の分散を抑えるため、 と関係のないベー
スライン が上記の最適化するものから引かれる。bの例
としては
■
現実的には複数ステップ先読みした(推定)収益と、ベ
ースライン を使われ[Mnih+16]、方策と価値関数を推
定するのでActor-critic法になる
Q
π
R
a
b
(x)V
π
V
π
方策勾配法におけるエントロピー正則
化
■ 方策勾配法の問題点として探索と活用のトレードオフ
を特に考慮してない点がある
■ 方策に関するエントロピー正則化項を加えて方策が決
定論的にならないよう正則化するのは一般的
[Williams&Peng91]
この観点からのより興味深い分析が、ごく最近arXivに投
稿されている [Nachum+17]
Q学習と方策勾配法の特徴
この研究のモチベーションを理解するため、Q学習と方策
勾配法の特徴とPros/Consを説明する。
■ Q学習: 本質的に 方策オフ型学習(後述)の手法
■ 方策勾配法: 本質的に 方策オン型学習(後述)の手法
方策オフ・オン型アルゴリズムの性質由来のPros/Cons
が存在(後述)
... Q-learning is an inherently off-policy algorithm ...
[Szepesvari10]
方策オンと方策オフ
現在推定している方策(推定方策)と、実際に行動を選
択肢、サンプルを生成している方策(行動方策)が等し
い場合は 方策オン型 といい、そうでない場合は 方策オ
フ型 という。
Q学習は本質的に方策オフ型
Review: Q学習の更新則
■ 更新則の期待値のサンプル平均が推定方策に依存して
いないため、 関係無い分布からサンプリングをしてもサ
ンプル平均が不偏推定量になる
■ 逆に、現在の に基づく最適方策
のサンプルだけから学習するのは不可能( の -グリ
ーディ方策やボルツマン方策など探索的行動も取らなけ
れば任意の状態・行動に対し十分なサンプルが得られな
い)
∝ ( − ) = E [( − ) ]Δθ ∇θ T
∗
Qθ Qθ T
∗
Qθ Qθ ∇θ Qθ
Q(x, a) := r(x, a) + γ P( |x, a) Q( , )T
∗
∑
x
′
x
′
max
a
′
x
′
a
′
Qθ
(x, a)argmaxa
Qθ
Qθ
ϵ
Q学習のPros/Cons
■ Pros: 経験再生 [Lin92] を使えるのでデータ効率的
■ Pros: 任意の方策からサンプリングされたデータで学
習可能(サンプルサイズが十分あれば)
■ Cons: 複数ステップ法への拡張が難しい(サンプル平
均がサンプリングする方策に依存するようになるのでバ
イアスが生じる)
このConsを解決するアプローチ
■ Importance sampling (IS) [Precup+00] 推定方策と
行動方策の分布比に応じて重み付け
■ Retrace(λ) [Munos+16] ISの分散爆発を避けつつ長
く先読みできるよう工夫
■ PCL [Nachum+17] 本論文を踏まえた発展
方策勾配法は本質的に方策オン型
Review: 方策勾配法の更新則
この期待値は推定方策に依存しているためサンプル平均
が、方策オンでサンプリングされていないと不偏推定量
になってくれない
∝ J(θ) = E [ (x, a) log(π(a|x))]Δθ ∇θ Q
π
∇θ
方策勾配法のPros/Cons
■ Pros: サンプル平均が行動方策に依存する場合でもバ
イアスがない
■ Pros: 複数ステップ法が使えるのでバイアス・バリア
ンスのトレードオフがとれる
■ Cons: 経験再生と相性が悪くサンプルが使い捨てにな
りデータ効率が良くない
■ Cons: 探索・活用のトレードオフを考慮してない
このConsを解決しようとするアプローチ
■ ACER [Wang+17]
■ PGQ [O’Donoghue+17]
この論文の理論的な貢献
理論的貢献(1)
エントロピー正則化付きの方策勾配法の停留点におい
て、方策とアドバンテージ関数の間に次式の関係性を示
した(式4)
この関係から逆に停留点での方策を使ってアドバンテー
ジ関数とQ関数を 、 と表すことができ、 方策勾配
法でもQ関数の推定をしているとみなすことが出来るよう
になった(式6)。
PGQではこのQ関数にベルマン最適方程式を満たすよう
正則化をかけている。 また、この貢献は と から
を表せていることになり、非自明
π(a|x) ∝ exp( (x, a)/α)A
π
A
̃ 
π
Q
̃ 
π
Δθ ∝ E [( (x, a) − (x, a)) log π(x, a)]Q
π
Q̃ 
π
∇θ
π V
π
Q
π
理論的貢献(2)
SARSA, Q学習の更新則
エントロピー正則化付き方策勾配法の更新則
が似てる気がする... 一緒では?
Actor-critic法と行動価値を推定する手法 (Q学習や
SARSA) は更新則が(特別な場合に)等しくなる。とく
に、Actor-critc法をAdvantage function learningと
見なすことが出来る
( − ) = E [( − ) ]∇θ T
π
Qθ Qθ T
π
Qθ Qθ ∇θ Qθ
( − ) = E [( − ) ]∇θ T
∗
Qθ Qθ T
∗
Qθ Qθ ∇θ Qθ
Δθ ∝ E [( (x, a) − (x, a)) log π(x, a)]Q
π
Q̃ 
π
∇θ
理論的貢献(2)
仮定一覧
■ 引き続きエントロピー正則化は仮定として必要
■ Actor-criticの方策は の形で
書ける
■ 行動価値の学習ではDueling architecture[Wang+16]
を用いる
最小化する誤差の選び方の例
SARSAの場合もQ学習の場合も、現在の方策から求まるQ
関数でターゲットをブートストラップすれば良い
π(a|x) ∝ exp(W(x, a))
アルゴリズム
提案アルゴリズム: PGQ
PGQでは今までの議論からエントロピー正則化によって
から導かれるQ関数 にベルマン最適方程式を満た
すよう正則化をかけている(式12, 14)
■ 各更新則の前項は通常のエントロピー付きの方策勾配
法に対応し、後項は新たに追加したベルマン最適方程式
による正則化である。
■ でで通常のエントロピー付きの方策勾配法と見
なすことができ、逆に で(特殊な)Q学習と見な
すことができる(Dueling architecture[Wang+16]に似
ている)
π Q
̃ 
π
η = 0
η = 0
経験再生を使った実際の更新則
現実的には式14のアップデートを同時にバッチで行なわ
ない(方策勾配法を活かせない)
■ 方策オンでサンプルを並列で生成し、方策勾配法によ
り方策と価値関数を更新する
■ 上記で観測されたサンプル系列はリプレイバッファへ
と貯められる
■ 別プロセスがリプレイバッファに貯まったサンプルを
バッチで、ベルマン最適方程式を満たすよう更新する
アーキテクチャ
Dueling architecture[Wang+16]にかなり似てる
[O’Donoghue+17]より引用
実験
Atariにおける性能評価
■ DQN, A3Cと人のスコアを100で正規化したスコア
■ 人のスコアにMedianでも勝利
[O’Donoghue+17]より引用
PGQが上手くいってる例
[O’Donoghue+17]より引用
PGQが上手くいかなかった例
とはいえ、最下位にはなっていない
[O’Donoghue+17]より引用
感想
■ 方策勾配法が一ミリも探索・活用のトレードオフを考
慮しないのは理論的な側面からいっても不自然な気がす
る(Q学習もSARSAも最適行動価値へ収束するためには
十分な探索が条件になってる)ので、そういう意味では
実はエントロピー正則化付きの目的関数を考えた方が逆
に自然ということはさもありなんと言う気もする(この
観点からは[Nachum+17]がさらに研究を進めている)
■ アルゴリズム(PGQ)の提案が急に雑な気がする。要
するに通常のエントロピー正則化付き方策勾配法で推定
している方策と状態の価値関数から適当にQ関数を作って
それにベルマン最適方程式で正則化をかけただけに見え
てしまう
■ とはいえ、AtariにおいてMedianでも初めて(?)人
間レベルを上回った意義は大きいように思える
参考文献(年代順)
■ [Watkins89] Learning from delayed rewards. PhD
thesis 1989
■ [Williams&Peng91] Function Optimization Using
Connectionist Reinforcement Learning Algorithms.
Connection Science 1991
■ [Williams+92] Simple statistical gradient-
following algorithms for connectionist reinforcement
learning Machine Learning 1992.
■ [Lin92] Self-Improving Reactive Agents Based On
Reinforcement Learning, Planning and Teaching.
Machine Leanring
■ [Sutton+99] Policy Gradient Methods for
Reinforcement Learning with Function
Approximation. NIPS 1999
■ [Rummery&Niranjan94] On-line Q-learning using
connectionist systems. 1994
■ [Singh+00] Convergence Results for Single-Step
On-Policy Reinforcement-Learning Algorithms.
Machine Learning 2000
■ [Precup+00] Eligibility Traces for Off-Policy Policy
Evaluation. ICML 2000
■ [Szepesvari10] Algorithms for Reinforcement
Learning. 2010
■ [Mnih+13] Playing atari with deep reinforcement
learning. NIPS-WS 2013
■ [Mnih+14] Recurrent Models of Visual Attention.
NIPS 2014
■ [Mnih+15] Human-level control through deep
reinforcement learning. Nature 2015
■ [Xu+15] Show, attend and tell: Neural image
caption generation with visual attention ICML 2015
■ [Mnih+16] Asynchronous Methods for Deep
Reinforcement Learning ICML 2016
■ [Ranzato+16] Sequence level training with
recurrent neural networks ICLR 2016
■ [Wang+16] Dueling Network Architectures for
Deep Reinforcement Learning ICML 2016
■ [Bahdanau+17] An Actor-Critic Algorithm for
Sequence Prediction. ICLR 2017
■ [Munos+16] Safe and efficient off-policy
reinforcement learning. NIPS 2016
■ [Wang+17] Sample Efficient Actor-Critic with
Experience Replay. ICLR 2017
■ [O’Donoghue+17] PGQ: Combining Policy Gradient
and Q-learning. ICLR 2017
■ [Nachum+17] Bridging the Gap Between Value and
Policy Based Reinforcement Learning. submitted to
ICML 2017

Weitere ähnliche Inhalte

Was ist angesagt?

強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
 

Was ist angesagt? (20)

モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門
 
レプリカ交換モンテカルロ法で乱数の生成
レプリカ交換モンテカルロ法で乱数の生成レプリカ交換モンテカルロ法で乱数の生成
レプリカ交換モンテカルロ法で乱数の生成
 
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
強化学習@PyData.Tokyo
強化学習@PyData.Tokyo強化学習@PyData.Tokyo
強化学習@PyData.Tokyo
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
マルチコアを用いた画像処理
マルチコアを用いた画像処理マルチコアを用いた画像処理
マルチコアを用いた画像処理
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 

Andere mochten auch

Andere mochten auch (14)

強化学習その3
強化学習その3強化学習その3
強化学習その3
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
 
アクターモデルについて
アクターモデルについてアクターモデルについて
アクターモデルについて
 
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
 
Trust Region Policy Optimization
Trust Region Policy OptimizationTrust Region Policy Optimization
Trust Region Policy Optimization
 
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
 
【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016
 
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
PFN Spring Internship Final Report: Autonomous Drive by Deep RL
PFN Spring Internship Final Report: Autonomous Drive by Deep RLPFN Spring Internship Final Report: Autonomous Drive by Deep RL
PFN Spring Internship Final Report: Autonomous Drive by Deep RL
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
 

Ähnlich wie 【論文紹介】PGQ: Combining Policy Gradient And Q-learning

NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
Eiji Uchibe
 
[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes
shima o
 

Ähnlich wie 【論文紹介】PGQ: Combining Policy Gradient And Q-learning (12)

人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
Analyze by StatsModels or Numpy
Analyze by StatsModels or NumpyAnalyze by StatsModels or Numpy
Analyze by StatsModels or Numpy
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
π計算
π計算π計算
π計算
 
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matrices
 
[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes
 
[DL輪読会]It's not just size that maters small language models are also few sho...
[DL輪読会]It's not just size that maters  small language models are also few sho...[DL輪読会]It's not just size that maters  small language models are also few sho...
[DL輪読会]It's not just size that maters small language models are also few sho...
 

Mehr von Sotetsu KOYAMADA(小山田創哲)

Mehr von Sotetsu KOYAMADA(小山田創哲) (10)

【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction
【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction
【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
KDD2016論文読み会資料(DeepIntent)
KDD2016論文読み会資料(DeepIntent) KDD2016論文読み会資料(DeepIntent)
KDD2016論文読み会資料(DeepIntent)
 
強化学習勉強会・論文紹介(Kulkarni et al., 2016)
強化学習勉強会・論文紹介(Kulkarni et al., 2016)強化学習勉強会・論文紹介(Kulkarni et al., 2016)
強化学習勉強会・論文紹介(Kulkarni et al., 2016)
 
強化学習勉強会・論文紹介(第22回)
強化学習勉強会・論文紹介(第22回)強化学習勉強会・論文紹介(第22回)
強化学習勉強会・論文紹介(第22回)
 
Principal Sensitivity Analysis
Principal Sensitivity AnalysisPrincipal Sensitivity Analysis
Principal Sensitivity Analysis
 
KDD2015論文読み会
KDD2015論文読み会KDD2015論文読み会
KDD2015論文読み会
 
KDD2014勉強会 発表資料
KDD2014勉強会 発表資料KDD2014勉強会 発表資料
KDD2014勉強会 発表資料
 
知能型システム論(後半)
知能型システム論(後半)知能型システム論(後半)
知能型システム論(後半)
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 

【論文紹介】PGQ: Combining Policy Gradient And Q-learning