hiroki yamaoka

1 Follower

強化学習 prml 機械学習 reinforcement learning actor critic sarsa q学習決定理論 dqn ガウス過程 emアルゴリズム reinforce 方策勾配ベルマン残差関数近似スパースサンプリング r-max モデルベース exponential family 指数型分布族 off policy モンテカルロ td学習 on policy 方策オン方策オフ方策オン方策オフ off policy on policy アドバンテージ関数 q-learning ベルマン方程式ベルマン作用素ベルマン作用素ベルマン方程式 planning モデルフリー探索と活用のトレードオフプランニング machine learning