強化学習 prml 機械学習 reinforcement learning actor critic sarsa q学習 決定理論 dqn ガウス過程 emアルゴリズム reinforce 方策勾配 ベルマン残差 関数近似 スパースサンプリング r-max モデルベース exponential family 指数型分布族 off policy モンテカルロ td学習 on policy 方策オン 方策オフ 方策オン 方策オフ off policy on policy アドバンテージ関数 q-learning ベルマン方程式 ベルマン作用素 ベルマン作用素 ベルマン方程式 planning モデルフリー 探索と活用のトレードオフ プランニング machine learning
Mehr anzeigen