9. 強化学習とは
• 強化学習
• 環境との直接的な相互作⽤から学習
• 4要素: ⽅策・報酬・価値関数・(環境のモデル)
• 報酬が後から得られる場合がある
• マルコフ決定過程(MDP)によって定式化 (右上図)
• エージェント・環境との相互作⽤を状態・⾏動・報酬によって記述
• 遷移後の状態と報酬は現在の状態と⾏動のみに依存
• 価値関数
• 状態/⾏動の価値とは、将来得られると予想される報酬の合計(収益)
• 価値関数の推定は強化学習課題を解くために厳密に必要というわけではない(例: 進化的⼿法)
• 探索と利⽤のジレンマ
• 探索を重視すると計算時間増⼤ or 収束しない
• 利⽤を重視すると局所最適解
• εグリーディ法やソフトマックス法等(温度Tで調整)でランダムな探索的⾏動を取り⼊れる
Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018.
10. 強化学習⼿法の分類
• モデルフリー vs モデルベース
• ⽅策ベース vs 価値ベース
• 状態価値V(s) vs ⾏動価値Q(s, a)
• On-Policy vs Off-Policy
• エピソードタスク vs 連続タスク
• 1ステップ vs nステップ vs モンテカルロ
(右図)
• 単⼀型計算 vs 分散型計算
• シングルエージェント vs マルチエー
ジェント
Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018.
⾚字は本発表で主に扱う部分
上記以外にも様々な分類がある
11. モデルフリー強化学習とモデルベース強化学習
• ⽬的
• 価値関数/⽅策の改善
• モデルフリー強化学習
• 直接強化学習
• シンプル
• モデル設計のバイアスを受けない
• モデルベース強化学習
• 間接強化学習(モデル経由)
• 限られた経験を最⼤限利⽤
• 少数の環境との相互作⽤から、より
良い⽅策を⾒つけることが出来る
Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018.
12. On-Policy(Sarsa)とOff-Policy(Q学習)
• On-Policy
• 例: Sarsa
• ⾏動選択時の⽅策と価値関数更新
時の⽅策が同じ
• 両⽅ともε-グリーディ
• Off-Policy
• 例: Q学習
• ⾏動選択時の⽅策と価値関数更新
時の⽅策が異なる
• ε-グリーディとグリーディ
• 経験リプレイが使える
• 経験の⽣成と学習が分離可能
Sutton et al., "Reinforcement Learning: An Introduction second edition", MIT Press, 2018.