ChainerRLの紹介

ChainerRLの紹介
Chainer Meetup #4

自己紹介
- 藤田康博 / mooopan / muupan
- 2015- Preferred Networks
- Chainerで強化学習を書いている

ChainerRL
- 深層強化学習（deep reinforcement learning）ライブラリ
- 2017/02/20 公開
- GitHub: https://github.com/pfnet/chainerrl
- Preferred Research Blog: https://research.preferred.jp/2017/02/chainerrl/
こういうのが学習できる →

実装済みアルゴリズム
- Deep Q-Network (Mnih et al., 2015)
- Double DQN (Hasselt et al., 2016)
- Normalized Advantage Function (Gu et al., 2016)
- (Persistent) Advantage Learning (Bellemare et al., 2016)
- Deep Deterministic Policy Gradient (Lillicrap et al., 2016)
- SVG(0) (Heese et al., 2015)
- Asynchronous Advantage Actor-Critic (Mnih et al., 2016)
- Asynchronous N-step Q-learning (Mnih et al., 2016)
- Actor-Critic with Experience Replay (Wang et al., 2017) <- NEW!
- etc.
- いっぱい並べているけど共通部分は多い

ChainerRLによる強化学習の流れ
- エージェントが環境とのインタラクションを通じて報酬を最大化する行動を学習する
- 環境（environment）を定義する
環境
行動
観測, 報酬

- モデルを定義する
- Q-function：観測 -> 各行動の価値（将来の報酬の和の期待値）
- Policy：観測 -> 行動の確率分布
Distribution: Softmax, Mellowmax, Gaussian
ActionValue: Discrete, Quadratic

- エージェントを定義する
- インタラクションさせる

おわりに
- ChainerRL Quickstart Guide
- Jupyter NotebookでQ-functionを定義してDouble DQNでCart Pole Balancingを学習
https://github.com/pfnet/chainerrl/blob/master/examples/quickstart/quickstart.ipynb
- ChainerRLはまだβ版なのでインタフェース等変わる可能性があります
- むしろ積極的に改善していきたいのでぜひご意見ください
- フィードバックください（欲しい機能・アルゴリズムとかでもOK）

ChainerのTrainer
- 今のところ使ってない
- 強化学習においてDatasetとは？iterationとは？
- うまい使い方あったら教えてください

ChainerRLの紹介

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von mooopan

Mehr von mooopan (9)

ChainerRLの紹介