Suche senden
Hochladen
ChainerRLの紹介
•
0 gefällt mir
•
3,391 views
M
mooopan
Folgen
Chainer Meetup #04 発表資料 https://chainer.connpass.com/event/46953/
Weniger lesen
Mehr lesen
Software
Melden
Teilen
Melden
Teilen
1 von 9
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
John Liu
アクターモデルについて
アクターモデルについて
Takamasa Mitsuji
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
Taehoon Kim
Introduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
Sotetsu KOYAMADA(小山田創哲)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
徹 上野山
NIPS2015概要資料
NIPS2015概要資料
Shohei Hido
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
Kenta Oono
Empfohlen
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
John Liu
アクターモデルについて
アクターモデルについて
Takamasa Mitsuji
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
Taehoon Kim
Introduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
Sotetsu KOYAMADA(小山田創哲)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
徹 上野山
NIPS2015概要資料
NIPS2015概要資料
Shohei Hido
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
Kenta Oono
Clipped Action Policy Gradient
Clipped Action Policy Gradient
mooopan
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017
mooopan
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learning
mooopan
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
最近のDQN
最近のDQN
mooopan
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradients
mooopan
Trust Region Policy Optimization
Trust Region Policy Optimization
mooopan
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
mooopan
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"
mooopan
Weitere ähnliche Inhalte
Mehr von mooopan
Clipped Action Policy Gradient
Clipped Action Policy Gradient
mooopan
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017
mooopan
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learning
mooopan
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
最近のDQN
最近のDQN
mooopan
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradients
mooopan
Trust Region Policy Optimization
Trust Region Policy Optimization
mooopan
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
mooopan
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"
mooopan
Mehr von mooopan
(9)
Clipped Action Policy Gradient
Clipped Action Policy Gradient
Model-Based Reinforcement Learning @NIPS2017
Model-Based Reinforcement Learning @NIPS2017
Safe and Efficient Off-Policy Reinforcement Learning
Safe and Efficient Off-Policy Reinforcement Learning
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
最近のDQN
最近のDQN
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradients
Trust Region Policy Optimization
Trust Region Policy Optimization
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"
ChainerRLの紹介
1.
ChainerRLの紹介 Chainer Meetup #4
2.
自己紹介 - 藤田康博 /
mooopan / muupan - 2015- Preferred Networks - Chainerで強化学習を書いている
3.
ChainerRL - 深層強化学習(deep reinforcement
learning)ライブラリ - 2017/02/20 公開 - GitHub: https://github.com/pfnet/chainerrl - Preferred Research Blog: https://research.preferred.jp/2017/02/chainerrl/ こういうのが学習できる →
4.
実装済みアルゴリズム - Deep Q-Network
(Mnih et al., 2015) - Double DQN (Hasselt et al., 2016) - Normalized Advantage Function (Gu et al., 2016) - (Persistent) Advantage Learning (Bellemare et al., 2016) - Deep Deterministic Policy Gradient (Lillicrap et al., 2016) - SVG(0) (Heese et al., 2015) - Asynchronous Advantage Actor-Critic (Mnih et al., 2016) - Asynchronous N-step Q-learning (Mnih et al., 2016) - Actor-Critic with Experience Replay (Wang et al., 2017) <- NEW! - etc. - いっぱい並べているけど共通部分は多い
5.
ChainerRLによる強化学習の流れ - エージェントが環境とのインタラクションを通じて報酬を最大化する行動を学習する - 環境(environment)を定義する 環境 行動 観測,
報酬
6.
ChainerRLによる強化学習の流れ - モデルを定義する - Q-function:観測
-> 各行動の価値(将来の報酬の和の期待値) - Policy:観測 -> 行動の確率分布 Distribution: Softmax, Mellowmax, Gaussian ActionValue: Discrete, Quadratic
7.
ChainerRLによる強化学習の流れ - エージェントを定義する - インタラクションさせる
8.
おわりに - ChainerRL Quickstart
Guide - Jupyter NotebookでQ-functionを定義してDouble DQNでCart Pole Balancingを学習 https://github.com/pfnet/chainerrl/blob/master/examples/quickstart/quickstart.ipynb - ChainerRLはまだβ版なのでインタフェース等変わる可能性があります - むしろ積極的に改善していきたいのでぜひご意見ください - フィードバックください(欲しい機能・アルゴリズムとかでもOK)
9.
ChainerのTrainer - 今のところ使ってない - 強化学習においてDatasetとは?iterationとは? -
うまい使い方あったら教えてください
Jetzt herunterladen