Weitere ähnliche Inhalte
Ähnlich wie 強化学習@PyData.Tokyo (20)
強化学習@PyData.Tokyo
- 5. STRICTLY CONFIDENTIAL |
GROOVE Xのロボットとチーム
“かわいさ”に重点をおいたロボットを自社開発中!
GROOVE Xのロボット GROOVE Xのチーム
会話
完璧なタスク遂行
かわいいは正義
まだまだ募集中!!
http://www.groove-x.com/
ソフトウェア・エレキ・メカ・デザイン
- 14. 強化学習の枠組み
行動: a 観測: o
報酬: r
Black Box
● 環境とエージェントの相互作用を考える
● エージェントが環境から受け取るもの
○ 観測:センサの値・入力
○ 報酬:直近の行動に対する評価
● エージェントが出力するもの
○ 行動:モータ出力 etc. (連続値/離散値)
● 目標:累積報酬を最大化
● エージェントは環境に対する事前知識を全く
持たない状態でスタートする エージェント
行動決定規則
0 ≦ γ < 1
※報酬の関数は既知とすることもある
方策
- 15. 強化学習の枠組み
行動: a 観測: o
報酬: r
Black Box
● 環境とエージェントの相互作用を考える
● エージェントが環境から受け取るもの
○ 観測:センサの値・入力
○ 報酬:直近の行動に対する評価
● エージェントが出力するもの
○ 行動:モータ出力 etc. (連続値/離散値)
● 目標:累積報酬を最大化
● エージェントは環境に対する事前知識を全く
持たない状態でスタートする エージェント
行動決定規則
※報酬の関数は既知とすることもある
0 ≦ γ < 1
方策
- 27. モデルベース・モデルフリー強化学習の例
モデルベース
● テーブル関数系(MDP)
○ R-max, Dyna
● カーネル系(MDP)
○ PILCO(Gaussian Process)
● 深層学習系
○ Embed to Control
○ 深層PILCO
● 最適強化学習
○ AIXI (理論的存在, Bayesian RL)
● 特殊な例:
○ Alpha Go (モデルが既知)
モデルフリー
● Markov 決定過程(MDP, 後述)を仮定
○ Q学習,遅延Q学習,SARSA
○ 初期の Actor-Critic
● 深層Q学習:Q学習 + DNN
○ DQN, double DQN, etc.
● 方策勾配法(Policy Gradient)
○ MDPを超えて強化学習を扱える
● その他
○ TRPO
● A3C:Actor-Critic + DNN + α
○ PGを大規模化し,発展させたもの
○ Asynchronous Advantage Actor Critic
モデルベース強化学習は現状,小規模な問
題に適用される例が多い
深層学習の登場によって,テレビゲームや
自動操縦のような複雑なタスクも適用可能
になってきた
- 32. 仮定
● タスク設定の仮定
○ Episodic Task:エピソードタスク
■ 終了条件が存在し,実験を打ち切る
■ 各軌道が独立となる
■ 特に重要なもの
● Multi-Armed Bandit Problem
○ Continual Task:継続タスク
■ 終了条件が存在しない
- 33. 仮定:Markov決定過程
● Markov Decision Process: MDP
○ 強化学習を語る上で頻出する,環境に関する仮定
○ エージェントの観測は,環境の状態そのものであるという仮定
■ o = s,
■ 報酬は
○ 直感的には
■ 各ステップに与えられている情報だけから,次のステップを予測することができる
● 例)ダイナミクスがNewton力学 + ノイズで記述可能
○ 特性
■ 最適な方策が存在し,それと同等な方策が 決定論的な関数↓の形でも表される
■ Q学習などの効率的な学習手法が導出できる
Torque
- 35. ロボットの強化学習
● ロボットの強化学習は難しい
○ 試行回数に限界がある(ロボットは壊れる)
○ 1つのロボットが収集できるデータには限界がある
■ 100万回も試行できない
○ 確立したロボティクスの分野に入り込む余地がない
■ SLAM, Planning, 確立した技術が成立している
○ ロボットの計算リソースは限られている
学習時,最初は壊れても良い
ロボットは大量生産される
品質は管理される
Levine, Sergey, et al. "Learning hand-eye coordination for robotic grasping with deep learning and large-scale
data collection." arXiv preprint arXiv:1603.02199 (2016).
https://www.youtube.com/wat
ch?v=iaF43Ze1oeI
- 36. ロボットの強化学習
● ロボットの強化学習は難しい
○ 試行回数に限界がある(ロボットは壊れる)
○ 1つのロボットが収集できるデータには限界がある
■ 100万回も試行できない
○ 確立したロボティクスの分野に入り込む余地がない
■ SLAM, Planning, 確立した技術が成立している
○ ロボットの計算リソースは限られている
学習時,最初は壊れても良い
ロボットは大量生産される
品質は管理される
SLAMはMLE・MAP・Bayes推定
Planningは状態(モデルパラメータ)が推
定されれば可能
強化学習で同時に解く試みもある
Mirowski, Piotr, et al.
"Learning to navigate in complex environments."
arXiv preprint arXiv:1611.03673 (2016).
https://www.youtube.com/watch?v
=JL8F82qUG-Q
- 37. ロボットの強化学習
● ロボットの強化学習は難しい
○ 試行回数に限界がある(ロボットは壊れる)
○ 1つのロボットが収集できるデータには限界がある
■ 100万回も試行できない
○ 確立したロボティクスの分野に入り込む余地がない
■ SLAM, Planning, 確立した技術が成立している
○ ロボットの計算リソースは限られている
学習時,最初は壊れても良い
ロボットは大量生産される
品質は管理される
SLAMはMLE・MAP・Bayes推定
Planningは状態(モデルパラメータ)が推
定されれば可能
強化学習で同時に解く試みもある
クラウド・無線通信・小型 PC
巨大なネットワークで画像認識させながら
ロボットをリアルタイムで動かすくらいは可能
据え置きシステムなら 計算リソースは無尽蔵
http://jabelone.com.au/blog/make-autonomous-car-code-included/
https://www.youtube.com/watch?v=tFwCyHdAWf
0
- 38. ロボットの強化学習
● ロボットの強化学習は難しい
○ 試行回数に限界がある(ロボットは壊れる)
○ 1つのロボットが収集できるデータには限界がある
■ 100万回も試行できない
○ 確立したロボティクスの分野に入り込む余地がない
■ SLAM, Planning, 確立した技術が成立している
○ ロボットの計算リソースは限られている
学習時,最初は壊れても良い
ロボットは大量生産される
品質は管理される
SLAMは最尤推定・Bayes推定
Planningは状態(モデルパラメータ)が推
定されれば可能
強化学習で同時に解く試みもある
クラウド・無線通信・小型 PC
巨大なネットワークで画像認識させながら
ロボットをリアルタイムで動かすくらいは可能
据え置きシステムなら 計算リソースは無尽蔵
- 39. 最近のトレンド
● ソフトウェアフレームワーク が公開されはじめた
(Open-AI Gym etc.): モダンなものは Python のみ
● 共通のインターフェース で多様な問題を扱う
○ インターフェースを合わせることで,新たな問題が扱える
https://github.com/erlerobot/gym-gazebo
https://github.com/wbap/lis
https://universe.openai.com
https://deepmind.com/docum
ents/29/DeepMindLab.pdf
https://github.com/ugo-nama-k
un/gym_torcs
- 40. 文献情報
● Reinforcement Learning State-of-the-Art
○ Wiering, Marco, van Otterlo, Martijn (Eds.), 2012
● Sutton & Barto 本 2.0
○ 近日発売予定?
○ https://webdocs.cs.ualberta.ca/~sutton/book/bookdraft2016sep.pdf
● これからの強化学習
○ 牧野 貴樹, 澁谷 長史, 白川 真一 (著, 編集), 2016
● 強くなるロボティック・ゲームプレイヤーの作り方
○ 八谷 大岳, 杉山 将 (著), 2008 ← 再版された!
Yan Duan, Xi Chen, Rein Houthooft, John Schulman, Pieter Abbeel.
"Benchmarking Deep Reinforcement Learning for Continuous Control".
Proceedings of the 33rd International Conference on Machine Learning
(ICML), 2016.
- 42. Take Home Message
● 強化学習にアクセスするのはなかなか難しい
● 深層学習と,強化学習は全然別のこと
○ 強化学習は学習の「枠組み」
○ 深層学習はニューラルネットワークという「やり方」
● モデルベース強化学習 と モデルフリー強化学習 がある
○ それぞれに強さ・弱点がある
● ロボットの強化学習も,よく考えれば適用できそうな場面が増えてきた
○ よく考えなければ,難しい.まだまだ研究が必要.量産ロボットの可能性
● 近年のモデルベース強化学習をより詳しく知りたい方は
○ 「Model-based 強化学習とその周辺」
■ https://drive.google.com/drive/folders/0BzMTR9k7rE1_d2p0TG15Q0tvZzQ