SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Downloaden Sie, um offline zu lesen
世の中に転がってる
強化学習の良記事を
まとめたやつ
伊藤
今日の目標~これを理解したい~
最近深層強化学習も体系だって勉強できるようになったし、概要だけでも勉強しよう。
https://qiita.com/shionhonda/items/ec05aade07b5bea78081
参考
• 良Qiita
https://qiita.com/shionhonda/items/ec05aade07b5bea78081
• PFNの前田さんの良スライド
https://www.slideshare.net/pfi/nlp2018-introduction-of-deep-
reinforcement-learning
• DeepMindの良チュートリアルICML
http://hunch.net/~beygel/deep_rl_tutorial.pdf
• DQNを理解したので、Gopherくんの図を使って説明
https://qiita.com/ishizakiiii/items/5eff79b59bce74fdca0d
• まとめてあるBlog
http://blog.syundo.org/post/20180115-reinforcement-learning/
0. Policy(方策):状況→動作
• Policyとは状況から動作への写像である。
• ある状況に対してAgentが動作をする。
• 確定的な場合は と書ける。
• 確率的な場合は と書ける。
http://hunch.net/~beygel/deep_rl_tutorial.pdf
0. Q関数:状態×動作→rewardの合計
• Q関数とは、
• ある方策πのもとで、
• 状態sと行動aを与えたときに、
• どれだけのrewardを得ることができるのかを与えてくれる関数
ただしγは割引率。
http://hunch.net/~beygel/deep_rl_tutorial.pdf
Atariでの例
http://hunch.net/~beygel/deep_rl_tutorial.pdf
Q(s,a)のイメージ
https://qiita.com/ishizakiiii/items/5eff79b59bce74fdca0d
3つの強化学習
• 価値ベースRL
• 最適な価値関数Q*を学習する
• 適当な方策πを決める
• 方策ベースRL
• 最適な方策π*を直接決める
• モデルベースRL
• 環境に関するモデルをすでに構築できる場合
• 環境に応じてQやπを作る。
1.価値ベース
最適なQ価値関数~こいつだけを信じろ~
・価値ベースの強化学習は、最強のQ*を求めることに尽きる。
・最強のQ*とはゲームの最強のマップみたいなもの(右下)
・最強のQ*を最大化するようなactionを取ることにより
最適なpolicy π*が生成される。(左下)
価値ベースRLの一般的な流れ
https://www.slideshare.net/pfi/nlp2018-introduction-
of-deep-reinforcement-learning
Q-learning
• 最適なQ*は以下のようなベルマン方程式に従う
• よって、右辺の[]内 を目的変数として、
• Q(s,a)を勾配法で近似する。つまり、以下を最小化する。
http://hunch.net/~beygel/deep_rl_tutorial.pdf
Q-learningの問題点とDQNの克服
http://blog.syundo.org/post/20171208-reinforcement-
learning-dqn-and-impl/
DQNを図で。
Experience Replay
クリッピング([-1,1]に)
Q(s,a)
DQNの派生
• Dueling Net Qをsの関数とs,aの関数に分離
• Double DQN w’で得られた行動をwでさらに評価(過大評価を抑止)
• Prioritized replay 驚き度合で前の経験を重点サンプル
Gorilla (General Reinforcement Learning Architecture)
Rainbow(全部乗せ)
2.方策ベース
方策ベース(現在の方策を改善する)
を変更することによってリワードを最大化する。
https://www.slideshare.net/pfi/nlp2018-introduction-of-deep-reinforcement-learning
方策勾配法(の説明2)
勾配の分散をへらすためbでひく
https://qiita.com/shionhonda/items/ec05aade07b5bea
78081
REINFORCE
• Tステップ・Mエピソード行い、その平均で近似する
Actor-Critic
• REINFORCE
• Qは平均で近似するのみ・学習はしない
• Actor-Critic
• Actor:行動をして、環境に働きかける→π
• Critic:Actorの評価をする→Q
• 行動を決めるActor(行動器)を直接改善しながら,
• 方策を評価するCritic(評価器)も同時に学習させる
A3C
https://qiita.com/yuishihara/items/2edad97148f09c282a9a
https://www.slideshare.net/pfi/nlp2018-introduction-of-deep-
reinforcement-learning
よさそうなQiita
DDPG Deep Deterinistic Policy Gradient
https://qiita.com/shionhonda/items/ec05aade07b5bea
78081
DDPG(DQNの連続version)
DDPG
DDPGについては、PFNインターンでいっしょだった石川さんの記事が勉強になるよ~
https://sykwer.hatenablog.jp/entry/2018/03/08/105711
TRPO
• 方策ベース
• 1度方策関数が劣化するとその後で報酬が得られなくなる
• その後の改善が困難になる
• TRPO (trust region policy optimization)
• 更新前後の重みのKLダイバージェンスに制約を設けますtrust region
• NNの重みを慎重に更新していく
PPO Proximal Policy Optimization
• TRPOと方針は同じ
• r(θ,s,a)をクリップすることによって、1-ε,1+εの間に。
• クリップする前の目的関数と比較して最小値を取る
• 大きな報酬につられて大胆な重み更新をしないようにしています.
NAC
• これまでユークリッド距離で定めていた方策勾配として,
• KLダイバージェンス(擬距離)で定めた自然勾配を用いた
• 自然勾配については以下のAmari先生の記事が勉強になる
https://www.jstage.jst.go.jp/article/sicejl1962/40/10/40_10_735/_pdf
https://www.slideshare.net/pfi/nlp2018-introduction-of-deep-reinforcement-learning
価値ベースと方策ベース
価値ベース
方策ベース
最適化の対象 価値関数 方策関数
最適化アルゴリズム Q学習かSARSA 確率的勾配降下法など
利点 任意の方策で探索できる 行動空間が広くても学習できる
欠点
行動空間が広いと学習が難しい.
メモリが必要
モデルが劣化した後の復帰が難
しい
https://qiita.com/shionhonda/items/ec05aade07b5bea78081
3.最近のやつとか
Ape-X
• 優先度付き経験再生を分散処理で高速化した
• DQN版の他に決定方策勾配法(DPG)版もある
• Atariのスコアが人の約4倍
R2D2(Recurrent Experience Replay in
Distributed Reinforcement Learning )
• ICLR under review (スコア:7-6-7)
• LSTMと経験再生と分散学習を組み合わせたアルゴリズム
• 順番を変える経験再生とLSTMは相性が悪いとされる
UNREAL
• 動物が肯定的な、あるいは否定的な報酬に関わる出来事の夢を
頻繁に見るように、
• われわれが作り出したエージェントも報酬に関わる出来事を含
むシーケンスを優先的に再現するようになっている

Weitere ähnliche Inhalte

Was ist angesagt?

[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 

Was ist angesagt? (20)

[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
深層強化学習と実装例
深層強化学習と実装例深層強化学習と実装例
深層強化学習と実装例
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 

Mehr von Katsuya Ito

ICML2021の連合学習の論文
ICML2021の連合学習の論文ICML2021の連合学習の論文
ICML2021の連合学習の論文Katsuya Ito
 
金融時系列解析入門 AAMAS2021 著者発表会
金融時系列解析入門 AAMAS2021 著者発表会金融時系列解析入門 AAMAS2021 著者発表会
金融時系列解析入門 AAMAS2021 著者発表会Katsuya Ito
 
西山計量経済学第8章 制限従属変数モデル
西山計量経済学第8章 制限従属変数モデル西山計量経済学第8章 制限従属変数モデル
西山計量経済学第8章 制限従属変数モデルKatsuya Ito
 
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習Katsuya Ito
 
非同期時系列のLead-lag効果推定のための新しい推定量
非同期時系列のLead-lag効果推定のための新しい推定量非同期時系列のLead-lag効果推定のための新しい推定量
非同期時系列のLead-lag効果推定のための新しい推定量Katsuya Ito
 
表明保証と補償責任
表明保証と補償責任表明保証と補償責任
表明保証と補償責任Katsuya Ito
 
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...Katsuya Ito
 
新問題研究 要件事実
新問題研究 要件事実新問題研究 要件事実
新問題研究 要件事実Katsuya Ito
 
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定Katsuya Ito
 
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...Katsuya Ito
 
量子プログラミング入門
量子プログラミング入門量子プログラミング入門
量子プログラミング入門Katsuya Ito
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRMLKatsuya Ito
 
ICLR 2018 Best papers 3本を紹介
ICLR 2018 Best papers 3本を紹介ICLR 2018 Best papers 3本を紹介
ICLR 2018 Best papers 3本を紹介Katsuya Ito
 
計算数学I TA小話①(TeXについて)
計算数学I TA小話①(TeXについて)計算数学I TA小話①(TeXについて)
計算数学I TA小話①(TeXについて)Katsuya Ito
 
Black-Scholesの面白さ
Black-Scholesの面白さ Black-Scholesの面白さ
Black-Scholesの面白さ Katsuya Ito
 
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)Katsuya Ito
 
Goodfellow先生おすすめのGAN論文6つを紹介
Goodfellow先生おすすめのGAN論文6つを紹介Goodfellow先生おすすめのGAN論文6つを紹介
Goodfellow先生おすすめのGAN論文6つを紹介Katsuya Ito
 
とぽろじー入門(画像なし版)
とぽろじー入門(画像なし版)とぽろじー入門(画像なし版)
とぽろじー入門(画像なし版)Katsuya Ito
 

Mehr von Katsuya Ito (18)

ICML2021の連合学習の論文
ICML2021の連合学習の論文ICML2021の連合学習の論文
ICML2021の連合学習の論文
 
金融時系列解析入門 AAMAS2021 著者発表会
金融時系列解析入門 AAMAS2021 著者発表会金融時系列解析入門 AAMAS2021 著者発表会
金融時系列解析入門 AAMAS2021 著者発表会
 
西山計量経済学第8章 制限従属変数モデル
西山計量経済学第8章 制限従属変数モデル西山計量経済学第8章 制限従属変数モデル
西山計量経済学第8章 制限従属変数モデル
 
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習
 
非同期時系列のLead-lag効果推定のための新しい推定量
非同期時系列のLead-lag効果推定のための新しい推定量非同期時系列のLead-lag効果推定のための新しい推定量
非同期時系列のLead-lag効果推定のための新しい推定量
 
表明保証と補償責任
表明保証と補償責任表明保証と補償責任
表明保証と補償責任
 
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
 
新問題研究 要件事実
新問題研究 要件事実新問題研究 要件事実
新問題研究 要件事実
 
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
 
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
 
量子プログラミング入門
量子プログラミング入門量子プログラミング入門
量子プログラミング入門
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
 
ICLR 2018 Best papers 3本を紹介
ICLR 2018 Best papers 3本を紹介ICLR 2018 Best papers 3本を紹介
ICLR 2018 Best papers 3本を紹介
 
計算数学I TA小話①(TeXについて)
計算数学I TA小話①(TeXについて)計算数学I TA小話①(TeXについて)
計算数学I TA小話①(TeXについて)
 
Black-Scholesの面白さ
Black-Scholesの面白さ Black-Scholesの面白さ
Black-Scholesの面白さ
 
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
 
Goodfellow先生おすすめのGAN論文6つを紹介
Goodfellow先生おすすめのGAN論文6つを紹介Goodfellow先生おすすめのGAN論文6つを紹介
Goodfellow先生おすすめのGAN論文6つを紹介
 
とぽろじー入門(画像なし版)
とぽろじー入門(画像なし版)とぽろじー入門(画像なし版)
とぽろじー入門(画像なし版)
 

最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた