Suche senden
Hochladen
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
•
7 gefällt mir
•
7,502 views
Katsuya Ito
Folgen
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Weniger lesen
Mehr lesen
Ingenieurwesen
Melden
Teilen
Melden
Teilen
1 von 36
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
深層学習の数理
深層学習の数理
Taiji Suzuki
Empfohlen
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
深層学習の数理
深層学習の数理
Taiji Suzuki
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
深層強化学習と実装例
深層強化学習と実装例
Deep Learning Lab(ディープラーニング・ラボ)
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
ICML2021の連合学習の論文
ICML2021の連合学習の論文
Katsuya Ito
金融時系列解析入門 AAMAS2021 著者発表会
金融時系列解析入門 AAMAS2021 著者発表会
Katsuya Ito
Weitere ähnliche Inhalte
Was ist angesagt?
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
深層強化学習と実装例
深層強化学習と実装例
Deep Learning Lab(ディープラーニング・ラボ)
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
Was ist angesagt?
(20)
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
深層強化学習と実装例
深層強化学習と実装例
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
深層生成モデルと世界モデル
深層生成モデルと世界モデル
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
GAN(と強化学習との関係)
GAN(と強化学習との関係)
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
backbone としての timm 入門
backbone としての timm 入門
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Mehr von Katsuya Ito
ICML2021の連合学習の論文
ICML2021の連合学習の論文
Katsuya Ito
金融時系列解析入門 AAMAS2021 著者発表会
金融時系列解析入門 AAMAS2021 著者発表会
Katsuya Ito
西山計量経済学第8章 制限従属変数モデル
西山計量経済学第8章 制限従属変数モデル
Katsuya Ito
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習
Katsuya Ito
非同期時系列のLead-lag効果推定のための新しい推定量
非同期時系列のLead-lag効果推定のための新しい推定量
Katsuya Ito
表明保証と補償責任
表明保証と補償責任
Katsuya Ito
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Katsuya Ito
新問題研究 要件事実
新問題研究 要件事実
Katsuya Ito
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Katsuya Ito
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Katsuya Ito
量子プログラミング入門
量子プログラミング入門
Katsuya Ito
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
Katsuya Ito
ICLR 2018 Best papers 3本を紹介
ICLR 2018 Best papers 3本を紹介
Katsuya Ito
計算数学I TA小話①(TeXについて)
計算数学I TA小話①(TeXについて)
Katsuya Ito
Black-Scholesの面白さ
Black-Scholesの面白さ
Katsuya Ito
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
Katsuya Ito
Goodfellow先生おすすめのGAN論文6つを紹介
Goodfellow先生おすすめのGAN論文6つを紹介
Katsuya Ito
とぽろじー入門(画像なし版)
とぽろじー入門(画像なし版)
Katsuya Ito
Mehr von Katsuya Ito
(18)
ICML2021の連合学習の論文
ICML2021の連合学習の論文
金融時系列解析入門 AAMAS2021 著者発表会
金融時系列解析入門 AAMAS2021 著者発表会
西山計量経済学第8章 制限従属変数モデル
西山計量経済学第8章 制限従属変数モデル
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習
非同期時系列のLead-lag効果推定のための新しい推定量
非同期時系列のLead-lag効果推定のための新しい推定量
表明保証と補償責任
表明保証と補償責任
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
新問題研究 要件事実
新問題研究 要件事実
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
量子プログラミング入門
量子プログラミング入門
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
ICLR 2018 Best papers 3本を紹介
ICLR 2018 Best papers 3本を紹介
計算数学I TA小話①(TeXについて)
計算数学I TA小話①(TeXについて)
Black-Scholesの面白さ
Black-Scholesの面白さ
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
Goodfellow先生おすすめのGAN論文6つを紹介
Goodfellow先生おすすめのGAN論文6つを紹介
とぽろじー入門(画像なし版)
とぽろじー入門(画像なし版)
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
1.
世の中に転がってる 強化学習の良記事を まとめたやつ 伊藤
2.
今日の目標~これを理解したい~ 最近深層強化学習も体系だって勉強できるようになったし、概要だけでも勉強しよう。 https://qiita.com/shionhonda/items/ec05aade07b5bea78081
3.
参考 • 良Qiita https://qiita.com/shionhonda/items/ec05aade07b5bea78081 • PFNの前田さんの良スライド https://www.slideshare.net/pfi/nlp2018-introduction-of-deep- reinforcement-learning •
DeepMindの良チュートリアルICML http://hunch.net/~beygel/deep_rl_tutorial.pdf • DQNを理解したので、Gopherくんの図を使って説明 https://qiita.com/ishizakiiii/items/5eff79b59bce74fdca0d • まとめてあるBlog http://blog.syundo.org/post/20180115-reinforcement-learning/
4.
0. Policy(方策):状況→動作 • Policyとは状況から動作への写像である。 •
ある状況に対してAgentが動作をする。 • 確定的な場合は と書ける。 • 確率的な場合は と書ける。 http://hunch.net/~beygel/deep_rl_tutorial.pdf
5.
0. Q関数:状態×動作→rewardの合計 • Q関数とは、 •
ある方策πのもとで、 • 状態sと行動aを与えたときに、 • どれだけのrewardを得ることができるのかを与えてくれる関数 ただしγは割引率。 http://hunch.net/~beygel/deep_rl_tutorial.pdf
6.
Atariでの例 http://hunch.net/~beygel/deep_rl_tutorial.pdf
7.
Q(s,a)のイメージ https://qiita.com/ishizakiiii/items/5eff79b59bce74fdca0d
8.
3つの強化学習 • 価値ベースRL • 最適な価値関数Q*を学習する •
適当な方策πを決める • 方策ベースRL • 最適な方策π*を直接決める • モデルベースRL • 環境に関するモデルをすでに構築できる場合 • 環境に応じてQやπを作る。
9.
1.価値ベース
10.
最適なQ価値関数~こいつだけを信じろ~ ・価値ベースの強化学習は、最強のQ*を求めることに尽きる。 ・最強のQ*とはゲームの最強のマップみたいなもの(右下) ・最強のQ*を最大化するようなactionを取ることにより 最適なpolicy π*が生成される。(左下)
11.
価値ベースRLの一般的な流れ https://www.slideshare.net/pfi/nlp2018-introduction- of-deep-reinforcement-learning
12.
Q-learning • 最適なQ*は以下のようなベルマン方程式に従う • よって、右辺の[]内
を目的変数として、 • Q(s,a)を勾配法で近似する。つまり、以下を最小化する。 http://hunch.net/~beygel/deep_rl_tutorial.pdf
13.
Q-learningの問題点とDQNの克服 http://blog.syundo.org/post/20171208-reinforcement- learning-dqn-and-impl/
14.
DQNを図で。 Experience Replay クリッピング([-1,1]に) Q(s,a)
15.
DQNの派生 • Dueling Net
Qをsの関数とs,aの関数に分離 • Double DQN w’で得られた行動をwでさらに評価(過大評価を抑止) • Prioritized replay 驚き度合で前の経験を重点サンプル
16.
Gorilla (General Reinforcement
Learning Architecture)
17.
Rainbow(全部乗せ)
18.
2.方策ベース
19.
方策ベース(現在の方策を改善する) を変更することによってリワードを最大化する。 https://www.slideshare.net/pfi/nlp2018-introduction-of-deep-reinforcement-learning
20.
方策勾配法(の説明2) 勾配の分散をへらすためbでひく https://qiita.com/shionhonda/items/ec05aade07b5bea 78081
21.
REINFORCE • Tステップ・Mエピソード行い、その平均で近似する
22.
Actor-Critic • REINFORCE • Qは平均で近似するのみ・学習はしない •
Actor-Critic • Actor:行動をして、環境に働きかける→π • Critic:Actorの評価をする→Q • 行動を決めるActor(行動器)を直接改善しながら, • 方策を評価するCritic(評価器)も同時に学習させる
23.
24.
A3C https://qiita.com/yuishihara/items/2edad97148f09c282a9a https://www.slideshare.net/pfi/nlp2018-introduction-of-deep- reinforcement-learning よさそうなQiita
25.
DDPG Deep Deterinistic
Policy Gradient https://qiita.com/shionhonda/items/ec05aade07b5bea 78081
26.
DDPG(DQNの連続version)
27.
DDPG DDPGについては、PFNインターンでいっしょだった石川さんの記事が勉強になるよ~ https://sykwer.hatenablog.jp/entry/2018/03/08/105711
28.
TRPO • 方策ベース • 1度方策関数が劣化するとその後で報酬が得られなくなる •
その後の改善が困難になる • TRPO (trust region policy optimization) • 更新前後の重みのKLダイバージェンスに制約を設けますtrust region • NNの重みを慎重に更新していく
29.
PPO Proximal Policy
Optimization • TRPOと方針は同じ • r(θ,s,a)をクリップすることによって、1-ε,1+εの間に。 • クリップする前の目的関数と比較して最小値を取る • 大きな報酬につられて大胆な重み更新をしないようにしています.
30.
NAC • これまでユークリッド距離で定めていた方策勾配として, • KLダイバージェンス(擬距離)で定めた自然勾配を用いた •
自然勾配については以下のAmari先生の記事が勉強になる https://www.jstage.jst.go.jp/article/sicejl1962/40/10/40_10_735/_pdf
31.
https://www.slideshare.net/pfi/nlp2018-introduction-of-deep-reinforcement-learning
32.
価値ベースと方策ベース 価値ベース 方策ベース 最適化の対象 価値関数 方策関数 最適化アルゴリズム
Q学習かSARSA 確率的勾配降下法など 利点 任意の方策で探索できる 行動空間が広くても学習できる 欠点 行動空間が広いと学習が難しい. メモリが必要 モデルが劣化した後の復帰が難 しい https://qiita.com/shionhonda/items/ec05aade07b5bea78081
33.
3.最近のやつとか
34.
Ape-X • 優先度付き経験再生を分散処理で高速化した • DQN版の他に決定方策勾配法(DPG)版もある •
Atariのスコアが人の約4倍
35.
R2D2(Recurrent Experience Replay
in Distributed Reinforcement Learning ) • ICLR under review (スコア:7-6-7) • LSTMと経験再生と分散学習を組み合わせたアルゴリズム • 順番を変える経験再生とLSTMは相性が悪いとされる
36.
UNREAL • 動物が肯定的な、あるいは否定的な報酬に関わる出来事の夢を 頻繁に見るように、 • われわれが作り出したエージェントも報酬に関わる出来事を含 むシーケンスを優先的に再現するようになっている
Jetzt herunterladen