Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Can increasing input dimensionality improve deep reinforcement learning?

895 Aufrufe

Veröffentlicht am

Can increasing input dimensionality improve deep reinforcement learning?

Veröffentlicht in: Technologie
  • Loggen Sie sich ein, um Kommentare anzuzeigen.

  • Gehören Sie zu den Ersten, denen das gefällt!

Can increasing input dimensionality improve deep reinforcement learning?

  1. 1. Can Increasing Input Dimensionality Improve Deep Reinforcement Learning? 北海道大学 大学院 情報科学院 調和系工学研究室 修士課程1年 大江 弘峻
  2. 2. 1論文情報 • Kei Ota1, Tomoaki Oiki1, Devesh K. Jha2, Toshisada Mariyama1, Daniel Nikovski2 – 1Mitsubishi Electric Corporation – 2Mitsubishi Electric Research Laboratory • International Conference on Machine Learning (ICML 2020) • 論文 https://arxiv.org/abs/2003.01629 • スライド発表(SlidesLive) https://slideslive.com/38928117/can-increasing-input- dimensionality-improve-deep-reinforcement-learning • コード https://www.merl.com/research/license/OFENet
  3. 3. 2概要 • 連続値制御のタスクにおいて高次元な状態表現を学習 することによって有益な探索空間を獲得 • 元の観測表現より高次元な状態表現を学習させる表現獲 得用ネットワーク(OFENet)を提案 • MuJoCoの連続値制御タスクにおいてスコアを改善
  4. 4. 3導入 – 連続値制御タスクの探索空間 • 物理演算の制御を行う連続値制御のタスクは、探索空間 (入力状態)が小さい Walker2d-v2(MuJoCo)の入力次元: 17 Breakout(Atari-57)の入力次元: 84 × 84 × 4 = 28,224
  5. 5. 4関連研究: ML-DDPG • 観測状態を学習させるネットワークをDDPGに追加 • 内部表現 𝒁 𝒐 𝒕 をDDPGの入力に使用 • ネットワークは次内部表現 𝒁 𝒐 𝒕+𝟏 と報酬 𝒓 𝒕+𝟏を予測 𝐿 𝑚 = 𝑍 𝑜 𝑡+1 − 𝑍 𝑜 𝑡+1 2 + 𝜆 𝑚 𝑟𝑡+1 − 𝑟𝑡+1 2 • ただ、𝒁 𝒐 𝒕 の大きさは 𝒐 𝒕 の1/3となっている(圧縮) 𝒐 𝒕 FC 𝒁 𝒐 𝒕 𝒂 𝒕 concat FC FCFC 𝒁 𝒐 𝒕+𝟏 𝒓 𝒕+𝟏
  6. 6. 5OFENet(提案手法) • 補助タスク(次状態の予測)を学習させることによって、 高次元の状態表現の獲得を行うネットワーク • 高次元の状態表現 𝒁 𝒐 𝒕 と 𝒁 𝒐 𝒕,𝒂 𝒕 を学習 𝝓 𝒐 State Feature Extractor 𝝓 𝒐,𝒂 State-Action Feature Extractor 𝒐 𝒕 𝒁 𝒐 𝒕 𝒂 𝒕 𝒁 𝒐 𝒕,𝒂 𝒕 π Policy Network 𝒁 𝒐 𝒕 𝒂 𝒕 𝑸 Value Function Networks 𝑸 𝒐 𝒕, 𝒂 𝒕 𝒁 𝒐 𝒕,𝒂 𝒕
  7. 7. 6補助タスクの学習 • 次状態を予測するためのモジュール 𝑓predを追加 • パラメータ 𝜽 𝐚𝐮𝐱 = {𝜽 𝝓 𝒐 , 𝜽 𝝓 𝒐,𝒂 , 𝜽 𝐩𝐫𝐞𝐝} を以下の損失関数 で最適化 𝐿 𝑎𝑢𝑥 = 𝔼 𝑜 𝑡,𝑎 𝑡 ~𝑝,𝜋 𝑓pred 𝑍 𝑜 𝑡,𝑎 𝑡 − 𝑜𝑡+1 2 𝝓 𝒐 State Feature Extractor 𝝓 𝒐,𝒂 State-Action Feature Extractor 𝒐 𝒕 𝒁 𝒐 𝒕 𝒂 𝒕 𝒁 𝒐 𝒕,𝒂 𝒕 𝒇 𝐩𝐫𝐞𝐝 Linear Network 𝒐 𝒕+𝟏 𝜽 𝝓 𝒐 𝜽 𝝓 𝒐,𝒂 𝜽 𝐩𝐫𝐞𝐝
  8. 8. 7OFENetを使用した強化学習の流れ • オンライン学習によってRLモデルと同時に学習 • 学習するバッチは異なる
  9. 9. 8実験① 最適なアーキテクチャの調査 • 補助タスクと実際のタスク(報酬の最大化)を使って最適な OFENetのアーキテクチャを調査 – 層同士の接続方法: 𝐌𝐋𝐏, 𝐌𝐋𝐏 𝐑𝐞𝐬𝐍𝐞𝐭, 𝐌𝐋𝐏 𝐃𝐞𝐧𝐬𝐞𝐍𝐞𝐭 – 層の数: MLPの場合 nlayers ∈ {1, 2, 3, 4}、それ以外 nlayers∈ {2, 4, 6, 8} – 活性化関数: 𝐑𝐞𝐋𝐔, 𝐭𝐚𝐧𝐡, 𝐋𝐞𝐚𝐤𝐲 𝐑𝐞𝐋𝐔, 𝐬𝐰𝐢𝐬𝐡, 𝐒𝐄𝐋𝐔 • 補助スコアの測定: ランダムに収集した100kの遷移を訓練に、 20kを評価に使用 • 実スコアの測定: 500kステップ学習したSACの報酬を使用 FC 𝒐 𝒕 FC 𝒁 𝒐 𝒕 MLP Net FC 𝒐 𝒕 FC 𝒁 𝒐 𝒕 MLP ResNet FC 𝒐 𝒕 FC 𝒁 𝒐 𝒕 MLP DenseNet concat concat
  10. 10. 9実験① 結果 • 補助スコアは小さい方が良く、実スコアは大きい方が良い • MLP-DenseNetがどの組み合わせでも良いスコアを獲得 • アーキテクチャによって性能が大きく変化
  11. 11. 10実験② 様々なRLアルゴリズムとタスクで比較 • MuJoCoの連続値制御タスクを学習 • 使用する強化学習アルゴリズム – SAC – TD3 – PPO • 以下の手法を比較 – 従来手法ML-DDPGをSACに変更したモデル – 上記の強化学習アルゴリズムに対してOFENetの有無 オフポリシー オンポリシー Hopper-v2 Walker2d-v2 HalfCheetah-v2 Ant-v2 Humanoid-v2
  12. 12. 11実験② 結果 • ほとんどの場合においてスコアが改善 – OFENetはRLにとって有益な特徴を学習可能
  13. 13. 12Ablation study – OFENetの有無 • SACをAnt-v2で学習 • 単純にSACのパラメータを増やしただけではスコアは 大きく改善しない
  14. 14. 13Ablation study – Batch-Normalization • SACをAnt-v2で学習 • Batch-Normalizationがオンライン学習中に変化する入力 分布の影響を抑制
  15. 15. 14Ablation study – 補助タスクとオンライン学習 • SACをAnt-v2で学習 • 実タスク(報酬の最大化)では高次元表現の獲得が不可 • オンライン学習によって新たな遷移に対応
  16. 16. 15出力表現の大きさに関する比較 • HalfCheetah-v2におけるSAC(OFE)で比較 • 大きすぎても、小さすぎても良くない
  17. 17. 16まとめ • 提案手法OFENetによって高次元で有益な表現の獲得に 成功 • OFENetを単純に追加するだけで性能の改善が可能 – 元のRLアルゴリズムのパラメータのチューニングが不要 • 今後は高次元入力に対する学習を検討

×