SlideShare ist ein Scribd-Unternehmen logo
1 von 15
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Jumpei Arima
Crossing the Gap:A Deep Dive into Zero-Shot Sim-
to-RealTransfer for Dynamics (IROS2020)
書誌情報
• タイトル:Crossing the Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for
Dynamics
• 著者:Eugene Valassakis, Zihan Ding, and Edward Johns
– The Robot Learning Lab at Imperial College London
• 会議:IROS2020
• project page: https://www.robot-learning.uk/crossing-the-gap
• arxiv: https://arxiv.org/abs/2008.06686
• 概要:
– ロボットのアームタスクでのzero-shot sim2real transferの徹底的な検証をした
– 単にランダムな力を加えるRandom Force Injectionがパラメータ調整が大変な
Domain Randomizationと同等の性能を得られることを実験によって示した
2
背景
3
• ロボット学習のためのSim to Real
– 現状のRLアルゴリズムでは実機でロボット学習には時間・安全コストが高い
– 高速化・安全を考えRLをシミュレータで行い、学習した方策モデルを実機に転移するSim2Realの研究
が2017年頃から盛ん
– 画像のGapは解決しつつあるが、ダイナミクスのGapは未だ難しい
• Domain Randomizationを用いた手法が主流
– pushing, locomotion, dexterous manipulationなどで成果が出ている
背景
• Sim to Realの先行研究の問題点
– ひとつのタスクに特化しているため、
他のタスクにスケーラブルできないことが多い
– task固有のドメイン知識を広く必要とする
– randomにするパラメータの調整が重要になってくる&試行錯誤が必要
– sim2simでの評価のみを行っている
実験・実装をした人と論文を読んだだけ人の間に
Sim to Realに対する理解のgapが生じている
• 3つのタスクでsim/realの双方で先行研究の手法を幅広く実験し評価
• エンジニアリングがどの程度必要か・方策の学習方法を明らかにする
• Random Force Injectionによる手法を提案
4
• POMDP
• 状態遷移
• 観測
• Sim to Real
• 本研究ではダイナミクスのreality gapのみを考えるので、
観測のgapを極力小さくする(低次元情報を入力とする)
問題設定
5
• 複数のsimの設定で複数の方策モデルを学習しsimとrealで実験し評価
• 実験の手順を明確化し、エンジニアリングコストがどのくらいかを明記
1. Domain Randomizationなし(NR)
2. Domain Randomization(DR)
3. Random Force Injection (RFI)
4. RFI with Observation Noise (RFI+)
提案手法
6
A) Conservative Policy
B) Adaptive Policy
C) Universal Policy with OSI (UPOSI)
D) Environment Probing Interaction Policy(EPI)
Domain Randomization
• パラメータのベースラインの設定
– ロボットのkinematicsに関するパラメータ情報はURDFから得る
– Object情報は実計測・摩擦は実験的に計測
– dynamicsパラメータは任意の制御信号に対するsimでの応答との差を
コスト関数として最適化した値を使用
– ノイズ・時間遅延は0
• ランダマイズするパラメータの分布の調整
– パラメータの性質から利用する分布を設定
(Uniform, Categorical, log-uniform, …)
– ハードコードの方策で得た実世界のデータの挙動とsimでの挙動を比較し、
パラメータを調整
• Policy学習後にsimとrealでの性能を評価し、分布を再調整
7
Random Force Injection
• Domain Randomization(DR)
– 各エピソード開始時に、設定したパラメータ分布からサンプルする(episodeの間固定)
– 複数のダイナミクス自体に明示的に適応するように学習する
• Random Force Injection(RFI)
– 各ステップごとにランダムな力を加える
– パラメータ数はシステムによって固定・設定するのは分布範囲のみ
– DRに比べて、設定パラメータ数が少なくパラメータ設計に関する知識が必要ない
– 実世界の状態分布を包含することを目的とした手法
• RFI with Observation Noise (RFI+)
– RFIでは観測ノイズが考慮されていないので比較のため
観測にのみノイズを入れたものでも評価する 8
運動方程式 Random force
方策の学習
• 4つの方策を学習し比較
9
Conservative Policy
• FC4層
• TD3で学習
Universal Policy with Online System Identification (UPOSI)
• OnlineでシステムID(質量, PID
ゲイン, 摩擦, …)を推定する
OSIを教師ありで学習
• 方策にsystem IDも入力
• TD3で学習
Adaptive Policy
• Actionも入力
• LSTM層を追加
• TD3で学習
Environment Probing Interaction Policies (EPI)
• 次の状態を予測する
順モデルを学習
• 埋め込み表現zを方策
の入力にする
• PPOで学習
実験設定
• MuJoCo, Robosuite, Sawer
• パラメータ数
– DR: 31~67
– RFI: 7~13
– RFI+: RFI + 2~7
• Reaching, Pushingは
3つの難易度を設定
10
• 3つのタスクで実験(RLの学習はsimのみ)
Reaching Pushing Sliding
実験結果
• RFIが3つのReal環境の成功率が最も高い
• RealでのNR, UPOSIの性能が著しく低い以外は
各手法の優劣をつけるほど明確な結果ではない
– DRが数日のパラメータ調整が必要なのに対し、RFIは学習後の調整は必要ない
11
実験結果
12
• RFI > RFI+
– ランダムするパラメータが増える分、チューニングが必要である
– 観測ノイズがRFIより優れた結果を出すことは実験では見られなかった
– チューニングすれば、良い結果が出る可能性はある
– Slidingタスクでは、RFI+は安定した(落ちにくい)方策をRFIは積極的な(落ちる確率は
上がるが成功率は高い)方策を学習した
実験結果
13
• Conservative > Adaptive
– Adaptive (LSTMを含む)方策が先行研究では良いとされていたが、
逆の結果が得られた
– エピソードの長さが短いのが原因であると考えられるが、
必ずしもAdaptiveな方策が良いとは限らないことがわかった
実験結果
14
• UPOSIは学習がほぼできていない, EPIはタスクによって性能さがバラつく
• UPOSIのPushing以外は環境情報の予測モデルを用いている
• EPI、OSI共に環境情報の予測精度は精度はよくない
• (state, action)のデータのみからダイナミクス情報を
推論することは困難
方策の入力の環境情報をノイズにしたものと比較(成功率)
EPIの潜在表現zのt-SNEで可視化
OSIモジュールの精度
結論
• アームロボットのダイナミクスの転移が重要な制御タスクにおいて
zero-shotのSim to Realの手法を徹底的に調査
• Sim to Realのダイナミクスの転移において以下のことを実験で示した
– Domain Randomizationはパラメータの調整をしっかり行わないと性能が出ない
– 単にランダムな力を加えるRandom Force Injectionが
Domain Randomizationと同等の性能を出すことができる
– onlineでの環境情報の推論を行う手法は全体的に性能が劣る傾向がある
<感想>
• DRの研究では、パラメータ調整の自動化・効率化の研究が盛んなのでそちらも要注目だが、
この論文の指摘は面白いと思った
• 実装・実験の詳細が充実している(論文8ページ+補足資料21ページ)
15

Weitere ähnliche Inhalte

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

[DL輪読会]Crossing the Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for Dynamics (IROS2020)

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Jumpei Arima Crossing the Gap:A Deep Dive into Zero-Shot Sim- to-RealTransfer for Dynamics (IROS2020)
  • 2. 書誌情報 • タイトル:Crossing the Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for Dynamics • 著者:Eugene Valassakis, Zihan Ding, and Edward Johns – The Robot Learning Lab at Imperial College London • 会議:IROS2020 • project page: https://www.robot-learning.uk/crossing-the-gap • arxiv: https://arxiv.org/abs/2008.06686 • 概要: – ロボットのアームタスクでのzero-shot sim2real transferの徹底的な検証をした – 単にランダムな力を加えるRandom Force Injectionがパラメータ調整が大変な Domain Randomizationと同等の性能を得られることを実験によって示した 2
  • 3. 背景 3 • ロボット学習のためのSim to Real – 現状のRLアルゴリズムでは実機でロボット学習には時間・安全コストが高い – 高速化・安全を考えRLをシミュレータで行い、学習した方策モデルを実機に転移するSim2Realの研究 が2017年頃から盛ん – 画像のGapは解決しつつあるが、ダイナミクスのGapは未だ難しい • Domain Randomizationを用いた手法が主流 – pushing, locomotion, dexterous manipulationなどで成果が出ている
  • 4. 背景 • Sim to Realの先行研究の問題点 – ひとつのタスクに特化しているため、 他のタスクにスケーラブルできないことが多い – task固有のドメイン知識を広く必要とする – randomにするパラメータの調整が重要になってくる&試行錯誤が必要 – sim2simでの評価のみを行っている 実験・実装をした人と論文を読んだだけ人の間に Sim to Realに対する理解のgapが生じている • 3つのタスクでsim/realの双方で先行研究の手法を幅広く実験し評価 • エンジニアリングがどの程度必要か・方策の学習方法を明らかにする • Random Force Injectionによる手法を提案 4
  • 5. • POMDP • 状態遷移 • 観測 • Sim to Real • 本研究ではダイナミクスのreality gapのみを考えるので、 観測のgapを極力小さくする(低次元情報を入力とする) 問題設定 5
  • 6. • 複数のsimの設定で複数の方策モデルを学習しsimとrealで実験し評価 • 実験の手順を明確化し、エンジニアリングコストがどのくらいかを明記 1. Domain Randomizationなし(NR) 2. Domain Randomization(DR) 3. Random Force Injection (RFI) 4. RFI with Observation Noise (RFI+) 提案手法 6 A) Conservative Policy B) Adaptive Policy C) Universal Policy with OSI (UPOSI) D) Environment Probing Interaction Policy(EPI)
  • 7. Domain Randomization • パラメータのベースラインの設定 – ロボットのkinematicsに関するパラメータ情報はURDFから得る – Object情報は実計測・摩擦は実験的に計測 – dynamicsパラメータは任意の制御信号に対するsimでの応答との差を コスト関数として最適化した値を使用 – ノイズ・時間遅延は0 • ランダマイズするパラメータの分布の調整 – パラメータの性質から利用する分布を設定 (Uniform, Categorical, log-uniform, …) – ハードコードの方策で得た実世界のデータの挙動とsimでの挙動を比較し、 パラメータを調整 • Policy学習後にsimとrealでの性能を評価し、分布を再調整 7
  • 8. Random Force Injection • Domain Randomization(DR) – 各エピソード開始時に、設定したパラメータ分布からサンプルする(episodeの間固定) – 複数のダイナミクス自体に明示的に適応するように学習する • Random Force Injection(RFI) – 各ステップごとにランダムな力を加える – パラメータ数はシステムによって固定・設定するのは分布範囲のみ – DRに比べて、設定パラメータ数が少なくパラメータ設計に関する知識が必要ない – 実世界の状態分布を包含することを目的とした手法 • RFI with Observation Noise (RFI+) – RFIでは観測ノイズが考慮されていないので比較のため 観測にのみノイズを入れたものでも評価する 8 運動方程式 Random force
  • 9. 方策の学習 • 4つの方策を学習し比較 9 Conservative Policy • FC4層 • TD3で学習 Universal Policy with Online System Identification (UPOSI) • OnlineでシステムID(質量, PID ゲイン, 摩擦, …)を推定する OSIを教師ありで学習 • 方策にsystem IDも入力 • TD3で学習 Adaptive Policy • Actionも入力 • LSTM層を追加 • TD3で学習 Environment Probing Interaction Policies (EPI) • 次の状態を予測する 順モデルを学習 • 埋め込み表現zを方策 の入力にする • PPOで学習
  • 10. 実験設定 • MuJoCo, Robosuite, Sawer • パラメータ数 – DR: 31~67 – RFI: 7~13 – RFI+: RFI + 2~7 • Reaching, Pushingは 3つの難易度を設定 10 • 3つのタスクで実験(RLの学習はsimのみ) Reaching Pushing Sliding
  • 11. 実験結果 • RFIが3つのReal環境の成功率が最も高い • RealでのNR, UPOSIの性能が著しく低い以外は 各手法の優劣をつけるほど明確な結果ではない – DRが数日のパラメータ調整が必要なのに対し、RFIは学習後の調整は必要ない 11
  • 12. 実験結果 12 • RFI > RFI+ – ランダムするパラメータが増える分、チューニングが必要である – 観測ノイズがRFIより優れた結果を出すことは実験では見られなかった – チューニングすれば、良い結果が出る可能性はある – Slidingタスクでは、RFI+は安定した(落ちにくい)方策をRFIは積極的な(落ちる確率は 上がるが成功率は高い)方策を学習した
  • 13. 実験結果 13 • Conservative > Adaptive – Adaptive (LSTMを含む)方策が先行研究では良いとされていたが、 逆の結果が得られた – エピソードの長さが短いのが原因であると考えられるが、 必ずしもAdaptiveな方策が良いとは限らないことがわかった
  • 14. 実験結果 14 • UPOSIは学習がほぼできていない, EPIはタスクによって性能さがバラつく • UPOSIのPushing以外は環境情報の予測モデルを用いている • EPI、OSI共に環境情報の予測精度は精度はよくない • (state, action)のデータのみからダイナミクス情報を 推論することは困難 方策の入力の環境情報をノイズにしたものと比較(成功率) EPIの潜在表現zのt-SNEで可視化 OSIモジュールの精度
  • 15. 結論 • アームロボットのダイナミクスの転移が重要な制御タスクにおいて zero-shotのSim to Realの手法を徹底的に調査 • Sim to Realのダイナミクスの転移において以下のことを実験で示した – Domain Randomizationはパラメータの調整をしっかり行わないと性能が出ない – 単にランダムな力を加えるRandom Force Injectionが Domain Randomizationと同等の性能を出すことができる – onlineでの環境情報の推論を行う手法は全体的に性能が劣る傾向がある <感想> • DRの研究では、パラメータ調整の自動化・効率化の研究が盛んなのでそちらも要注目だが、 この論文の指摘は面白いと思った • 実装・実験の詳細が充実している(論文8ページ+補足資料21ページ) 15