[DL輪読会]Crossing the Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for Dynamics (IROS2020)

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Jumpei Arima
Crossing the Gap:A Deep Dive into Zero-Shot Sim-
to-RealTransfer for Dynamics (IROS2020)

書誌情報
• タイトル：Crossing the Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for
Dynamics
• 著者：Eugene Valassakis, Zihan Ding, and Edward Johns
– The Robot Learning Lab at Imperial College London
• 会議：IROS2020
• project page: https://www.robot-learning.uk/crossing-the-gap
• arxiv: https://arxiv.org/abs/2008.06686
• 概要：
– ロボットのアームタスクでのzero-shot sim2real transferの徹底的な検証をした
– 単にランダムな力を加えるRandom Force Injectionがパラメータ調整が大変な
Domain Randomizationと同等の性能を得られることを実験によって示した
2

背景
3
• ロボット学習のためのSim to Real
– 現状のRLアルゴリズムでは実機でロボット学習には時間・安全コストが高い
– 高速化・安全を考えRLをシミュレータで行い、学習した方策モデルを実機に転移するSim2Realの研究
が2017年頃から盛ん
– 画像のGapは解決しつつあるが、ダイナミクスのGapは未だ難しい
• Domain Randomizationを用いた手法が主流
– pushing, locomotion, dexterous manipulationなどで成果が出ている

背景
• Sim to Realの先行研究の問題点
– ひとつのタスクに特化しているため、
他のタスクにスケーラブルできないことが多い
– task固有のドメイン知識を広く必要とする
– randomにするパラメータの調整が重要になってくる＆試行錯誤が必要
– sim2simでの評価のみを行っている
実験・実装をした人と論文を読んだだけ人の間に
Sim to Realに対する理解のgapが生じている
• ３つのタスクでsim/realの双方で先行研究の手法を幅広く実験し評価
• エンジニアリングがどの程度必要か・方策の学習方法を明らかにする
• Random Force Injectionによる手法を提案
4

• POMDP
• 状態遷移
• 観測
• Sim to Real
• 本研究ではダイナミクスのreality gapのみを考えるので、
観測のgapを極力小さくする(低次元情報を入力とする)
問題設定
5

• 複数のsimの設定で複数の方策モデルを学習しsimとrealで実験し評価
• 実験の手順を明確化し、エンジニアリングコストがどのくらいかを明記
1. Domain Randomizationなし(NR)
2. Domain Randomization(DR)
3. Random Force Injection (RFI)
4. RFI with Observation Noise (RFI+)
提案手法
6
A) Conservative Policy
B) Adaptive Policy
C) Universal Policy with OSI (UPOSI)
D) Environment Probing Interaction Policy(EPI)

Domain Randomization
• パラメータのベースラインの設定
– ロボットのkinematicsに関するパラメータ情報はURDFから得る
– Object情報は実計測・摩擦は実験的に計測
– dynamicsパラメータは任意の制御信号に対するsimでの応答との差を
コスト関数として最適化した値を使用
– ノイズ・時間遅延は0
• ランダマイズするパラメータの分布の調整
– パラメータの性質から利用する分布を設定
(Uniform, Categorical, log-uniform, …)
– ハードコードの方策で得た実世界のデータの挙動とsimでの挙動を比較し、
パラメータを調整
• Policy学習後にsimとrealでの性能を評価し、分布を再調整
7

Random Force Injection
• Domain Randomization(DR)
– 各エピソード開始時に、設定したパラメータ分布からサンプルする(episodeの間固定)
– 複数のダイナミクス自体に明示的に適応するように学習する
• Random Force Injection(RFI)
– 各ステップごとにランダムな力を加える
– パラメータ数はシステムによって固定・設定するのは分布範囲のみ
– DRに比べて、設定パラメータ数が少なくパラメータ設計に関する知識が必要ない
– 実世界の状態分布を包含することを目的とした手法
• RFI with Observation Noise (RFI+)
– RFIでは観測ノイズが考慮されていないので比較のため
観測にのみノイズを入れたものでも評価する 8
運動方程式 Random force

方策の学習
• 4つの方策を学習し比較
9
Conservative Policy
• FC４層
• TD3で学習
Universal Policy with Online System Identification (UPOSI)
• OnlineでシステムID(質量, PID
ゲイン, 摩擦, …)を推定する
OSIを教師ありで学習
• 方策にsystem IDも入力
• TD3で学習
Adaptive Policy
• Actionも入力
• LSTM層を追加
• TD3で学習
Environment Probing Interaction Policies (EPI)
• 次の状態を予測する
順モデルを学習
• 埋め込み表現zを方策
の入力にする
• PPOで学習

実験設定
• MuJoCo, Robosuite, Sawer
• パラメータ数
– DR: 31~67
– RFI: 7~13
– RFI+: RFI + 2~7
• Reaching, Pushingは
３つの難易度を設定
10
• ３つのタスクで実験(RLの学習はsimのみ)
Reaching Pushing Sliding

実験結果
• RFIが3つのReal環境の成功率が最も高い
• RealでのNR, UPOSIの性能が著しく低い以外は
各手法の優劣をつけるほど明確な結果ではない
– DRが数日のパラメータ調整が必要なのに対し、RFIは学習後の調整は必要ない
11

実験結果
12
• RFI > RFI+
– ランダムするパラメータが増える分、チューニングが必要である
– 観測ノイズがRFIより優れた結果を出すことは実験では見られなかった
– チューニングすれば、良い結果が出る可能性はある
– Slidingタスクでは、RFI+は安定した(落ちにくい)方策をRFIは積極的な(落ちる確率は
上がるが成功率は高い)方策を学習した

実験結果
13
• Conservative > Adaptive
– Adaptive (LSTMを含む)方策が先行研究では良いとされていたが、
逆の結果が得られた
– エピソードの長さが短いのが原因であると考えられるが、
必ずしもAdaptiveな方策が良いとは限らないことがわかった

実験結果
14
• UPOSIは学習がほぼできていない, EPIはタスクによって性能さがバラつく
• UPOSIのPushing以外は環境情報の予測モデルを用いている
• EPI、OSI共に環境情報の予測精度は精度はよくない
• (state, action)のデータのみからダイナミクス情報を
推論することは困難
方策の入力の環境情報をノイズにしたものと比較（成功率）
EPIの潜在表現zのt-SNEで可視化
OSIモジュールの精度

結論
• アームロボットのダイナミクスの転移が重要な制御タスクにおいて
zero-shotのSim to Realの手法を徹底的に調査
• Sim to Realのダイナミクスの転移において以下のことを実験で示した
– Domain Randomizationはパラメータの調整をしっかり行わないと性能が出ない
– 単にランダムな力を加えるRandom Force Injectionが
Domain Randomizationと同等の性能を出すことができる
– onlineでの環境情報の推論を行う手法は全体的に性能が劣る傾向がある
<感想>
• DRの研究では、パラメータ調整の自動化・効率化の研究が盛んなのでそちらも要注目だが、
この論文の指摘は面白いと思った
• 実装・実験の詳細が充実している(論文8ページ＋補足資料21ページ)
15

[DL輪読会]Crossing the Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for Dynamics (IROS2020)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

[DL輪読会]Crossing the Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for Dynamics (IROS2020)