Weitere ähnliche Inhalte Mehr von Deep Learning JP (20) [DL輪読会]Crossing the Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for Dynamics (IROS2020)1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Jumpei Arima
Crossing the Gap:A Deep Dive into Zero-Shot Sim-
to-RealTransfer for Dynamics (IROS2020)
2. 書誌情報
• タイトル:Crossing the Gap: A Deep Dive into Zero-Shot Sim-to-Real Transfer for
Dynamics
• 著者:Eugene Valassakis, Zihan Ding, and Edward Johns
– The Robot Learning Lab at Imperial College London
• 会議:IROS2020
• project page: https://www.robot-learning.uk/crossing-the-gap
• arxiv: https://arxiv.org/abs/2008.06686
• 概要:
– ロボットのアームタスクでのzero-shot sim2real transferの徹底的な検証をした
– 単にランダムな力を加えるRandom Force Injectionがパラメータ調整が大変な
Domain Randomizationと同等の性能を得られることを実験によって示した
2
3. 背景
3
• ロボット学習のためのSim to Real
– 現状のRLアルゴリズムでは実機でロボット学習には時間・安全コストが高い
– 高速化・安全を考えRLをシミュレータで行い、学習した方策モデルを実機に転移するSim2Realの研究
が2017年頃から盛ん
– 画像のGapは解決しつつあるが、ダイナミクスのGapは未だ難しい
• Domain Randomizationを用いた手法が主流
– pushing, locomotion, dexterous manipulationなどで成果が出ている
4. 背景
• Sim to Realの先行研究の問題点
– ひとつのタスクに特化しているため、
他のタスクにスケーラブルできないことが多い
– task固有のドメイン知識を広く必要とする
– randomにするパラメータの調整が重要になってくる&試行錯誤が必要
– sim2simでの評価のみを行っている
実験・実装をした人と論文を読んだだけ人の間に
Sim to Realに対する理解のgapが生じている
• 3つのタスクでsim/realの双方で先行研究の手法を幅広く実験し評価
• エンジニアリングがどの程度必要か・方策の学習方法を明らかにする
• Random Force Injectionによる手法を提案
4
5. • POMDP
• 状態遷移
• 観測
• Sim to Real
• 本研究ではダイナミクスのreality gapのみを考えるので、
観測のgapを極力小さくする(低次元情報を入力とする)
問題設定
5
7. Domain Randomization
• パラメータのベースラインの設定
– ロボットのkinematicsに関するパラメータ情報はURDFから得る
– Object情報は実計測・摩擦は実験的に計測
– dynamicsパラメータは任意の制御信号に対するsimでの応答との差を
コスト関数として最適化した値を使用
– ノイズ・時間遅延は0
• ランダマイズするパラメータの分布の調整
– パラメータの性質から利用する分布を設定
(Uniform, Categorical, log-uniform, …)
– ハードコードの方策で得た実世界のデータの挙動とsimでの挙動を比較し、
パラメータを調整
• Policy学習後にsimとrealでの性能を評価し、分布を再調整
7
8. Random Force Injection
• Domain Randomization(DR)
– 各エピソード開始時に、設定したパラメータ分布からサンプルする(episodeの間固定)
– 複数のダイナミクス自体に明示的に適応するように学習する
• Random Force Injection(RFI)
– 各ステップごとにランダムな力を加える
– パラメータ数はシステムによって固定・設定するのは分布範囲のみ
– DRに比べて、設定パラメータ数が少なくパラメータ設計に関する知識が必要ない
– 実世界の状態分布を包含することを目的とした手法
• RFI with Observation Noise (RFI+)
– RFIでは観測ノイズが考慮されていないので比較のため
観測にのみノイズを入れたものでも評価する 8
運動方程式 Random force
9. 方策の学習
• 4つの方策を学習し比較
9
Conservative Policy
• FC4層
• TD3で学習
Universal Policy with Online System Identification (UPOSI)
• OnlineでシステムID(質量, PID
ゲイン, 摩擦, …)を推定する
OSIを教師ありで学習
• 方策にsystem IDも入力
• TD3で学習
Adaptive Policy
• Actionも入力
• LSTM層を追加
• TD3で学習
Environment Probing Interaction Policies (EPI)
• 次の状態を予測する
順モデルを学習
• 埋め込み表現zを方策
の入力にする
• PPOで学習
10. 実験設定
• MuJoCo, Robosuite, Sawer
• パラメータ数
– DR: 31~67
– RFI: 7~13
– RFI+: RFI + 2~7
• Reaching, Pushingは
3つの難易度を設定
10
• 3つのタスクで実験(RLの学習はsimのみ)
Reaching Pushing Sliding
12. 実験結果
12
• RFI > RFI+
– ランダムするパラメータが増える分、チューニングが必要である
– 観測ノイズがRFIより優れた結果を出すことは実験では見られなかった
– チューニングすれば、良い結果が出る可能性はある
– Slidingタスクでは、RFI+は安定した(落ちにくい)方策をRFIは積極的な(落ちる確率は
上がるが成功率は高い)方策を学習した
13. 実験結果
13
• Conservative > Adaptive
– Adaptive (LSTMを含む)方策が先行研究では良いとされていたが、
逆の結果が得られた
– エピソードの長さが短いのが原因であると考えられるが、
必ずしもAdaptiveな方策が良いとは限らないことがわかった
15. 結論
• アームロボットのダイナミクスの転移が重要な制御タスクにおいて
zero-shotのSim to Realの手法を徹底的に調査
• Sim to Realのダイナミクスの転移において以下のことを実験で示した
– Domain Randomizationはパラメータの調整をしっかり行わないと性能が出ない
– 単にランダムな力を加えるRandom Force Injectionが
Domain Randomizationと同等の性能を出すことができる
– onlineでの環境情報の推論を行う手法は全体的に性能が劣る傾向がある
<感想>
• DRの研究では、パラメータ調整の自動化・効率化の研究が盛んなのでそちらも要注目だが、
この論文の指摘は面白いと思った
• 実装・実験の詳細が充実している(論文8ページ+補足資料21ページ)
15