Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
End To End Training
Deep Visuomotor Policy
2016/10/01
mabonki0725
Journal of Machine Learning Research 17 (2016) 1-40
概要1
• ロボットの視覚による連結アームの最適制御
Deep Learning
機械学習 現代制御理論
統合モデルで実現
概要2
• 知覚・制御システムはDQN初めて達成
– DeepLearning+強化学習
– 人間を超えるゲーム得点を達成
– しかし自動制御は簡単なレバーとボタン 
• 本報告はロボットの視覚で複雑な操作を実現
– ハンガー掛け 嵌め込み 釘...
最終目標(End to End) 
• 最終目標 視覚による最適方策πの学習
θ:ニューロ重み
Ut:モータトルクの信号
Ot:ロボットのカメラ画像
Guided Policy Seachを採用
• ①知覚学習
– 知覚的に最適方策πを見つける
– 最適方策はDeepLearningで解く
– しかしこの方策は制御上実現できるか不明
• ②現代制御理論LQRによる最適制御
– 移動目標への軌...
4つの学習の統合
アームの学習 観察からの学習
DeepLearngin
事前学習
観察データ
②現代制御 ①知覚学習
Guided Polciy
Search
一致
画像と制御は分離して事前学習
240*240 RGB pixel CNN 4 層 2*32 Softmax 2*20 Neuro
7 モータトルク
robotのアームと物体の事前学習 モータトルクの事前学習
見える場所のみ
特徴量を学習する
Guided Policy Search
知覚学習と実現できる制御を一致させる
知覚学習π=現代制御御p の制約下で軌道コストを最小化
制御の分布で動作させる
状態をsamplingする
sampling(状態 観察)から知覚学習πを求める 
...
制約付最適化問題 
制約条件下の軌道τのコストの最小化
Xt:状態(物体、腕、手先) Ut:操作(モータ信号)
状態変化の分布
制約条件
目標関数
d:物体までの距離コスト関数
コスト関数
軌道
知覚最適方策πと現実制御pの一致
BADMM法
Guided Policy Seachの解法
現代制御理論
DeepLearning
θ p λの3パラメータの最適化を行う
②
①
最適化問題
BADMM法:制約をDKL(P||π)=0とするラグランジェ乗数λの最適化問題
※λ...
①知覚学習(DeepLearning)
知覚された最適方策をガウス分布とする
最尤値=DeepLearningの目的値
知覚学習πθのθが最尤値になる様にDeepLearningで解く
の平均と分散は
はラグランジェ乗数と制御Utの内積
①
...
②現代制御LQRによる最適化
②
実現制御
LQRモデル
LQR (逆軌道問題を解く)
https://studywolf.wordpress.com/2016/02/03/the-iterative-linear-quadratic-regulator-method/
目標移動の終端から順番に制御を...
サンプリング を回帰してパラメータ{fxt fut fct Ft}を算出
移動後の遷移モデル
モータトルクには誤差 : 制御Ut後の状態Xt+1を線形ガウス分布で推定 
高次元では厳しい
サンプリング より混合ガウス分布でp(Xt+1|Ut,X...
混合ガウス分布(移動の誤差)を解く
K番目分布の混合比率
sample毎の混合比率r1 r5以外は縮退
ウィシャドー分布
変分ベイズ実装結果
遷移モデルの改善状態
End To End 学習の結果
訓練と同条件 対象の移動 異物の存在
End To End学習後特徴量
Deep Learning による学習後の特徴量 物体とロボットの手に生成されている
事前と事後の特徴量の変化
○ 画像での事前学習での特徴量
× End To End 学習後での特徴量
対象物とロボットの手に集中
対象物とロボットの手の間にも存在
まとめ
1.目標が実現するまで①と②が一致できる範
囲で徐々に動作させる
– ①知覚の最適方策はDeepLearningで解く
– ②実現制御は現代制御理論LQRで解く
– ①と②の一致する様にBADMM法で解く
– 制御後の位置は混合ガウス分...
Nächste SlideShare
Wird geladen in …5
×

End to end training with deep visiomotor

4.859 Aufrufe

Veröffentlicht am

This is explanation about robotics with visiomotor policy control which is published in ICML 2016 journal.

Veröffentlicht in: Daten & Analysen
  • Als Erste(r) kommentieren

End to end training with deep visiomotor

  1. 1. End To End Training Deep Visuomotor Policy 2016/10/01 mabonki0725 Journal of Machine Learning Research 17 (2016) 1-40
  2. 2. 概要1 • ロボットの視覚による連結アームの最適制御 Deep Learning 機械学習 現代制御理論 統合モデルで実現
  3. 3. 概要2 • 知覚・制御システムはDQN初めて達成 – DeepLearning+強化学習 – 人間を超えるゲーム得点を達成 – しかし自動制御は簡単なレバーとボタン  • 本報告はロボットの視覚で複雑な操作を実現 – ハンガー掛け 嵌め込み 釘抜き ボトルキャップ締め • 視覚と軌道制御の統合モデルで実現 – DeepLearning + 現代制御理論 + 機械学習  • 制約付最適化(Guided Policy Search)モデルで達成 – BregmannADMM(BADMM)のフレームで解く • 本論文は知覚ロボットの論文では殆ど参照されている
  4. 4. 最終目標(End to End)  • 最終目標 視覚による最適方策πの学習 θ:ニューロ重み Ut:モータトルクの信号 Ot:ロボットのカメラ画像
  5. 5. Guided Policy Seachを採用 • ①知覚学習 – 知覚的に最適方策πを見つける – 最適方策はDeepLearningで解く – しかしこの方策は制御上実現できるか不明 • ②現代制御理論LQRによる最適制御 – 移動目標への軌道pを逆軌道問題で解く • 知覚学習の最適方策πと最適制御pは徐々 になら一致できる(BADMM法) – 現代制御(Guide)とする最適方策(Policy)モデル
  6. 6. 4つの学習の統合 アームの学習 観察からの学習 DeepLearngin 事前学習 観察データ ②現代制御 ①知覚学習 Guided Polciy Search 一致
  7. 7. 画像と制御は分離して事前学習 240*240 RGB pixel CNN 4 層 2*32 Softmax 2*20 Neuro 7 モータトルク robotのアームと物体の事前学習 モータトルクの事前学習 見える場所のみ 特徴量を学習する
  8. 8. Guided Policy Search 知覚学習と実現できる制御を一致させる 知覚学習π=現代制御御p の制約下で軌道コストを最小化 制御の分布で動作させる 状態をsamplingする sampling(状態 観察)から知覚学習πを求める  現代制御での実現可能な制御の分布pを求める 一致
  9. 9. 制約付最適化問題  制約条件下の軌道τのコストの最小化 Xt:状態(物体、腕、手先) Ut:操作(モータ信号) 状態変化の分布 制約条件 目標関数 d:物体までの距離コスト関数 コスト関数 軌道 知覚最適方策πと現実制御pの一致
  10. 10. BADMM法 Guided Policy Seachの解法 現代制御理論 DeepLearning θ p λの3パラメータの最適化を行う ② ① 最適化問題 BADMM法:制約をDKL(P||π)=0とするラグランジェ乗数λの最適化問題 ※λtUtの内積はコストに近似可能とする DKL(P||π) カルバックラー・ダイバージェンス
  11. 11. ①知覚学習(DeepLearning) 知覚された最適方策をガウス分布とする 最尤値=DeepLearningの目的値 知覚学習πθのθが最尤値になる様にDeepLearningで解く の平均と分散は はラグランジェ乗数と制御Utの内積 ①         t T tt t T tt oofo oofo         , , θをDeepLearnngで解く
  12. 12. ②現代制御LQRによる最適化 ② 実現制御 LQRモデル
  13. 13. LQR (逆軌道問題を解く) https://studywolf.wordpress.com/2016/02/03/the-iterative-linear-quadratic-regulator-method/ 目標移動の終端から順番に制御を算出する(逆制御法) 目的関数 微小制御幅 2次線形近似 現代制御理論:ハミルトン・ヤコビ法で解く
  14. 14. サンプリング を回帰してパラメータ{fxt fut fct Ft}を算出 移動後の遷移モデル モータトルクには誤差 : 制御Ut後の状態Xt+1を線形ガウス分布で推定  高次元では厳しい サンプリング より混合ガウス分布でp(Xt+1|Ut,Xt)で遷移を推定 変分ベイズ近似 : 逆ウィシャドー事前分布による混合ガウス分布推定  はサンプルの平均と分散 実験では20個の混合ガウス分布が出現  但し 制御Utは前軌道との相違範囲 に保つ
  15. 15. 混合ガウス分布(移動の誤差)を解く K番目分布の混合比率 sample毎の混合比率r1 r5以外は縮退 ウィシャドー分布 変分ベイズ実装結果
  16. 16. 遷移モデルの改善状態
  17. 17. End To End 学習の結果 訓練と同条件 対象の移動 異物の存在
  18. 18. End To End学習後特徴量 Deep Learning による学習後の特徴量 物体とロボットの手に生成されている
  19. 19. 事前と事後の特徴量の変化 ○ 画像での事前学習での特徴量 × End To End 学習後での特徴量 対象物とロボットの手に集中 対象物とロボットの手の間にも存在
  20. 20. まとめ 1.目標が実現するまで①と②が一致できる範 囲で徐々に動作させる – ①知覚の最適方策はDeepLearningで解く – ②実現制御は現代制御理論LQRで解く – ①と②の一致する様にBADMM法で解く – 制御後の位置は混合ガウス分布の確率に従う 2.DeepLearning+現代制御理論+機械学習の 統合モデルで実現 3.本報告は画期的なDQNをロボット制御に適 応したモデル

×