Ppt takado
- 2. 研究背景(1/2)
• 多自由度の身体を持つロボットの学習は困難.
ex) 自由度問題, 次元の呪い, 部分観測問題
• 大域的引き込み型制御は運動を低次元化.
⇒ 学習初期には引き込みが成立しない…
※ 大域的引き込み型制御
- 制御系と身体の相互引き込みによる制御.
制御系
周期信号で センサ信号へ
歩行達成時 学習開始直後 身体駆動. 引き込み.
身体
環境
変数の軌跡 大域的引き込み
• 低次元化された運動を事前に与えるのが一般的.
⇒ 作りこみによる行動発現の抑制. 設計者の負担大.
- 3. 研究背景(2/2)
• 生物的手法
- 冗長自由度を凍結, 多自由度の問題を軽減.
- 適切に解放を進め学習を収束
従来の工学的手法
運動
設計
低次元
初期状態
運動獲得
自由度 自由度
凍結 生物的手法 解放
• 自由度数の凍結と解放の理論的実証,工学的応用はなされていない.
- 4. 研究概要
テーマ:自由度数の凍結と解放を利用した運動学習法の提案
学習フロー ※CPG = Central Pattern Generator(パタン信号生成器)
動 LCA = Limit Cycle Attractor
的 初期状態
自
由 関節定位(静的自由度の凍結:インピーダンス制御)
度 ⇒ 自由度数を直接抑制
の 静 ① 静的自由度の凍結
凍 的 引き込み成立, LCA形成.
結 自
状 由 運動学習 ⇒ 自由度間の同期
態 度 (動的自由度の凍結:CPG内部結合の固定)
の
凍
結 - 引き込み成立時
状 運動獲得 運動学習 動的自由度の凍結により低次元化維持.
態
②解放ループ - 引き込み失敗時
LCA参照,部分観測問題回避.
静的自由度の解放
⇒ 低次元運動を維持した自由度の解放.
低次元運動獲得 LCA 転倒時
• 以上の学習法を数値シミュレーション上の二足歩行で検証.
⇒ オリジナルの仮説との比較が容易なため.
- 5. シミュレーションモデル
a)身体モデル 歩行 歩行の
- 7リンク7関節 階層構造
- 矢状面内に拘束.
- 腰リンクはやや前傾で固定 トルク出力 立位 CPG
物理系 制御系
f) 拘束系 c) CPG d) 姿勢制御系
静的 - 立位を目標とする絶
自由度の 対角PD制御.
凍結
の付加.
(後述)
制御則修正
- 動的自由度の凍結 e) 学習系
を仮定し,結合は固定. -状態と姿勢制御
- 同脚3関節を同期. (on/off)の写像を学習.
- Q-learning
- 履歴に基づく強化学
b) 環境モデル
習法(畝見’92)
- 凹凸の無い床面
センサ信号
- 6. シミュレーション実験Ⅰ:静的自由度の凍結 (1/3)
実験概要
動 静的自由度の凍結の設定
的
自 初期状態
- 何を目標に定位? ⇒ タスク依存.
由
度
の 静 静的自由度の凍結 - 歩行の目的:転ばないこと
凍 的 = 地面との絶対的位置関係を維持
結 自
状 由 = 立位を目標とする絶対角制御(=姿勢制御)
態 度 運動学習
の - 姿勢制御は学習対象.
凍 運動獲得
結 運動学習 一緒くたにすると探索時に拘束が外れる…
状 解放ループ
態
静的自由度の解放 エピソード内で時不変な
インピーダンス量として拘束系を定義.
低次元運動獲得
• 部分観測下での学習
観測次元に強く依存した運動 = 低次元化された運動 の獲得.
- 7. シミュレーション実験Ⅰ:静的自由度の凍結(2/3)
実験結果(1/2)
∼収束性の比較∼ 横軸:エピソード 縦軸:収益
完全観測状態(観測次元31) 部分観測状態(観測次元6) 静的自由度の凍結
部分観測になり収束性が悪化 静的自由度の凍結により改善
∼獲得された歩行における各変数の標準偏差∼
左:非凍結・完全観測時 右:凍結・部分観測時
横軸:項目
縦軸:標準偏差
- 静的自由度の凍結により,各変数の標準偏差が大きく減少.
= 不確定性の減少に寄与.
- 8. シミュレーション実験Ⅰ:静的自由度の凍結(3/3)
実験結果(2/2)
∼20回の平均データ∼
非凍結・完全観測時 凍結・部分観測時
平均学習終了 1649 464 観測次元の減少に伴い改善.
エピソード (±316) > (±147)
平均達成 3010 375
サンプル数 (±564)
> (±126)
-.定位性向上により減少.
平均転倒率(%) 25 > 2
⇒ 学習の収束に寄与.
∼学習後の歩容∼
- 動きの小さな歩容を獲得.
非凍結・完全観測時 凍結・部分観測時
-凍結時には試行によらず
ほぼ一様な歩容に.
実験Ⅰまとめ
- 自由度を静的に凍結することで,低次元化された歩行の獲得を達成.
⇒ 未観測次元の不確定性減少と,転倒率減少によるものと考えられる.
- 9. シミュレーション実験Ⅱ:静的自由度の解放 (1/4)
実験概要(1/2)
動
的 基礎実験)
自 初期状態
凍結状態から少し拘束を緩めた際の変数の軌跡
由
度 歩行達成時 転倒時
の 静 静的自由度の凍結
凍 的
結 自
状 由 観測次元
態 度 運動学習
の
凍 運動獲得
結 運動学習
状 解放ループ
態
未観測次元
静的自由度の解放
低次元運動獲得
- 引き込み成立時:動的凍結による自由度間の拘束(同期).未観測次元の観測不要.
- 引き込み失敗時:自由度間の拘束崩壊,部分観測問題に陥る可能性あり.
⇒ 学習を避ける必要あり.
- 10. シミュレーション実験Ⅱ:静的自由度の解放(2/4)
実験概要(2/2)
∼解放ループ∼
運動獲得 運動学習
• 静的自由度の解放を段階的に進行.
解放ループ
• 直前の凍結状態のLCAから一定以上離れた場合, 静的自由度の解放
引き込み失敗と判断,ペナルティを与え終了.
• 解放を急激に進めると,LCAの変動が大きくなる.
⇒ 極力ゆっくりと解放.
学習許容領域
続く凍結状態におけるLCA
直前の凍結状態における
(制御系と身体の描く)LCA
- 11. シミュレーション実験Ⅱ:静的自由度の解放(3/4)
実験結果(1/2)
∼解放に伴う歩容の変化∼
大きな歩容へと徐々に変化.
∼解放に伴うLCAの変化∼
横軸:左足股関節角度, 縦軸:股関節屈曲CPG膜電位
- 方向性を持った連続的変化
- 直近の凍結状態において獲得されたLCAを引き込
み成立の判断に使うことは有効.
- 12. シミュレーション実験Ⅱ:静的自由度の解放(4/4)
実験結果(2/2)
∼解放の速度と収束性∼
横軸:エピソード, 縦軸:凍結度(初期は100)
- 粗く解放を進める程,解放を完了が
難しくなる傾向.
∼成功時(6/10)平均データ∼ -確実に解放を完了させることはできなかった.
成功率 60% 解放の進行が十分緩やかではなかった?
平均達成 11301
- 緩やかな解放と計算時間はトレードオフ.
エピソード (±4078)
解放の順序やタイミングの適切な判断が必要.
平均達成 1980
サンプル数 (±217)
平均転倒率(%) 2 - 試行を通して転倒率は低い.
LCAを転倒の先読みに利用可能.
実験Ⅱ まとめ
- 動的自由度の凍結を利用することで,静的自由度の段階的解放が可能.
- 実時間で解放を完了させるには直線的な解放の進行では不十分.
- 13. 動
的
自
初期状態
まとめ
由
度 従来の工学的手法
の 静 静的自由度の凍結
凍 的 運動
結 自
状 由 設計
運動学習
態 度 低次元
の 初期状態 運動獲得
凍 運動獲得 運動学習
結 自由度 自由度
状 解放ループ
態 凍結 解放
静的自由度の解放
生物的手法
低次元運動獲得
提案手法
a) 達成事項
- 静的自由度の凍結と解放の過程が, 運動の作りこみを軽減する可能性を示した.
- 身体性を変化させて学習を導くという点で,従来とは異なるアプローチ.
b) 検討事項
- 運動全般に対して用いるためのより一般性のある初期拘束条件の定義.
- 自律的学習達成のための,ロボットが自身で学習の状況を把握し,それに合わせて身
体性を変化させていく枠組み.
- 15. 研究背景(1/4)
軌道計画追従型制御
a) 軌道計画追従型制御とは
環境のモデル化 ⇒ 軌道計画 ⇒ 軌道追従 という一連の流れによる制御
.
b) 工場内(=静的な環境)で用いた場合… 制御系
- 作業空間の把握, 環境のモデル化が容易.
- 事前に運動軌道を作りこむことが可能.
- 想定される事象には限りがあり,フィードバック則の記述 身体
が容易.
高精度かつ信頼性の高い運動を実現. 環境
運動発現の場
c) 人間の生活空間(=動的な環境)で用いた場合…
- 作業空間内の全ての事物,事象を完全に把握することは不可能であり,環境のモ
デル化が困難.
- 一連の処理は直列に行わなければならず,即応性には限界がある..
- 事前に全ての事象を想定し,完全なフィードバック則を記述しておくことは不可能.
全ての運動を軌道計画追従型制御で記述するには無理がある…
- 16. 研究背景(2/4)
グローバルエントレインメント型制御
a) グローバルエントレインメント型制御とは
Central Pattern Generator(以下,CPG)と身体の相互引き込みによる制御.
※CPG : 生物の脊髄に存在するRecurrent Neural Network.
外部信号に引き込みながら,周期的パターン信号を生成する.
b) 相互引き込みにより,制御系が身体・環境に強く埋め込まれる. 制御系
その結果,生まれる大域的引き込み = グローバルエントレインメント
運動の低次元化
c)グローバルエントレインメント型制御の利点 身体
- センサ情報に合わせて制御が変化する
ため,未知環境やノイズへの適応力が高い.
- 環境のモデル化,軌道計画が不要であり,
即応性に優れている. 環境
CPG(制御系)
- 自律分散型の構造を有しているため, 運動発現の場
局所的不具合に対して頑健.
-.運動が低次元の空間に引き込まれるため,
状態の知覚が容易
従来型制御の弱点を補う制御方式
d) ただし,事後的に定まる運動を制御系 周期信号により センサ信号への
から予測するのは難しく, 自律的行動学 身体を駆動. 引き込み.
習が今まで以上に重要となってくる…
身体 外部信号への引き込み
- 17. シミュレーションモデル(1/5)
物理系
a) 身体モデル
- 7リンク7関節(剛体リンクモデル)
- 身体は矢状面に拘束,二次元平面内でのみ運動.
- 関節の稼動域,摩擦はバネ・ダンパモデルにより
モデル化.
- リンクの質量,長さ,関節の稼動域は人間の身体を
参考に設定.
- 腰関節は前傾姿勢で固定.
※ 腰リンクの役割
- 体が浮き上がるのを抑える重り.
- 前傾姿勢により,足踏みを歩行に導く.
b) 環境モデル
- 平坦な床面を想定.
- ロボットはリンク端においてのみ,環境と接触可能.
- 環境との接触は,バネ・ダンパモデルによりモデル化.
- 18. シミュレーションモデル(2/5)
制御系(Central Pattern Generator) ↓CPG構成
a) 神経振動子:周期発火する最小の神経素子群
松岡モデル(松岡1985)を使用.
b)神経振動子対の挙動
- 神経振動子を相互結合することで周期発火
- 結合が興奮性になる程,位相が近づく
- 結合が抑制性になる程,位相がずれる
- 外部周期信号に対して引き込む.
周期発火 引き込み
c) ロボットへの結合
- 1つの神経振動子対が1つの関節に対応.
- 神経振動子はそれぞれ屈曲,伸展を担当.
d) 神経振動子対を相互結合(=CPG)
- 関節角度が神経振動子にフィードバック.
- 身体自由度間の相互引き込み.
= ローカルな相互引き込み.
- 本研究では,動的拘束を仮定し,
終始,片脚3関節を強く同期.
- 19. シミュレーションモデル(3/5)
制御系(姿勢制御系)
a) 姿勢制御系はどのように設計すべきか…
• 下位の運動要素を時間的・空間的に任意の複雑な運動を生成可能(川人2005)
• 歩行 = 立位姿勢制御 + 原始歩行 ?
原始歩行
歩行
立位獲得
CPG
立位
(原始歩行)
歩行学習
運動プリミティブの 生理学的
階層構造 歩行発達シナリオ
b) 実際,これにより歩けることが示されている.本研究でも立位姿勢を目標とする
姿勢制御(絶対角PD制御)を行なう.
- 20. シミュレーションモデル(4/5)
問題設定・強化学習系
a) 問題設定
歩行 運動プリミティブの
- 学習対象:立位姿勢制御のゲーティング.
階層構造
(但し,簡易的にon/offにより行ない,
同側の股関節と膝関節は同じ制御信号で駆動. ⇒ 行動数 16) 立位 CPG
- 目標タスク:10秒間の2足歩行
- 制御,学習のタイミングはCPGの活動電位の変化に合わせる.
b) 報酬関数 学習系(強化学習)
- 1歩進む :+1.0 d)行動評価の定義(更新式)
- 転倒 : -10.0 - Q-learning(Watkins1992)
- 次の一歩を規定時間内に踏めない:-10.0
c)行動評価関数の保持:
- 本研究では減衰率γ=1.
履歴に基づく強化学習法(畝見1992) -更新はエピソード終了後,off-lineで後ろから.
- ロボットは具体的な経験から,
<センサ情報,行動,評価>を e)政策関数
サンプルとして記憶. - 偶数エピソード時 ⇒ greedy
- ある状態行動対の評価は,
最近傍のサンプルの評価値. - 奇数エピソード時
- 但し,最近傍のサンプルとの 偶数エピソード時の歩数より少ない歩数を
距離が閾値以上遠い場合, 乱数により設定.
評価値は-1.0. その歩数まで ⇒ greedy
※距離の定義については後述. その歩数以降 ⇒ ε-greedy
- 21. 数値シミュレーション実験Ⅱ
部分観測状態における学習
・ 次状態を完全に予測し,報酬に一意性を持たせるための変数(×31)
関節角度 × 7 関節角速度 × 7
CPG出力 × 12 重心位置・速度 ×3
以前に足を着いた地点の相対位置 × 1
以前に足を着いてからの経過時間 × 1
観測次元を以下の変数に制限する. (観測次元数の変化: 31 ⇒ 6 )
- 股関節角度 ×2 - 股関節屈曲CPG ×2
⇒ 解放過程において,制御系と身体の引き込みの判定に利用するために選定..
- 以前に脚を着いた位置との相対位置 ×1 - 以前に脚を着いてからの経過時間 ×1
⇒ 報酬に一意性を持たせるために選定.