SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
静的自由度の凍結と解放を利用した
   二足歩行型ロボットの
 リズム歩行学習法に関する研究


  調和系工学研究室 髙堂陽貴
      2009/02/10
研究背景(1/2)
• 多自由度の身体を持つロボットの学習は困難.
ex) 自由度問題, 次元の呪い, 部分観測問題

• 大域的引き込み型制御は運動を低次元化.
        ⇒ 学習初期には引き込みが成立しない…

 ※ 大域的引き込み型制御
 - 制御系と身体の相互引き込みによる制御.
                                       制御系
                               周期信号で         センサ信号へ
     歩行達成時           学習開始直後    身体駆動.          引き込み.
                                       身体



                                       環境
             変数の軌跡                大域的引き込み


• 低次元化された運動を事前に与えるのが一般的.
        ⇒ 作りこみによる行動発現の抑制. 設計者の負担大.
研究背景(2/2)
• 生物的手法
   - 冗長自由度を凍結, 多自由度の問題を軽減.
   - 適切に解放を進め学習を収束

               従来の工学的手法
                  運動
                  設計
                               低次元
  初期状態
                              運動獲得
             自由度      自由度
             凍結 生物的手法 解放



• 自由度数の凍結と解放の理論的実証,工学的応用はなされていない.
研究概要
        テーマ:自由度数の凍結と解放を利用した運動学習法の提案
         学習フロー          ※CPG = Central Pattern Generator(パタン信号生成器)
動                        LCA = Limit Cycle Attractor
的         初期状態
自
由                         関節定位(静的自由度の凍結:インピーダンス制御)
度                                     ⇒ 自由度数を直接抑制
の   静   ① 静的自由度の凍結
凍   的                     引き込み成立, LCA形成.
結   自
状   由     運動学習           ⇒ 自由度間の同期
態   度                    (動的自由度の凍結:CPG内部結合の固定)
    の
    凍
    結                     - 引き込み成立時
    状 運動獲得       運動学習       動的自由度の凍結により低次元化維持.
    態
           ②解放ループ         - 引き込み失敗時
                            LCA参照,部分観測問題回避.
        静的自由度の解放
                                ⇒ 低次元運動を維持した自由度の解放.

         低次元運動獲得         LCA               転倒時


• 以上の学習法を数値シミュレーション上の二足歩行で検証.
                               ⇒ オリジナルの仮説との比較が容易なため.
シミュレーションモデル
a)身体モデル                                       歩行          歩行の
 - 7リンク7関節                                               階層構造
 - 矢状面内に拘束.
 - 腰リンクはやや前傾で固定        トルク出力             立位        CPG


物理系                                                 制御系
                  f) 拘束系        c) CPG           d) 姿勢制御系
                     静的                       - 立位を目標とする絶
                  自由度の                        対角PD制御.
                     凍結
                   の付加.
                    (後述)


                                                     制御則修正

                           - 動的自由度の凍結                 e) 学習系
                           を仮定し,結合は固定.         -状態と姿勢制御
                           - 同脚3関節を同期.         (on/off)の写像を学習.
                                               - Q-learning
                                               - 履歴に基づく強化学
 b) 環境モデル
                                               習法(畝見’92)
 - 凹凸の無い床面
                               センサ信号
シミュレーション実験Ⅰ:静的自由度の凍結 (1/3)
                        実験概要
動                      静的自由度の凍結の設定
的
自         初期状態
                       - 何を目標に定位? ⇒ タスク依存.
由
度
の   静    静的自由度の凍結      - 歩行の目的:転ばないこと
凍   的                    = 地面との絶対的位置関係を維持
結   自
状   由                    = 立位を目標とする絶対角制御(=姿勢制御)
態   度    運動学習
    の                  - 姿勢制御は学習対象.
    凍   運動獲得
    結           運動学習     一緒くたにすると探索時に拘束が外れる…
    状     解放ループ
    態
         静的自由度の解放            エピソード内で時不変な
                          インピーダンス量として拘束系を定義.

          低次元運動獲得



    • 部分観測下での学習
       観測次元に強く依存した運動 = 低次元化された運動 の獲得.
シミュレーション実験Ⅰ:静的自由度の凍結(2/3)
                     実験結果(1/2)
∼収束性の比較∼         横軸:エピソード 縦軸:収益
完全観測状態(観測次元31)     部分観測状態(観測次元6)     静的自由度の凍結




     部分観測になり収束性が悪化          静的自由度の凍結により改善

∼獲得された歩行における各変数の標準偏差∼
           左:非凍結・完全観測時       右:凍結・部分観測時


横軸:項目
縦軸:標準偏差




          - 静的自由度の凍結により,各変数の標準偏差が大きく減少.
            = 不確定性の減少に寄与.
シミュレーション実験Ⅰ:静的自由度の凍結(3/3)
                         実験結果(2/2)
∼20回の平均データ∼
           非凍結・完全観測時      凍結・部分観測時
平均学習終了        1649           464        観測次元の減少に伴い改善.
 エピソード       (±316)     >   (±147)
 平均達成         3010           375
 サンプル数       (±564)
                        >   (±126)
                                       -.定位性向上により減少.
平均転倒率(%)       25       >     2
                                        ⇒ 学習の収束に寄与.

∼学習後の歩容∼
                                     - 動きの小さな歩容を獲得.
  非凍結・完全観測時           凍結・部分観測時

                                     -凍結時には試行によらず
                                     ほぼ一様な歩容に.



実験Ⅰまとめ
 - 自由度を静的に凍結することで,低次元化された歩行の獲得を達成.
   ⇒ 未観測次元の不確定性減少と,転倒率減少によるものと考えられる.
シミュレーション実験Ⅱ:静的自由度の解放 (1/4)
                         実験概要(1/2)
動
的                      基礎実験)
自         初期状態
                       凍結状態から少し拘束を緩めた際の変数の軌跡
由
度                              歩行達成時     転倒時
の   静    静的自由度の凍結
凍   的
結   自
状   由                  観測次元
態   度    運動学習
    の
    凍   運動獲得
    結           運動学習
    状     解放ループ
    態
                       未観測次元
         静的自由度の解放


          低次元運動獲得


    - 引き込み成立時:動的凍結による自由度間の拘束(同期).未観測次元の観測不要.

    - 引き込み失敗時:自由度間の拘束崩壊,部分観測問題に陥る可能性あり.
                               ⇒ 学習を避ける必要あり.
シミュレーション実験Ⅱ:静的自由度の解放(2/4)
                 実験概要(2/2)
∼解放ループ∼
                               運動獲得   運動学習
• 静的自由度の解放を段階的に進行.
                                  解放ループ
•    直前の凍結状態のLCAから一定以上離れた場合,    静的自由度の解放
    引き込み失敗と判断,ペナルティを与え終了.

•   解放を急激に進めると,LCAの変動が大きくなる.
    ⇒ 極力ゆっくりと解放.

                               学習許容領域



                               続く凍結状態におけるLCA
直前の凍結状態における
(制御系と身体の描く)LCA
シミュレーション実験Ⅱ:静的自由度の解放(3/4)
                 実験結果(1/2)
∼解放に伴う歩容の変化∼




            大きな歩容へと徐々に変化.

∼解放に伴うLCAの変化∼
                横軸:左足股関節角度, 縦軸:股関節屈曲CPG膜電位

            - 方向性を持った連続的変化


            - 直近の凍結状態において獲得されたLCAを引き込
            み成立の判断に使うことは有効.
シミュレーション実験Ⅱ:静的自由度の解放(4/4)
                      実験結果(2/2)
∼解放の速度と収束性∼
                       横軸:エピソード, 縦軸:凍結度(初期は100)

                        - 粗く解放を進める程,解放を完了が
                        難しくなる傾向.



 ∼成功時(6/10)平均データ∼        -確実に解放を完了させることはできなかった.
   成功率       60%         解放の進行が十分緩やかではなかった?
  平均達成       11301
                         - 緩やかな解放と計算時間はトレードオフ.
  エピソード     (±4078)
                         解放の順序やタイミングの適切な判断が必要.
  平均達成       1980
  サンプル数     (±217)
 平均転倒率(%)     2          - 試行を通して転倒率は低い.
                         LCAを転倒の先読みに利用可能.

実験Ⅱ まとめ
- 動的自由度の凍結を利用することで,静的自由度の段階的解放が可能.
- 実時間で解放を完了させるには直線的な解放の進行では不十分.
動
的
自
          初期状態
                       まとめ
由
度                                   従来の工学的手法
の   静    静的自由度の凍結
凍   的                           運動
結   自
状   由                           設計
         運動学習
態   度                                      低次元
    の                  初期状態                運動獲得
    凍   運動獲得    運動学習
    結                         自由度    自由度
    状     解放ループ
    態                          凍結    解放
         静的自由度の解放
                               生物的手法

          低次元運動獲得
          提案手法
a) 達成事項
    - 静的自由度の凍結と解放の過程が, 運動の作りこみを軽減する可能性を示した.
    - 身体性を変化させて学習を導くという点で,従来とは異なるアプローチ.

b) 検討事項
     - 運動全般に対して用いるためのより一般性のある初期拘束条件の定義.
    - 自律的学習達成のための,ロボットが自身で学習の状況を把握し,それに合わせて身
      体性を変化させていく枠組み.
ご静聴ありがとうございました.
研究背景(1/4)
             軌道計画追従型制御
a) 軌道計画追従型制御とは
 環境のモデル化 ⇒ 軌道計画 ⇒ 軌道追従 という一連の流れによる制御
  .
       b) 工場内(=静的な環境)で用いた場合…       制御系
       - 作業空間の把握, 環境のモデル化が容易.
       - 事前に運動軌道を作りこむことが可能.
       - 想定される事象には限りがあり,フィードバック則の記述      身体
       が容易.


         高精度かつ信頼性の高い運動を実現.               環境
                                      運動発現の場
       c) 人間の生活空間(=動的な環境)で用いた場合…
       - 作業空間内の全ての事物,事象を完全に把握することは不可能であり,環境のモ
       デル化が困難.
       - 一連の処理は直列に行わなければならず,即応性には限界がある..
       - 事前に全ての事象を想定し,完全なフィードバック則を記述しておくことは不可能.


        全ての運動を軌道計画追従型制御で記述するには無理がある…
研究背景(2/4)
             グローバルエントレインメント型制御
 a) グローバルエントレインメント型制御とは
    Central Pattern Generator(以下,CPG)と身体の相互引き込みによる制御.
  ※CPG : 生物の脊髄に存在するRecurrent Neural Network.
        外部信号に引き込みながら,周期的パターン信号を生成する.

 b) 相互引き込みにより,制御系が身体・環境に強く埋め込まれる.                         制御系
 その結果,生まれる大域的引き込み = グローバルエントレインメント
                               運動の低次元化
c)グローバルエントレインメント型制御の利点                                    身体
- センサ情報に合わせて制御が変化する
 ため,未知環境やノイズへの適応力が高い.
- 環境のモデル化,軌道計画が不要であり,
 即応性に優れている.                                               環境
                                    CPG(制御系)
- 自律分散型の構造を有しているため,                                     運動発現の場
 局所的不具合に対して頑健.
-.運動が低次元の空間に引き込まれるため,
 状態の知覚が容易

 従来型制御の弱点を補う制御方式
d) ただし,事後的に定まる運動を制御系        周期信号により       センサ信号への
から予測するのは難しく, 自律的行動学          身体を駆動.         引き込み.
習が今まで以上に重要となってくる…
                                       身体               外部信号への引き込み
シミュレーションモデル(1/5)
                  物理系
                 a) 身体モデル
                   - 7リンク7関節(剛体リンクモデル)
                   - 身体は矢状面に拘束,二次元平面内でのみ運動.
                   - 関節の稼動域,摩擦はバネ・ダンパモデルにより
                 モデル化.


                 - リンクの質量,長さ,関節の稼動域は人間の身体を
                 参考に設定.
                   - 腰関節は前傾姿勢で固定.
                    ※ 腰リンクの役割
                      - 体が浮き上がるのを抑える重り.
                      - 前傾姿勢により,足踏みを歩行に導く.

b) 環境モデル
 - 平坦な床面を想定.
 - ロボットはリンク端においてのみ,環境と接触可能.
 - 環境との接触は,バネ・ダンパモデルによりモデル化.
シミュレーションモデル(2/5)
           制御系(Central Pattern Generator)   ↓CPG構成
a) 神経振動子:周期発火する最小の神経素子群
  松岡モデル(松岡1985)を使用.


b)神経振動子対の挙動
  - 神経振動子を相互結合することで周期発火
 - 結合が興奮性になる程,位相が近づく
 - 結合が抑制性になる程,位相がずれる
 - 外部周期信号に対して引き込む.
   周期発火        引き込み




       c) ロボットへの結合
        - 1つの神経振動子対が1つの関節に対応.
        - 神経振動子はそれぞれ屈曲,伸展を担当.
                                d) 神経振動子対を相互結合(=CPG)
        - 関節角度が神経振動子にフィードバック.
                                - 身体自由度間の相互引き込み.
         = ローカルな相互引き込み.
                                - 本研究では,動的拘束を仮定し,
                                  終始,片脚3関節を強く同期.
シミュレーションモデル(3/5)
                 制御系(姿勢制御系)
a) 姿勢制御系はどのように設計すべきか…
• 下位の運動要素を時間的・空間的に任意の複雑な運動を生成可能(川人2005)
• 歩行 = 立位姿勢制御 + 原始歩行 ?


                            原始歩行
            歩行
                            立位獲得
               CPG
       立位
             (原始歩行)
                            歩行学習
       運動プリミティブの             生理学的
         階層構造              歩行発達シナリオ

b) 実際,これにより歩けることが示されている.本研究でも立位姿勢を目標とする
 姿勢制御(絶対角PD制御)を行なう.
シミュレーションモデル(4/5)
                   問題設定・強化学習系
a) 問題設定
                                               歩行       運動プリミティブの
- 学習対象:立位姿勢制御のゲーティング.
                                                          階層構造
 (但し,簡易的にon/offにより行ない,
  同側の股関節と膝関節は同じ制御信号で駆動. ⇒ 行動数 16)         立位           CPG
- 目標タスク:10秒間の2足歩行
- 制御,学習のタイミングはCPGの活動電位の変化に合わせる.
b) 報酬関数          学習系(強化学習)
 - 1歩進む           :+1.0   d)行動評価の定義(更新式)
 - 転倒             : -10.0  - Q-learning(Watkins1992)
 - 次の一歩を規定時間内に踏めない:-10.0

c)行動評価関数の保持:
                                  - 本研究では減衰率γ=1.
履歴に基づく強化学習法(畝見1992)               -更新はエピソード終了後,off-lineで後ろから.
           - ロボットは具体的な経験から,
           <センサ情報,行動,評価>を        e)政策関数
             サンプルとして記憶.          - 偶数エピソード時 ⇒ greedy
           - ある状態行動対の評価は,
            最近傍のサンプルの評価値.        - 奇数エピソード時
           - 但し,最近傍のサンプルとの          偶数エピソード時の歩数より少ない歩数を
           距離が閾値以上遠い場合,             乱数により設定.
           評価値は-1.0.                その歩数まで ⇒ greedy
           ※距離の定義については後述.           その歩数以降 ⇒ ε-greedy
数値シミュレーション実験Ⅱ
           部分観測状態における学習
・ 次状態を完全に予測し,報酬に一意性を持たせるための変数(×31)
  関節角度 × 7   関節角速度 × 7
  CPG出力 × 12 重心位置・速度 ×3
 以前に足を着いた地点の相対位置 × 1
 以前に足を着いてからの経過時間 × 1

観測次元を以下の変数に制限する. (観測次元数の変化: 31 ⇒ 6 )
 - 股関節角度 ×2 - 股関節屈曲CPG ×2
   ⇒ 解放過程において,制御系と身体の引き込みの判定に利用するために選定..
 - 以前に脚を着いた位置との相対位置 ×1 - 以前に脚を着いてからの経過時間 ×1
    ⇒ 報酬に一意性を持たせるために選定.

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (6)

[DOSSIER] Entraide intergénérationnelle
[DOSSIER] Entraide intergénérationnelle[DOSSIER] Entraide intergénérationnelle
[DOSSIER] Entraide intergénérationnelle
 
IBM CAPI:概要 (An overview of IBM CAPI)
IBM CAPI:概要 (An overview of IBM CAPI)IBM CAPI:概要 (An overview of IBM CAPI)
IBM CAPI:概要 (An overview of IBM CAPI)
 
アイディアスケールご紹介
アイディアスケールご紹介アイディアスケールご紹介
アイディアスケールご紹介
 
8時間耐久PHPUnitの教室
8時間耐久PHPUnitの教室8時間耐久PHPUnitの教室
8時間耐久PHPUnitの教室
 
Norway refugee camp
Norway refugee campNorway refugee camp
Norway refugee camp
 
Zeke Creative Credentials & Capabilities
Zeke Creative Credentials & CapabilitiesZeke Creative Credentials & Capabilities
Zeke Creative Credentials & Capabilities
 

Mehr von harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Mehr von harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Ppt takado

  • 1. 静的自由度の凍結と解放を利用した 二足歩行型ロボットの リズム歩行学習法に関する研究 調和系工学研究室 髙堂陽貴 2009/02/10
  • 2. 研究背景(1/2) • 多自由度の身体を持つロボットの学習は困難. ex) 自由度問題, 次元の呪い, 部分観測問題 • 大域的引き込み型制御は運動を低次元化. ⇒ 学習初期には引き込みが成立しない… ※ 大域的引き込み型制御 - 制御系と身体の相互引き込みによる制御. 制御系 周期信号で センサ信号へ 歩行達成時 学習開始直後 身体駆動. 引き込み. 身体 環境 変数の軌跡 大域的引き込み • 低次元化された運動を事前に与えるのが一般的. ⇒ 作りこみによる行動発現の抑制. 設計者の負担大.
  • 3. 研究背景(2/2) • 生物的手法 - 冗長自由度を凍結, 多自由度の問題を軽減. - 適切に解放を進め学習を収束 従来の工学的手法 運動 設計 低次元 初期状態 運動獲得 自由度 自由度 凍結 生物的手法 解放 • 自由度数の凍結と解放の理論的実証,工学的応用はなされていない.
  • 4. 研究概要 テーマ:自由度数の凍結と解放を利用した運動学習法の提案 学習フロー ※CPG = Central Pattern Generator(パタン信号生成器) 動 LCA = Limit Cycle Attractor 的 初期状態 自 由 関節定位(静的自由度の凍結:インピーダンス制御) 度 ⇒ 自由度数を直接抑制 の 静 ① 静的自由度の凍結 凍 的 引き込み成立, LCA形成. 結 自 状 由 運動学習 ⇒ 自由度間の同期 態 度 (動的自由度の凍結:CPG内部結合の固定) の 凍 結 - 引き込み成立時 状 運動獲得 運動学習 動的自由度の凍結により低次元化維持. 態 ②解放ループ - 引き込み失敗時 LCA参照,部分観測問題回避. 静的自由度の解放 ⇒ 低次元運動を維持した自由度の解放. 低次元運動獲得 LCA 転倒時 • 以上の学習法を数値シミュレーション上の二足歩行で検証. ⇒ オリジナルの仮説との比較が容易なため.
  • 5. シミュレーションモデル a)身体モデル 歩行 歩行の - 7リンク7関節 階層構造 - 矢状面内に拘束. - 腰リンクはやや前傾で固定 トルク出力 立位 CPG 物理系 制御系 f) 拘束系 c) CPG d) 姿勢制御系 静的 - 立位を目標とする絶 自由度の 対角PD制御. 凍結 の付加. (後述) 制御則修正 - 動的自由度の凍結 e) 学習系 を仮定し,結合は固定. -状態と姿勢制御 - 同脚3関節を同期. (on/off)の写像を学習. - Q-learning - 履歴に基づく強化学 b) 環境モデル 習法(畝見’92) - 凹凸の無い床面 センサ信号
  • 6. シミュレーション実験Ⅰ:静的自由度の凍結 (1/3) 実験概要 動 静的自由度の凍結の設定 的 自 初期状態 - 何を目標に定位? ⇒ タスク依存. 由 度 の 静 静的自由度の凍結 - 歩行の目的:転ばないこと 凍 的 = 地面との絶対的位置関係を維持 結 自 状 由 = 立位を目標とする絶対角制御(=姿勢制御) 態 度 運動学習 の - 姿勢制御は学習対象. 凍 運動獲得 結 運動学習 一緒くたにすると探索時に拘束が外れる… 状 解放ループ 態 静的自由度の解放 エピソード内で時不変な インピーダンス量として拘束系を定義. 低次元運動獲得 • 部分観測下での学習 観測次元に強く依存した運動 = 低次元化された運動 の獲得.
  • 7. シミュレーション実験Ⅰ:静的自由度の凍結(2/3) 実験結果(1/2) ∼収束性の比較∼ 横軸:エピソード 縦軸:収益 完全観測状態(観測次元31) 部分観測状態(観測次元6) 静的自由度の凍結 部分観測になり収束性が悪化 静的自由度の凍結により改善 ∼獲得された歩行における各変数の標準偏差∼ 左:非凍結・完全観測時 右:凍結・部分観測時 横軸:項目 縦軸:標準偏差 - 静的自由度の凍結により,各変数の標準偏差が大きく減少. = 不確定性の減少に寄与.
  • 8. シミュレーション実験Ⅰ:静的自由度の凍結(3/3) 実験結果(2/2) ∼20回の平均データ∼ 非凍結・完全観測時 凍結・部分観測時 平均学習終了 1649 464 観測次元の減少に伴い改善. エピソード (±316) > (±147) 平均達成 3010 375 サンプル数 (±564) > (±126) -.定位性向上により減少. 平均転倒率(%) 25 > 2 ⇒ 学習の収束に寄与. ∼学習後の歩容∼ - 動きの小さな歩容を獲得. 非凍結・完全観測時 凍結・部分観測時 -凍結時には試行によらず ほぼ一様な歩容に. 実験Ⅰまとめ - 自由度を静的に凍結することで,低次元化された歩行の獲得を達成. ⇒ 未観測次元の不確定性減少と,転倒率減少によるものと考えられる.
  • 9. シミュレーション実験Ⅱ:静的自由度の解放 (1/4) 実験概要(1/2) 動 的 基礎実験) 自 初期状態 凍結状態から少し拘束を緩めた際の変数の軌跡 由 度 歩行達成時 転倒時 の 静 静的自由度の凍結 凍 的 結 自 状 由 観測次元 態 度 運動学習 の 凍 運動獲得 結 運動学習 状 解放ループ 態 未観測次元 静的自由度の解放 低次元運動獲得 - 引き込み成立時:動的凍結による自由度間の拘束(同期).未観測次元の観測不要. - 引き込み失敗時:自由度間の拘束崩壊,部分観測問題に陥る可能性あり. ⇒ 学習を避ける必要あり.
  • 10. シミュレーション実験Ⅱ:静的自由度の解放(2/4) 実験概要(2/2) ∼解放ループ∼ 運動獲得 運動学習 • 静的自由度の解放を段階的に進行. 解放ループ • 直前の凍結状態のLCAから一定以上離れた場合, 静的自由度の解放 引き込み失敗と判断,ペナルティを与え終了. • 解放を急激に進めると,LCAの変動が大きくなる. ⇒ 極力ゆっくりと解放. 学習許容領域 続く凍結状態におけるLCA 直前の凍結状態における (制御系と身体の描く)LCA
  • 11. シミュレーション実験Ⅱ:静的自由度の解放(3/4) 実験結果(1/2) ∼解放に伴う歩容の変化∼ 大きな歩容へと徐々に変化. ∼解放に伴うLCAの変化∼ 横軸:左足股関節角度, 縦軸:股関節屈曲CPG膜電位 - 方向性を持った連続的変化 - 直近の凍結状態において獲得されたLCAを引き込 み成立の判断に使うことは有効.
  • 12. シミュレーション実験Ⅱ:静的自由度の解放(4/4) 実験結果(2/2) ∼解放の速度と収束性∼ 横軸:エピソード, 縦軸:凍結度(初期は100) - 粗く解放を進める程,解放を完了が 難しくなる傾向. ∼成功時(6/10)平均データ∼ -確実に解放を完了させることはできなかった. 成功率 60% 解放の進行が十分緩やかではなかった? 平均達成 11301 - 緩やかな解放と計算時間はトレードオフ. エピソード (±4078) 解放の順序やタイミングの適切な判断が必要. 平均達成 1980 サンプル数 (±217) 平均転倒率(%) 2 - 試行を通して転倒率は低い. LCAを転倒の先読みに利用可能. 実験Ⅱ まとめ - 動的自由度の凍結を利用することで,静的自由度の段階的解放が可能. - 実時間で解放を完了させるには直線的な解放の進行では不十分.
  • 13. 動 的 自 初期状態 まとめ 由 度 従来の工学的手法 の 静 静的自由度の凍結 凍 的 運動 結 自 状 由 設計 運動学習 態 度 低次元 の 初期状態 運動獲得 凍 運動獲得 運動学習 結 自由度 自由度 状 解放ループ 態 凍結 解放 静的自由度の解放 生物的手法 低次元運動獲得 提案手法 a) 達成事項 - 静的自由度の凍結と解放の過程が, 運動の作りこみを軽減する可能性を示した. - 身体性を変化させて学習を導くという点で,従来とは異なるアプローチ. b) 検討事項 - 運動全般に対して用いるためのより一般性のある初期拘束条件の定義. - 自律的学習達成のための,ロボットが自身で学習の状況を把握し,それに合わせて身 体性を変化させていく枠組み.
  • 15. 研究背景(1/4) 軌道計画追従型制御 a) 軌道計画追従型制御とは 環境のモデル化 ⇒ 軌道計画 ⇒ 軌道追従 という一連の流れによる制御 . b) 工場内(=静的な環境)で用いた場合… 制御系 - 作業空間の把握, 環境のモデル化が容易. - 事前に運動軌道を作りこむことが可能. - 想定される事象には限りがあり,フィードバック則の記述 身体 が容易. 高精度かつ信頼性の高い運動を実現. 環境 運動発現の場 c) 人間の生活空間(=動的な環境)で用いた場合… - 作業空間内の全ての事物,事象を完全に把握することは不可能であり,環境のモ デル化が困難. - 一連の処理は直列に行わなければならず,即応性には限界がある.. - 事前に全ての事象を想定し,完全なフィードバック則を記述しておくことは不可能. 全ての運動を軌道計画追従型制御で記述するには無理がある…
  • 16. 研究背景(2/4) グローバルエントレインメント型制御 a) グローバルエントレインメント型制御とは Central Pattern Generator(以下,CPG)と身体の相互引き込みによる制御. ※CPG : 生物の脊髄に存在するRecurrent Neural Network. 外部信号に引き込みながら,周期的パターン信号を生成する. b) 相互引き込みにより,制御系が身体・環境に強く埋め込まれる. 制御系 その結果,生まれる大域的引き込み = グローバルエントレインメント 運動の低次元化 c)グローバルエントレインメント型制御の利点 身体 - センサ情報に合わせて制御が変化する ため,未知環境やノイズへの適応力が高い. - 環境のモデル化,軌道計画が不要であり, 即応性に優れている. 環境 CPG(制御系) - 自律分散型の構造を有しているため, 運動発現の場 局所的不具合に対して頑健. -.運動が低次元の空間に引き込まれるため, 状態の知覚が容易 従来型制御の弱点を補う制御方式 d) ただし,事後的に定まる運動を制御系 周期信号により センサ信号への から予測するのは難しく, 自律的行動学 身体を駆動. 引き込み. 習が今まで以上に重要となってくる… 身体 外部信号への引き込み
  • 17. シミュレーションモデル(1/5) 物理系 a) 身体モデル - 7リンク7関節(剛体リンクモデル) - 身体は矢状面に拘束,二次元平面内でのみ運動. - 関節の稼動域,摩擦はバネ・ダンパモデルにより モデル化. - リンクの質量,長さ,関節の稼動域は人間の身体を 参考に設定. - 腰関節は前傾姿勢で固定. ※ 腰リンクの役割 - 体が浮き上がるのを抑える重り. - 前傾姿勢により,足踏みを歩行に導く. b) 環境モデル - 平坦な床面を想定. - ロボットはリンク端においてのみ,環境と接触可能. - 環境との接触は,バネ・ダンパモデルによりモデル化.
  • 18. シミュレーションモデル(2/5) 制御系(Central Pattern Generator) ↓CPG構成 a) 神経振動子:周期発火する最小の神経素子群 松岡モデル(松岡1985)を使用. b)神経振動子対の挙動 - 神経振動子を相互結合することで周期発火 - 結合が興奮性になる程,位相が近づく - 結合が抑制性になる程,位相がずれる - 外部周期信号に対して引き込む. 周期発火 引き込み c) ロボットへの結合 - 1つの神経振動子対が1つの関節に対応. - 神経振動子はそれぞれ屈曲,伸展を担当. d) 神経振動子対を相互結合(=CPG) - 関節角度が神経振動子にフィードバック. - 身体自由度間の相互引き込み. = ローカルな相互引き込み. - 本研究では,動的拘束を仮定し, 終始,片脚3関節を強く同期.
  • 19. シミュレーションモデル(3/5) 制御系(姿勢制御系) a) 姿勢制御系はどのように設計すべきか… • 下位の運動要素を時間的・空間的に任意の複雑な運動を生成可能(川人2005) • 歩行 = 立位姿勢制御 + 原始歩行 ? 原始歩行 歩行 立位獲得 CPG 立位 (原始歩行) 歩行学習 運動プリミティブの 生理学的 階層構造 歩行発達シナリオ b) 実際,これにより歩けることが示されている.本研究でも立位姿勢を目標とする 姿勢制御(絶対角PD制御)を行なう.
  • 20. シミュレーションモデル(4/5) 問題設定・強化学習系 a) 問題設定 歩行 運動プリミティブの - 学習対象:立位姿勢制御のゲーティング. 階層構造 (但し,簡易的にon/offにより行ない, 同側の股関節と膝関節は同じ制御信号で駆動. ⇒ 行動数 16) 立位 CPG - 目標タスク:10秒間の2足歩行 - 制御,学習のタイミングはCPGの活動電位の変化に合わせる. b) 報酬関数 学習系(強化学習) - 1歩進む :+1.0 d)行動評価の定義(更新式) - 転倒 : -10.0 - Q-learning(Watkins1992) - 次の一歩を規定時間内に踏めない:-10.0 c)行動評価関数の保持: - 本研究では減衰率γ=1. 履歴に基づく強化学習法(畝見1992) -更新はエピソード終了後,off-lineで後ろから. - ロボットは具体的な経験から, <センサ情報,行動,評価>を e)政策関数 サンプルとして記憶. - 偶数エピソード時 ⇒ greedy - ある状態行動対の評価は, 最近傍のサンプルの評価値. - 奇数エピソード時 - 但し,最近傍のサンプルとの 偶数エピソード時の歩数より少ない歩数を 距離が閾値以上遠い場合, 乱数により設定. 評価値は-1.0. その歩数まで ⇒ greedy ※距離の定義については後述. その歩数以降 ⇒ ε-greedy
  • 21. 数値シミュレーション実験Ⅱ 部分観測状態における学習 ・ 次状態を完全に予測し,報酬に一意性を持たせるための変数(×31) 関節角度 × 7 関節角速度 × 7 CPG出力 × 12 重心位置・速度 ×3 以前に足を着いた地点の相対位置 × 1 以前に足を着いてからの経過時間 × 1 観測次元を以下の変数に制限する. (観測次元数の変化: 31 ⇒ 6 ) - 股関節角度 ×2 - 股関節屈曲CPG ×2 ⇒ 解放過程において,制御系と身体の引き込みの判定に利用するために選定.. - 以前に脚を着いた位置との相対位置 ×1 - 以前に脚を着いてからの経過時間 ×1 ⇒ 報酬に一意性を持たせるために選定.