Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

【DL輪読会】Emergence of maps in the memories of blind navigation agents

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige

Hier ansehen

1 von 15 Anzeige

Weitere Verwandte Inhalte

Diashows für Sie (20)

Weitere von Deep Learning JP (20)

Anzeige

Aktuellste (20)

【DL輪読会】Emergence of maps in the memories of blind navigation agents

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Emergence of maps in the memories of blind navigation agents Presenter: Manato Yaguchi Hokkaido university, B3
  2. 2. 書誌情報 • タイトル: Emergence of maps in the memories of blind navigation agents (ICLR 2023 Under review) • 著者:不明 • 論文: Emergence of Maps in the Memories of Blind Navigation Agents | OpenReview) • 選定理由:Openreviewでの評価が高い, 生物など他分野との関連を意識した もので興味深かった. 2 ※出典記載のない図は本論文から引用
  3. 3. 概要 • 1人称視点しかも目が見えない設定のagentが、未知の環境の探索を達成で きるのか?=> Yes • 目の見えないagentは何故こんなに良いパフォーマンスを出せるのか=>記 憶、もっと言えば記憶を空間認知や衝突検知に生かすことによる • 環境についてどのような情報を記憶しているのか? => 暗黙的なマップ • マップの生成はタスクに依存するのか? => Yes, マップは探索タスクを解 くために生成される これら4つの質問に対する答えを裏付ける 形で、複数の実験が行われている 3
  4. 4. 背景:生物のもつ学習能力 • 過去の研究からハムスターや狼、チンパンジーやバッタ等の生物は、過去 の経験から、自身のいる環境の空間表現を獲得するといわれている. • 目の見えない環境のmole-rat も同様に空間表現を獲得し、近道をすると いった行動をみせる AIによるagentも同様に、空間表現(地図のようなもの)を獲得する ことで、探索タスクを解いているのだろうか??
  5. 5. 背景:PPO • 方策勾配法は、パラメータの更新時に更新しすぎてしまう場合がある. 𝐿𝑃𝐺 𝜃 = 𝐸𝑡[𝑙𝑜𝑔𝜋𝜃(𝑎𝑡|𝑠𝑡)𝐴𝑡] • PPOは更新の度合いをclipにより調整する 𝐿𝐶𝐿𝐼𝑃 𝜃 = 𝐸𝑡[min(𝑟𝑡 𝜃 𝐴𝑡, 𝑐𝑙𝑖𝑝(𝑟𝑡 𝜃 , 1 − 𝜖, 1 + 𝜖)𝐴𝑡)] 図出典:Federated Reinforcement Learning for Training Control Policies on Multiple IoT Devices 5
  6. 6. 本研究:タスクの概要 • PointGoal Navigation:agentが未知の環境におい て、与えられた相対位置をゴールとするタスク • Agentの得られる情報は、自身のいる座標と方向 のみ(rgb画像やdepth画像は与えられない) • 𝑜𝑡 = 𝑥𝑔, 𝑦𝑔, 𝑧𝑔, 𝑥𝑡, 𝑦𝑡, 𝑧𝑡, 𝜃𝑡 , ℎ𝑡, 𝑐𝑡 = 𝐿𝑆𝑇𝑀(𝑜𝑡, (ℎ𝑡−1, 𝑐𝑡−1)) 6
  7. 7. 本研究:モデルの構造 • Agentが時刻tに観測した情報𝑜𝑡と過去の情報を圧縮したℎ𝑡−1から、行動aを出力. • agentの行動に応じて報酬𝑟𝑡が与えられるので、これが最大となるような方策を学習する • 512次元, 3層のLSTMで構成されている. • 各timestep毎に、lstmのoutputは全結合層を介して、agentの行動と価値関数を出力する 7
  8. 8. 本研究:タスクの実験結果 • タスクの難易度について、「Success」と「SPL」の2つの評価軸で調査 • SPLは最短ルートと比較して、どれくらい効率的にゴールに到達できたか を表す 8
  9. 9. 未知の環境でagentが辿るルート • 結果:Agentが壁沿いに進む様子が観 測された • agentは視覚に関する情報を持ってい ない設定のため、障害物を見つけるに は壁にぶつかるしかない • 唯一与えられる自身の位置に関する情 報は、goalとの相対位置しか与えられ ていない 9
  10. 10. Agentは衝突に関する記憶を学習するのか • LSTMの隠れ層 (ℎ𝑡, 𝑐𝑡) から、一つ前のtimestepで取った行動𝑎𝑡−1によって、衝突したかどうかを予測 • LSTMの隠れ層 (ℎ𝑡, 𝑐𝑡) を線形分類器に通して分類⇒98%の精度 • 次にl1正則化を加えて、線形分類器を再学習したのち、次元を削除したところ、上図のような4つのク ラスターがみられた(衝突、前進、右回転、左回転に対応) 10
  11. 11. 過去何ステップの情報を記憶するのか • 各時刻tについて、 [𝑜𝑡−𝑘+1, … , 𝑜𝑡] の観測情報を基に、 LSTMの内部状態を構築 • ℎ𝑖, 𝑐𝑖 = LSTM 𝑜𝑖, ℎ𝑖−1, 𝑐𝑖−1 , ℎ𝑡−𝑘, 𝑐𝑡−𝑘 = (0,0) で与えられる. • 横軸は過去何ステップの情報を見たか(k)を表す. • もし、短いタイムステップしか記憶しないのであ れば、成功率はすぐに収束するはず(だけどしない) 11
  12. 12. 記憶が近道に影響を及ぼす • S→Tのタスクを達成後、最終タイムステップの隠れ層を用いて、再度同じタスクを行う • Agentが壁沿いを動く(青線)のに対し、probeはより効率的な動き(紫線)をする • Agentの行動により、空間的表現を獲得しているのではないか(それが近道につながる) 12
  13. 13. 地図の生成 • LSTMの最終層(ℎ𝑇, 𝑐𝑇)を使って、探索タスクに用いた環境のマップを予測 • 事前学習を行ったagentと行っていないagentの予測精度を比較 • 探索時に通っていない場所を、壁が平行であるといった仮定のもと予測している とみられる 13
  14. 14. 記憶しやすい情報としにくい情報 • ある時刻tの隠れ状態(ℎ𝑡, 𝑐𝑡)を用いて、k step前のagentの位置を予測する • 𝑠𝑡−𝑘 = 𝑓𝑘 ℎ𝑡, 𝑐𝑡 + 𝑠𝑡, 𝑠𝑡+𝑘 − 𝑠𝑡+𝑘 / 𝑠𝑡+𝑘 − 𝑠𝑡 を最小化するようなfを学習する • 回り道をした分の情報(Excursion)は、予測しずらい(忘れやすい)ことがいえる 14
  15. 15. まとめと感想 • 目の見えないagentは、未知の環境において、壁沿いを動くという行動をみせた • また、agentが未知の環境において、直接探索していない地点を予測したり、同じタスク を行うと近道をすることができることから、地図に相当するものを形成していると考え られる • 今回のモデルに限らず、得られたモデルの解析方法として、参考になるところが多いと 思った • 特定の生物とより似た条件をagentに付与して、学習過程の解析を見るという方向性で もっと色々できるようになったら面白そう 15

×