SlideShare ist ein Scribd-Unternehmen logo
1 von 38
Downloaden Sie, um offline zu lesen
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Temporal Abstraction in NeurIPS2019
presentator Kei Akuzawa
• NeurIPS2019のTemporal Abstraction関連の論文を二本紹介します
• Variational Temporal Abstraction
• Language as an Abstraction for Hierarchical Deep
Reinforcement Learning
Temporal Abstraction とは
(Precup 2018 より)
• 時間方向において階層化された各レベルのアクションの統合(関係の学習)
• 例: ご飯を作る
• 高レベル: レシピを選ぶ,買い物リストを作る,買い物をする,調理
• 中レベル: 鍋を用意,鍋に具材を入れる,鍋をかき混ぜる
• 低レベル: 手首や腕の動き
• 上記のような階層的な表現を持ったエージェントの利点:
• Planning: 高レベルの表現上で行えばパスが短くて良い,誤差の堆積が減る,etc.
• Learning: 探索の改善(上位の方策をランダムにしても下位の方策は秩序だった行動をする),etc.
• Interpretability
Options Framework
(one of the formalization of temporal abstraction, Sutton+1999 より)
Temporal Abstraction: 二つのアプローチ
• 予測モデル(予測モデルと尤度)ドリブンなTemporal Abstraction
• Variational Temporal Abstraction(一本目)
• RL(方策と報酬)ドリブンなTemporal Abstraction
• Language as an Abstraction for Hierarchical Deep
Reinforcement Learning(二本目)
• (適当に自分がつけた区分で,一般的ではないと思います.)
一本目
書誌情報
• Variational Temporal Abstraction
• Taesup Kim, Sungjin Ahn, Yoshua Bengio
• NeurIPS2019
• 一言まとめ: 動画などの系列データから階層的な抽象状態を見つけ出す
VAEベースのState Space Modelの提案
背景
• 系列データから階層構造を見つけると…
• Option-learning: 階層RLにおけるOption(上位方策)を学習
• 従来だと人手で作る,モデリングの柔軟性が限られる(e.g., Goal
Conditional Hierarchical RL),ハイパラ調整が必要など大変な工程
• Jumpy future imagination: 上位の表現上で未来に対する高速な予測
• 旅行のプランを一秒単位で立てたら大変(TD-VAE [Gregor+2019])
• 上記を達成する深層生成モデルを提案する
提案モデル概要
1. Hierarchical Recurrent Space Models
2. Binary Subsequence Indicator
3. Prior on Temporal Structure
4. Hierarchical Transitions
5. Learning and Inference
1. Hierarchical Recurrent State Space Models
• この論文が目指す階層的なState Space Models(SSM)のグラフィカルモデル
• 上位のState( )も遷移する(e.g., レシピを決める->買い物に行く->調理をする)
• 上位のState( )を遷移させるタイミングのモデリングが難しい
• (各 (上位のイベント)に対応する (下位のイベント)の個数が異なる点に注意)
z
z
z s
Preliminary: Recurrent State Space Models
• PlaNet[Hafner+2019] 等で採用されているVAEベースのSSM
• これを階層化したものが提案手法
• 上の図では省略してあるが, をRNNでモデル化するのが特徴
• (名前 “Recurrent State Space Models” の由来)
p(st |st−1)
x
s
2. Binary Subsequence Indicator
• をいつ遷移させるかを決める新たなbinary潜在変数 を導入. のときのみ遷移
•
, はRNNで集約された (コンテキスト)
• アイデア自体はあった(e.g., Ghahramani and Hinton 2000)がVAEでやるのが特徴
z m m = 1
p(zt) =
{
δ(zt = zt−1) if mt−1 = 0
˜p(zt |ct) otherwise
ct z1:t−1
3. Prior on Temporal Structure
• では をどうパラメタライズするか?
=> ベルヌーイ分布 with Gumbel-softmaxでモデル化が素直
• しかし何らかの事前知識があれば,それを埋め込んだ方が良いだろう.
=>この研究では二つのハイパラをPrior設計に埋め込む
• : subsequenceの数の最大値
• : subsequenceの最大の長さ
• 直感的な説明: 一つのsub-seqが長すぎず,かつsub-seqの数が多すぎないように
p(mt |st)
Nmax
lmax
4. Hierarchical Transitions
• jumpy future imaginationさせたい
• 提案モデルは赤線以外の矢印をわざわざ生
成しなくても は未来へ進むことができる.
• 実装上は常に にすればよい
• SSMの利点(自己回帰構造を持たない)
• 参考: https://www.slideshare.net/
DeepLearningJP2016/
dlsimpleimproved-dynamics-
modelplanet-vaerl
z
mt−1 = 1
x
s
z1 z2
5. Learning and Inference
• VAE(の一種)なのでELBOで学習
• 生成モデル:
•
• 推論モデル:
•
p(X, Z, S, M) =
T
∏
t=1
p (xt |st) p (mt |st) p (st |s<t, zt, mt−1) p (zt |z<t, mt−1)
q(Z, S, M|X) = q(M|X)q(Z|M, X)q(S|Z, M, X)
実験
• 示すこと
• サブシークエンスとしてどのようなものが学習されるか
• jumpy future predictionをnavigationにどう役立てるか
• 環境
• Bouncing Ball:
• 壁にぶつかると色が変わる
• Navigation in 3D Maze
• 上位の状態の遷移分布をaction-conditionalな にして実験p(zt |zt−1, at−1)
Bouncing Ball
• ボールが壁にぶつかって色が変わったタイミングでスイッチ(上の矢印)
• PriorをただのGumbel Softmaxにすると動かない
= 常にスイッチがオフ( の遷移が途切れないので,RSSMに相当)
• 提案Priorだと動く
• T=20, Context=5, ,
s
Nmax = 5 lmax = 10
Navigation in 3D Maze
• 左: 鳥瞰図, 右: 一人称視点
• A = {forward, left-turn, right-turn}, ただし交差点以外の場所で
は”forward”しか選択できない
• T=20, Context=5, ,Nmax = 5 lmax = 8
Navigation in 3D Maze (loss)
• 階層構造を持たないRSSMと,持つHRSSMで比較
• “This suggests that our model does not lose the reconstruction performance”
• とはいえ誤差が増えてるが, の遷移が途切れるようにモデル化してるので仕方ないかs
Goal-Oriented Navigation
• 設定: ゴール近傍の画像が与えられた
状況でのNavigation
• エージェント: 予測モデルを使って仮
想的なnステップのTrajectoryを作
り,その中でリワードが一番高いも
のを実際にrollout (MCTSっぽい)
• HRSSMはRSSMより性能が高い.
状態が抽象化されていることによりn
ステップで想像できる未来がより長
期になっているから
• 上位の表現 でのnステップと,下
位の表現 でのnステップを比べて
いる(たぶん)ので当たり前
z
s
感想
• 面白い方向性にシンプルな手法
• 例えばBouncing Ballの実験で,Ballが複数個あるようなときは,Ballごと
にサブシークエンスが学習されるべきではないか?(時空間の抽象化)
• 例えば音声データには単語/発話/話者など様々なレベルの階層構造がある
が,どれが学習されるかは と の与え方に依存する思える.このよう
に と に学習が大きく依存する(かつ と の選び方が簡単じゃな
い)場合,どうすればよいだろうか(e.g., 他の事前知識の与え方はあるか)
Nmax lmax
Nmax lmax Nmax lmax
二本目
書誌情報
• Language as an Abstraction for Hierarchical Deep
Reinforcement Learning
• Yiding Jiang, Shixiang Gu, Kevin Murphy, Chelsea Finn
• Google Research
• NeurIPS2019
• 一言まとめ: 言語による指示をサブゴールとした階層RLにより,学習時と
異なる環境への汎化(=外挿)を達成
背景
• 階層強化学習(HRL)において効果的かつ汎用的なabstractionを学習する
のは難しい
• スキルをあるタスクに特化させればそのタスクの性能はあがるが,その
スキルが汎用的になる保証はない
• ただでさえHRLはtuningが大変
• 言語はCompositional => うまくHRLと組み合わせることで,汎用性を高
められないだろうか
貢献
• HRLにおいて言語をアブストラクションに用いるフレームワークの提案
• 言語指示(インストラクション)を統合した連続制御環境(OSS)の提供
• MuJoCoとCLEVR[Johnson+2017]を基にしている
• Long-horizon task( 遅延報酬タスク)におけるCompositionalityの役割
を実験的に確認,systematic generalization( 外挿)を達成
≈
≈
Preliminary: Goal-Conditional HRL
• 上位方策はサブゴールをサンプリング,下位方策はサブゴールを達成するようなHRLの枠組み
• 上位方策 : サブゴール をサンプリング.外的報酬で訓練.
• 下位方策 : 適当な負の距離- を報酬として訓練
πh(g|st) g
πl(a|st, g) d(st, g)
提案手法-方針-
• Goal-Conditional HRLにおいてサブゴールを言語指示の達成と見做す
• 上位方策は言語指示(=サブゴール)をサンプリング
• 下位方策は言語指示の達成を報酬として訓練
• Note: 単一のGoal Stateではなく,Goal Regionを考えている
• e.g., 「赤いボールを青いボールより右に置く」 <= このようなstateは一意ではない
• メリット
1. 下位方策が(入力の言語指示がCompositionalであるため)汎化しやすい
2. 上位方策(の出力する言語指示)は人間にとって解釈性高い
3. 人間も似たようなこと(言語に基づいたスキル獲得)をやってそう
提案手法-下位方策の訓練-
• 下位方策の報酬: は
Given
• ある が,インストラクション
を満たしているかを判定する関
数(右図)
• 著者らが提供した環境ではこれを自
動でやってくれる?
• 下位方策 の内部で言語指示 は
GRUで雑に埋め込まれている
Ψ : 𝒮 × 𝒢 → {0,1}
s ∈ 𝒮
g ∈ 𝒢
πl(at |st, g) g
提案手法-下位方策の訓練-
• だけだとスパースリワードすぎ
=> Hindsight Instruction Relabeling (HIR)の利用
• が達成できなかった=>報酬が得られない=>どうしよう?
• を満たす (i.e., をCaptioiningするような ) をサンプ
リングすれば,報酬が得られた場合のTrajectoryを用意できる
• ただし条件付き確率 はgivenである必要 (人手 or Image
captioning model)
Ψ(st+1, g)
g
Ψ(st+1, g′) = 1 g′ st+1 g′
ω(g|s)
提案手法-上位方策の学習-
• 下位方策 は訓練済みで与えられている状況を想定
• 上位方策 は,外部報酬を用いて任意のRLアルゴリズムで訓練可能
• 上位方策 のモデル化も自由
• 例えば言語生成モデルにすることもできる(が報酬から生成モデルの学習は困難)
• この研究では,上位方策がサンプリング可能な言語指示の集合 を小さく取り( ),離
散的な 個の言語指示をアクションとしてDQNを使用
• 下位方策はたくさんの言語指示( )に汎化してほしいが,上位方策は少数( )
に汎化すれば,最終的なタスクを解くのに十分
πl(a|s, g)
πh(g|s)
πh(g|s)
g ∈ ℒ ℒ ⊂ 𝒢
|ℒ|
g ∈ 𝒢 g ∈ ℒ( ⊂ 𝒢)
動作例
• https://sites.google.com/view/hal-
demo#h.p_XvbS-Ac8r6jC
• 以下の条件を満たすよう物体を並び替える
1.red ball to the right of purple ball
2.green ball to the right of red ball
3.green ball to the right of cyan ball
4.purple ball to the left of cyan ball
5.cyan ball to the right of purple ball
6.red ball in front of blue ball
7.red ball to the left of green sphere
8.green ball in front of blue sphere
9.purple ball to the left of cyan ball
10.blue ball behind red ball
• タスク達成のため様々な言語指示が上位方
策からサンプリングされている様子が表示
されている(たぶんそう)
実験
• 環境:
• 著者らがMuJoCoとCLEVRを元に作成
• 示したいこと
• 言語による表現は,Compositionalではない他の表現に比べて優れているか
• 言語指示の数やstateの次元に提案手法がスケールするか
• 外挿できるか
• SoTAなHRLと提案手法の性能比較
• (一部抜粋です)
下位方策の評価1.
Role of Compositionality and Relabeling
• 「一つの下位方策がどれだけ多
くの指示を解けるか」評価
• Non-Compose:
• を(自己符号化器による)言
語指示の埋め込みにした場合
• Non-Composeと,HIRなしの
場合はあまり学習が進まず
• Compositionalな が大事
• 密な報酬が大事
g
g
下位方策の評価2.
Visual Generalization
• Systematic: “red"という単語を前半に含まない言語指示を訓練,含むものをテストデータにした
• を言語にすると(Language),埋め込み(Non-Compos)にした時と比べて,テストデータにおけ
る性能の劣化が抑えられている => 外挿に強い
g
上位方策(あるいはアルゴリズム全体)の評価
• 6つのタスクで評価(右図は一部抜粋)
• 比較手法:HIRO, OC(既存のHRL),
DDQN(non-H RL)
• 強い
• 比較手法は言語を一切用いてないの
で,当然といえば当然
議論・Future Work
• human language supervisorをimage captioning modelで置き換えたい
• 結局用意された環境,言語指示の集合によって性能が制限されてしまう
=> 言語の教師なしでCompositionalなabstractionを獲得したい
感想
• image captioning model とVQA さえあればHRLと言語が
接続できる,というアイデアがシンプルで好き.拡張の余地もたくさんあ
りそう.
• 外挿の実験も面白い
ω(g|s) Ψ(s, g)
References
• Sutton, R. S., Precup, D., and Singh, S. P. (1999). Between MDPs and semi-MDPs: A framework for
temporal abstraction in reinforcement learning. Artif. Intell., 112(1-2):181‒211.
• Doina Precup. (2018). Temporal Abstraction. DLRL Tronto 2018. https://dlrlsummerschool.ca/wp-
content/uploads/2018/09/precup-temporal-abstraction-rlss-2018.pdf
• Gregor, K., Papamakarios, G., Besse, F., Buesing, L., and Weber, T. Temporal difference variational
auto-encoder. In International Conference on Learning Representations, 2019.
• Ghahramani, Z. and Hinton, G. E. Variational learning for switching state-space models. Neural
computation, 12(4):831‒864, 2000.
• Hafner, D., Lillicrap, T., Fischer, I., Villegas, R., Ha, D., Lee, H., and Davidson, J. Learning latent
dynamics for planning from pixels. ICML2019.
• Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C Lawrence Zitnick, and
Ross Girshick. Clevr: A diagnostic dataset for compositional language and elementary visual
reasoning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pages 2901‒2910, 2017.

Weitere ähnliche Inhalte

Was ist angesagt?

深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement LearningDeep Learning JP
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)Shota Imai
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−Deep Learning JP
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 

Was ist angesagt? (20)

深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 

Mehr von Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Kürzlich hochgeladen (9)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

[DL輪読会]Temporal Abstraction in NeurIPS2019

  • 1. DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Temporal Abstraction in NeurIPS2019 presentator Kei Akuzawa
  • 2. • NeurIPS2019のTemporal Abstraction関連の論文を二本紹介します • Variational Temporal Abstraction • Language as an Abstraction for Hierarchical Deep Reinforcement Learning
  • 3. Temporal Abstraction とは (Precup 2018 より) • 時間方向において階層化された各レベルのアクションの統合(関係の学習) • 例: ご飯を作る • 高レベル: レシピを選ぶ,買い物リストを作る,買い物をする,調理 • 中レベル: 鍋を用意,鍋に具材を入れる,鍋をかき混ぜる • 低レベル: 手首や腕の動き • 上記のような階層的な表現を持ったエージェントの利点: • Planning: 高レベルの表現上で行えばパスが短くて良い,誤差の堆積が減る,etc. • Learning: 探索の改善(上位の方策をランダムにしても下位の方策は秩序だった行動をする),etc. • Interpretability
  • 4. Options Framework (one of the formalization of temporal abstraction, Sutton+1999 より)
  • 5. Temporal Abstraction: 二つのアプローチ • 予測モデル(予測モデルと尤度)ドリブンなTemporal Abstraction • Variational Temporal Abstraction(一本目) • RL(方策と報酬)ドリブンなTemporal Abstraction • Language as an Abstraction for Hierarchical Deep Reinforcement Learning(二本目) • (適当に自分がつけた区分で,一般的ではないと思います.)
  • 7. 書誌情報 • Variational Temporal Abstraction • Taesup Kim, Sungjin Ahn, Yoshua Bengio • NeurIPS2019 • 一言まとめ: 動画などの系列データから階層的な抽象状態を見つけ出す VAEベースのState Space Modelの提案
  • 8. 背景 • 系列データから階層構造を見つけると… • Option-learning: 階層RLにおけるOption(上位方策)を学習 • 従来だと人手で作る,モデリングの柔軟性が限られる(e.g., Goal Conditional Hierarchical RL),ハイパラ調整が必要など大変な工程 • Jumpy future imagination: 上位の表現上で未来に対する高速な予測 • 旅行のプランを一秒単位で立てたら大変(TD-VAE [Gregor+2019]) • 上記を達成する深層生成モデルを提案する
  • 9. 提案モデル概要 1. Hierarchical Recurrent Space Models 2. Binary Subsequence Indicator 3. Prior on Temporal Structure 4. Hierarchical Transitions 5. Learning and Inference
  • 10. 1. Hierarchical Recurrent State Space Models • この論文が目指す階層的なState Space Models(SSM)のグラフィカルモデル • 上位のState( )も遷移する(e.g., レシピを決める->買い物に行く->調理をする) • 上位のState( )を遷移させるタイミングのモデリングが難しい • (各 (上位のイベント)に対応する (下位のイベント)の個数が異なる点に注意) z z z s
  • 11. Preliminary: Recurrent State Space Models • PlaNet[Hafner+2019] 等で採用されているVAEベースのSSM • これを階層化したものが提案手法 • 上の図では省略してあるが, をRNNでモデル化するのが特徴 • (名前 “Recurrent State Space Models” の由来) p(st |st−1) x s
  • 12. 2. Binary Subsequence Indicator • をいつ遷移させるかを決める新たなbinary潜在変数 を導入. のときのみ遷移 • , はRNNで集約された (コンテキスト) • アイデア自体はあった(e.g., Ghahramani and Hinton 2000)がVAEでやるのが特徴 z m m = 1 p(zt) = { δ(zt = zt−1) if mt−1 = 0 ˜p(zt |ct) otherwise ct z1:t−1
  • 13. 3. Prior on Temporal Structure • では をどうパラメタライズするか? => ベルヌーイ分布 with Gumbel-softmaxでモデル化が素直 • しかし何らかの事前知識があれば,それを埋め込んだ方が良いだろう. =>この研究では二つのハイパラをPrior設計に埋め込む • : subsequenceの数の最大値 • : subsequenceの最大の長さ • 直感的な説明: 一つのsub-seqが長すぎず,かつsub-seqの数が多すぎないように p(mt |st) Nmax lmax
  • 14. 4. Hierarchical Transitions • jumpy future imaginationさせたい • 提案モデルは赤線以外の矢印をわざわざ生 成しなくても は未来へ進むことができる. • 実装上は常に にすればよい • SSMの利点(自己回帰構造を持たない) • 参考: https://www.slideshare.net/ DeepLearningJP2016/ dlsimpleimproved-dynamics- modelplanet-vaerl z mt−1 = 1 x s z1 z2
  • 15. 5. Learning and Inference • VAE(の一種)なのでELBOで学習 • 生成モデル: • • 推論モデル: • p(X, Z, S, M) = T ∏ t=1 p (xt |st) p (mt |st) p (st |s<t, zt, mt−1) p (zt |z<t, mt−1) q(Z, S, M|X) = q(M|X)q(Z|M, X)q(S|Z, M, X)
  • 16. 実験 • 示すこと • サブシークエンスとしてどのようなものが学習されるか • jumpy future predictionをnavigationにどう役立てるか • 環境 • Bouncing Ball: • 壁にぶつかると色が変わる • Navigation in 3D Maze • 上位の状態の遷移分布をaction-conditionalな にして実験p(zt |zt−1, at−1)
  • 17. Bouncing Ball • ボールが壁にぶつかって色が変わったタイミングでスイッチ(上の矢印) • PriorをただのGumbel Softmaxにすると動かない = 常にスイッチがオフ( の遷移が途切れないので,RSSMに相当) • 提案Priorだと動く • T=20, Context=5, , s Nmax = 5 lmax = 10
  • 18. Navigation in 3D Maze • 左: 鳥瞰図, 右: 一人称視点 • A = {forward, left-turn, right-turn}, ただし交差点以外の場所で は”forward”しか選択できない • T=20, Context=5, ,Nmax = 5 lmax = 8
  • 19. Navigation in 3D Maze (loss) • 階層構造を持たないRSSMと,持つHRSSMで比較 • “This suggests that our model does not lose the reconstruction performance” • とはいえ誤差が増えてるが, の遷移が途切れるようにモデル化してるので仕方ないかs
  • 20. Goal-Oriented Navigation • 設定: ゴール近傍の画像が与えられた 状況でのNavigation • エージェント: 予測モデルを使って仮 想的なnステップのTrajectoryを作 り,その中でリワードが一番高いも のを実際にrollout (MCTSっぽい) • HRSSMはRSSMより性能が高い. 状態が抽象化されていることによりn ステップで想像できる未来がより長 期になっているから • 上位の表現 でのnステップと,下 位の表現 でのnステップを比べて いる(たぶん)ので当たり前 z s
  • 21. 感想 • 面白い方向性にシンプルな手法 • 例えばBouncing Ballの実験で,Ballが複数個あるようなときは,Ballごと にサブシークエンスが学習されるべきではないか?(時空間の抽象化) • 例えば音声データには単語/発話/話者など様々なレベルの階層構造がある が,どれが学習されるかは と の与え方に依存する思える.このよう に と に学習が大きく依存する(かつ と の選び方が簡単じゃな い)場合,どうすればよいだろうか(e.g., 他の事前知識の与え方はあるか) Nmax lmax Nmax lmax Nmax lmax
  • 23. 書誌情報 • Language as an Abstraction for Hierarchical Deep Reinforcement Learning • Yiding Jiang, Shixiang Gu, Kevin Murphy, Chelsea Finn • Google Research • NeurIPS2019 • 一言まとめ: 言語による指示をサブゴールとした階層RLにより,学習時と 異なる環境への汎化(=外挿)を達成
  • 25. 貢献 • HRLにおいて言語をアブストラクションに用いるフレームワークの提案 • 言語指示(インストラクション)を統合した連続制御環境(OSS)の提供 • MuJoCoとCLEVR[Johnson+2017]を基にしている • Long-horizon task( 遅延報酬タスク)におけるCompositionalityの役割 を実験的に確認,systematic generalization( 外挿)を達成 ≈ ≈
  • 26. Preliminary: Goal-Conditional HRL • 上位方策はサブゴールをサンプリング,下位方策はサブゴールを達成するようなHRLの枠組み • 上位方策 : サブゴール をサンプリング.外的報酬で訓練. • 下位方策 : 適当な負の距離- を報酬として訓練 πh(g|st) g πl(a|st, g) d(st, g)
  • 27. 提案手法-方針- • Goal-Conditional HRLにおいてサブゴールを言語指示の達成と見做す • 上位方策は言語指示(=サブゴール)をサンプリング • 下位方策は言語指示の達成を報酬として訓練 • Note: 単一のGoal Stateではなく,Goal Regionを考えている • e.g., 「赤いボールを青いボールより右に置く」 <= このようなstateは一意ではない • メリット 1. 下位方策が(入力の言語指示がCompositionalであるため)汎化しやすい 2. 上位方策(の出力する言語指示)は人間にとって解釈性高い 3. 人間も似たようなこと(言語に基づいたスキル獲得)をやってそう
  • 28. 提案手法-下位方策の訓練- • 下位方策の報酬: は Given • ある が,インストラクション を満たしているかを判定する関 数(右図) • 著者らが提供した環境ではこれを自 動でやってくれる? • 下位方策 の内部で言語指示 は GRUで雑に埋め込まれている Ψ : 𝒮 × 𝒢 → {0,1} s ∈ 𝒮 g ∈ 𝒢 πl(at |st, g) g
  • 29. 提案手法-下位方策の訓練- • だけだとスパースリワードすぎ => Hindsight Instruction Relabeling (HIR)の利用 • が達成できなかった=>報酬が得られない=>どうしよう? • を満たす (i.e., をCaptioiningするような ) をサンプ リングすれば,報酬が得られた場合のTrajectoryを用意できる • ただし条件付き確率 はgivenである必要 (人手 or Image captioning model) Ψ(st+1, g) g Ψ(st+1, g′) = 1 g′ st+1 g′ ω(g|s)
  • 30. 提案手法-上位方策の学習- • 下位方策 は訓練済みで与えられている状況を想定 • 上位方策 は,外部報酬を用いて任意のRLアルゴリズムで訓練可能 • 上位方策 のモデル化も自由 • 例えば言語生成モデルにすることもできる(が報酬から生成モデルの学習は困難) • この研究では,上位方策がサンプリング可能な言語指示の集合 を小さく取り( ),離 散的な 個の言語指示をアクションとしてDQNを使用 • 下位方策はたくさんの言語指示( )に汎化してほしいが,上位方策は少数( ) に汎化すれば,最終的なタスクを解くのに十分 πl(a|s, g) πh(g|s) πh(g|s) g ∈ ℒ ℒ ⊂ 𝒢 |ℒ| g ∈ 𝒢 g ∈ ℒ( ⊂ 𝒢)
  • 31. 動作例 • https://sites.google.com/view/hal- demo#h.p_XvbS-Ac8r6jC • 以下の条件を満たすよう物体を並び替える 1.red ball to the right of purple ball 2.green ball to the right of red ball 3.green ball to the right of cyan ball 4.purple ball to the left of cyan ball 5.cyan ball to the right of purple ball 6.red ball in front of blue ball 7.red ball to the left of green sphere 8.green ball in front of blue sphere 9.purple ball to the left of cyan ball 10.blue ball behind red ball • タスク達成のため様々な言語指示が上位方 策からサンプリングされている様子が表示 されている(たぶんそう)
  • 32. 実験 • 環境: • 著者らがMuJoCoとCLEVRを元に作成 • 示したいこと • 言語による表現は,Compositionalではない他の表現に比べて優れているか • 言語指示の数やstateの次元に提案手法がスケールするか • 外挿できるか • SoTAなHRLと提案手法の性能比較 • (一部抜粋です)
  • 33. 下位方策の評価1. Role of Compositionality and Relabeling • 「一つの下位方策がどれだけ多 くの指示を解けるか」評価 • Non-Compose: • を(自己符号化器による)言 語指示の埋め込みにした場合 • Non-Composeと,HIRなしの 場合はあまり学習が進まず • Compositionalな が大事 • 密な報酬が大事 g g
  • 34. 下位方策の評価2. Visual Generalization • Systematic: “red"という単語を前半に含まない言語指示を訓練,含むものをテストデータにした • を言語にすると(Language),埋め込み(Non-Compos)にした時と比べて,テストデータにおけ る性能の劣化が抑えられている => 外挿に強い g
  • 35. 上位方策(あるいはアルゴリズム全体)の評価 • 6つのタスクで評価(右図は一部抜粋) • 比較手法:HIRO, OC(既存のHRL), DDQN(non-H RL) • 強い • 比較手法は言語を一切用いてないの で,当然といえば当然
  • 36. 議論・Future Work • human language supervisorをimage captioning modelで置き換えたい • 結局用意された環境,言語指示の集合によって性能が制限されてしまう => 言語の教師なしでCompositionalなabstractionを獲得したい
  • 37. 感想 • image captioning model とVQA さえあればHRLと言語が 接続できる,というアイデアがシンプルで好き.拡張の余地もたくさんあ りそう. • 外挿の実験も面白い ω(g|s) Ψ(s, g)
  • 38. References • Sutton, R. S., Precup, D., and Singh, S. P. (1999). Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning. Artif. Intell., 112(1-2):181‒211. • Doina Precup. (2018). Temporal Abstraction. DLRL Tronto 2018. https://dlrlsummerschool.ca/wp- content/uploads/2018/09/precup-temporal-abstraction-rlss-2018.pdf • Gregor, K., Papamakarios, G., Besse, F., Buesing, L., and Weber, T. Temporal difference variational auto-encoder. In International Conference on Learning Representations, 2019. • Ghahramani, Z. and Hinton, G. E. Variational learning for switching state-space models. Neural computation, 12(4):831‒864, 2000. • Hafner, D., Lillicrap, T., Fischer, I., Villegas, R., Ha, D., Lee, H., and Davidson, J. Learning latent dynamics for planning from pixels. ICML2019. • Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C Lawrence Zitnick, and Ross Girshick. Clevr: A diagnostic dataset for compositional language and elementary visual reasoning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2901‒2910, 2017.