9. 提案モデル概要
1. Hierarchical Recurrent Space Models
2. Binary Subsequence Indicator
3. Prior on Temporal Structure
4. Hierarchical Transitions
5. Learning and Inference
10. 1. Hierarchical Recurrent State Space Models
• この論文が目指す階層的なState Space Models(SSM)のグラフィカルモデル
• 上位のState( )も遷移する(e.g., レシピを決める->買い物に行く->調理をする)
• 上位のState( )を遷移させるタイミングのモデリングが難しい
• (各 (上位のイベント)に対応する (下位のイベント)の個数が異なる点に注意)
z
z
z s
11. Preliminary: Recurrent State Space Models
• PlaNet[Hafner+2019] 等で採用されているVAEベースのSSM
• これを階層化したものが提案手法
• 上の図では省略してあるが, をRNNでモデル化するのが特徴
• (名前 “Recurrent State Space Models” の由来)
p(st |st−1)
x
s
12. 2. Binary Subsequence Indicator
• をいつ遷移させるかを決める新たなbinary潜在変数 を導入. のときのみ遷移
•
, はRNNで集約された (コンテキスト)
• アイデア自体はあった(e.g., Ghahramani and Hinton 2000)がVAEでやるのが特徴
z m m = 1
p(zt) =
{
δ(zt = zt−1) if mt−1 = 0
˜p(zt |ct) otherwise
ct z1:t−1
18. Navigation in 3D Maze
• 左: 鳥瞰図, 右: 一人称視点
• A = {forward, left-turn, right-turn}, ただし交差点以外の場所で
は”forward”しか選択できない
• T=20, Context=5, ,Nmax = 5 lmax = 8
19. Navigation in 3D Maze (loss)
• 階層構造を持たないRSSMと,持つHRSSMで比較
• “This suggests that our model does not lose the reconstruction performance”
• とはいえ誤差が増えてるが, の遷移が途切れるようにモデル化してるので仕方ないかs
23. 書誌情報
• Language as an Abstraction for Hierarchical Deep
Reinforcement Learning
• Yiding Jiang, Shixiang Gu, Kevin Murphy, Chelsea Finn
• Google Research
• NeurIPS2019
• 一言まとめ: 言語による指示をサブゴールとした階層RLにより,学習時と
異なる環境への汎化(=外挿)を達成
31. 動作例
• https://sites.google.com/view/hal-
demo#h.p_XvbS-Ac8r6jC
• 以下の条件を満たすよう物体を並び替える
1.red ball to the right of purple ball
2.green ball to the right of red ball
3.green ball to the right of cyan ball
4.purple ball to the left of cyan ball
5.cyan ball to the right of purple ball
6.red ball in front of blue ball
7.red ball to the left of green sphere
8.green ball in front of blue sphere
9.purple ball to the left of cyan ball
10.blue ball behind red ball
• タスク達成のため様々な言語指示が上位方
策からサンプリングされている様子が表示
されている(たぶんそう)
33. 下位方策の評価1.
Role of Compositionality and Relabeling
• 「一つの下位方策がどれだけ多
くの指示を解けるか」評価
• Non-Compose:
• を(自己符号化器による)言
語指示の埋め込みにした場合
• Non-Composeと,HIRなしの
場合はあまり学習が進まず
• Compositionalな が大事
• 密な報酬が大事
g
g
36. 議論・Future Work
• human language supervisorをimage captioning modelで置き換えたい
• 結局用意された環境,言語指示の集合によって性能が制限されてしまう
=> 言語の教師なしでCompositionalなabstractionを獲得したい
38. References
• Sutton, R. S., Precup, D., and Singh, S. P. (1999). Between MDPs and semi-MDPs: A framework for
temporal abstraction in reinforcement learning. Artif. Intell., 112(1-2):181‒211.
• Doina Precup. (2018). Temporal Abstraction. DLRL Tronto 2018. https://dlrlsummerschool.ca/wp-
content/uploads/2018/09/precup-temporal-abstraction-rlss-2018.pdf
• Gregor, K., Papamakarios, G., Besse, F., Buesing, L., and Weber, T. Temporal difference variational
auto-encoder. In International Conference on Learning Representations, 2019.
• Ghahramani, Z. and Hinton, G. E. Variational learning for switching state-space models. Neural
computation, 12(4):831‒864, 2000.
• Hafner, D., Lillicrap, T., Fischer, I., Villegas, R., Ha, D., Lee, H., and Davidson, J. Learning latent
dynamics for planning from pixels. ICML2019.
• Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C Lawrence Zitnick, and
Ross Girshick. Clevr: A diagnostic dataset for compositional language and elementary visual
reasoning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pages 2901‒2910, 2017.