第2回NIPS読み会の発表資料です.learning to learn by gradient decent by gradient decent. OptimizerをLSTMとして表現し,逆誤差伝播によりそれを最適化. 目的関数の成分ごと独立に,パラメタを共有したLSTMで最適化を行うことで最適化すべきOptimizerのパラメタ数を小さく抑える.
13. ・問題設定:[S.
Hochreiter
et
al
2001],[M.Andrychowicz
et
al. 2016]
L(φ)がφに関して微分可能であれば,OpDmizer
g(φ)
を,
期待損失 L(φ) の微分情報を用いて逆誤差伝播で最適
化できる.
-‐
OpDmizer
g
をパラメータφで直接特徴付ける g(∇f, φ)
-‐ そのため,OpDmizeeの最適なパラメタθ*は,θ(f, φ)と書ける
-‐ そのため,期待損失関数 L(φ) はφの関数として書ける
14. ・問題設定:[S.
Hochreiter
et
al
2001],[M.Andrychowicz
et
al. 2016]
-‐Opimizerのupdate
step
gtをリカレントニューラルネットワーク
m
の出力として表現
-‐計算グラフを遡ることで,RNNのパラメタφが更新可能
を仮定