SlideShare ist ein Scribd-Unternehmen logo
1 von 35
Generative Adversarial
Imitation Learning
Jonathan Ho, Stefano Ermon (NIPS 2016)
中田 勇介(M1)
千葉大学 大学院 融合理工学府
荒井研究室
2017/11/14 RLアーキテクチャ勉強会
発表の構成
2
論文の主な貢献
模倣学習,IRL ,RLの概要
RL○IRLを凸最適化問題として定式化
既存の徒弟学習手法を凸最適化問題の枠組みで説明
 徒弟学習(Apprenticeship learning) = IRLによる模倣学習
提案法:GANsを用いた模倣学習アルゴリズム
実験結果
まとめ
論文の主な貢献
3
RL○IRLと同じ方策を学習する模倣学習アルゴリズム
 環境の情報を必要としないモデルフリーアルゴリズム
 報酬(コスト)を推定することなく方策を直接学習
 既存のIRLが必要とする試行錯誤(RL)を削減
 大規模,高次元状態行動空間に適用可能
RL○IRLを凸最適化(min max)問題として定式化
既存の模倣学習手法を定式化した枠組みで説明
 IRLを使った模倣学習手法 [Abbeel 04], [Syed 08]
GANを用いた模倣学習アルゴリズムを提案
模倣学習
4
所与:エキスパートの意思決定系列
学習対象:エキスパートの方策
主なアプローチは二つ
 Behavior cloning [Pomerleau 89]
 Apprenticeship Learning (IRL) [Abbeel 04], [Syed 08]
逆強化学習
5
エキスパートが最小化するコストを推定する手法
 エキスパート,タスクの解き方を知っているエージェント
 推定したコストを最小化する方策 = エキスパートの方策
三つのステップで推定 Update cost
Run RLCompare with
Expert
逆強化学習
6
目的関数(Maximum causal Entropy IRL)
※
上式の解 に対する最適方策はエキスパートの方策と一致
強化学習
7
コストの期待値を最小化する方策を学習
IRLで求めたコストに対してRLすればエキスパートの
方策を再現可能
目的関数(エキスパートの方策を再現する場合)
論文の目的
8
上式はIRLを解いてRLを解くという2段階の問題設定
RL○IRLを1段階の問題設定で定式化したい
変数を変換しRL○IRLを凸最適化問題として定式化
凸最適化問題とは
9
非凸関数凸関数
凸最適化問題とは
10
凸関数 凹関数
凸関数をひっくり返したものが凹関数
凸最適化問題とは
11
von Neumannのミニマックス定理(鞍点の存在定理)
 YとZはそれぞれ空でないコンパクト凸集合.KはY×Zを定義
域とする実数値関数.Zを固定したK(・, z)が下半連続な凸関数.
Yを固定したK(y, ・)が上半連続な凹関数ならば関数K(y, z)には
鞍点が存在する.
https://ja.wikipedia.org/wiki/%E9%9E%8D%E7%82%B9
凸最適化問題とは
12
局所的な最小値が大域的な最小値と一致
狭義凸関数で最小値を持てば解は一意に決まる
最適性条件など諸定理が分かっていることも嬉しい
 KKT条件,双対定理,鞍点定理,ミニマックス定理 等
IRL,RLの再定式化
13
凸な正則化関数を含むIRLを定義
正則化関数を導入しコスト関数の表現能力を目的関数に反映
IRL,RLの再定式化
14
正則化関数を含むIRLの解を と表す
 を凸最適化問題にするために変数を変換
コストの期待値は次式で表される
ρが満たす性質
15
 と は一対一対応

 はアフィン集合
命題3.2.
16
命題:RL○IRLで得られる方策は次式で表される
 は の凸共役関数
証明
17
変数をρに変換した関数を定義
凸関数 凹関数線形関数線形関数
証明
18
と は対応
命題の式の解
上式を用いて命題の式の解,IRL,RL○IRLを表す
IRLの解
RL○IRLの解
と は一対一対応なので を示せば命題が示せる
証明
19
 は任意の に対して凸関数( が変数)
 は任意の に対して凹関数( が変数)
上記と変数の定義域から は鞍点 を持つ
鞍点の定義
凸関数 凹関数線形関数線形関数
※Von Neumannのミニマックス定理
証明
20
鞍点の定義
鞍点の定義より次式が成り立つ
証明
21
minとmaxの定義から次式が成り立つ
証明
22
鞍点の定義から導いた式
minとmaxの定義から導いた式
関数 は上の二つの式を満たすので
※minimax dualityからも分かる.
証明
23
上式より, は の鞍点である
命題の式の解
IRLの解
証明
24
上式より, は の鞍点である
鞍点なので次式が成り立つ
命題の式の解
IRLの解
証明
25
RL○IRLの解 は次式で表される
鞍点の条件から導いた式 は
よって
と は一対一対応
は狭義凸関数
証明終わり
証明から分かること
26
今までは次式を解いていた
証明によって次式を解けば良いことが分かった
IRLの解
RL○IRLの解
IRLに関して分かったこと
27
IRLは関数 の鞍点を求めていた
上の事実は正則化関数が定数の場合が理解しやすい
上式の解は次の問題のラグランジュ関数の解に等しい
Cがラグランジュ変数
(制約なし)
IRLに関して分かったこと
28
IRLはラグランジュ変数を求めていたことになる
例えば,MaxEnt IRLは次の二つのステップを繰り返す
これは双対上昇法(鞍点の座標を求める手法)
双対上昇法は主問題が安易に解ける場合は有効
しかし,IRLの場合はRLを解く必要があるため非効率
主問題
IRLに関して分かったこと
29
凹関数の上昇
方向に更新
凸関数最適化
凹関数の勾配
計算
Update Cost
Compare with
Expert
IRL 双対上昇法
Run RL
非効率
線形コストの場合の模倣学習
30
模倣学習の場合,双対上昇法(IRL)は非効率的
疑問:導出した問題は効率的に解けるのか?
導出した問題
既存の徒弟学習
IRLの解
線形コストの場合の模倣学習
31
コスト関数が線形の場合には効率的な方法がある
1. 軌跡をサンプルし解析的にコストを求める
2. 解いたコストを使って方策勾配
1, 2を繰り返す
線形の場合は解析的に解ける
GANsを用いた非線形コストの模倣学習
32
非線形のコスト関数を使いたい
GANsは,ある非線形関数のミニマックス問題を解ける
GANsの目的関数と一致するように正則化関数を定義
模倣学習の目的関数
最小値で分布が一致
アルゴリズム
33
実験結果
34
まとめ
35
IRLを必要としない模倣学習アルゴリズムを提案
モデルフリーのアルゴリズム
教師データの数は少なくて良い
IRLの解を凸解析の枠組みで説明

Weitere ähnliche Inhalte

Was ist angesagt?

PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement LearningDeep Learning JP
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてYusuke Nakata
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 

Was ist angesagt? (20)

PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 

Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)