SlideShare ist ein Scribd-Unternehmen logo
1 von 31
効用最大化理論の観点から見る強化学習
東京大学大学院
工学系研究科社会基盤学専攻
交通・都市・国土学研究室
M2 石井 健太
目的
• 交通分野で人の行動選択をモデル化する際に用いられる
離散選択モデルの一種 (Recursive Logit model)
• 機械学習分野のSoftmax policyを用いた強化学習
が等価であることを説明し,
強化学習を人の行動原理に落とし込みたい
2
Recursive Logit model
A link based network route choice model
with unrestricted choice set
Fosgerau, M., Frejinger, E., & Karlstrom, A. (2013)
以下の論文を基に説明を進める
Introduction 4
経路ベース リンクベース
目的地までの経路を予め列挙し,
事前に選択する
各状態において逐次的に次のリ
ンクを選択する
・原理と計算過程が明快 ・経路列挙のコストがない
・選択肢集合が膨大
・逐次的意思決定を考慮できない
(e.g. 回遊行動)
・説明変数にリンクに紐づかな
い項が入れにくい (e.g. 料金)
MNL, NL
マルコフ連鎖モデル
Recursive Logit Model
本研究ではこれを扱う
経路選択モデル
Recursive Logit model
単純化のため,静的ネットワークを考える
5Recursive Logit Modelの考え方
𝑘
𝑎
𝐷𝐴(𝑘)
𝑑
グラフ 𝐺 = 𝐴, 𝑣 𝐴:リンク集合, 𝑣:ノード集合
吸収状態
リンク𝑘, 𝑎 ∈ 𝐴
𝐴(𝑘):リンク𝑘の終点を始点とするリンク集合
意思決定者は
現在の状態𝑘から次の状態𝑎を選択する際に得られる効用
と
選択した状態𝑎から目的の状態𝑑までの期待効用
の和を最大化するように状態を選択する
仮定
Recursive Logit model
Recursive Logit Model 6
𝑉𝑛
𝑑 𝑘 = 𝐸 max
𝑎∈𝐴(𝑘)
𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛
𝑑(𝑎) ∀𝑘 ∈ 𝐴
意思決定者𝑛が
状態𝑘から次の状態𝑎を選択する際に考慮する効用
𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛
𝑑(𝑎)
𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 : 現在の状態𝑘から次の状態𝑎を選択する際に得られる効用
𝑉𝑛
𝑑
(𝑎) : 選択した状態𝑎から目的の状態𝑑までの期待効用
𝜀 𝑛(𝑎): 平均0のGumbel分布に従う誤差項
𝜇: スケールパラメータ
価値関数はBellman方程式を用いて以下のように表せる
効用関数
Recursive Logit model
(1)
(補足) 価値関数とは 7
今回,状態価値関数についてのみ考える
状態価値関数𝑉 𝜋(𝑠):状態𝑠にいることの価値を評価する
方策𝜋(𝑠, 𝑎):どのようなポリシーで行動するか.
(=ある状態𝑠の時に行動𝑎を取る確率)
𝑠𝑡 𝑠𝑡+1 𝑠𝑡+2遷移状態 遷移状態
𝑎~𝜋(𝑠, 𝑎)
特定の方策に関して定義される
Recursive Logit model
【設定】1. 𝜋に従って行動を選択
(補足) 価値関数とは 8
今回,状態価値関数についてのみ考える
状態価値関数𝑉 𝜋(𝑠):状態𝑠にいることの価値を評価する
方策𝜋(𝑠, 𝑎):どのようなポリシーで行動するか.
(=ある状態𝑠の時に行動𝑎を取る確率)
𝑠𝑡 𝑠𝑡+1 𝑠𝑡+2遷移状態 遷移状態
𝒫𝑠𝑠′
𝑎
= Pr{𝑠𝑡+1 = s′
|𝑠𝑡 = s, 𝑎 𝑡 = 𝑎}
𝑎~𝜋(𝑠, 𝑎)
特定の方策に関して定義される
Recursive Logit model
【設定】2. 環境に影響を受け,確率的に次の状態が決まる
(補足) 価値関数とは 9
今回,状態価値関数についてのみ考える
特定の方策に関して定義される
方策𝜋(𝑠, 𝑎):どのようなポリシーで行動するか.
(=ある状態𝑠の時に行動𝑎を取る確率)
𝑠𝑡 𝑠𝑡+1
𝑎~𝜋(𝑠, 𝑎)
𝑠𝑡+2遷移状態 遷移状態
𝒫𝑠𝑠′
𝑎
= Pr{𝑠𝑡+1 = s′
|𝑠𝑡 = s, 𝑎 𝑡 = 𝑎}
𝑟𝑡+1
状態価値関数𝑉 𝜋(𝑠):状態𝑠にいることの価値を評価する
Recursive Logit model
【設定】3. 報酬を得る (以降も1から繰り返し)
10
𝑠𝑡 𝑠𝑡+1
𝑎~𝜋(𝑠, 𝑎)
遷移状態
𝒫𝑠𝑠′
𝑎
= Pr{𝑠𝑡+1 = s′
|𝑠𝑡 = s, 𝑎 𝑡 = 𝑎}
𝑟𝑡+1
(補足) 価値関数とは
𝑉 𝜋 𝑠 = 𝐸 𝜋
𝑘=0
∞
𝛾 𝑘 𝑟𝑡+𝑘+1|𝑠𝑡 = 𝑠
= 𝐸 𝜋 𝑟𝑡+1 + 𝛾
𝑘=0
∞
𝛾 𝑘 𝑟𝑡+𝑘+2|𝑠𝑡 = 𝑠
=
𝑎
𝜋 𝑠, 𝑎
𝑠′
𝒫𝑠𝑠′
𝑎
ℛ 𝑠𝑠′
𝑎
+ 𝛾𝐸 𝜋
𝑘=0
∞
𝛾 𝑘
𝑟𝑡+𝑘+2|𝑠𝑡+1 = 𝑠′
=
𝑎
𝜋 𝑠, 𝑎
𝑠′
𝒫𝑠𝑠′
𝑎
ℛ 𝑠𝑠′
𝑎
+ 𝛾𝑉 𝜋
𝑠′
𝛾: 時間割引率 (0 < 𝛾 ≤ 1)
ℛ 𝑠𝑠′
𝑎
:報酬の期待値
(= 𝐸{𝑟𝑡+1|𝑠𝑡 = s, 𝑎 𝑡 = 𝑎, 𝑠𝑡+1 = s′})
起こした行動𝑎に対して想定される
状態は𝒫𝑠𝑠′
𝑎
に従って複数想定される
Recursive Logit model
(2)
11(補足) 価値関数とは
𝑉 𝜋
𝑠 =
𝑎
𝜋 𝑠, 𝑎
𝑠′
𝒫𝑠𝑠′
𝑎
ℛ 𝑠𝑠′
𝑎
+ 𝛾𝑉 𝜋
𝑠′
 意思決定者は選択したリンクに対して一意に移動する
(移動の不確実性は考慮しない)
 意思決定者は効用を最大化するよう行動を選択する
(方策がgreedyである)
𝑉𝑛
𝑑 𝑘 = 𝐸 max
𝑎∈𝐴(𝑘)
𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛
𝑑(𝑎) ∀𝑘 ∈ 𝐴
RLモデルの価値関数
状態価値関数
Recursive Logit model
(2)
(1)
つまり人を以下のような人だと仮定している
12
Recursive Logit model
Recursive Logit Model
Expart
全ネットワークは探索済み
最適行動価値関数を把握してる歩行のプロだよ
本当はGreedyな人なんだけど,報酬が確率的に
変わるから結果的にSoftmaxをポリシーにしているよ
Recursive Logit Model
• Multinomial Logit Model
13
リンク選択肢 𝑎 の効用の確定項
𝑣 𝑛 𝑎 𝑘 + 𝑉𝑛
𝑑(𝑎)
経路選択肢 𝑖 の選択確率 𝑃𝑖
𝑃𝑖 =
exp(𝑉𝑖)
𝑗 exp(𝑉𝑗)
• Recursive Logit (RL) Model
リンク選択確率
𝑘
𝑎
𝐷𝐴(𝑘)
𝑑
O
𝑉𝑖
経路選択肢 𝑖 の効用の確定項 𝑉𝑖
リンク選択肢 𝑖 の選択確率𝑃𝑛
𝑑
(𝑎|𝑘)
𝑃𝑛
𝑑
𝑎 𝑘 =
𝑒
1
𝜇
(𝑣 𝑛 𝑎 𝑘 +𝑉𝑛
𝑑(𝑎))
𝑎′∈𝐴(𝑘) 𝑒
1
𝜇(𝑣 𝑛 𝑎′
𝑘 +𝑉𝑛
𝑑(𝑎′))
ロジット型で表せる
𝐷
Recursive Logit model
(3)
14Recursive Logit Model Bellman方程式
価値関数を求める = Bellman方程式を解く
𝑉𝑛
𝑑 𝑘 =
𝜇 ln
𝑎∈𝐴
𝛿 𝑎|𝑘 𝑒
1
𝜇
𝑣 𝑛 𝑎 𝑘 +𝑉𝑛
𝑑(𝑎)
∀𝑘 ∈ 𝐴
0 𝑘 = 𝑑
𝑉𝑛
𝑑
𝑘 = 𝐸 max
𝑎∈𝐴(𝑘)
𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛
𝑑
(𝑎) ∀𝑘 ∈ 𝐴
価値関数を変形
𝑒
1
𝜇 𝑉𝑛
𝑑 𝑘
=
𝑎∈𝐴
𝛿 𝑎|𝑘 𝑒
1
𝜇 𝑣 𝑛 𝑎 𝑘 +𝑉𝑛
𝑑(𝑎)
∀𝑘 ∈ 𝐴
1 𝑘 = 𝑑
where
𝛿 𝑎|𝑘 =
1 , 𝑎 ∈ 𝐴(𝑘)
0 otherwise
Recursive Logit model
(1)
(4)
(5)
15Recursive Logit Model Bellman方程式
式(4)は行列を用いて表現できる
𝑒
1
𝜇
𝑉𝑛
𝑑 𝑘
=
𝑎∈𝐴(𝑘)
𝛿 𝑎|𝑘 𝑒
1
𝜇
𝑣 𝑛 𝑎 𝑘 +𝑉𝑛
𝑑(𝑎)
∀𝑘 ∈ 𝐴
1 𝑘 = 𝑑
𝒛 = 𝑴𝒛 + 𝒃 ⇔
• 𝒛 ( 𝑨 × 1)
𝑧 𝑘 = 𝑒
1
𝜇
𝑉(𝑘)
• 𝑴 ( 𝑨 × 𝑨 )
𝑀 𝑘𝑎 = 𝛿(𝑎|𝑘)𝑒
1
𝜇
𝑣(𝑎|𝑘)
, 𝑎 ∈ 𝐴(𝑘)
0 otherwise
= 𝑒
1
𝜇
𝑣(𝑎|𝑘)
, 𝑎 ∈ 𝐴(𝑘)
0 otherwise
• 𝒃 ( 𝑨 × 1)
𝑏 𝑘 =
1 𝑘 ≠ 𝑑
0 𝑘 = 𝑑
where
Recursive Logit model
(5)
16Recursive Logit Model Bellman方程式
𝒛 = 𝑴𝒛 + 𝒃を書き下すと
𝒛を求める.
𝒛 = 𝑴𝒛 + 𝒃 ⇔ 𝑰 − 𝑴 𝒛 = 𝒃
価値関数が解を持つためには
𝑰 − 𝑴 が逆行列を持つ必要がある
Recursive Logit model
(6)
17Recursive Logit Model 経路選択確率
経路𝜎 = 𝑘𝑖 𝑖=1
𝐼
の選択確率を考える 𝑘1:出発地, 𝑘𝐼:目的地𝑑
𝑃 𝜎 =
𝑖=0
𝐼−1
𝑃(𝑘𝑖+1|𝑘𝑖)
=
𝑖=0
𝐼−1
𝑒
1
𝜇
𝑣 𝑘𝑖+1 𝑘𝑖 +𝑉(𝑘 𝑖+1)
𝑎∈𝐴(𝑘 𝑖) 𝑒
1
𝜇 𝑣 𝑎 𝑘𝑖 +𝑉 𝑎
=
𝑖=0
𝐼−1
𝑒
1
𝜇 𝑣 𝑘𝑖+1 𝑘𝑖 +𝑉 𝑘 𝑖+1 −𝑉 𝑘 𝑖
𝑈∗
= max
𝑎∈𝐴(𝑘𝑖)
𝑣 𝑛 𝑎 𝑘𝑖 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛
𝑑
(𝑎)
𝑈∗
= 𝑉∗
+ 𝜀∗
𝑉 𝑘𝑖 = 𝑉∗
= ln
𝑎∈𝐴(𝑘𝑖)
𝑒 𝑣 𝑛 𝑎 𝑘𝑖 +𝑉𝑛
𝑑(𝑎)
ガンベル分布の性質を用いると(MNLの導出と同じ)
= 𝑒
−
1
𝜇
𝑉(𝑘0)
𝑖=0
𝐼−1
𝑒
1
𝜇
𝑣 𝑘𝑖+1 𝑘𝑖
=
𝑒
1
𝜇
𝑣(𝜎)
𝑒
1
𝜇
𝑉(𝑘0)
𝑣 𝜎 = 𝑖=1
𝐼−1
𝑣 𝑘𝑖+1 𝑘𝑖 ),Ω: すべての経路集合
∴ 𝑃 𝜎 =
𝑒
1
𝜇 𝑣(𝜎)
𝜎′∈Ω 𝑒
1
𝜇 𝑣(𝜎′)
同一のODを持つ2つの経路𝜎1, 𝜎2
の選択確率比は𝑣 𝜎1 − 𝑣 𝜎2 のみに依存
IIA特性
Recursive Logit model
(7)
リンク交通量 18
リンク𝑎の交通量𝐹(𝑎)を考える
𝐹 𝑎 = 𝐺 𝑎 +
𝑘∈𝐴
𝑃 𝑎 𝑘 𝐹(𝑘)
𝐷
𝑘
𝑎
𝑑
𝐹(𝑘)
𝐹(𝑎)
𝐺(𝑎)
𝐹(𝑎) :リンク𝑎の期待流量
𝐺(𝑎) :出発リンク𝑎で発生, リンク𝑑
を終点とする交通量
行列表記
𝑭 = 𝑮 + 𝑷 𝑻 𝑭 ⇔ 𝑰 − 𝑷 𝑻 𝑭 = 𝑮
Recursive Logit model
(9)
(8)
でも人って似た経路を別々に区別しなくない?
19
Recursive Logit model
リンクの相関
Expart
わき道一本入るくらいの違いは大体同じ
経路じゃない?
前述した自分の設定()では全て選択肢間に相関がない
と思ってたけど,全然あるやん
リンク重複の考慮 20
既往の経路ベースのモデルにおけるリンク重複の考慮
下の2つの経路の相関が考慮されず
平等に配分されてしまう
経路の重複による魅力度低下を考慮
Path-Size 修正項
(重複により魅力減少)
通常のロジット型配分
重複リンク
Path Size Logit モデル
RLモデルは経路非列挙であるため,
この考え方は適用できない
Recursive Logit model
𝑈 𝑛𝑖 = 𝑉𝑛𝑖 +
1
𝜇
ln 𝑃𝑆 𝑛𝑖 + 𝜀 𝑛𝑖
𝑃𝑆 𝑛𝑖 =
𝑎∈Γ 𝑖
𝑙 𝑎
𝐿𝑖
1
𝑗∈𝐶 𝑛
𝛿 𝑎𝑗
21リンク重複の考慮 Link Size 修正項
経路選択肢の重複数ではなく,期待リンク交通量を用いる
𝑳𝑺 𝒐𝒅 = 𝑭 𝒐𝒅( 𝛽)
where
𝑭 𝒐𝒅
( 𝛽)は以下で与えられる
𝐿𝑆 𝑘
𝑜𝑑
: 𝑜𝑑におけるリンク𝑘のLink Size
𝛽: 説明変数のパラメータ
(𝑰 − 𝑷 𝒅 𝛽) 𝑻 𝑭 𝒐𝒅 𝛽 = 𝑮0
𝑭 = 𝑮 + 𝑷 𝑻
𝑭 ⇔ 𝑰 − 𝑷 𝑻
𝑭 = 𝑮
: originのみ1の発生交通量𝑮0
=
1
0
︙
0
において𝑮 → 𝑮0
とした時の解
Recursive Logit model
(10)
(9)
(11)
各モデルの比較 22
MNL, PL, PSL, RL with LSの4つで経路選択確率を算出
各モデルにおける各経路(node1 発, node5 着)の選択確率
説明変数はコスト長のみ
推定パラメータ 𝛽𝑙 = −1.5
ここで二手に分かれそう…
• RLの推定結果がロジットと少し異なるのはループを微小確率許しているから
• PSL, RL with LSはそれぞれ重複の考慮により同等の改善が見られる
• RL with LSは経路列挙が不要という点に優位性がある
PS項のパラメータ 𝛽 𝑃𝑆 = 2.5
LS項のパラメータ 𝛽𝐿𝑆 = −0.75
(LS項は 𝛽𝑙
𝐿𝑆
= −1.5としたRLを用い
て算出している)
11
Recursive Logit model
Link Sizeが効用に与える影響 23
こちらに向かう確率=
リンク長パラメータ
LS項パラメータ
𝑳𝑺 𝒐𝒅
= 𝑭 𝒐𝒅
( 𝛽)
𝛽𝑙
𝐿𝑆
が大きくなると,相関が大きい経路の選択確率は小さくなる
Recursive Logit model
効用 (報酬) の推定 24
Recursive Logit model
Modeler
結局人の従うモデルは仮定したけど,
どんな報酬に従って動いてるの?
• モデラ―が恣意的に
• モンテカルロ木探索
etc...
• プロ (Expart) から学ぼう
= Inverse Reinforcement Learning (IRL)
Expartの行動履歴を教師データとし,
報酬を推定する手法
強化学習における報酬の決め方
交通側のモチベーション
今回はsoftmax policyなので
Max entropy IRLと等価
RLの最尤推定 25
 Rust’sのNFXP法に似たアプローチを用いて価値関数を計算
 各反復においてBFGS法で最適化計算を解く
 無限ループは存在しないというような,当たり障りのない (現実と整合性が取れる)
仮定を置くことで式 (6) を計算できるようにする
 より正確性を高めるために,標準偏差の計算においてanalytical gradientを用いる
対数尤度関数
𝐿𝐿 𝛽 = ln
𝑛=1
𝑁
𝑃(𝜎 𝑛) =
1
𝜇 𝑛=1
𝑁
𝑖=0
𝐼 𝑛−1
𝑣 𝑘𝑖+1 𝑘𝑖 − 𝑉(𝑘0)
よって𝛽 𝑞に関するanalytical derivativeは
𝜕𝐿𝐿 𝛽
𝜕𝛽 𝑞
=
1
𝜇 𝑛=1
𝑁
𝑖=0
𝐼 𝑛−1
𝑥𝑖+1|𝑖
𝑞
−
𝜕𝑉(𝑘0
𝑛
)
𝜕𝛽 𝑞
𝒛 = 𝑴𝒛 + 𝒃 ⇔ 𝑰 − 𝑴 𝒛 = 𝒃
𝑃(𝜎) =
𝑖=0
𝐼−1
𝑒
1
𝜇
𝑣 𝑘𝑖+1 𝑘𝑖 +𝑉 𝑘 𝑖+1 −𝑉 𝑘 𝑖
Recursive Logit model
(7)
(6)
26
𝜕𝐿𝐿 𝛽
𝜕𝛽 𝑞
=
1
𝜇 𝑛=1
𝑁
𝑖=0
𝐼 𝑛−1
𝑥𝑖+1|𝑖
𝑞
−
𝜕𝑉(𝑘0
𝑛
)
𝜕𝛽 𝑞
RLの最尤推定 (2)
ここで式(6)を𝛽 𝑞で偏微分
𝜕𝒛
𝜕𝛽 𝑞
= (𝑰 − 𝑴)−𝟏
𝜕𝑴
𝜕𝛽 𝑞
𝒛
以上より
𝜕𝑉(𝑘0
𝑛
)
𝜕𝛽 𝑞
= 𝜇
1
𝑧0
(
𝜕𝒛
𝜕𝛽 𝑞
)0 ∵ 𝑧 𝑘 = 𝑒
1
𝜇
𝑉(𝑘)
,
𝜕𝒛
𝜕𝛽 𝑞
= 𝑧 ∘
𝜕𝑉
𝜕𝛽
Recursive Logit model
𝒛 = 𝑴𝒛 + 𝒃 ⇔ 𝑰 − 𝑴 𝒛 = 𝒃
𝑃(𝜎) =
𝑖=0
𝐼−1
𝑒
1
𝜇
𝑣 𝑘𝑖+1 𝑘𝑖 +𝑉 𝑘 𝑖+1 −𝑉 𝑘 𝑖
(7)
(6)
RLモデルの適用 27
スウェーデンのBorlängeの実ネットワークを使用
(ノード数:3077,リンク数:7459)
𝑉𝑛
𝑑
𝑘 = 𝐸 max
𝑎∈𝐴(𝑘)
𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛
𝑑
(𝑎) ∀𝑘 ∈ 𝐴
価値関数
効用𝑣 𝑛 𝑎 𝑘 を以下のように設定する
𝑣 𝑛 𝑎 𝑘 = 𝛽 𝑇𝑇 𝑇𝑇𝑎 + 𝛽𝐿𝑇 𝐿𝑇𝑎|𝑘 + 𝛽𝐿𝐶 𝐿𝐶 𝑎 + 𝛽 𝑈𝑇 𝑈𝑇𝑎|𝑘
: リンク𝑎における旅行時間
: 左折ダミー (左に40°以上であれば1, それ以外で0)
: 交差点が多いリンクで1, それ以外で0
: Uターンダミー (177°以上方向転換するとき1)
𝑇𝑇𝑎
𝐿𝑇𝑎|𝑘
𝐿𝐶 𝑎
𝑈𝑇𝑎|𝑘
パラメータの初期値
𝛽 𝑇𝑇 = −2, 𝛽𝐿𝑇 = −1, 𝛽𝐿𝐶 = −1, 𝛽 𝑈𝑇 = −20
Uターンを防ぐため𝛽 𝑈𝑇のみ固定
Recursive Logit model
(1)
28RLモデルの適用 (2) シミュレーションデータへの適用
シミュレーションデータの概要
 10組のODに対して,それぞれ500個の経路観測データを生成
 各ODについて,平均39 (max 44, min 35) 個の経路が存在
 経路の旅行時間は,平均9 (max 12.3, min 8.9) 分
 総計5000個の経路データのうち,35経路 (全体の0.7%) がループを含む
パラメータ推定結果
モデルの再現性を確認
Recursive Logit model
29RLモデルの適用 (2) GPSデータへの適用
GPSデータの概要
 2年間,200台の車から得られたGPSデータのうち,データの取得頻
度が高い24台のデータを用いる
 最低5つのリンクをもつ1832トリップデータを用いて推定
 466の目的地と,37000以上のリンク選択を確認
パラメータ推定結果
LS項によるモデルの
改善が確認された
Recursive Logit model
論文自体のまとめ
• 選択肢集合に制約をかけないリンクベースの経路選択モデル
の提案
• リンクベースの動的計画法の枠組みから出発し,各経路の選
択確率がMNL型で記述できることを示した
• Link Sizeの導入により,経路ごとの相関をリンクベースのモ
デルにおいても考慮可能にした
30
Recursive Logit model
全体のまとめ
• RLモデル (Fosgerau et al. 2013)は,意思決定者を経路選択
行動のExpartとして扱う
• つまりRLモデルのパラメータ推定は,Max entropy IRLと
等価になっている
• Recursive Logit (RL) とReinforcement Learning (RL) で
略記がややこしい
31
Recursive Logit model

Weitere ähnliche Inhalte

Was ist angesagt?

深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか西岡 賢一郎
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門Retrieva inc.
 
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習Ichigaku Takigawa
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Shohei Hido
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズムnishio
 
グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編順也 山口
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだことnishio
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
Pythonではじめるロケーションデータ解析
Pythonではじめるロケーションデータ解析Pythonではじめるロケーションデータ解析
Pythonではじめるロケーションデータ解析Hiroaki Sengoku
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」Naoya Chiba
 

Was ist angesagt? (20)

深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
MICの解説
MICの解説MICの解説
MICの解説
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか人間の意思決定を機械学習でモデル化できるか
人間の意思決定を機械学習でモデル化できるか
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
能動学習セミナー
能動学習セミナー能動学習セミナー
能動学習セミナー
 
グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
Pythonではじめるロケーションデータ解析
Pythonではじめるロケーションデータ解析Pythonではじめるロケーションデータ解析
Pythonではじめるロケーションデータ解析
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
 

Ähnlich wie 効用最大化理論の観点から見る強化学習

Long short-term memory (LSTM)
Long short-term memory (LSTM)Long short-term memory (LSTM)
Long short-term memory (LSTM)Kenta Ishii
 
Analyze by StatsModels or Numpy
Analyze by StatsModels or NumpyAnalyze by StatsModels or Numpy
Analyze by StatsModels or NumpyToshiki NOGUCHI
 
130418 discrete choiceseminar_no.1
130418 discrete choiceseminar_no.1130418 discrete choiceseminar_no.1
130418 discrete choiceseminar_no.1隆浩 安
 
Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Sho Shimauchi
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」Keisuke Sugawara
 
130502 discrete choiceseminar_no.3
130502 discrete choiceseminar_no.3130502 discrete choiceseminar_no.3
130502 discrete choiceseminar_no.3隆浩 安
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析Kunihiro Hisatsune
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2Ryoma Nakagawa
 
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and AveragingYu Otsuka
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...Eiji Uchibe
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesKei Nakagawa
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布sleipnir002
 
機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤Wataru Endo
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12matsuolab
 
Stochastic Gradient MCMC
Stochastic Gradient MCMCStochastic Gradient MCMC
Stochastic Gradient MCMCKenta Oono
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章Hirofumi Tsuruta
 

Ähnlich wie 効用最大化理論の観点から見る強化学習 (20)

Long short-term memory (LSTM)
Long short-term memory (LSTM)Long short-term memory (LSTM)
Long short-term memory (LSTM)
 
Analyze by StatsModels or Numpy
Analyze by StatsModels or NumpyAnalyze by StatsModels or Numpy
Analyze by StatsModels or Numpy
 
130418 discrete choiceseminar_no.1
130418 discrete choiceseminar_no.1130418 discrete choiceseminar_no.1
130418 discrete choiceseminar_no.1
 
Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
130502 discrete choiceseminar_no.3
130502 discrete choiceseminar_no.3130502 discrete choiceseminar_no.3
130502 discrete choiceseminar_no.3
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2
 
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
Gmm勉強会
Gmm勉強会Gmm勉強会
Gmm勉強会
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matrices
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
 
機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤機械学習理論入門 3章 最尤推定法_遠藤
機械学習理論入門 3章 最尤推定法_遠藤
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
Stochastic Gradient MCMC
Stochastic Gradient MCMCStochastic Gradient MCMC
Stochastic Gradient MCMC
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章
 

効用最大化理論の観点から見る強化学習

  • 2. 目的 • 交通分野で人の行動選択をモデル化する際に用いられる 離散選択モデルの一種 (Recursive Logit model) • 機械学習分野のSoftmax policyを用いた強化学習 が等価であることを説明し, 強化学習を人の行動原理に落とし込みたい 2 Recursive Logit model
  • 3. A link based network route choice model with unrestricted choice set Fosgerau, M., Frejinger, E., & Karlstrom, A. (2013) 以下の論文を基に説明を進める
  • 4. Introduction 4 経路ベース リンクベース 目的地までの経路を予め列挙し, 事前に選択する 各状態において逐次的に次のリ ンクを選択する ・原理と計算過程が明快 ・経路列挙のコストがない ・選択肢集合が膨大 ・逐次的意思決定を考慮できない (e.g. 回遊行動) ・説明変数にリンクに紐づかな い項が入れにくい (e.g. 料金) MNL, NL マルコフ連鎖モデル Recursive Logit Model 本研究ではこれを扱う 経路選択モデル Recursive Logit model
  • 5. 単純化のため,静的ネットワークを考える 5Recursive Logit Modelの考え方 𝑘 𝑎 𝐷𝐴(𝑘) 𝑑 グラフ 𝐺 = 𝐴, 𝑣 𝐴:リンク集合, 𝑣:ノード集合 吸収状態 リンク𝑘, 𝑎 ∈ 𝐴 𝐴(𝑘):リンク𝑘の終点を始点とするリンク集合 意思決定者は 現在の状態𝑘から次の状態𝑎を選択する際に得られる効用 と 選択した状態𝑎から目的の状態𝑑までの期待効用 の和を最大化するように状態を選択する 仮定 Recursive Logit model
  • 6. Recursive Logit Model 6 𝑉𝑛 𝑑 𝑘 = 𝐸 max 𝑎∈𝐴(𝑘) 𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛 𝑑(𝑎) ∀𝑘 ∈ 𝐴 意思決定者𝑛が 状態𝑘から次の状態𝑎を選択する際に考慮する効用 𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛 𝑑(𝑎) 𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 : 現在の状態𝑘から次の状態𝑎を選択する際に得られる効用 𝑉𝑛 𝑑 (𝑎) : 選択した状態𝑎から目的の状態𝑑までの期待効用 𝜀 𝑛(𝑎): 平均0のGumbel分布に従う誤差項 𝜇: スケールパラメータ 価値関数はBellman方程式を用いて以下のように表せる 効用関数 Recursive Logit model (1)
  • 7. (補足) 価値関数とは 7 今回,状態価値関数についてのみ考える 状態価値関数𝑉 𝜋(𝑠):状態𝑠にいることの価値を評価する 方策𝜋(𝑠, 𝑎):どのようなポリシーで行動するか. (=ある状態𝑠の時に行動𝑎を取る確率) 𝑠𝑡 𝑠𝑡+1 𝑠𝑡+2遷移状態 遷移状態 𝑎~𝜋(𝑠, 𝑎) 特定の方策に関して定義される Recursive Logit model 【設定】1. 𝜋に従って行動を選択
  • 8. (補足) 価値関数とは 8 今回,状態価値関数についてのみ考える 状態価値関数𝑉 𝜋(𝑠):状態𝑠にいることの価値を評価する 方策𝜋(𝑠, 𝑎):どのようなポリシーで行動するか. (=ある状態𝑠の時に行動𝑎を取る確率) 𝑠𝑡 𝑠𝑡+1 𝑠𝑡+2遷移状態 遷移状態 𝒫𝑠𝑠′ 𝑎 = Pr{𝑠𝑡+1 = s′ |𝑠𝑡 = s, 𝑎 𝑡 = 𝑎} 𝑎~𝜋(𝑠, 𝑎) 特定の方策に関して定義される Recursive Logit model 【設定】2. 環境に影響を受け,確率的に次の状態が決まる
  • 9. (補足) 価値関数とは 9 今回,状態価値関数についてのみ考える 特定の方策に関して定義される 方策𝜋(𝑠, 𝑎):どのようなポリシーで行動するか. (=ある状態𝑠の時に行動𝑎を取る確率) 𝑠𝑡 𝑠𝑡+1 𝑎~𝜋(𝑠, 𝑎) 𝑠𝑡+2遷移状態 遷移状態 𝒫𝑠𝑠′ 𝑎 = Pr{𝑠𝑡+1 = s′ |𝑠𝑡 = s, 𝑎 𝑡 = 𝑎} 𝑟𝑡+1 状態価値関数𝑉 𝜋(𝑠):状態𝑠にいることの価値を評価する Recursive Logit model 【設定】3. 報酬を得る (以降も1から繰り返し)
  • 10. 10 𝑠𝑡 𝑠𝑡+1 𝑎~𝜋(𝑠, 𝑎) 遷移状態 𝒫𝑠𝑠′ 𝑎 = Pr{𝑠𝑡+1 = s′ |𝑠𝑡 = s, 𝑎 𝑡 = 𝑎} 𝑟𝑡+1 (補足) 価値関数とは 𝑉 𝜋 𝑠 = 𝐸 𝜋 𝑘=0 ∞ 𝛾 𝑘 𝑟𝑡+𝑘+1|𝑠𝑡 = 𝑠 = 𝐸 𝜋 𝑟𝑡+1 + 𝛾 𝑘=0 ∞ 𝛾 𝑘 𝑟𝑡+𝑘+2|𝑠𝑡 = 𝑠 = 𝑎 𝜋 𝑠, 𝑎 𝑠′ 𝒫𝑠𝑠′ 𝑎 ℛ 𝑠𝑠′ 𝑎 + 𝛾𝐸 𝜋 𝑘=0 ∞ 𝛾 𝑘 𝑟𝑡+𝑘+2|𝑠𝑡+1 = 𝑠′ = 𝑎 𝜋 𝑠, 𝑎 𝑠′ 𝒫𝑠𝑠′ 𝑎 ℛ 𝑠𝑠′ 𝑎 + 𝛾𝑉 𝜋 𝑠′ 𝛾: 時間割引率 (0 < 𝛾 ≤ 1) ℛ 𝑠𝑠′ 𝑎 :報酬の期待値 (= 𝐸{𝑟𝑡+1|𝑠𝑡 = s, 𝑎 𝑡 = 𝑎, 𝑠𝑡+1 = s′}) 起こした行動𝑎に対して想定される 状態は𝒫𝑠𝑠′ 𝑎 に従って複数想定される Recursive Logit model (2)
  • 11. 11(補足) 価値関数とは 𝑉 𝜋 𝑠 = 𝑎 𝜋 𝑠, 𝑎 𝑠′ 𝒫𝑠𝑠′ 𝑎 ℛ 𝑠𝑠′ 𝑎 + 𝛾𝑉 𝜋 𝑠′  意思決定者は選択したリンクに対して一意に移動する (移動の不確実性は考慮しない)  意思決定者は効用を最大化するよう行動を選択する (方策がgreedyである) 𝑉𝑛 𝑑 𝑘 = 𝐸 max 𝑎∈𝐴(𝑘) 𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛 𝑑(𝑎) ∀𝑘 ∈ 𝐴 RLモデルの価値関数 状態価値関数 Recursive Logit model (2) (1)
  • 12. つまり人を以下のような人だと仮定している 12 Recursive Logit model Recursive Logit Model Expart 全ネットワークは探索済み 最適行動価値関数を把握してる歩行のプロだよ 本当はGreedyな人なんだけど,報酬が確率的に 変わるから結果的にSoftmaxをポリシーにしているよ
  • 13. Recursive Logit Model • Multinomial Logit Model 13 リンク選択肢 𝑎 の効用の確定項 𝑣 𝑛 𝑎 𝑘 + 𝑉𝑛 𝑑(𝑎) 経路選択肢 𝑖 の選択確率 𝑃𝑖 𝑃𝑖 = exp(𝑉𝑖) 𝑗 exp(𝑉𝑗) • Recursive Logit (RL) Model リンク選択確率 𝑘 𝑎 𝐷𝐴(𝑘) 𝑑 O 𝑉𝑖 経路選択肢 𝑖 の効用の確定項 𝑉𝑖 リンク選択肢 𝑖 の選択確率𝑃𝑛 𝑑 (𝑎|𝑘) 𝑃𝑛 𝑑 𝑎 𝑘 = 𝑒 1 𝜇 (𝑣 𝑛 𝑎 𝑘 +𝑉𝑛 𝑑(𝑎)) 𝑎′∈𝐴(𝑘) 𝑒 1 𝜇(𝑣 𝑛 𝑎′ 𝑘 +𝑉𝑛 𝑑(𝑎′)) ロジット型で表せる 𝐷 Recursive Logit model (3)
  • 14. 14Recursive Logit Model Bellman方程式 価値関数を求める = Bellman方程式を解く 𝑉𝑛 𝑑 𝑘 = 𝜇 ln 𝑎∈𝐴 𝛿 𝑎|𝑘 𝑒 1 𝜇 𝑣 𝑛 𝑎 𝑘 +𝑉𝑛 𝑑(𝑎) ∀𝑘 ∈ 𝐴 0 𝑘 = 𝑑 𝑉𝑛 𝑑 𝑘 = 𝐸 max 𝑎∈𝐴(𝑘) 𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛 𝑑 (𝑎) ∀𝑘 ∈ 𝐴 価値関数を変形 𝑒 1 𝜇 𝑉𝑛 𝑑 𝑘 = 𝑎∈𝐴 𝛿 𝑎|𝑘 𝑒 1 𝜇 𝑣 𝑛 𝑎 𝑘 +𝑉𝑛 𝑑(𝑎) ∀𝑘 ∈ 𝐴 1 𝑘 = 𝑑 where 𝛿 𝑎|𝑘 = 1 , 𝑎 ∈ 𝐴(𝑘) 0 otherwise Recursive Logit model (1) (4) (5)
  • 15. 15Recursive Logit Model Bellman方程式 式(4)は行列を用いて表現できる 𝑒 1 𝜇 𝑉𝑛 𝑑 𝑘 = 𝑎∈𝐴(𝑘) 𝛿 𝑎|𝑘 𝑒 1 𝜇 𝑣 𝑛 𝑎 𝑘 +𝑉𝑛 𝑑(𝑎) ∀𝑘 ∈ 𝐴 1 𝑘 = 𝑑 𝒛 = 𝑴𝒛 + 𝒃 ⇔ • 𝒛 ( 𝑨 × 1) 𝑧 𝑘 = 𝑒 1 𝜇 𝑉(𝑘) • 𝑴 ( 𝑨 × 𝑨 ) 𝑀 𝑘𝑎 = 𝛿(𝑎|𝑘)𝑒 1 𝜇 𝑣(𝑎|𝑘) , 𝑎 ∈ 𝐴(𝑘) 0 otherwise = 𝑒 1 𝜇 𝑣(𝑎|𝑘) , 𝑎 ∈ 𝐴(𝑘) 0 otherwise • 𝒃 ( 𝑨 × 1) 𝑏 𝑘 = 1 𝑘 ≠ 𝑑 0 𝑘 = 𝑑 where Recursive Logit model (5)
  • 16. 16Recursive Logit Model Bellman方程式 𝒛 = 𝑴𝒛 + 𝒃を書き下すと 𝒛を求める. 𝒛 = 𝑴𝒛 + 𝒃 ⇔ 𝑰 − 𝑴 𝒛 = 𝒃 価値関数が解を持つためには 𝑰 − 𝑴 が逆行列を持つ必要がある Recursive Logit model (6)
  • 17. 17Recursive Logit Model 経路選択確率 経路𝜎 = 𝑘𝑖 𝑖=1 𝐼 の選択確率を考える 𝑘1:出発地, 𝑘𝐼:目的地𝑑 𝑃 𝜎 = 𝑖=0 𝐼−1 𝑃(𝑘𝑖+1|𝑘𝑖) = 𝑖=0 𝐼−1 𝑒 1 𝜇 𝑣 𝑘𝑖+1 𝑘𝑖 +𝑉(𝑘 𝑖+1) 𝑎∈𝐴(𝑘 𝑖) 𝑒 1 𝜇 𝑣 𝑎 𝑘𝑖 +𝑉 𝑎 = 𝑖=0 𝐼−1 𝑒 1 𝜇 𝑣 𝑘𝑖+1 𝑘𝑖 +𝑉 𝑘 𝑖+1 −𝑉 𝑘 𝑖 𝑈∗ = max 𝑎∈𝐴(𝑘𝑖) 𝑣 𝑛 𝑎 𝑘𝑖 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛 𝑑 (𝑎) 𝑈∗ = 𝑉∗ + 𝜀∗ 𝑉 𝑘𝑖 = 𝑉∗ = ln 𝑎∈𝐴(𝑘𝑖) 𝑒 𝑣 𝑛 𝑎 𝑘𝑖 +𝑉𝑛 𝑑(𝑎) ガンベル分布の性質を用いると(MNLの導出と同じ) = 𝑒 − 1 𝜇 𝑉(𝑘0) 𝑖=0 𝐼−1 𝑒 1 𝜇 𝑣 𝑘𝑖+1 𝑘𝑖 = 𝑒 1 𝜇 𝑣(𝜎) 𝑒 1 𝜇 𝑉(𝑘0) 𝑣 𝜎 = 𝑖=1 𝐼−1 𝑣 𝑘𝑖+1 𝑘𝑖 ),Ω: すべての経路集合 ∴ 𝑃 𝜎 = 𝑒 1 𝜇 𝑣(𝜎) 𝜎′∈Ω 𝑒 1 𝜇 𝑣(𝜎′) 同一のODを持つ2つの経路𝜎1, 𝜎2 の選択確率比は𝑣 𝜎1 − 𝑣 𝜎2 のみに依存 IIA特性 Recursive Logit model (7)
  • 18. リンク交通量 18 リンク𝑎の交通量𝐹(𝑎)を考える 𝐹 𝑎 = 𝐺 𝑎 + 𝑘∈𝐴 𝑃 𝑎 𝑘 𝐹(𝑘) 𝐷 𝑘 𝑎 𝑑 𝐹(𝑘) 𝐹(𝑎) 𝐺(𝑎) 𝐹(𝑎) :リンク𝑎の期待流量 𝐺(𝑎) :出発リンク𝑎で発生, リンク𝑑 を終点とする交通量 行列表記 𝑭 = 𝑮 + 𝑷 𝑻 𝑭 ⇔ 𝑰 − 𝑷 𝑻 𝑭 = 𝑮 Recursive Logit model (9) (8)
  • 20. リンク重複の考慮 20 既往の経路ベースのモデルにおけるリンク重複の考慮 下の2つの経路の相関が考慮されず 平等に配分されてしまう 経路の重複による魅力度低下を考慮 Path-Size 修正項 (重複により魅力減少) 通常のロジット型配分 重複リンク Path Size Logit モデル RLモデルは経路非列挙であるため, この考え方は適用できない Recursive Logit model 𝑈 𝑛𝑖 = 𝑉𝑛𝑖 + 1 𝜇 ln 𝑃𝑆 𝑛𝑖 + 𝜀 𝑛𝑖 𝑃𝑆 𝑛𝑖 = 𝑎∈Γ 𝑖 𝑙 𝑎 𝐿𝑖 1 𝑗∈𝐶 𝑛 𝛿 𝑎𝑗
  • 21. 21リンク重複の考慮 Link Size 修正項 経路選択肢の重複数ではなく,期待リンク交通量を用いる 𝑳𝑺 𝒐𝒅 = 𝑭 𝒐𝒅( 𝛽) where 𝑭 𝒐𝒅 ( 𝛽)は以下で与えられる 𝐿𝑆 𝑘 𝑜𝑑 : 𝑜𝑑におけるリンク𝑘のLink Size 𝛽: 説明変数のパラメータ (𝑰 − 𝑷 𝒅 𝛽) 𝑻 𝑭 𝒐𝒅 𝛽 = 𝑮0 𝑭 = 𝑮 + 𝑷 𝑻 𝑭 ⇔ 𝑰 − 𝑷 𝑻 𝑭 = 𝑮 : originのみ1の発生交通量𝑮0 = 1 0 ︙ 0 において𝑮 → 𝑮0 とした時の解 Recursive Logit model (10) (9) (11)
  • 22. 各モデルの比較 22 MNL, PL, PSL, RL with LSの4つで経路選択確率を算出 各モデルにおける各経路(node1 発, node5 着)の選択確率 説明変数はコスト長のみ 推定パラメータ 𝛽𝑙 = −1.5 ここで二手に分かれそう… • RLの推定結果がロジットと少し異なるのはループを微小確率許しているから • PSL, RL with LSはそれぞれ重複の考慮により同等の改善が見られる • RL with LSは経路列挙が不要という点に優位性がある PS項のパラメータ 𝛽 𝑃𝑆 = 2.5 LS項のパラメータ 𝛽𝐿𝑆 = −0.75 (LS項は 𝛽𝑙 𝐿𝑆 = −1.5としたRLを用い て算出している) 11 Recursive Logit model
  • 23. Link Sizeが効用に与える影響 23 こちらに向かう確率= リンク長パラメータ LS項パラメータ 𝑳𝑺 𝒐𝒅 = 𝑭 𝒐𝒅 ( 𝛽) 𝛽𝑙 𝐿𝑆 が大きくなると,相関が大きい経路の選択確率は小さくなる Recursive Logit model
  • 24. 効用 (報酬) の推定 24 Recursive Logit model Modeler 結局人の従うモデルは仮定したけど, どんな報酬に従って動いてるの? • モデラ―が恣意的に • モンテカルロ木探索 etc... • プロ (Expart) から学ぼう = Inverse Reinforcement Learning (IRL) Expartの行動履歴を教師データとし, 報酬を推定する手法 強化学習における報酬の決め方 交通側のモチベーション 今回はsoftmax policyなので Max entropy IRLと等価
  • 25. RLの最尤推定 25  Rust’sのNFXP法に似たアプローチを用いて価値関数を計算  各反復においてBFGS法で最適化計算を解く  無限ループは存在しないというような,当たり障りのない (現実と整合性が取れる) 仮定を置くことで式 (6) を計算できるようにする  より正確性を高めるために,標準偏差の計算においてanalytical gradientを用いる 対数尤度関数 𝐿𝐿 𝛽 = ln 𝑛=1 𝑁 𝑃(𝜎 𝑛) = 1 𝜇 𝑛=1 𝑁 𝑖=0 𝐼 𝑛−1 𝑣 𝑘𝑖+1 𝑘𝑖 − 𝑉(𝑘0) よって𝛽 𝑞に関するanalytical derivativeは 𝜕𝐿𝐿 𝛽 𝜕𝛽 𝑞 = 1 𝜇 𝑛=1 𝑁 𝑖=0 𝐼 𝑛−1 𝑥𝑖+1|𝑖 𝑞 − 𝜕𝑉(𝑘0 𝑛 ) 𝜕𝛽 𝑞 𝒛 = 𝑴𝒛 + 𝒃 ⇔ 𝑰 − 𝑴 𝒛 = 𝒃 𝑃(𝜎) = 𝑖=0 𝐼−1 𝑒 1 𝜇 𝑣 𝑘𝑖+1 𝑘𝑖 +𝑉 𝑘 𝑖+1 −𝑉 𝑘 𝑖 Recursive Logit model (7) (6)
  • 26. 26 𝜕𝐿𝐿 𝛽 𝜕𝛽 𝑞 = 1 𝜇 𝑛=1 𝑁 𝑖=0 𝐼 𝑛−1 𝑥𝑖+1|𝑖 𝑞 − 𝜕𝑉(𝑘0 𝑛 ) 𝜕𝛽 𝑞 RLの最尤推定 (2) ここで式(6)を𝛽 𝑞で偏微分 𝜕𝒛 𝜕𝛽 𝑞 = (𝑰 − 𝑴)−𝟏 𝜕𝑴 𝜕𝛽 𝑞 𝒛 以上より 𝜕𝑉(𝑘0 𝑛 ) 𝜕𝛽 𝑞 = 𝜇 1 𝑧0 ( 𝜕𝒛 𝜕𝛽 𝑞 )0 ∵ 𝑧 𝑘 = 𝑒 1 𝜇 𝑉(𝑘) , 𝜕𝒛 𝜕𝛽 𝑞 = 𝑧 ∘ 𝜕𝑉 𝜕𝛽 Recursive Logit model 𝒛 = 𝑴𝒛 + 𝒃 ⇔ 𝑰 − 𝑴 𝒛 = 𝒃 𝑃(𝜎) = 𝑖=0 𝐼−1 𝑒 1 𝜇 𝑣 𝑘𝑖+1 𝑘𝑖 +𝑉 𝑘 𝑖+1 −𝑉 𝑘 𝑖 (7) (6)
  • 27. RLモデルの適用 27 スウェーデンのBorlängeの実ネットワークを使用 (ノード数:3077,リンク数:7459) 𝑉𝑛 𝑑 𝑘 = 𝐸 max 𝑎∈𝐴(𝑘) 𝑣 𝑛 𝑎 𝑘 + 𝜇𝜀 𝑛 𝑎 + 𝑉𝑛 𝑑 (𝑎) ∀𝑘 ∈ 𝐴 価値関数 効用𝑣 𝑛 𝑎 𝑘 を以下のように設定する 𝑣 𝑛 𝑎 𝑘 = 𝛽 𝑇𝑇 𝑇𝑇𝑎 + 𝛽𝐿𝑇 𝐿𝑇𝑎|𝑘 + 𝛽𝐿𝐶 𝐿𝐶 𝑎 + 𝛽 𝑈𝑇 𝑈𝑇𝑎|𝑘 : リンク𝑎における旅行時間 : 左折ダミー (左に40°以上であれば1, それ以外で0) : 交差点が多いリンクで1, それ以外で0 : Uターンダミー (177°以上方向転換するとき1) 𝑇𝑇𝑎 𝐿𝑇𝑎|𝑘 𝐿𝐶 𝑎 𝑈𝑇𝑎|𝑘 パラメータの初期値 𝛽 𝑇𝑇 = −2, 𝛽𝐿𝑇 = −1, 𝛽𝐿𝐶 = −1, 𝛽 𝑈𝑇 = −20 Uターンを防ぐため𝛽 𝑈𝑇のみ固定 Recursive Logit model (1)
  • 28. 28RLモデルの適用 (2) シミュレーションデータへの適用 シミュレーションデータの概要  10組のODに対して,それぞれ500個の経路観測データを生成  各ODについて,平均39 (max 44, min 35) 個の経路が存在  経路の旅行時間は,平均9 (max 12.3, min 8.9) 分  総計5000個の経路データのうち,35経路 (全体の0.7%) がループを含む パラメータ推定結果 モデルの再現性を確認 Recursive Logit model
  • 29. 29RLモデルの適用 (2) GPSデータへの適用 GPSデータの概要  2年間,200台の車から得られたGPSデータのうち,データの取得頻 度が高い24台のデータを用いる  最低5つのリンクをもつ1832トリップデータを用いて推定  466の目的地と,37000以上のリンク選択を確認 パラメータ推定結果 LS項によるモデルの 改善が確認された Recursive Logit model
  • 31. 全体のまとめ • RLモデル (Fosgerau et al. 2013)は,意思決定者を経路選択 行動のExpartとして扱う • つまりRLモデルのパラメータ推定は,Max entropy IRLと 等価になっている • Recursive Logit (RL) とReinforcement Learning (RL) で 略記がややこしい 31 Recursive Logit model