13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
13
⽂脈付きバンディット問題を知らずに応⽤はできない(かも?)
広告A
を提⽰
閲覧者
広告B
を提⽰
知っている⼈には退屈な話・・・しかし,
⽂脈付きバンディット問題は深層強化学習応⽤時に必要な知⾒を教えてくれる
・状態の特徴量設計の重要さ
・アルゴリズムの評価とシミュレーション
閲覧者 a
閲覧者 b 閲覧者 d
閲覧者 c
閲覧者 f
潜在的なユーザー群
ほか多数
訪問
提⽰された広告を閲覧者がクリックする or しない
閲覧者 e
14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
14
バンディット問題の⼿法
試⾏錯誤しないと新規広告を含めた最良の配信⽅法はわからない
うまく試⾏錯誤するような評価⽅法
→ UCB 系アルゴリズム,Thompson Sampling がメジャー
ユーザーの属性,類似度を定義する特徴量の設計が重要
探索報酬で真の報酬推定に
反する⾏動を促進
評価の未知度合いを上乗せ
試⾏していくと減少
A B< A B>
試⾏錯誤:UCB系
A B
情報の共有:LinUCB 等
特
徴
1
特
徴
2
特
徴
3
特
徴
4
特
徴
5
特
徴
1
特
徴
2
特
徴
3
特
徴
4
特
徴
5
ユーザーの持つ特徴の評価の和
ユーザー間の同じ特徴の評価は
共有される
<
15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
15
バンディットアルゴリズムの評価と環境
実際に試してみないとアルゴリズム,ハイパーパラメータ,特徴量がよ
りよくユーザーへのアクション(広告配信)を最適化できるかが不明
→ 実運⽤⼊の前にアルゴリズムの良し悪しを評価したい
→ 過去のデータを使ってシミュレーション
広告A
を提⽰
閲覧者
広告B
を提⽰
閲覧者 a
閲覧者 b 閲覧者 d
閲覧者 c
閲覧者 f
実環境:潜在的なユーザー群
ほか多数
訪問
提⽰された広告を閲覧者がクリックする or しない
閲覧者 e
16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
広告A
を提⽰
16
バンディットアルゴリズムの評価と環境
実際に試してみないとアルゴリズム,ハイパーパラメータ,特徴量がよ
りよくユーザーへのアクション(広告配信)を最適化できるかが不明
→ 実運⽤⼊の前にアルゴリズムの良し悪しを評価したい
→ 過去のデータを使ってシミュレーション
→ 過去のデータからは実績データと異なる選択の正確な評価ができない
閲覧者
広告B
を提⽰
閲覧者 a
閲覧者 b 閲覧者 d
閲覧者 c
閲覧者 f
過去のユーザーデータ
ほか多数
サンプリング
過去のユーザー履歴:過去の提⽰広告を閲覧者がクリックした or しなかった
閲覧者 e
←過去に提⽰した広告
現学習中のアルゴリズム
はこちらを提⽰するかも→
17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
広告A
を提⽰
17
バンディットアルゴリズムの評価と環境
閲覧者
広告B
を提⽰
閲覧者 a
閲覧者 b 閲覧者 d
閲覧者 c
閲覧者 f
過去のユーザーデータ
ほか多数
サンプリング
報酬の混合モデル
過去のデータから作られた閲覧者と広告のクリック(報酬)予測モデルと
+
過去のデータからクリック実績を当時のサンプリング分布で補正した報酬値
閲覧者 e
←過去に提⽰した広告
現学習中のアルゴリズム
はこちらを提⽰するかも→
→ シミュレーション環境を教師あり学習で作成してアルゴリズムを評価
Li, L., et al. Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms. Proceedings
of the fourth ACM international conference on Web search and data mining. 2011.
18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
18
強化学習の応⽤事例
※ 上記の系列 (状態と⾏動の遷移軌跡) が強化学習を考える上での情報の単位
ユーザー
からの質問
AI
の応答
ユーザー
からの応答
AI
の応答
状態 1 ⾏動 状態 2 ⾏動
状態遷移
建物や
揺れの状態
ダンパー
の調整
建物や
揺れの状態
ダンパー
の調整
建物の揺れの⼩ささ
ユーザーの評価
報酬関数
強化学習の基本:
対話課題:
耐震ダンパー制御:
状態遷移
状態遷移
※ Seq2Seq で⽂字列⽣成を事前学習後
19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
19
強化学習と動的計画法とその利点
ある制約(MDP)を前提に,単発の意思決定 × 多段階にして探索空間を削減
動的計画法(Dynamic Programming, DP)の基本的考え⽅
全ての⼿順のパターンを試す 単発の選択を何度も繰り返し試す
次状態次状態
マルコフ決定過程(MDP) 現在参照している状態の情報のみから
次にどの状態に遷移するか決まる予測可能
(確率的な場合も)
時系列を次が予測可能な情報単位に分割できる
状態⾏動 ⾏動
20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
× 繰り返し計算
20
次状態次状態
単発の意思決定の最適化
状態⾏動 ⾏動
報酬
× 状態の数 (多段階,環境全体)
MDP の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法
強化学習と繰り返し
収束するまで繰り返す
21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
21
強化学習と繰り返し
MDP の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法
離散的な状態定義や遷移確率が⾃明でない場合に強化学習アルゴリズムを使う
π Rπ⽅策 ⽅策の評価 (収益)
⽅策(⾏動の選択分布)の評価に基づいて良い⽅策を探索/最適化する
⽅策(⾏動の選択分布)の良さを実際の⾏動結果から評価する
π’ Rπ⽅策 ⽅策の評価 (収益)
全てはこの反復で成り⽴っている
難しく⾒えてもこのなんらかの近似でしかない
評価をサンプル:環境モデルが不明だからサンプリング
⽅策の修正
25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
25
MDPと状態の特徴量の定義
状態
t
⾏動
状態
t+1
⾏動
状態遷移
⼀つ前の状態⾏動のみから次の状態が決まる
→ 1 階マルコフ連鎖 (単純マルコフ)
→ 現在の情報からのみ⾏動を最適化できる
→ 次状態が予測可能な⼊⼒が必要
・画像情報 (ゲーム)
・各種センサー情報 (運動制御など)
・+などから作られた特徴量
26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
状態
t-2
⾏動
状態
t-1
⾏動
26
MDPと状態の特徴量の定義
状態
t
⾏動
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動
N 個の状態⾏動から次の状態が決まる
→ N 階マルコフ連鎖
→ 過去の情報を覚えていないと⾏動を最適化できない
ここで発⽣する問題
・過去の状態⾏動の組み合わせが爆発
- たとえ近似関数を使ってもパラメータ数が指数的に増加
・過去をどの程度の⻑さで覚えておくべきかがわからない
・全て覚えておくのが⼤変 (学習データの巨⼤化)
27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
状態
t-2
⾏動
状態
t-1
⾏動
27
MDPと状態の特徴量の定義
状態
t
⾏動
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動
状態遷移を予測するのに必要な情報だけを特徴量として設計することで
状態を圧縮して組合せ爆発を防ぐ
※ RNN を⽤いて時系列を学習する⽅法もあるが学習の難易度は上がる
過去を代替えする
状態の特徴量 t
状態
t
⾏動
状態
t+1
⾏動
状態遷移
28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
状態
t-2
⾏動
状態
t-1
⾏動
28
MDPと状態の特徴量の定義
状態
t
⾏動
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動
間の⾏動や遷移が決まりきった系列(スキル・お作法・テクニック)なら
その複数の⾏動系列をひとつの⾏動として⾒なすこともできる
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動 = ある決まった状態⾏動系列 (スキル等)
e.g. 短期的なルールベース⾏動
状態特徴と⾏動の単位をうまく設計して問題を,
・⽂脈付きバンディット問題
・できるだけ短い状態遷移系列の問題
に近づけて,学習の繰り返し回数が減少,学習しやすくさせる
29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
29
強化学習として解くのに必要なものと困難さ
(1) シミュレータ
課題環境のモデリング
(2) 報酬関数
⽬的の定義
(1) と (3) はデータサイエンスを駆使して作成する必要がある
他が不完全な設計でも⾼度な (4) の導⼊で解消できる可能性も
(3) 状態特徴の定義
特徴量の設計
(4) 強化学習アルゴリズム
解き⽅,他の不⾜を吸収可能
現実の問題に対処しようとすると (1) と (2) が作りにくい
ユーザーから
の質問 (3)
AI
の応答
ユーザーから
の応答 (3)
AI
の応答
ユーザーの評価 (2)
対話課題:
⼈間の応答モデル? (1)
30. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
30
シミュレータの問題
⾏動 A 状態 ⾏動 B
状態 a
状態 b 状態 d
状態 c
状態 f
過去に得られた状態データ群
ほか多数
サンプリング
報酬モデル
状態 e
← 実際にとった⾏動
シミュレータ要素
通常の強化学習では状態遷移の概念が加わる
→ シミュレータはなるべく正確に遷移パターンを模倣する必要がある
先ほどの⽂脈付きバンディット問題の評価を強化学習課題と捉えると・・・
31. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
31
シミュレータの問題
状態 1 ⾏動 状態 2 ⾏動
報酬
状態遷移
シミュレータ
膨⼤な反復回数が必要なので,シミュレータが⾼速であれば学習が早まる
→ それだけ学習時におけるシミュレータは重要な役割
強化学習⼀般: