Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
論文紹介

Large-Scale Bandit Problems
and KWIK Learning
[ICML 2013]
Jacob Abernethy(Univ of Pennsylvania),
Kareem Amin(Univ of...
スライドの流れ
• MAB問題の既存研究を紹介
• 本論文のテーマのMAB問題を定義
• KWIK学習を紹介
• MAB問題をKWIK学習に帰着

1/21
古典的なMAB問題
MAB問題:Multi-Armed Bandit Problem,
多腕バンディット問題
古典的なMAB問題の趣旨
スロットマシンが複数台あります。
スロットマシンは台によって、報酬が出やすかったり、出にくかったりします。
...
シンプルで重要な問題なので、
既存研究がたくさんあります。
問題設定を微妙に変えて、
様々な理論的解析が行われています。

3/21
代表的な既存研究1(私が知っているというだけ)
Finite-time Analysis of the Multiarmed Bandit Problem
[Auer+ ML2002]
• UCB1(アルゴリズム)
– 実験的にもうまく動くので...
代表的な既存研究2-1(私が知っているというだけ)
PAC Bounds for Multi-armed Bandit and Markov Decision
Processes[Eyal+ COLT2002]
• 𝜀, 𝛿 -PAC algo...
代表的な既存研究2-2(私が知っているというだけ)
【アルゴリズム】 Naive  ,  

n A

1.すべてのスロットマシン a  Aを

l

 2n 
log 
2
 
4

たくさんプレイすれば
平均は...
代表的な既存研究3(私が知っているというだけ)
Multi-Armed Bandits in Metric Spaces
[Kleinberg+ STOC2008]
• 行動集合が、距離空間で、
報酬関数の族が、その上でリプシッツ連続な関数の
...
ここから本論文のテーマ

8/21
本論文のテーマのMAB問題
【問題設定】
MAB問題とは 𝒳, 𝒜, ℱ 𝜃 である
状態空間 𝒳 状態を導入
報酬関数をパラメトリックに
行動空間 𝒜
報酬関数の族 ℱΘ = 𝑓 𝜃 : 𝒳 × 𝒜 ⟶ ℝ+ |θ ∈ Θ
ステップ𝑡

状態...
MAB問題の種類
状態空間𝒳も行動空間𝒜も、とても大きい or 無限
• Large-scale MAB問題 ←本論文のテーマ
状態空間𝒳だけが、とても大きい or 無限
• Large-state MAB問題
(Contextual Band...
本論文でやりたいこと

Large-scale MAB問題

帰着して効率的に
解けることを示す
Large-action MAB問題に対するアルゴリズム:

KWIK学習のアルゴリズム

+

Fixed-state optimization...
効率的って具体的に何?
【定義】 Large-scale MAB問題 𝒳, 𝒜, ℱ 𝜃 に対する
アルゴリズムがリグレットなし
任意の報酬関数𝑓 𝜃 ∈ ℱΘ 、
任意の状態𝑥 1 , 𝑥 2 , … , 𝑥 𝑇 ∈ 𝒳に対して、
アルゴリズ...
Large-action MAB問題に対するアルゴリズム
【定義】 Fixed-state optimization algorithm
固定状態𝑥 ∈ 𝒳, 𝜀 > 0に対して、
行動𝑎1 , 𝑎2 , … ∈ 𝒜を返す(有限回)。
報酬の予...
Fixed-state optimization algorithmを使って
リグレットなしっぽいアルゴリズムを構築
状態𝑥 ∈ 𝒳

FixedStateOpt
ブラックボックス

行動𝑎 ∈ 𝒜
s.t. max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 ...
KWIK学習(Knows What It Knows) [Li+ 2008]
【問題設定】
KWIK学習の問題とは 𝒵, 𝒴, ℱ である
入力空間 𝒵
出力空間 𝒴 ⊂ ℝ
関数の族 ℱ = 𝑓: 𝒵 → 𝒴
ステップ𝑡

入力 𝑧 𝑡 ∈ ...
Large-scale MAB問題をKWIK+FixedStateOptに帰着
≪Algorithm1≫ 概要
ステップ𝑡

内部ステップ𝑖
内部で学習して
良い行動𝑎 𝑡 を
返せるようにする

環境
報酬がわからないときは
教えてもらう

...
Large-scale MAB問題をKWIK+FixedStateOptに帰着
≪Algorithm1≫ 詳細

17/21
Large-scale MAB問題をKWIK+FixedStateOptに帰着
≪Algorithm1≫ 【定理】リグレットなしっぽい
【定理】
関数の族ℱΘ 、
ℱΘ に対するKWIK学習アルゴリズム、
Fixed-state optimiz...
Large-scale MAB問題をKWIK+FixedStateOptに帰着
≪Algorithm1≫ 【系】リグレットなし
【系】
関数の族ℱΘ 、
ℱΘ に対するKWIK学習アルゴリズム、
Fixed-state optimization...
まとめ
• MAB問題の既存研究を紹介
• 本論文では、状態・行動空間が大きいMAB問題を
扱った
• KWIK学習アルゴリズムと、行動空間だけが大きい
MAB問題のアルゴリズムを使って、効率的に解ける
ことを示した

20/21
Nächste SlideShare
Wird geladen in …5
×

Large-Scale Bandit Problems and KWIK Learning

論文紹介です。多腕バンディット問題の既存研究も紹介しています。

  • Als Erste(r) kommentieren

Large-Scale Bandit Problems and KWIK Learning

  1. 1. 論文紹介 Large-Scale Bandit Problems and KWIK Learning [ICML 2013] Jacob Abernethy(Univ of Pennsylvania), Kareem Amin(Univ of Pennsylvania), Moez Draief(Imperial College, London), Michael Kearns(Univ of Pennsylvania) 斎藤 淳哉 間違い等ありましたらご連絡ください junya【あっと】fugaga.info
  2. 2. スライドの流れ • MAB問題の既存研究を紹介 • 本論文のテーマのMAB問題を定義 • KWIK学習を紹介 • MAB問題をKWIK学習に帰着 1/21
  3. 3. 古典的なMAB問題 MAB問題:Multi-Armed Bandit Problem, 多腕バンディット問題 古典的なMAB問題の趣旨 スロットマシンが複数台あります。 スロットマシンは台によって、報酬が出やすかったり、出にくかったりします。 どうプレイすれば、たくさん儲けられるでしょうか? Arm (英語で、スロットマシン=One-Armed Bandit) 2/21
  4. 4. シンプルで重要な問題なので、 既存研究がたくさんあります。 問題設定を微妙に変えて、 様々な理論的解析が行われています。 3/21
  5. 5. 代表的な既存研究1(私が知っているというだけ) Finite-time Analysis of the Multiarmed Bandit Problem [Auer+ ML2002] • UCB1(アルゴリズム) – 実験的にもうまく動くのでゲームAIの決定木探索によく用いられる 【問題設定】 スロットマシン A  a1 , a2 ,, an  スロットマシン ai  A を1回プレイすると、確率的に報酬 Rai   [0,1] が得られる. (i.i.d) 【アルゴリズム】 UCB1 毎ステップ、 当該スロットマシンの報酬の平均 + 総プレイ回数 当該スロットマシンのプレイ回数 2 ln が 最大となるスロットマシンをプレイするアルゴリズム 【定理】 UCB1を動かすとき、報酬の期待値が最大でないスロットマシンの プレイ回数の期待値は高々𝑂 ln 総プレイ回数 で、これが最適。 4/21
  6. 6. 代表的な既存研究2-1(私が知っているというだけ) PAC Bounds for Multi-armed Bandit and Markov Decision Processes[Eyal+ COLT2002] • 𝜀, 𝛿 -PAC algorithm for Multi-armed Bandit Problem 【問題設定】 スロットマシン A  a1 , a2 ,, an  スロットマシン ai  A を1回プレイすると、確率的にバイナリ報酬 Rai  0,1 が得られる. (i.i.d) * 最も報酬の期待値の大きいスロットマシン a :最適なスロットマシン    ERa   E R a*   をみたすスロットマシン a :  最適なスロットマシン 【定義】  ,   -PAC algorithm for Multi-armed Bandit Problem 少なくとも,確率 1   で  最適なスロットマシンをひとつ 返すアルゴリズム. 5/21
  7. 7. 代表的な既存研究2-2(私が知っているというだけ) 【アルゴリズム】 Naive  ,   n A 1.すべてのスロットマシン a  Aを l  2n  log  2   4 たくさんプレイすれば 平均は収束する 回プレイする. ˆ 2. pa をスロットマシン a  A の報酬の平均とする. ˆ 3. a  arg maxpa  を出力する. aA 【定理】 Naive  ,   Naive  ,   は  ,  -PAC algorithm for Multi-armed Bandit Problemである.また,このときのサンプル量は  n  n  O 2 log  で       ある. ※論文では、サンプル量がもっと少ないアルゴリズムも提案しています。 6/21
  8. 8. 代表的な既存研究3(私が知っているというだけ) Multi-Armed Bandits in Metric Spaces [Kleinberg+ STOC2008] • 行動集合が、距離空間で、 報酬関数の族が、その上でリプシッツ連続な関数の 族であるときの、MAB問題について解析 詳細略 7/21
  9. 9. ここから本論文のテーマ 8/21
  10. 10. 本論文のテーマのMAB問題 【問題設定】 MAB問題とは 𝒳, 𝒜, ℱ 𝜃 である 状態空間 𝒳 状態を導入 報酬関数をパラメトリックに 行動空間 𝒜 報酬関数の族 ℱΘ = 𝑓 𝜃 : 𝒳 × 𝒜 ⟶ ℝ+ |θ ∈ Θ ステップ𝑡 状態 𝑥 𝑡 ∈ 𝒳 行動 𝑎 𝑡 ∈ 𝒜 報酬 𝑓 𝜃 𝑥 𝑡 , 𝑎 𝑡 + 𝜂 𝑡 学習者 環境 報酬関数 𝑓 𝜃 ∈ ℱ 𝜃 確率変数 𝜂 𝑡 s.t. 𝔼 𝜂 𝑡 = 0 強化学習との違い:強化学習の扱う問題は、こういう状態でこういう行動をとったら、こういう状態へ行きやすい、 ということを考慮した問題だが、MAB問題は、これを考慮しない、より一般的な問題。 9/21
  11. 11. MAB問題の種類 状態空間𝒳も行動空間𝒜も、とても大きい or 無限 • Large-scale MAB問題 ←本論文のテーマ 状態空間𝒳だけが、とても大きい or 無限 • Large-state MAB問題 (Contextual Banditsとも言う) 行動空間𝒜だけが、とても大きい or 無限大 • Large-action MAB問題 – 代表的な既存研究3 10/21
  12. 12. 本論文でやりたいこと Large-scale MAB問題 帰着して効率的に 解けることを示す Large-action MAB問題に対するアルゴリズム: KWIK学習のアルゴリズム + Fixed-state optimization algorithm 11/21
  13. 13. 効率的って具体的に何? 【定義】 Large-scale MAB問題 𝒳, 𝒜, ℱ 𝜃 に対する アルゴリズムがリグレットなし 任意の報酬関数𝑓 𝜃 ∈ ℱΘ 、 任意の状態𝑥 1 , 𝑥 2 , … , 𝑥 𝑇 ∈ 𝒳に対して、 アルゴリズムの取る行動𝑎1 , 𝑎2 , … , 𝑎 𝑇 ∈ 𝒜が ステップ𝑇 → ∞で𝑅 𝑇 /𝑇 → 0を満たす。 損失の累積が、線形増加よりも小さい⇔リグレットなし ただし、 𝑅 𝑇 = 𝔼 𝑇 𝑡=1 max 𝑓 𝜃 𝑥 𝑡 , 𝑎∗𝑡 − 𝑓 𝜃 𝑥 𝑡 , 𝑎 𝑡 𝑡 𝑎∗ ∈𝒜 12/21
  14. 14. Large-action MAB問題に対するアルゴリズム 【定義】 Fixed-state optimization algorithm 固定状態𝑥 ∈ 𝒳, 𝜀 > 0に対して、 行動𝑎1 , 𝑎2 , … ∈ 𝒜を返す(有限回)。 報酬の予測𝑦1 , 𝑦 2 , … ∈ ℝを受け取る。 (ただし答えは 𝑦 𝑡 − 𝑓 𝜃 𝑥, 𝑎 𝑡 ≤ 𝜀を満たしていること。) このとき、最後の行動𝑎 ∈ 𝒜は、 max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 𝜃 𝑥, 𝑎 ≤ 𝜀を 𝑎∈𝒜 満たすアルゴリズム。 状態𝑥 ∈ 𝒳 FixedStateOpt ブラックボックス 行動𝑎 ∈ 𝒜 s.t. max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 𝜃 𝑥, 𝑎 ≤ 𝜀 𝑎∈𝒜 13/21
  15. 15. Fixed-state optimization algorithmを使って リグレットなしっぽいアルゴリズムを構築 状態𝑥 ∈ 𝒳 FixedStateOpt ブラックボックス 行動𝑎 ∈ 𝒜 s.t. max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 𝜃 𝑥, 𝑎 ≤ 𝜀 𝑎∈𝒜 ブラックボックスの内部処理は無視すると、 𝑅 𝑇 1 = 𝔼 𝑇 𝑇 1 ≤ 𝔼 𝑇 𝑇 𝑡=1 𝑇 max 𝑓 𝜃 𝑥 𝑡 , 𝑎∗𝑡 − 𝑓 𝜃 𝑥 𝑡 , 𝑎 𝑡 𝑡 𝑎∗ ∈𝒜 𝜀 = 𝜀 𝑡=1 したがって、𝜀を適切に選べば、 𝑅 𝑇 𝑇 を任意に小さくすることができるっぽい。 「○○っぽい」を外すために、KWIK学習を使う! 14/21
  16. 16. KWIK学習(Knows What It Knows) [Li+ 2008] 【問題設定】 KWIK学習の問題とは 𝒵, 𝒴, ℱ である 入力空間 𝒵 出力空間 𝒴 ⊂ ℝ 関数の族 ℱ = 𝑓: 𝒵 → 𝒴 ステップ𝑡 入力 𝑧 𝑡 ∈ 𝒵 𝑓 𝑧 𝑡 の予測 𝑦 𝑡 ∈ 𝒴 ∪ ⊥ 環境 𝑓 𝑧 𝑡 の答え 𝑓 𝑧 𝑡 + 𝜂 𝑡 学習者 確率変数 𝜂 𝑡 s.t. 𝔼 𝜂 𝑡 = 0 学習者は、 • 𝑓 𝑧 𝑡 の予測ができるならその値𝑦 𝑡 ∈ 𝒴を返す。 • ただし 𝑦 𝑡 − 𝑓 𝑧 𝑡 > 𝜖なら失敗で、学習は終了。 • わからないなら𝑦 𝑡 =⊥を返す。 • 𝑓 𝑧 𝑡 + 𝜂 𝑡 を教えてもらえる。 15/21
  17. 17. Large-scale MAB問題をKWIK+FixedStateOptに帰着 ≪Algorithm1≫ 概要 ステップ𝑡 内部ステップ𝑖 内部で学習して 良い行動𝑎 𝑡 を 返せるようにする 環境 報酬がわからないときは 教えてもらう KWIK学習 ブラックボックス 入力𝑧 𝑖𝑡 = 𝑥 𝑖𝑡 , 𝑎 𝑖𝑡 𝑡 状態𝑥 ∈ 𝒳 報酬の予測𝑦 𝑖𝑡 FixedStateOpt ブラックボックス 行動𝑎 𝑡 ∈ 𝒜 s.t. max 𝑓 𝜃 𝑥, 𝑎 − 𝑓 𝜃 𝑥, 𝑎 𝑡 ≤ 𝜀 𝑎∈𝒜 16/21
  18. 18. Large-scale MAB問題をKWIK+FixedStateOptに帰着 ≪Algorithm1≫ 詳細 17/21
  19. 19. Large-scale MAB問題をKWIK+FixedStateOptに帰着 ≪Algorithm1≫ 【定理】リグレットなしっぽい 【定理】 関数の族ℱΘ 、 ℱΘ に対するKWIK学習アルゴリズム、 Fixed-state optimization algorithm、 適切に選んだ𝜀と𝛿、 十分に大きい𝑇に対して、 ≪Algorithm1≫の平均リグレット𝑅 𝑇 /𝑇は、 任意に小さくできる。 18/21
  20. 20. Large-scale MAB問題をKWIK+FixedStateOptに帰着 ≪Algorithm1≫ 【系】リグレットなし 【系】 関数の族ℱΘ 、 ℱΘ に対するKWIK学習アルゴリズム、 Fixed-state optimization algorithmに対して、 リグレットなしのアルゴリズムが存在する。 【証明】 前スライドの𝜀と𝛿をうまく操作する上位のアルゴリズムを つくることで証明する。詳細略。 19/21
  21. 21. まとめ • MAB問題の既存研究を紹介 • 本論文では、状態・行動空間が大きいMAB問題を 扱った • KWIK学習アルゴリズムと、行動空間だけが大きい MAB問題のアルゴリズムを使って、効率的に解ける ことを示した 20/21

×