SlideShare a Scribd company logo
1 of 27
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Unimodal Thompson
Sampling for Graph–
Structured Arms
ビッグデータ部 田口正一
(C) Recruit Technologies Co.,Ltd. All rights reserved.
自己紹介
名前:田口 正一
所属:R-tech ビッグデータ部ビジネスコンサルティングGr
趣味:ポケモン、ポケモンGo、筋トレ(ゆるふわ勢)
(C) Recruit Technologies Co.,Ltd. All rights reserved.
目次
概要
背景
前提
提案手法
Regret
テスト設計・結果
Appendix
(C) Recruit Technologies Co.,Ltd. All rights reserved.
概要
タイトル
– Unimodal Thompson Sampling for Graph–Structured
Arms
– Multi-Armed Banditアルゴリズムにおける手法提案
著者
– Polytechnic University of Milanの人たち(イタリア最大の
技術系大学、Ph.D.1人+助手1人+助教2人。
結果
– 腕が1000以下のケースにおいて、Thompson Sampling、
先行研究よりもRegretベースで10%以上の改善
(C) Recruit Technologies Co.,Ltd. All rights reserved.
概要
手法
– 腕がUnimodal設定のケースにおいてThompson
Sampling(以下TS)+グラフでRegret最適化を目指す
• ベイジアン+Unimodal Multi Armed Bandit問題(以下
UMAB)+グラフ理論はこれが初の論文(著者曰く)
• グラフのノードが腕、エッジが腕間の関係に該当
• 仮定)最適腕にたどり着くパスが必ず存在する
• 仮定)ノードの移動をする際は期待値が減少しない
(C) Recruit Technologies Co.,Ltd. All rights reserved.
背景
先行研究(グラフ理論+UMAB問題)
– GLSE(Jia and Mannor, 2011)
• 概要:時間経過とともに、腕のサンプリング範囲を狭め
ていく
• 最適Regret:O(√Tlog(T))
– OSUB(KLUCBの改良版、 Combes and Proutiere 2014a)
• 概要:グラフを用いて探索を最適腕+それと接続された
ものに絞る、その後はKLUCB
• 最適Regret:O(log(T))
→特に腕が少ないとGLSEを凌駕
→UCBベースでなく、TSベースだったら良くなるんでない?
(C) Recruit Technologies Co.,Ltd. All rights reserved.
前提
グラフ(既存手法(OSUB論文)と同一)
– 無向グラフ
– G =(A, E)
– A={a1,...,aK}
– (ai,aj)∈E
– ノード、エッジの存在(接続)は既知だが、接続している中で
最大期待値のノードへの接続がどれかは不明
– 論文中のグラフは1959年の論文,”On Random Graphs Ⅰ”
(ERDOS&RENYI)を使って作成(確率pでエッジが存在)
B
A
E
G
F
DC
エッジの存在は既知、
内容は不明
ノードが各armに該当
(C) Recruit Technologies Co.,Ltd. All rights reserved.
前提
選択と報酬
– 制限時間:T
– 時刻tにおいて、腕a[i]を選択、報酬X[i,t]を観察
• 報酬は腕a[i]が持つ報酬の分布D[i]から抽出した1サンプ
ル
• 腕iにおける期待値μ[i]:=E[Xi,t]
unimodality
– 最適腕が複数存在しない
– 最適腕(=最も期待報酬の高い腕)をa[i∗]と仮定
• μ[i∗]=max(μ[i])
• 以降は μ[i∗]をμ[∗.]と記述
(C) Recruit Technologies Co.,Ltd. All rights reserved.
前提
ノード
– 最適腕以外の腕(a[i ≠*])について、有限回数の移動で最適
腕にたどり着けるパス、Pが存在する
– 期待報酬を下げずに、最適腕にたどり着けるパスがある
→Local optimaにはまらない
隣接腕
– 腕a[i]に隣接する腕をN[i]とする
– 腕j(複数)がエッジ(a[i]a[j])で接続
– 重要なのは最適腕の隣接腕に探索範囲が限定される点
• もし期待報酬の低い腕が隣接しているケースでも隣接腕
+時刻tの最適腕だけでTSをかけるので、期待値の低い腕
は引かれづらい
(C) Recruit Technologies Co.,Ltd. All rights reserved.
提案手法
Unimodal Thompson sampling
→Regret計算簡便のために設定
(C) Recruit Technologies Co.,Ltd. All rights reserved.
提案手法
Unimodal Thompson sampling
G(グラフ),T(制限時間),
π(事前分布)を入れる
全腕で時刻Tまでの期待報酬を計算
通算報酬最大の腕(最適腕)を特定
最適腕としての被選択回数 /( 接続ノード数+1)
最適腕をプレイ
最適腕+隣接腕でθだけサンプリング
報酬が最大になる腕をプレイ
(C) Recruit Technologies Co.,Ltd. All rights reserved.
提案手法
Unimodal Thompson sampling
時刻tまでの累積報酬
時刻tまでにプレイされた回数
最適腕として選定された腕+
ノードで接続されている数
時刻tまでに最適腕として
選定された回数
通常のトンプソン
サンプリングにおける
報酬分布
(C) Recruit Technologies Co.,Ltd. All rights reserved.
提案手法
実際の動き(例)
– 前提
• Eがoptimal、期待報酬はE>C>B
– 挙動
• Eをリーダーとして選択→範囲を適切に絞ったTS、OK
• Cをリーダーとして選択→B,C,EでTS、Eの期待値の方が
Cより高いので、いずれEがリーダーとして選択される
• Bをリーダーとして選択→A,B,C,DでTS、いずれCがリー
ダーとして選択される。理由は同上
→Optimal Armに向かっての滝登り
B
A
E
G
F
DC
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Regret
UTSのRegret
– ε = 腕の数K + 期待報酬{μ[1]…μ[K]}
– C > 0 = εに応じて決まる切片項
• ざっくり証明はAppendixをどうぞ
• 詳細は原典をどうぞ
(C) Recruit Technologies Co.,Ltd. All rights reserved.
テスト設計
グラフセッティング
– G =(A, E)
– A={a1,...,aK}
– (ai,aj)∈E
• (ai,aj)は確率pで発生させる
– K∈{5, 10, 20, 50, 100, 1000}
– p∈{1, 0.5, log(K)/K, l}
• p=1はノードが全結合されている状態、グラフの意味を
なくしたケース(=通常のTSに一致)
• pの値を変えた時のUTSの挙動を確認するため
※pがどのケースにおいても、前提となる接続がうまくいっ
ていないケースが存在する可能性がある
→いくつかグラフを作成、うまく接続されたものを用意
(著者談)
(C) Recruit Technologies Co.,Ltd. All rights reserved.
テスト設計
報酬
– 腕からの報酬はベルヌーイ分布に従う
– 最適腕の期待報酬は0.9
– 最適腕以外からの期待報酬は最適腕からの距離に比例して
少なくなる
– d(i*)を腕a(i)から最適腕への最短パスだとする
– 最も遠くにいる腕を
• max(d*) = max(d(i*)) i ∈{1…k}
– としたとき、腕a(i)の期待値を
• μ(i) = 0.9 – d(i*)*(0.9-0.1)/ max(d*)
– とする
– max(d*)を持つ腕は期待報酬の値として0.1を持ち、その他
腕は最適腕からの距離に応じて0.1~0.9の値をとる
(C) Recruit Technologies Co.,Ltd. All rights reserved.
テスト設計
その他
– T = 10**5
– K(腕の数)、p(腕間の接続確率)ごとに10個のグラフを使う
– グラフごとの試行回数は100
– regretは10グラフの平均
(C) Recruit Technologies Co.,Ltd. All rights reserved.
テスト結果
①
①:p=1のケース全て
→TSとUTS、KLUCBとOSUBは
ほぼ同様の性能
→全てのノードが繋がっており、
グラフを使う意味がない
→UTSの5,6行目(mod部分)がある
おかげで、少しだけ性能はいい
②:腕の数が~20程度のケース
→OSUBと比較して、TSの方が優れている
と言える
※TS、KLUCBのケースはpを減らす
理由がないので、p=1だけを比較対象と
するのが妥当
→腕が少ないとグラフの利点を出しづらい
③:p=l(団子のように直線的に接続)
かつKが多いケース
→OSUBと同等の性能
→腕の数がさらに多いケースだと、
優位性がなくなると想定される
→別途調査
③
regret
②
(C) Recruit Technologies Co.,Ltd. All rights reserved.
テスト結果
①:p=1のケース全て
→TSとUTS、KLUCBとOSUBは
ほぼ同様の性能
→全てのノードが繋がっており、
グラフを使う意味がない
②-1:腕、ノードの接続数が少ないケース
→TS系の手法がKLUCBベースの手法より
優れている
②-2:腕、ノードの接続数が少ないケース
→腕の数が10を超えるとRegretは
OSUB<TS
感想)
→腕が少ないと素直にTSで良さそう
→K=20〜でグラフを使う意味がありそう
①K=5,p=1
②-1K=5,p=log(K)/K ②-2 K=20,p=log(K)/K
(C) Recruit Technologies Co.,Ltd. All rights reserved.
テスト結果
p=l、K=1000だとOSUBに対するUTSの優位性が消える
– 追加調査を実施(グラフなし)
• p=l,K=17,最大期待報酬を0.108,腕ごとに0.001の期待報酬の刻み
• p=l,K=129,最大期待報酬を0.165 ,腕ごとに0.001の期待報酬の刻み
→T=10**5だとOSUBに軍配、T=10**7だとUTSに軍配
→ただしRegretを示すグラフがTに到達するまで何度も交差している
→UTSの優位性低し
– さらに追加調査)
※以降本文中では数行でさらりと触れられているだけなので情報少
• 腕ごと期待報酬の刻みを{0.001,0.002,0.005}としたケース
→刻み幅が減るほどOSUBの方がいい
– さらに追加調査)
• p=c/Kとしたケース(c=5,10)
→UTSの方がいい
– p=lかつ腕ごと報酬の差分が少ないとUTSはOSUBと比較して悪化する
(C) Recruit Technologies Co.,Ltd. All rights reserved.
まとめ
腕が一定以上、一定以下(20~1000)であり
Unimodal構造を仮定でき
Multi Play Banditでなく
腕、報酬についてstaticな環境であり
グラフ構造を考慮(p != l)でき
腕間の報酬の差が大きいほど
<UTSで幸せになれそう>
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Appendix:Regretの証明
証明(の一部)
– R[T](UTS) = R1 + R2
– R1 = リーダーに最適腕を選んだケースのRegret
– R2 = リーダーに最適腕以外を選んだケースのRegret
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Appendix:Regretの証明
続き(R1)
– R1のRegretはTS+探索範囲を接続腕に絞ったものと同等
= TSのRegretよりも小さくなる
– TSのRegretは既出の論文(※)にて提示されている
– C1はεに応じて決まる切片
• εは最適腕に接続されている腕だけで構成される
※Thompson sampling: An asymptotically optimal finite-time analysis(2012)
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Appendix:Regretの証明
続き(R2)
– R2をRi1とRi2に分解 sub-optimal armを
リーダーとしたケースのRegret
接続腕jを含めた中で、最も
期待報酬の高い腕
最適腕を選択しなかったことによる
期待損失
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Appendix:Regretの証明
続き(Ri1)
ヘフディングの不等式
リーダーが引かれる最低限の回数
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Appendix:Regretの証明
続き(Ri2)
TSを有限の腕{a(i)}、最適腕a(i’)に対して実施する時、
が満たされれば b ∈(0,1), Cb =< inf. が存在
TSによって最適腕が弾かれる回数 <= t**b
(C) Recruit Technologies Co.,Ltd. All rights reserved.
Appendix:Regretの証明
R1,Ri1,Ri2を全て足し合わせる

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

20170323 aaai/wsdm読み会 Unimodal Thompson Sampling for Graph-Structured Arms

  • 1. (C) Recruit Technologies Co.,Ltd. All rights reserved. Unimodal Thompson Sampling for Graph– Structured Arms ビッグデータ部 田口正一
  • 2. (C) Recruit Technologies Co.,Ltd. All rights reserved. 自己紹介 名前:田口 正一 所属:R-tech ビッグデータ部ビジネスコンサルティングGr 趣味:ポケモン、ポケモンGo、筋トレ(ゆるふわ勢)
  • 3. (C) Recruit Technologies Co.,Ltd. All rights reserved. 目次 概要 背景 前提 提案手法 Regret テスト設計・結果 Appendix
  • 4. (C) Recruit Technologies Co.,Ltd. All rights reserved. 概要 タイトル – Unimodal Thompson Sampling for Graph–Structured Arms – Multi-Armed Banditアルゴリズムにおける手法提案 著者 – Polytechnic University of Milanの人たち(イタリア最大の 技術系大学、Ph.D.1人+助手1人+助教2人。 結果 – 腕が1000以下のケースにおいて、Thompson Sampling、 先行研究よりもRegretベースで10%以上の改善
  • 5. (C) Recruit Technologies Co.,Ltd. All rights reserved. 概要 手法 – 腕がUnimodal設定のケースにおいてThompson Sampling(以下TS)+グラフでRegret最適化を目指す • ベイジアン+Unimodal Multi Armed Bandit問題(以下 UMAB)+グラフ理論はこれが初の論文(著者曰く) • グラフのノードが腕、エッジが腕間の関係に該当 • 仮定)最適腕にたどり着くパスが必ず存在する • 仮定)ノードの移動をする際は期待値が減少しない
  • 6. (C) Recruit Technologies Co.,Ltd. All rights reserved. 背景 先行研究(グラフ理論+UMAB問題) – GLSE(Jia and Mannor, 2011) • 概要:時間経過とともに、腕のサンプリング範囲を狭め ていく • 最適Regret:O(√Tlog(T)) – OSUB(KLUCBの改良版、 Combes and Proutiere 2014a) • 概要:グラフを用いて探索を最適腕+それと接続された ものに絞る、その後はKLUCB • 最適Regret:O(log(T)) →特に腕が少ないとGLSEを凌駕 →UCBベースでなく、TSベースだったら良くなるんでない?
  • 7. (C) Recruit Technologies Co.,Ltd. All rights reserved. 前提 グラフ(既存手法(OSUB論文)と同一) – 無向グラフ – G =(A, E) – A={a1,...,aK} – (ai,aj)∈E – ノード、エッジの存在(接続)は既知だが、接続している中で 最大期待値のノードへの接続がどれかは不明 – 論文中のグラフは1959年の論文,”On Random Graphs Ⅰ” (ERDOS&RENYI)を使って作成(確率pでエッジが存在) B A E G F DC エッジの存在は既知、 内容は不明 ノードが各armに該当
  • 8. (C) Recruit Technologies Co.,Ltd. All rights reserved. 前提 選択と報酬 – 制限時間:T – 時刻tにおいて、腕a[i]を選択、報酬X[i,t]を観察 • 報酬は腕a[i]が持つ報酬の分布D[i]から抽出した1サンプ ル • 腕iにおける期待値μ[i]:=E[Xi,t] unimodality – 最適腕が複数存在しない – 最適腕(=最も期待報酬の高い腕)をa[i∗]と仮定 • μ[i∗]=max(μ[i]) • 以降は μ[i∗]をμ[∗.]と記述
  • 9. (C) Recruit Technologies Co.,Ltd. All rights reserved. 前提 ノード – 最適腕以外の腕(a[i ≠*])について、有限回数の移動で最適 腕にたどり着けるパス、Pが存在する – 期待報酬を下げずに、最適腕にたどり着けるパスがある →Local optimaにはまらない 隣接腕 – 腕a[i]に隣接する腕をN[i]とする – 腕j(複数)がエッジ(a[i]a[j])で接続 – 重要なのは最適腕の隣接腕に探索範囲が限定される点 • もし期待報酬の低い腕が隣接しているケースでも隣接腕 +時刻tの最適腕だけでTSをかけるので、期待値の低い腕 は引かれづらい
  • 10. (C) Recruit Technologies Co.,Ltd. All rights reserved. 提案手法 Unimodal Thompson sampling →Regret計算簡便のために設定
  • 11. (C) Recruit Technologies Co.,Ltd. All rights reserved. 提案手法 Unimodal Thompson sampling G(グラフ),T(制限時間), π(事前分布)を入れる 全腕で時刻Tまでの期待報酬を計算 通算報酬最大の腕(最適腕)を特定 最適腕としての被選択回数 /( 接続ノード数+1) 最適腕をプレイ 最適腕+隣接腕でθだけサンプリング 報酬が最大になる腕をプレイ
  • 12. (C) Recruit Technologies Co.,Ltd. All rights reserved. 提案手法 Unimodal Thompson sampling 時刻tまでの累積報酬 時刻tまでにプレイされた回数 最適腕として選定された腕+ ノードで接続されている数 時刻tまでに最適腕として 選定された回数 通常のトンプソン サンプリングにおける 報酬分布
  • 13. (C) Recruit Technologies Co.,Ltd. All rights reserved. 提案手法 実際の動き(例) – 前提 • Eがoptimal、期待報酬はE>C>B – 挙動 • Eをリーダーとして選択→範囲を適切に絞ったTS、OK • Cをリーダーとして選択→B,C,EでTS、Eの期待値の方が Cより高いので、いずれEがリーダーとして選択される • Bをリーダーとして選択→A,B,C,DでTS、いずれCがリー ダーとして選択される。理由は同上 →Optimal Armに向かっての滝登り B A E G F DC
  • 14. (C) Recruit Technologies Co.,Ltd. All rights reserved. Regret UTSのRegret – ε = 腕の数K + 期待報酬{μ[1]…μ[K]} – C > 0 = εに応じて決まる切片項 • ざっくり証明はAppendixをどうぞ • 詳細は原典をどうぞ
  • 15. (C) Recruit Technologies Co.,Ltd. All rights reserved. テスト設計 グラフセッティング – G =(A, E) – A={a1,...,aK} – (ai,aj)∈E • (ai,aj)は確率pで発生させる – K∈{5, 10, 20, 50, 100, 1000} – p∈{1, 0.5, log(K)/K, l} • p=1はノードが全結合されている状態、グラフの意味を なくしたケース(=通常のTSに一致) • pの値を変えた時のUTSの挙動を確認するため ※pがどのケースにおいても、前提となる接続がうまくいっ ていないケースが存在する可能性がある →いくつかグラフを作成、うまく接続されたものを用意 (著者談)
  • 16. (C) Recruit Technologies Co.,Ltd. All rights reserved. テスト設計 報酬 – 腕からの報酬はベルヌーイ分布に従う – 最適腕の期待報酬は0.9 – 最適腕以外からの期待報酬は最適腕からの距離に比例して 少なくなる – d(i*)を腕a(i)から最適腕への最短パスだとする – 最も遠くにいる腕を • max(d*) = max(d(i*)) i ∈{1…k} – としたとき、腕a(i)の期待値を • μ(i) = 0.9 – d(i*)*(0.9-0.1)/ max(d*) – とする – max(d*)を持つ腕は期待報酬の値として0.1を持ち、その他 腕は最適腕からの距離に応じて0.1~0.9の値をとる
  • 17. (C) Recruit Technologies Co.,Ltd. All rights reserved. テスト設計 その他 – T = 10**5 – K(腕の数)、p(腕間の接続確率)ごとに10個のグラフを使う – グラフごとの試行回数は100 – regretは10グラフの平均
  • 18. (C) Recruit Technologies Co.,Ltd. All rights reserved. テスト結果 ① ①:p=1のケース全て →TSとUTS、KLUCBとOSUBは ほぼ同様の性能 →全てのノードが繋がっており、 グラフを使う意味がない →UTSの5,6行目(mod部分)がある おかげで、少しだけ性能はいい ②:腕の数が~20程度のケース →OSUBと比較して、TSの方が優れている と言える ※TS、KLUCBのケースはpを減らす 理由がないので、p=1だけを比較対象と するのが妥当 →腕が少ないとグラフの利点を出しづらい ③:p=l(団子のように直線的に接続) かつKが多いケース →OSUBと同等の性能 →腕の数がさらに多いケースだと、 優位性がなくなると想定される →別途調査 ③ regret ②
  • 19. (C) Recruit Technologies Co.,Ltd. All rights reserved. テスト結果 ①:p=1のケース全て →TSとUTS、KLUCBとOSUBは ほぼ同様の性能 →全てのノードが繋がっており、 グラフを使う意味がない ②-1:腕、ノードの接続数が少ないケース →TS系の手法がKLUCBベースの手法より 優れている ②-2:腕、ノードの接続数が少ないケース →腕の数が10を超えるとRegretは OSUB<TS 感想) →腕が少ないと素直にTSで良さそう →K=20〜でグラフを使う意味がありそう ①K=5,p=1 ②-1K=5,p=log(K)/K ②-2 K=20,p=log(K)/K
  • 20. (C) Recruit Technologies Co.,Ltd. All rights reserved. テスト結果 p=l、K=1000だとOSUBに対するUTSの優位性が消える – 追加調査を実施(グラフなし) • p=l,K=17,最大期待報酬を0.108,腕ごとに0.001の期待報酬の刻み • p=l,K=129,最大期待報酬を0.165 ,腕ごとに0.001の期待報酬の刻み →T=10**5だとOSUBに軍配、T=10**7だとUTSに軍配 →ただしRegretを示すグラフがTに到達するまで何度も交差している →UTSの優位性低し – さらに追加調査) ※以降本文中では数行でさらりと触れられているだけなので情報少 • 腕ごと期待報酬の刻みを{0.001,0.002,0.005}としたケース →刻み幅が減るほどOSUBの方がいい – さらに追加調査) • p=c/Kとしたケース(c=5,10) →UTSの方がいい – p=lかつ腕ごと報酬の差分が少ないとUTSはOSUBと比較して悪化する
  • 21. (C) Recruit Technologies Co.,Ltd. All rights reserved. まとめ 腕が一定以上、一定以下(20~1000)であり Unimodal構造を仮定でき Multi Play Banditでなく 腕、報酬についてstaticな環境であり グラフ構造を考慮(p != l)でき 腕間の報酬の差が大きいほど <UTSで幸せになれそう>
  • 22. (C) Recruit Technologies Co.,Ltd. All rights reserved. Appendix:Regretの証明 証明(の一部) – R[T](UTS) = R1 + R2 – R1 = リーダーに最適腕を選んだケースのRegret – R2 = リーダーに最適腕以外を選んだケースのRegret
  • 23. (C) Recruit Technologies Co.,Ltd. All rights reserved. Appendix:Regretの証明 続き(R1) – R1のRegretはTS+探索範囲を接続腕に絞ったものと同等 = TSのRegretよりも小さくなる – TSのRegretは既出の論文(※)にて提示されている – C1はεに応じて決まる切片 • εは最適腕に接続されている腕だけで構成される ※Thompson sampling: An asymptotically optimal finite-time analysis(2012)
  • 24. (C) Recruit Technologies Co.,Ltd. All rights reserved. Appendix:Regretの証明 続き(R2) – R2をRi1とRi2に分解 sub-optimal armを リーダーとしたケースのRegret 接続腕jを含めた中で、最も 期待報酬の高い腕 最適腕を選択しなかったことによる 期待損失
  • 25. (C) Recruit Technologies Co.,Ltd. All rights reserved. Appendix:Regretの証明 続き(Ri1) ヘフディングの不等式 リーダーが引かれる最低限の回数
  • 26. (C) Recruit Technologies Co.,Ltd. All rights reserved. Appendix:Regretの証明 続き(Ri2) TSを有限の腕{a(i)}、最適腕a(i’)に対して実施する時、 が満たされれば b ∈(0,1), Cb =< inf. が存在 TSによって最適腕が弾かれる回数 <= t**b
  • 27. (C) Recruit Technologies Co.,Ltd. All rights reserved. Appendix:Regretの証明 R1,Ri1,Ri2を全て足し合わせる