20170323 aaai/wsdm読み会 Unimodal Thompson Sampling for Graph-Structured Arms

(C) Recruit Technologies Co.,Ltd. All rights reserved.
Unimodal Thompson
Sampling for Graph–
Structured Arms
ビッグデータ部田口正一

自己紹介
名前：田口正一
所属：R-tech ビッグデータ部ビジネスコンサルティングGr
趣味：ポケモン、ポケモンGo、筋トレ(ゆるふわ勢)

目次
概要
背景
前提
提案手法
Regret
テスト設計・結果
Appendix

概要
タイトル
– Unimodal Thompson Sampling for Graph–Structured
Arms
– Multi-Armed Banditアルゴリズムにおける手法提案
著者
– Polytechnic University of Milanの人たち（イタリア最大の
技術系大学、Ph.D.1人＋助手1人+助教2人。
結果
– 腕が1000以下のケースにおいて、Thompson Sampling、
先行研究よりもRegretベースで10%以上の改善

概要
手法
– 腕がUnimodal設定のケースにおいてThompson
Sampling(以下TS)+グラフでRegret最適化を目指す
• ベイジアン＋Unimodal Multi Armed Bandit問題(以下
UMAB)＋グラフ理論はこれが初の論文（著者曰く）
• グラフのノードが腕、エッジが腕間の関係に該当
• 仮定)最適腕にたどり着くパスが必ず存在する
• 仮定)ノードの移動をする際は期待値が減少しない

背景
先行研究(グラフ理論＋UMAB問題)
– GLSE(Jia and Mannor, 2011)
• 概要：時間経過とともに、腕のサンプリング範囲を狭め
ていく
• 最適Regret：O(√Tlog(T))
– OSUB(KLUCBの改良版、 Combes and Proutiere 2014a)
• 概要：グラフを用いて探索を最適腕＋それと接続された
ものに絞る、その後はKLUCB
• 最適Regret：O(log(T))
→特に腕が少ないとGLSEを凌駕
→UCBベースでなく、TSベースだったら良くなるんでない？

前提
グラフ（既存手法(OSUB論文)と同一）
– 無向グラフ
– G =(A, E)
– A={a1,...,aK}
– (ai,aj)∈E
– ノード、エッジの存在(接続)は既知だが、接続している中で
最大期待値のノードへの接続がどれかは不明
– 論文中のグラフは1959年の論文,”On Random Graphs Ⅰ”
(ERDOS&RENYI)を使って作成(確率pでエッジが存在)
B
A
E
G
F
DC
エッジの存在は既知、
内容は不明
ノードが各armに該当

前提
選択と報酬
– 制限時間：T
– 時刻tにおいて、腕a[i]を選択、報酬X[i,t]を観察
• 報酬は腕a[i]が持つ報酬の分布D[i]から抽出した1サンプ
ル
• 腕iにおける期待値μ[i]:=E[Xi,t]
unimodality
– 最適腕が複数存在しない
– 最適腕(=最も期待報酬の高い腕)をa[i∗]と仮定
• μ[i∗]=max(μ[i])
• 以降は μ[i∗]をμ[∗.]と記述

前提
ノード
– 最適腕以外の腕(a[i ≠*])について、有限回数の移動で最適
腕にたどり着けるパス、Pが存在する
– 期待報酬を下げずに、最適腕にたどり着けるパスがある
→Local optimaにはまらない
隣接腕
– 腕a[i]に隣接する腕をN[i]とする
– 腕j(複数)がエッジ(a[i]a[j])で接続
– 重要なのは最適腕の隣接腕に探索範囲が限定される点
• もし期待報酬の低い腕が隣接しているケースでも隣接腕
＋時刻tの最適腕だけでTSをかけるので、期待値の低い腕
は引かれづらい

提案手法
Unimodal Thompson sampling
→Regret計算簡便のために設定

提案手法
G(グラフ),T(制限時間),
π(事前分布)を入れる
全腕で時刻Tまでの期待報酬を計算
通算報酬最大の腕(最適腕)を特定
最適腕としての被選択回数 /( 接続ノード数+1)
最適腕をプレイ
最適腕+隣接腕でθだけサンプリング
報酬が最大になる腕をプレイ

提案手法
時刻tまでの累積報酬
時刻tまでにプレイされた回数
最適腕として選定された腕＋
ノードで接続されている数
時刻tまでに最適腕として
選定された回数
通常のトンプソン
サンプリングにおける
報酬分布

提案手法
実際の動き（例）
– 前提
• Eがoptimal、期待報酬はE>C>B
– 挙動
• Eをリーダーとして選択→範囲を適切に絞ったTS、OK
• Cをリーダーとして選択→B,C,EでTS、Eの期待値の方が
Cより高いので、いずれEがリーダーとして選択される
• Bをリーダーとして選択→A,B,C,DでTS、いずれCがリー
ダーとして選択される。理由は同上
→Optimal Armに向かっての滝登り
B
A
E
G
F
DC

Regret
UTSのRegret
– ε = 腕の数K + 期待報酬{μ[1]…μ[K]}
– C > 0 = εに応じて決まる切片項
• ざっくり証明はAppendixをどうぞ
• 詳細は原典をどうぞ

テスト設計
グラフセッティング
– G =(A, E)
– A={a1,...,aK}
– (ai,aj)∈E
• (ai,aj)は確率pで発生させる
– K∈{5, 10, 20, 50, 100, 1000}
– p∈{1, 0.5, log(K)/K, l}
• p=1はノードが全結合されている状態、グラフの意味を
なくしたケース(=通常のTSに一致)
• pの値を変えた時のUTSの挙動を確認するため
※pがどのケースにおいても、前提となる接続がうまくいっ
ていないケースが存在する可能性がある
→いくつかグラフを作成、うまく接続されたものを用意
（著者談）

テスト設計
報酬
– 腕からの報酬はベルヌーイ分布に従う
– 最適腕の期待報酬は0.9
– 最適腕以外からの期待報酬は最適腕からの距離に比例して
少なくなる
– d(i*)を腕a(i)から最適腕への最短パスだとする
– 最も遠くにいる腕を
• max(d*) = max(d(i*)) i ∈{1…k}
– としたとき、腕a(i)の期待値を
• μ(i) = 0.9 – d(i*)*(0.9-0.1)/ max(d*)
– とする
– max(d*)を持つ腕は期待報酬の値として0.1を持ち、その他
腕は最適腕からの距離に応じて0.1~0.9の値をとる

テスト設計
その他
– T = 10**5
– K(腕の数)、p(腕間の接続確率)ごとに10個のグラフを使う
– グラフごとの試行回数は100
– regretは10グラフの平均

テスト結果
①
①：p=1のケース全て
→TSとUTS、KLUCBとOSUBは
ほぼ同様の性能
→全てのノードが繋がっており、
グラフを使う意味がない
→UTSの5,6行目(mod部分)がある
おかげで、少しだけ性能はいい
②:腕の数が~20程度のケース
→OSUBと比較して、TSの方が優れている
と言える
※TS、KLUCBのケースはpを減らす
理由がないので、p=1だけを比較対象と
するのが妥当
→腕が少ないとグラフの利点を出しづらい
③：p=l(団子のように直線的に接続)
かつKが多いケース
→OSUBと同等の性能
→腕の数がさらに多いケースだと、
優位性がなくなると想定される
→別途調査
③
regret
②

テスト結果
①：p=1のケース全て
→TSとUTS、KLUCBとOSUBは
ほぼ同様の性能
→全てのノードが繋がっており、
グラフを使う意味がない
②-1:腕、ノードの接続数が少ないケース
→TS系の手法がKLUCBベースの手法より
優れている
②-2:腕、ノードの接続数が少ないケース
→腕の数が10を超えるとRegretは
OSUB＜TS
感想)
→腕が少ないと素直にTSで良さそう
→K=20〜でグラフを使う意味がありそう
①K=5,p=1
②-1K=5,p=log(K)/K ②-2 K=20,p=log(K)/K

テスト結果
p=l、K=1000だとOSUBに対するUTSの優位性が消える
– 追加調査を実施(グラフなし)
• p=l,K=17,最大期待報酬を0.108,腕ごとに0.001の期待報酬の刻み
• p=l,K=129,最大期待報酬を0.165 ,腕ごとに0.001の期待報酬の刻み
→T=10**5だとOSUBに軍配、T=10**7だとUTSに軍配
→ただしRegretを示すグラフがTに到達するまで何度も交差している
→UTSの優位性低し
– さらに追加調査)
※以降本文中では数行でさらりと触れられているだけなので情報少
• 腕ごと期待報酬の刻みを{0.001,0.002,0.005}としたケース
→刻み幅が減るほどOSUBの方がいい
– さらに追加調査)
• p=c/Kとしたケース(c=5,10)
→UTSの方がいい
– p=lかつ腕ごと報酬の差分が少ないとUTSはOSUBと比較して悪化する

まとめ
腕が一定以上、一定以下(20~1000)であり
Unimodal構造を仮定でき
Multi Play Banditでなく
腕、報酬についてstaticな環境であり
グラフ構造を考慮(p != l)でき
腕間の報酬の差が大きいほど
<UTSで幸せになれそう>

Appendix:Regretの証明
証明(の一部)
– R[T](UTS) = R1 + R2
– R1 = リーダーに最適腕を選んだケースのRegret
– R2 = リーダーに最適腕以外を選んだケースのRegret

続き(R1)
– R1のRegretはTS＋探索範囲を接続腕に絞ったものと同等
= TSのRegretよりも小さくなる
– TSのRegretは既出の論文(※)にて提示されている
– C1はεに応じて決まる切片
• εは最適腕に接続されている腕だけで構成される
※Thompson sampling: An asymptotically optimal finite-time analysis(2012)

続き(R2)
– R2をRi1とRi2に分解 sub-optimal armを
リーダーとしたケースのRegret
接続腕jを含めた中で、最も
期待報酬の高い腕
最適腕を選択しなかったことによる
期待損失

続き(Ri1)
ヘフディングの不等式
リーダーが引かれる最低限の回数

続き(Ri2)
TSを有限の腕{a(i)}、最適腕a(i’)に対して実施する時、
が満たされれば b ∈(0,1), Cb =< inf. が存在
TSによって最適腕が弾かれる回数 <= t**b

R1,Ri1,Ri2を全て足し合わせる

20170323 aaai/wsdm読み会 Unimodal Thompson Sampling for Graph-Structured Arms

Recommended

Recommended

More Related Content

Featured

Featured (20)

20170323 aaai/wsdm読み会 Unimodal Thompson Sampling for Graph-Structured Arms