Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
20170323 aaai/wsdm読み会 Unimodal Thompson Sampling for Graph-Structured Arms
1. (C) Recruit Technologies Co.,Ltd. All rights reserved.
Unimodal Thompson
Sampling for Graph–
Structured Arms
ビッグデータ部 田口正一
2. (C) Recruit Technologies Co.,Ltd. All rights reserved.
自己紹介
名前:田口 正一
所属:R-tech ビッグデータ部ビジネスコンサルティングGr
趣味:ポケモン、ポケモンGo、筋トレ(ゆるふわ勢)
3. (C) Recruit Technologies Co.,Ltd. All rights reserved.
目次
概要
背景
前提
提案手法
Regret
テスト設計・結果
Appendix
4. (C) Recruit Technologies Co.,Ltd. All rights reserved.
概要
タイトル
– Unimodal Thompson Sampling for Graph–Structured
Arms
– Multi-Armed Banditアルゴリズムにおける手法提案
著者
– Polytechnic University of Milanの人たち(イタリア最大の
技術系大学、Ph.D.1人+助手1人+助教2人。
結果
– 腕が1000以下のケースにおいて、Thompson Sampling、
先行研究よりもRegretベースで10%以上の改善
5. (C) Recruit Technologies Co.,Ltd. All rights reserved.
概要
手法
– 腕がUnimodal設定のケースにおいてThompson
Sampling(以下TS)+グラフでRegret最適化を目指す
• ベイジアン+Unimodal Multi Armed Bandit問題(以下
UMAB)+グラフ理論はこれが初の論文(著者曰く)
• グラフのノードが腕、エッジが腕間の関係に該当
• 仮定)最適腕にたどり着くパスが必ず存在する
• 仮定)ノードの移動をする際は期待値が減少しない
6. (C) Recruit Technologies Co.,Ltd. All rights reserved.
背景
先行研究(グラフ理論+UMAB問題)
– GLSE(Jia and Mannor, 2011)
• 概要:時間経過とともに、腕のサンプリング範囲を狭め
ていく
• 最適Regret:O(√Tlog(T))
– OSUB(KLUCBの改良版、 Combes and Proutiere 2014a)
• 概要:グラフを用いて探索を最適腕+それと接続された
ものに絞る、その後はKLUCB
• 最適Regret:O(log(T))
→特に腕が少ないとGLSEを凌駕
→UCBベースでなく、TSベースだったら良くなるんでない?
7. (C) Recruit Technologies Co.,Ltd. All rights reserved.
前提
グラフ(既存手法(OSUB論文)と同一)
– 無向グラフ
– G =(A, E)
– A={a1,...,aK}
– (ai,aj)∈E
– ノード、エッジの存在(接続)は既知だが、接続している中で
最大期待値のノードへの接続がどれかは不明
– 論文中のグラフは1959年の論文,”On Random Graphs Ⅰ”
(ERDOS&RENYI)を使って作成(確率pでエッジが存在)
B
A
E
G
F
DC
エッジの存在は既知、
内容は不明
ノードが各armに該当
13. (C) Recruit Technologies Co.,Ltd. All rights reserved.
提案手法
実際の動き(例)
– 前提
• Eがoptimal、期待報酬はE>C>B
– 挙動
• Eをリーダーとして選択→範囲を適切に絞ったTS、OK
• Cをリーダーとして選択→B,C,EでTS、Eの期待値の方が
Cより高いので、いずれEがリーダーとして選択される
• Bをリーダーとして選択→A,B,C,DでTS、いずれCがリー
ダーとして選択される。理由は同上
→Optimal Armに向かっての滝登り
B
A
E
G
F
DC
14. (C) Recruit Technologies Co.,Ltd. All rights reserved.
Regret
UTSのRegret
– ε = 腕の数K + 期待報酬{μ[1]…μ[K]}
– C > 0 = εに応じて決まる切片項
• ざっくり証明はAppendixをどうぞ
• 詳細は原典をどうぞ