KDD2015論文読み会
- 3. どんな研究?
3
ナップザック問題
多腕バンディット問題
A B C D … Y Z
価値 100 200 50 300 500 200
重さ 3 5 10 20 40 20
重さの総和がWを超えないように商品を選択した時の価値の総和の最⼤大値は?
(各アイテムは⼀一回しか選択できない)
スロットA スロットB スロットZ…
限られた回数しかスロットを引けない中で⾼高い報酬を得るには?(探索索と活⽤用)
動的計画法
Epsilon-Greedy, UCB
- 4. Contribution① 新しい問題設定AVIDの提案
AVID(Adaptive Valuable Item Discovery)
l 複数の(たくさんの)アイテムがある
l 各アイテムにはコストと価値がつけられています
l 各アイテムの価値は、そのアイテムを選択(購⼊入)した時にだけ
(ノイズ付で)わかる(各アイテムは⼀一回しか選択できない)
4
A B C D … Y Z
価値 ? ? ? ? ? ?
重さ 3 5 10 20 40 20
ただし、アイテム間の類似度度が与えられるとする
決められた予算(合計コスト)内で選択(購⼊入)したアイテムの合計
の価値を最⼤大化するには?
- 5. Contribution① 新しい問題設定AVIDの提案
AVID(Adaptive Valuable Item Discovery)
l 複数の(たくさんの)アイテムがある
l 各アイテムにはコストと価値がつけられています
l 各アイテムの価値は、そのアイテムを選択(購⼊入)した時にだけ
(ノイズ付で)わかる(各アイテムは⼀一回しか選択できない)
5
A B C D … Y Z
価値 ? ? ? ? ? ?
重さ 3 5 10 20 40 20
ただし、アイテム間の類似度度が与えられるとする
決められた予算(合計コスト)内で選択(購⼊入)したアイテムの合計
の価値を最⼤大化するには?
ナップザック問題との違い
- 6. Contribution① 新しい問題設定AVIDの提案
AVID(Adaptive Valuable Item Discovery)
l 複数の(たくさんの)アイテムがある
l 各アイテムにはコストと価値がつけられています
l 各アイテムの価値は、そのアイテムを選択(購⼊入)した時にだけ
(ノイズ付で)わかる(各アイテムは⼀一回しか選択できない)
6
A B C D … Y Z
価値 ? ? ? ? ? ?
重さ 3 5 10 20 40 20
ただし、アイテム間の類似度度が与えられるとする
決められた予算(合計コスト)内で選択(購⼊入)したアイテムの合計
の価値を最⼤大化するには?
バンディット問題との違い
- 18. 当⽇日の質疑応答(覚えている限り)
l ベイズ最適化(Bayesian Optimization)との違いは?
l 問題設定としては「選択したアイテムの価値の合計を最⼤大化」
するか、「fの最⼤大値」を求めるかが違う
l ただ、アルゴリズムはGPによって各点でfの期待される値と、そ
の不不確実さを表現して良良さそうなモノを次々選んでいくので、
かなり共通する部分がある
l 動的計画法っぽさが消えてない?
l 確かに元はと⾔言えば動的計画法っぽい問題を解いていたはずな
のに、アルゴリズムからは動的計画法っぽさが消えてしまって
います
l (このアルゴリズムは)収束するの?
l 質問の意図がよくわからなかったが、そもそも予算内(有限)
でしか選択をしないし、同じアイテムは⼀一度度しか選択できない
18