SlideShare ist ein Scribd-Unternehmen logo
1 von 24
Downloaden Sie, um offline zu lesen
坪坂正志
mail : m.tsubosaka(at)gmail(dot)com
紹介論文
 Linear submodular bandits and their
  application to diversified retrieval
 Yisong Yue, Carlos Guestrin (Carnegie
  Mellon University)
問題
 ニュース記事のレコメンドなどでユーザに
  対して複数の記事を提示したい
 提示結果はパーソナライズしたい
Challenge
   Diversification
     なるべく同じ記事が並ばないようにしたい
   Feature-based exploration
     ユーザに記事を提示して、その結果クリックさ
     れる/されないというフィードバックを受け取り、
     そのユーザがスポーツに興味はあるけど政治に
     は興味がないなどの嗜好を効率的に学習したい
Diversification
   ニュース記事が𝑑個のトピック確率によって
    表されるとする
     例えば記事Aはスポーツ0.5, 芸能 0.5
     記事Bは政治0.8, 経済0.2など
   Probabilistic coverage
     トピック𝑖に関するcoverageを
     𝐹𝑖 𝐴 = 1 − 𝑎∈𝐴(1 − 𝑃 𝑖 𝑎 )と定義する
     たとえば提示した記事リストの中に𝑃 𝑖 𝑎 = 1と
     なるものが入っていれば、他の記事をどれだけ
     追加したかに関わらず𝐹𝑖 𝑎 = 1
評価関数
 記事の集合𝐴に対して、ユーザに関しての評
  価関数を
 𝐹 𝐴 𝑤 = 𝑤 𝑇 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 (𝑤 ≥ 0)
 とする
 ここで𝑤はユーザがどのトピックを好むかを
  表すベクトルである
Local Linearity
 記事集合𝐴に対して、記事𝑎を追加した場合の利
  得は𝑤 𝑇 Δ(𝑎|𝐴)で表される
Δ 𝑎 𝐴 =
 < 𝐹1 𝐴 ∪ 𝑎 − 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 ∪ 𝑎 − 𝐹 𝑑 𝐴 >
 ユーザの興味に合致したトピックでもすでに記事
  集合に含まれてるものの利得は小さくなる
Optimization
   argmax 𝐴:𝐴≤   𝐿   𝐹(𝐴|𝑤)を求める
ここで𝐹にsubmodular性があることを使う
 と
 𝑤 𝑇 Δ(𝑎|𝐴)が最大となるような記事𝑎を貪欲
                      1
 に追加することで最適解の 1 − ≃ 0.63倍
                                   𝑒
    の解が達成できることが保証されている
Submodularとは
 𝐹 𝐴 ∪ 𝑎 ≥ 𝐹 𝐴 かつ𝐴 ⊂ 𝐵のとき
 𝐹 𝐴 ∪ 𝑎 − 𝐹 𝐴 ≥ 𝐹 𝐵 ∪ 𝑎 − 𝐹(𝐵)
 が成立するとき𝐹はSubmodular関数である
  と言う
Linear Submodular Bandits
Problem
 時刻𝑡 = 1, … , 𝑇まで以下の処理を行う
 アルゴリズムは記事の集合𝐴 𝑡 = (𝑎1 , … , 𝑎 𝑡𝐿 )
                          𝑡
  を選択する
 ユーザは記事集合に関して報酬(クリックす
  るor 無視する)𝑟 𝑡 (𝐴 𝑡 )を与える
報酬モデル
 ユーザは記事を上から下に見ていく
 ユーザは𝑙番目の記事に関して、
 確率 w ∗ T Δ(𝑎 𝑙 |𝐴1:𝑙−1 )に従ってクリックする
                           𝐿
 報酬は和の形𝑟 𝑡 𝐴 = 𝑙=1 𝑟 𝑡𝑙 (𝐴)で表されるとす
  る
 このとき期待値は
     𝐸 𝑟 𝑡𝑙 𝐴   =   𝑤 ∗ 𝑇 Δ(𝑎 𝑙 |𝐴1:𝑙−1 )
Regret
   最適な集合の選択をした場合との実際の報
    酬との差分
                 1
   𝑅𝑒𝑔 𝑇 =   1−       𝑡   𝐸 𝑟 𝑡 𝐴∗𝑡    −        𝑡 𝑟 𝑡 (𝐴 𝑡 )
                  𝑒
                 1
        =    1−      𝑂𝑃𝑇 −       𝑡 𝑟 𝑡 (𝐴 𝑡 )
                 𝑒
                 ∗
   ここで最適な𝑤 が求まっても、集合の選択
                   1
    を貪欲に行うと最適解の(1 − )倍までしか
                    𝑒
    達成できないので最適解にかける
Algorithm
Algorithm
            データ対(Δ 𝑙𝜏 , 𝑟𝜏𝑙 )を使って線形回帰に
            より重みベクトル𝑤 𝑡 を計算する
Algorithm




    𝑙番目の記事に関する期待利得と信頼区間を計
    算する
    信頼区間の上限の部分まで考えて記事を選択
    する
Confidence interval
 記事1            記事1の方が期待値は低いが信頼区間の
                上限は大きいので記事1を選択
 記事2

   記事の利得の期待値だけではなく、信頼区
    間の大きさも利用して記事を選択する
     データが少ないものについては信頼区間が大き
      くなり、値が大きくなる (explore : 探索)
     データが多いものについては期待値をそのまま
      利用する
Theory



   logの項を無視するとRegretは𝑂(𝑑 𝑇𝐿)で抑
    えられる
他のBandit algorithmとの関係
   特徴量を使わない場合
     UCBなど
     固定された記事(数個程度)において最もクリックされやす
      いものを探索する
     cf. Finite-time analysis of the multiarmed bandit problem,
      Machine Learning 2002
   特徴量を使うが1つだけ選択する場合
     LinUCB
     ユーザや記事の特徴量を用いて記事を選択する(新規記事
      に対しても特徴量を使ってCTRを予測できる)
     今回の論文では特徴量はトピックにあたる
     cf. A contextual-bandit approach to personalized news
      article recommendation, WWW 2010
Experiment (Simulation)
 正解の𝑤 ∗ が分かっているという状況でシ
  ミュレーションを行う
 Synthetic data
     𝑑 = 25, 𝑤 ∗ はランダムに作成
   Blog dataset
     𝑑 = 100, 𝑤 ∗ は事前のユーザスタディにより決定
Competing method
   Multiplicative Weighting
     explorationを行わない手法
   RankLinUCB
     𝐿個の独立なLinUCBを利用する
   ε-Greedy
     確率εでランダムな記事を選択、そうでない場合
     最もCTRの高い記事を選ぶ
Result (Simulation)
ユーザによる評価


   2つのアルゴリズムの出力をInterleavingして
    どちらのアルゴリズムが好ましいか、ユー
    ザの評価から確認した
     static baselineはパーソナライズを行わないもの
     になる
Interleaving algorithm
まとめ
 ユーザのフィードバックを受け取りながら
  Diversified retrievalを行うための一般的なフ
  レームワークを提案した
 提案したアルゴリズムであるLSBGreedyが
  ユーザアンケートの結果ニュース記事のレ
  コメンドにおいては最も良い結果となった

Weitere ähnliche Inhalte

Was ist angesagt?

Ch12 Cryptographic Protocols and Public Key Infrastructure
Ch12 Cryptographic Protocols and Public Key InfrastructureCh12 Cryptographic Protocols and Public Key Infrastructure
Ch12 Cryptographic Protocols and Public Key InfrastructureInformation Technology
 
Security Vulnerabilities
Security VulnerabilitiesSecurity Vulnerabilities
Security VulnerabilitiesMarius Vorster
 
Message Authentication Requirement-MAC
Message Authentication Requirement-MACMessage Authentication Requirement-MAC
Message Authentication Requirement-MACSou Jana
 
MK Keamanan Komputer - Sesi 1 : Introduction
MK Keamanan Komputer - Sesi 1 : IntroductionMK Keamanan Komputer - Sesi 1 : Introduction
MK Keamanan Komputer - Sesi 1 : IntroductionBambang
 
Social Engineering Audit & Security Awareness
Social Engineering Audit & Security AwarenessSocial Engineering Audit & Security Awareness
Social Engineering Audit & Security AwarenessCBIZ, Inc.
 
Email Security Awareness
Email Security AwarenessEmail Security Awareness
Email Security AwarenessDale Rapp
 
Network and cyber security module(15ec835, 17ec835)
Network and cyber security module(15ec835, 17ec835)Network and cyber security module(15ec835, 17ec835)
Network and cyber security module(15ec835, 17ec835)Jayanth Dwijesh H P
 
Phishing: Swiming with the sharks
Phishing: Swiming with the sharksPhishing: Swiming with the sharks
Phishing: Swiming with the sharksNalneesh Gaur
 

Was ist angesagt? (15)

Web security
Web securityWeb security
Web security
 
Web security
Web securityWeb security
Web security
 
Ch12 Cryptographic Protocols and Public Key Infrastructure
Ch12 Cryptographic Protocols and Public Key InfrastructureCh12 Cryptographic Protocols and Public Key Infrastructure
Ch12 Cryptographic Protocols and Public Key Infrastructure
 
Security Vulnerabilities
Security VulnerabilitiesSecurity Vulnerabilities
Security Vulnerabilities
 
Social Media Safety Tips
Social Media Safety TipsSocial Media Safety Tips
Social Media Safety Tips
 
Message Authentication Requirement-MAC
Message Authentication Requirement-MACMessage Authentication Requirement-MAC
Message Authentication Requirement-MAC
 
SSL/TLS
SSL/TLSSSL/TLS
SSL/TLS
 
Message Authentication
Message AuthenticationMessage Authentication
Message Authentication
 
MK Keamanan Komputer - Sesi 1 : Introduction
MK Keamanan Komputer - Sesi 1 : IntroductionMK Keamanan Komputer - Sesi 1 : Introduction
MK Keamanan Komputer - Sesi 1 : Introduction
 
Social Engineering Audit & Security Awareness
Social Engineering Audit & Security AwarenessSocial Engineering Audit & Security Awareness
Social Engineering Audit & Security Awareness
 
Https
HttpsHttps
Https
 
End-User Security Awareness
End-User Security AwarenessEnd-User Security Awareness
End-User Security Awareness
 
Email Security Awareness
Email Security AwarenessEmail Security Awareness
Email Security Awareness
 
Network and cyber security module(15ec835, 17ec835)
Network and cyber security module(15ec835, 17ec835)Network and cyber security module(15ec835, 17ec835)
Network and cyber security module(15ec835, 17ec835)
 
Phishing: Swiming with the sharks
Phishing: Swiming with the sharksPhishing: Swiming with the sharks
Phishing: Swiming with the sharks
 

Andere mochten auch

Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit正志 坪坂
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining正志 坪坂
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220正志 坪坂
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)正志 坪坂
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計正志 坪坂
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング正志 坪坂
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model正志 坪坂
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict正志 坪坂
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて正志 坪坂
 
Creator's night 05 31 2013
Creator's night 05 31 2013Creator's night 05 31 2013
Creator's night 05 31 2013Len Matsuyama
 
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)Hiroko Ohki Takagi
 
Exreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summerExreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summerHiroko Ohki Takagi
 

Andere mochten auch (20)

Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
 
Tokyowebmining2012
Tokyowebmining2012Tokyowebmining2012
Tokyowebmining2012
 
Recsys2014 recruit
Recsys2014 recruitRecsys2014 recruit
Recsys2014 recruit
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
 
Recsys2015
Recsys2015Recsys2015
Recsys2015
 
KDD 2015読み会
KDD 2015読み会KDD 2015読み会
KDD 2015読み会
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
 
KDD2014_study
KDD2014_study KDD2014_study
KDD2014_study
 
EMNLP2014_reading
EMNLP2014_readingEMNLP2014_reading
EMNLP2014_reading
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
 
Recsys2016勉強会
Recsys2016勉強会Recsys2016勉強会
Recsys2016勉強会
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて
 
Creator's night 05 31 2013
Creator's night 05 31 2013Creator's night 05 31 2013
Creator's night 05 31 2013
 
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
 
Exreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summerExreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summer
 

Ähnlich wie NIPS 2012 読む会

効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習Kenta Ishii
 
Text Categorization
Text CategorizationText Categorization
Text Categorizationcympfh
 
AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎Hirotaka Hachiya
 
劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章Hakky St
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章Hirofumi Tsuruta
 
20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節MOTOGRILL
 

Ähnlich wie NIPS 2012 読む会 (11)

論文紹介&実験
論文紹介&実験論文紹介&実験
論文紹介&実験
 
Dive into XGBoost.pdf
Dive into XGBoost.pdfDive into XGBoost.pdf
Dive into XGBoost.pdf
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 
双対性
双対性双対性
双対性
 
Text Categorization
Text CategorizationText Categorization
Text Categorization
 
AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎
 
劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章劣モジュラ最適化と機械学習 3章
劣モジュラ最適化と機械学習 3章
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章
 
20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節20150730 トピ本第4回 3.4節
20150730 トピ本第4回 3.4節
 
Lp Boost
Lp BoostLp Boost
Lp Boost
 

Mehr von 正志 坪坂

KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing正志 坪坂
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回正志 坪坂
 
WSDM 2012 勉強会資料
WSDM 2012 勉強会資料WSDM 2012 勉強会資料
WSDM 2012 勉強会資料正志 坪坂
 
Complex network-reading 7
Complex network-reading 7Complex network-reading 7
Complex network-reading 7正志 坪坂
 
転置インデックスとTop k-query
転置インデックスとTop k-query転置インデックスとTop k-query
転置インデックスとTop k-query正志 坪坂
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
Cvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosakaCvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosaka正志 坪坂
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage正志 坪坂
 
TokyowebminingInferNet
TokyowebminingInferNetTokyowebminingInferNet
TokyowebminingInferNet正志 坪坂
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた正志 坪坂
 

Mehr von 正志 坪坂 (14)

Recsys2018 unbiased
Recsys2018 unbiasedRecsys2018 unbiased
Recsys2018 unbiased
 
WSDM2018Study
WSDM2018StudyWSDM2018Study
WSDM2018Study
 
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
 
WSDM 2012 勉強会資料
WSDM 2012 勉強会資料WSDM 2012 勉強会資料
WSDM 2012 勉強会資料
 
Complex network-reading 7
Complex network-reading 7Complex network-reading 7
Complex network-reading 7
 
転置インデックスとTop k-query
転置インデックスとTop k-query転置インデックスとTop k-query
転置インデックスとTop k-query
 
EMNLP 2011 reading
EMNLP 2011 readingEMNLP 2011 reading
EMNLP 2011 reading
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
Cvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosakaCvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosaka
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage
 
TokyowebminingInferNet
TokyowebminingInferNetTokyowebminingInferNet
TokyowebminingInferNet
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
 

NIPS 2012 読む会

  • 2. 紹介論文  Linear submodular bandits and their application to diversified retrieval  Yisong Yue, Carlos Guestrin (Carnegie Mellon University)
  • 3. 問題  ニュース記事のレコメンドなどでユーザに 対して複数の記事を提示したい  提示結果はパーソナライズしたい
  • 4. Challenge  Diversification  なるべく同じ記事が並ばないようにしたい  Feature-based exploration  ユーザに記事を提示して、その結果クリックさ れる/されないというフィードバックを受け取り、 そのユーザがスポーツに興味はあるけど政治に は興味がないなどの嗜好を効率的に学習したい
  • 5. Diversification  ニュース記事が𝑑個のトピック確率によって 表されるとする  例えば記事Aはスポーツ0.5, 芸能 0.5  記事Bは政治0.8, 経済0.2など  Probabilistic coverage  トピック𝑖に関するcoverageを  𝐹𝑖 𝐴 = 1 − 𝑎∈𝐴(1 − 𝑃 𝑖 𝑎 )と定義する  たとえば提示した記事リストの中に𝑃 𝑖 𝑎 = 1と なるものが入っていれば、他の記事をどれだけ 追加したかに関わらず𝐹𝑖 𝑎 = 1
  • 6. 評価関数  記事の集合𝐴に対して、ユーザに関しての評 価関数を  𝐹 𝐴 𝑤 = 𝑤 𝑇 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 (𝑤 ≥ 0)  とする  ここで𝑤はユーザがどのトピックを好むかを 表すベクトルである
  • 7. Local Linearity  記事集合𝐴に対して、記事𝑎を追加した場合の利 得は𝑤 𝑇 Δ(𝑎|𝐴)で表される Δ 𝑎 𝐴 =  < 𝐹1 𝐴 ∪ 𝑎 − 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 ∪ 𝑎 − 𝐹 𝑑 𝐴 >  ユーザの興味に合致したトピックでもすでに記事 集合に含まれてるものの利得は小さくなる
  • 8. Optimization  argmax 𝐴:𝐴≤ 𝐿 𝐹(𝐴|𝑤)を求める ここで𝐹にsubmodular性があることを使う と  𝑤 𝑇 Δ(𝑎|𝐴)が最大となるような記事𝑎を貪欲 1 に追加することで最適解の 1 − ≃ 0.63倍 𝑒 の解が達成できることが保証されている
  • 9. Submodularとは  𝐹 𝐴 ∪ 𝑎 ≥ 𝐹 𝐴 かつ𝐴 ⊂ 𝐵のとき  𝐹 𝐴 ∪ 𝑎 − 𝐹 𝐴 ≥ 𝐹 𝐵 ∪ 𝑎 − 𝐹(𝐵)  が成立するとき𝐹はSubmodular関数である と言う
  • 10. Linear Submodular Bandits Problem  時刻𝑡 = 1, … , 𝑇まで以下の処理を行う  アルゴリズムは記事の集合𝐴 𝑡 = (𝑎1 , … , 𝑎 𝑡𝐿 ) 𝑡 を選択する  ユーザは記事集合に関して報酬(クリックす るor 無視する)𝑟 𝑡 (𝐴 𝑡 )を与える
  • 11. 報酬モデル  ユーザは記事を上から下に見ていく  ユーザは𝑙番目の記事に関して、  確率 w ∗ T Δ(𝑎 𝑙 |𝐴1:𝑙−1 )に従ってクリックする 𝐿  報酬は和の形𝑟 𝑡 𝐴 = 𝑙=1 𝑟 𝑡𝑙 (𝐴)で表されるとす る  このとき期待値は  𝐸 𝑟 𝑡𝑙 𝐴 = 𝑤 ∗ 𝑇 Δ(𝑎 𝑙 |𝐴1:𝑙−1 )
  • 12. Regret  最適な集合の選択をした場合との実際の報 酬との差分 1  𝑅𝑒𝑔 𝑇 = 1− 𝑡 𝐸 𝑟 𝑡 𝐴∗𝑡 − 𝑡 𝑟 𝑡 (𝐴 𝑡 ) 𝑒 1  = 1− 𝑂𝑃𝑇 − 𝑡 𝑟 𝑡 (𝐴 𝑡 ) 𝑒 ∗  ここで最適な𝑤 が求まっても、集合の選択 1 を貪欲に行うと最適解の(1 − )倍までしか 𝑒 達成できないので最適解にかける
  • 14. Algorithm データ対(Δ 𝑙𝜏 , 𝑟𝜏𝑙 )を使って線形回帰に より重みベクトル𝑤 𝑡 を計算する
  • 15. Algorithm 𝑙番目の記事に関する期待利得と信頼区間を計 算する 信頼区間の上限の部分まで考えて記事を選択 する
  • 16. Confidence interval 記事1 記事1の方が期待値は低いが信頼区間の 上限は大きいので記事1を選択 記事2  記事の利得の期待値だけではなく、信頼区 間の大きさも利用して記事を選択する  データが少ないものについては信頼区間が大き くなり、値が大きくなる (explore : 探索)  データが多いものについては期待値をそのまま 利用する
  • 17. Theory  logの項を無視するとRegretは𝑂(𝑑 𝑇𝐿)で抑 えられる
  • 18. 他のBandit algorithmとの関係  特徴量を使わない場合  UCBなど  固定された記事(数個程度)において最もクリックされやす いものを探索する  cf. Finite-time analysis of the multiarmed bandit problem, Machine Learning 2002  特徴量を使うが1つだけ選択する場合  LinUCB  ユーザや記事の特徴量を用いて記事を選択する(新規記事 に対しても特徴量を使ってCTRを予測できる)  今回の論文では特徴量はトピックにあたる  cf. A contextual-bandit approach to personalized news article recommendation, WWW 2010
  • 19. Experiment (Simulation)  正解の𝑤 ∗ が分かっているという状況でシ ミュレーションを行う  Synthetic data  𝑑 = 25, 𝑤 ∗ はランダムに作成  Blog dataset  𝑑 = 100, 𝑤 ∗ は事前のユーザスタディにより決定
  • 20. Competing method  Multiplicative Weighting  explorationを行わない手法  RankLinUCB  𝐿個の独立なLinUCBを利用する  ε-Greedy  確率εでランダムな記事を選択、そうでない場合 最もCTRの高い記事を選ぶ
  • 22. ユーザによる評価  2つのアルゴリズムの出力をInterleavingして どちらのアルゴリズムが好ましいか、ユー ザの評価から確認した  static baselineはパーソナライズを行わないもの になる
  • 24. まとめ  ユーザのフィードバックを受け取りながら Diversified retrievalを行うための一般的なフ レームワークを提案した  提案したアルゴリズムであるLSBGreedyが ユーザアンケートの結果ニュース記事のレ コメンドにおいては最も良い結果となった