Weitere ähnliche Inhalte Ähnlich wie Tokyowebmining ctr-predict (20) Tokyowebmining ctr-predict3. 広告におけるクリック率の 予測の重要性
•現在Web会社において広告の売上に関する割 合は高い比率を占めている
•そのため多くのネットに関する会社ではCTR予測 に関する研究を行っている
–Microsoft [Graepel+ 2010] [Yin+ 2014], Google [McMahan+ 2013], LinkedIn [Agarwal+ 2014], Alibaba [Yan+ 2014], Facebook [He+ 2014], Yahoo, Criteo [Chapelle+ 2014]
TokyoWebMining
3 4. 広告におけるクリック率の 予測の重要性
•CTR率予測が重要な理由としては配信のさい に多くの広告形態でクリックあたりいくらという 契約でなされていることが多く、クリック率を 予測することにより収益を最大化できる
•また近年はRTB(Real time bidding)という媒体 をインプレッション単位で買い付けができると いう仕組みができており、この場合インプレッ ションあたりにいくら払えばよいかの見積に CTR率を予測する必要がでてくる
TokyoWebMining
4 7. 線形モデルによる予測
•広告表示のときの特徴量を푥とする、この特徴量に対する 重みを定めてそれをスコア関数とする
–ここでは特徴量は複数のカテゴリカル変数からなるものとする
–たとえば男性だと(1,0)、午前中訪問だと(1,0,0)、広告ID2だと (0,0,1,...,0)
–これらを結合した値(1,0,1,0,0,0,0,1...,0)のような特徴量となる
TokyoWebMining
7 8. 非線形な特徴量について
•線形モデルだけでは年齢*性別*広告のよう な相互作用の影響をとらえることができない
•例えば年齢ベクトル[0,,0,1,0]、性別ベクトル [0,1]から年齢*性別ベクトル[0,0,0,0,0,0,1,0]を つくるという方法があるがこれだと特徴量の 数が膨大となる
•そのためこの論文では決定木を使った特徴 量の変換を提案している
TokyoWebMining
8 11. モデルサイズの節約について (その他のアプローチ)
•Feature Hashing[Chapelle+ 2014]
–特徴量を適当なidに変換する
–idの方を一定の次元dで剰余をとってモデルをd次元のベクトル とする
–例えばpage134_ad389のようなクロスの特徴量を普通に持とう とするとpageの数×広告の数だけ次元が必要になるがこれに より上がdで抑えられる
•Encoding values with fewer bits [McMahan+ 2013]
–通常重みベクトルはfloat or doubleなので格納に4-8byte必要
–実際は係数ベクトルをそこまでの精度で保つ必要が無いため 独自のエンコーディングを使って2byteで格納する
•Probablistic Feature inclusion[McMahan+ 2013]
–ほとんど現れない特徴量をモデルにいれないため、新規の特 徴量がでてきたときに一定確率で採用するということを行う
TokyoWebMining
11 13. オンライン学習方法について
•論文ではBOPR (Bayesian Online leearning scheme for Probit Regression)とSGD(Stocastic Gradient Descent)の二種類を試している
•BOPR [Graepel+ 2010]
–学習時に分散を保存する必要が有るため倍のメモリ が必要
–予測分布がでるため、Thompson samplingのような banditアルゴリズムと相性が良い
•SGD
–更新時は重みベクトルのみを変更する
TokyoWebMining
13 17. オンラインでのデータのJoin
•今回の問題の簡単な解決手段としてHashQueueという データ構造を使っている
–普通のqueueにclickデータが来た時にimpressionにclickされた かどうかのマークをつけるためにLookupできるようにしたデー タ構造
–Queueが一杯になったときにclickが来てなかったらnegative exampleとして扱う
TokyoWebMining
17
request id
request id
request id
request id
HashQueue
impression
learning data
click 20. データ数について
•トラフィックが膨大なため、数時間のデータで も数億ある
•そのためデータのサンプリングを行うことが多 い
•Uniform Sampling
–ランダムにデータの一部のみ使う
•Negative down sampling
–広告ではクリックされないデータのほうが多いの でクリックされないデータの一部のみ使う
TokyoWebMining
20 24. 参考文献
•[Agarwal+ 2014] LASER: A scalable response prediction platform for online advertising, WSDM 2014
•[Ananthanarayanan+ 2013] Photon: Fault-tolerant and scalable joining of continuous data streams, SIGMOD 2013
•[Chapelle+ 2014] Simple and scalable response prediction for display advertising, TIST 2014
•[Graepel+ 2010] Web-scale bayesian click-through rate prediction for sponsored search advertising, ICML 2010
•[He+ 2014] Practical lessons from predicting clicks on ads at Facebook, ADKDD 2014
•[McMahan+ 2013] Ad click prediction : a view from the trenches, KDD 2013
•[Yan+ 2014] Coupled group lasso for web-scale CTR prediction in display advertising, ICML 2014
•[Yin+ 2014] Estimating ad group performance in sponsored search, WSDM 2014
TokyoWebMining
24