Weitere ähnliche Inhalte
Ähnlich wie KDD2014_study (7)
KDD2014_study
- 2. 今日紹介する論文
•Modeling delayed feedback in display advertising
–Olivier Chapelle (Criteo)
•ディスプレイ広告において広告を表示した時のコ ンバージョン率を予測する
•ログから学習を行おうとするときにコンバージョ ンの発生には遅れが生じるため実際は正例な のに負例として扱ってしまうという問題が発生す る
•このため時間遅れをモデル化したコンバージョン 予測モデルを提案する
KDD 2014勉強会
2
- 3. CPA payment modelと コンバージョン率の予測
•広告配信業者は広告主からは1回のコンバージョンにつきいくらという契 約で行う
•一方媒体の方に広告を出す際には1インプレッションいくらかという契約 で行う
•このため1インプレッションをいくらで買うかを決めるためには1インプレッ ションあたりの広告主からもらえる金額の期待値を計算する必要がある
•その期待値は次の式で計算できる
–eCPM = CPA × P(click) × P(conversion | click)
–P(conversion | click)をモデル化するのが今回の論文のメインテーマ
KDD 2014勉強会
3
広告主
媒体
インプレッションい くらで買い取り
クリック/コンバージョン 一回につき課金
- 10. コンバージョン遅れのモデル
•上の話を定式化すると
•X : 特徴量ベクトル
•Y : コンバージョンが発生したかどうか
•C : クリックしたユーザがコンバージョンするかどうか
•D : クリックからコンバージョンにかかる時間
•E : クリック後にかかった時間
•Y=0 C = 0 or E < D
•Y=1 => C=1
•ログ上で観測されるのは(풙푖,푦푖,푒푖)の3つ組, 푦푖=1の ときは푑푖,푐푖も観測されている
KDD 2014勉強会
10
- 13. モデルからの確率
•コンバージョンが観測されてないイベントについての確率は
•푃푌=0푋=푥푖,퐸=푒푖
–=푃푌=0퐶=0,푋=푥푖,퐸=푒푖푃퐶=0푋=푥푖
–+푃푌=0퐶=1,푋=푥푖,퐸=푒푖푃(퐶=1|푋=푥푖)
–1−푝푥푖+푝푥푖푃푌=0퐶=1,푋=푥푖,퐸=푒푖
•最後のユーザはコンバージョンするがまだコンバージョンに 至ってないという確率は
–푃푌=0퐶=1,푋=푥푖,퐸=푒푖
–=푃퐷>퐸퐶=1,푋=푥푖,퐸=푒푖= 휆푥exp(−휆푥푡)푑푡 ∞ 푒푖
–exp(−휆푥푒푖)
KDD 2014勉強会
13
- 15. 関連研究
•Learning classifiers from only positive and unlabeled data, KDD 2008
–正例とラベルがないデータのみあるときの学習について
–本研究と違ってラベルなしのデータについてラベルがラン ダムに欠落しているという仮定をおいている
–ラベルなしデータについては正例と負例が一定率で混在 しているという定式化
–本研究では時間が経っているデータはネガティブサンプ ルに近い形で扱えるような定式化を行っている
•生存時間解析
–生存時間解析においては患者はいずれ死ぬので、本研 究において常にC=1という仮定をおいたのと同じになって いる
KDD 2014勉強会
15
- 16. 実験 (Toy example)
•データをコンバージョン率を10%, コンバージョンまでにかかる時間 を平均4日の指数分布に従って発生させる
•このときコンバージョン率を単純にコンバージョン数をデータの数 で割って推定したものと比較した
•本論文での提案手法であるDFM(Delayed feedback model)がより 短期間で真の値に収束している
KDD 2014勉強会
16
- 18. 比較手法
•NAIVE
–学習期間においてコンバージョンしたデータを正例として、そう でないデータを負例としてコンバージョン率を学習する
•ORACLE
–データの学習期間より先の時間のデータをみてコンバージョン したかどうかを確認して、それも正例として扱う
•SHIFTED
–訓練データには30日前のものを使ってクリック後コンバージョン したかどうかが正しく分かるようにする
•RESCALE
–NAIVEと同じであるが推定したコンバージョン率を正例の欠損 率で割ってやる
KDD 2014勉強会
18
- 19. 比較手法
•STC (Short term conversion model)
–本論文で比較のために作ったヒューリスティックな手法
–1 一日以内にコンバージョンする確率をモデル化
•푃(퐶=1,퐷≤1|푋=푥)
–2 一日以内にコンバージョンするデータとすべてのコンバージョ ンについての比率を計算する
• 푃(퐶=1,퐷≤1|푋=푥) 푃(퐶=1|푋=푥) =푃(퐷≤1|퐶=1,푋=푥)
•1については直近のデータから学習できる
•2についてはコンバージョンデータの中から一日以内にコ ンバージョンするかどうかの二値分類モデルとなっている
•2については過去ログが必要となるがこの値はある程度ロ バストである
KDD 2014勉強会
19
- 20. 実験
•実験においてテストデータは7日間のデータを用いた、この とき学習は過去3週間のデータから毎日行った
–データ数は約6M件、詳細については以下のURLで公開されて いる
–http://labs.criteo.com/tag/dataset/
•データは二種類用意して、全てのキャンペーンに関するも のとRecentという過去データよりテストデータの方が出現 数が多いキャンペーンに関するもののみのデータを使った
•実験の評価にはNLL(Average Negative log-likelihood)を 使った
–ROCを使わないのは確率を推定することも重要となっているた め
KDD 2014勉強会
20