Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Recsys2015

2.167 Aufrufe

Veröffentlicht am

Recsys2015勉強会発表資料
Gaussian ranking by matrix factorization

Veröffentlicht in: Wissenschaft
  • Login to see the comments

Recsys2015

  1. 1. Gaussian ranking by matrix factorization Recsys 2015読み会 リクルートテクノロジーズ 坪坂 正志
  2. 2. 紹介する論文 • Gaussian ranking by matrix factorization – Harald Steck, Netflix – Session 3 : Distinguished paperでの発表
  3. 3. Matrix factorization • ユーザのアイテムに対する評価値をそれぞれに対して低次元のベクトルを割り 当ててベクトルの積として近似する • ユーザuに対するアイテムiのスコア𝑠",$を – 𝑠",$ = ∑ 𝑝$,( 𝑣",((   – で表す • Matrix factorizationの課題 – ユーザに対して低次元ベクトルを割り当てるのはユーザが極めて少数のアイテムしか評 価していない時、学習の精度がよくない – 購買データや視聴データなどは買ったかやどうかの値しか得られず、レビューデータの ように点数を得ることができない (観測されている値が1しか存在しない) – 予測スコアについて最適化する形となるが実務上は最適化したいのはユーザにレコメン ドするリストの上位の少数のアイテムについて最適化したい
  4. 4. AMF(Asymmetric matrix factorization) • 先行研究[Paterek, 2007]で提案されている手法 • ユーザの潜在ベクトルを直接計算せず、ユーザが評価しているアイテムの和で 表す • 𝒗" = , -.  ∑ 𝒒00∈2(") • これにより、評価数が少ないユーザに対しても適切に潜在ベクトルを与えるこ とができる、また新規ユーザに対してもモデルを計算しなおす必要がない
  5. 5. 順位学習について • レコメンドリストの順位を最適化するために学習時の目的関数をRMSEの最小 化ではなく、AUC,NDCGなどのリストの結果の上位に正解がくるかどうかを重 視した目的関数を利用する • ここでNDCGは以下で表される指標となっている • 𝑟$ 6 は正解アイテムがリストの何番目の順位にきてるかを表す – NDCGはDCGの最適な並びかえをした場合のリストのDCGとの比率を表し、0-1の値を とる 𝐷𝐶𝐺 = : 1 log 𝑟$ 6 + 1 $ 𝑁𝐷𝐶𝐺 = 𝐷𝐶𝐺 max 𝐷𝐶𝐺
  6. 6. スコア値による順位の近似 • ここでNDCGはリストの順位に依存するが、MFの出力はスコアで表される。 • 最適化を行う場合、 DE DF を計算する必要があるため、スコアから微分可能な関数 を用いて順位を近似する • 論文ではスコアから順位を近似する手法としてプロビット関数やロジスティッ ク関数による方法を提案している
  7. 7. NNとしての見方 • Neural networkとしてみた場合はユーザが評価した映画のバイナリデータから ユーザの各アイテムに対する順位を出力するネットワークを学習している形と なっている (論文より引用)
  8. 8. 評価について • 2014年のある1日のNetflixでのビデオの視聴データをテストデータとして用いる – その日の直前の6ヶ月のデータを訓練データとして利用する • 手法ごとの具体的な評価値は公開せず基準からの相対的な差分を示している – 基準の手法としては損失関数をRMSEとした通常のMFと同様(ただしMFではなくAMF)のも のを利用する – そのままだと評価値が全て1となるため、視聴されたアイテムの他にランダムにアイテムをサ ンプルしてその値を0とする • 評価結果を見るとレコメンド結果の上位1件に視聴されたデータが来る割合 (recall@1)などはAUCやnDCGを損失関数としたほうが高い値となっている (論文より引用)
  9. 9. レビュー • 新規性・独創性 – 3.8 – 順位学習において順位をスコア関数を用いて近似した点 • 有効性・実用性 – 4.2 – 実際のレコメンドの状況でよくある状況である明示的なフィードバックが得られない、 ユーザのフィードバック数が少ないという状況にうまくマッチした手法である

×