Weitere ähnliche Inhalte
Ähnlich wie EMNLP 2011 reading (20)
EMNLP 2011 reading
- 2. 紹介する論文
Personalized recommendation of user comments via
factor models
Deepak Agarwal, Bee-Chung Chen, Bo Pang
3人ともYahoo! Research
- 3. レビューデータについて
インターネットには多くのレビューデータが存在する
amazon, 食べログ, Yelp
Yahoo! News, Digg, Slashdot
- 5. 従来研究
レビューから点数を推定する(評判分析)
発展としてレビューを複数の側面(aspect)で捉える研究
[Hu and Liu 2004, Popescu and Etzioni 2005, Synder and Barzilay
2007, Titov and McDonald 2008]
点数
レビュー
レビューアー
レビューに対する評価
- 6. 従来研究
レビューに対する評価を予測する
レビューがhelpfulかどうかの予測(ある種の信憑性分析)
ユーザにおける評価の平均値を予測する
[Kim+ 2006, Liu+ 2007, Danescu-Niculescu-Mizil+ 2009]
点数
レビュー
レビューアー
レビューに対する評価
- 7. この論文での研究
個々の人に対して、その人にとって好ましいレビューを
推薦する (Personalized recommendation)
例えば民主党支持者にとっては共和党支持のコメントは評価
は低いが、共和党支持者にとっては評価は高い
- 8. Notation
������������������ : ユーザ������のコメント������に対して付けたrate
������������ : ユーザ������に関する特徴量ベクトル
ユーザがポジティブな評価を行ったコメントの単語ベクトルな
ど
������������ : コメント������に関する特徴量ベクトル
コメントに関する単語ベクトル
������(������) : コメント������を書いたユーザ
������������������ : ������(������������������ )
通常コメントは高々一回しか評価されないので、観測はできな
い
- 9. 相互作用によらないバイアス
������������������ をいくつかのバイアスの和で表す
������������ : ユーザ������に関するバイアス
ユーザ������のコメントに対する評価の平均的な傾向
������������ : コメント������に関するバイアス
コメント������に対する評価の平均的な傾向
������������(������) : 著者a(������)に関するバイアス
コメントの著者a(������)に対する評価の平均的な傾向
- 10. 潜在変数によるバイアス
������������ : ユーザ間のaffinityを表す������������ 次元のベクトル
������������ : ユーザコメント間のaffinityを表す������������ 次元のベクトル
������������ : ユーザコメント間のaffinityを表す������������ 次元のベクトル
上の変数を使って、バイアスは
������′ ������������ ������ : コメント著者と評価者の間の類似度
������
������′ ������������ : コメントと評価者の間の類似度
������
- 11. モデル
以上より������������������ は
������������������ = ������������ + ������������ + ������������ ������ + ������′ ������������
������ ������ + ������′ ������������
������
と書け
2
������������������ ∼ ������(������������������ , ������������ )
また評価が二値などに対応するため一般化線形モデル
の枠組みを使うと
ℎ(������������������ ) = ������������ + ������������ + ������������ ������ + ������′ ������������ ������ + ������′ ������������
������ ������
������������������ ∼ Bernoulli(������������������ )
などとも書ける(例えば2値の場合ℎはロジット関数、通常
の連続値の場合は恒等間数)
- 12. 潜在変数のモデル化
このモデルの潜在変数をそのままMLEで学習しようとす
ると過学習の可能性がある
そこで潜在変数についての事前分布を考える
2
������������ ∼ ������ ������′ ������������ , ������������ , ������������ ∼ ������ ������ ′ ������������ , ������������ , ������������ ������ ∼ ������(0, ������������ )
2 2
2 2 2
������������ ∼ ������ ������������������ , ������������ , ������������ ∼ ������ ������������������ , ������������ , ������������ ∼ ������(0, ������������ )
以上より
潜在変数: Θ = {������������ , ������������ , ������������ }
2 2 2 2 2 2 2
パラメータ: ������ = {������, ������, ������, ������, ������������ , ������������ , ������������ , ������������ , ������������ , ������������ , ������������ }
を推定すれば良いことがわかる
- 13. モデルフィッティング
対数尤度関数は以下のようになる
この問題ではEステップでの������(Θ|������������������������ , ������)を解析的に計
算するのは困難
Monte Carlo EMアルゴリズムを使う
- 14. モンテカルロEMアルゴリズム
Mステップで計算する
������ ������, ������ ������������������ = ∫ ������ Θ ������, ������������������������ log ������(Θ, ������|������) ������Θ
を現在の事後分布の推定������ Θ ������, ������������������������ からのサンプル
{Θ������ }の有限和
1
������ ������, ������ ������������������ ≃ ������
������ log ������(Θ , ������|������)
������
で近似する
PRML(11.1.6)にも解説あり
この問題の場合Mステップは通常の方法で最適化できる
- 15. 派生モデル
全部の要素を取り入れたモデルを������������ + ������������モデルと書く
ユーザ間の類似度のみ用いたモデルを������������モデルと書く
ユーザとコンテントの類似度のみ用いたモデルを������������モデ
ルと書く
- 16. matrix factorization modelとの関係
Matrix factorization modelは
ℎ(������������������ ) = ������������ + ������������ + ������′ ������������
������
で、������ = ������ = ������ = ������ = 0としたモデルとみなせる
- 17. ucモデル
matrix factorization modelと同じであるが、������, ������, ������, ������が非
ゼロであるところが異なる
これは既存のregression modelである[Agarwal and Chen
2009]と類似のモデルとなっている
“Regression-based latent factor models”, KDD 2009
- 18. vvモデル
ℎ(������������������ ) = ������������ + ������������ ������ + ������′ ������������
������ ������ としたモデル
これはソーシャルネットワークでのインタラクションをモデ
ル化するのに用いられている
Hoff, Bilinear mixed-effects models for dyadic data. JASA,
2005
- 19. bilinear regression modelとの関係
bilinear regression modelでは以下のような式になる
Chu and Park , Personalized recommendation on dynamic
content using predictive bilinear models. WWW 2009
ℎ(������������������ ) = ������′ ������������ + ������′������������ + ������′ ������������������
������
一方提案モデルでは
ℎ(������������������ ) = ������′ ������������ + ������′������������ + ������′ ������′ ������������������
������
提案モデルは������ ′ ������ = ������とLow-rankの行列2つでAを分解
したモデルと捉えることができる
Aの次元が大きい時はパラメータ数を少なく抑えることが
できる
- 20. 実験データ
2010年3月から5月までのYahoo!Newsのコメント評価データを
用いる
評価はpositive/negativeのbinary
9003人の200以上のratingを行なっているユーザを用いる
189291人の20以上のratingを受けているユーザを用いる
5088個の40個以上のコメントがあるニュース記事を用いる
200以上などの条件は生データにおけるものなので、フィルタ
後のデータにおいて必ずしもこの条件が満たされるとは限ら
ない
合計で444万222個のratingsと119万7089個のコメントデータと
なった
- 21. 実験データ
5088記事のうち50%を訓練用、5%をチューニング用、45%
をテスト用に用いる。
すべてのコメントはトークナイズされ、小文字に正規化さ
れ、ストップワードと句読点は除外される
単語は頻出10000語に制限される
コメントの特徴量ベクトル������������ のBOF表現として表される
重み付けにはtf-idfを用いる
評価者の特徴ベクトル������������ は評価者がポジティブの評価を
したコメントの特徴ベクトルの合計として表される
- 22. 比較手法
������������ + ������������モデル, ������������モデル, ������������モデル
������������ = 2, ������������ = 3
low-rank bilinear (bilinear)
ランクは3
コサイン類似度 (cos)
������′ ������������ を利用
������
Per-user SVM (svm)
評価者ごとに������������ を使ってSVMで学習を行う
Per-user Naive Bayes (nb)
NBで学習を行う
- 23. パフォーマンスメトリックス
ROC(AUC)
False positive rateを横軸に、True positive rateを縦軸に取っ
た時の下側の面積
ランダムな推論のとき0.5となる
P@k
各rankerに関してテストセットの評価を行ったデータに関して
スコアを計算し、k位までの精度を算出する
全rankerに関して平均をとる
- 27. 各手法の順序関係 uc+vv
uc vv
bilinear
svm
nb
cos
- 29. 特徴量のサイズによる精度の違い
ucモデルに関して������������ の特徴量の数を変えた時の精度を
見た
サイズを5Kから10Kに変えても殆ど変わらないため、論文に
おいては10Kで行なっている
- 30. 潜在次元の観察
潜在次元を1にしたとき、������������ = ������������������ , ������������ = ������������������ の正負に注
目する
2つの符号が等しければraterはそのコメントを好む
実際符号のサイズの大きいものを見ると、片方には
repukes, repugsなどの共和党を貶す単語が見られ、もう
一方にはlibtards, nobama, obummerなど反オバマの単
語が見られる
- 31. まとめ
評価者とコメントの関係、評価者とコメントの著者との関
係を取り入れたモデルを提案した
ニュースの記事などの潜在変数は時間と共に変わって
いくと思われるので、このような時間変化を捉えれるモデ
ルは今後の検討課題である
このようなモデルは通常の商品のレコメンデーションなど
にも応用できると考えられる
コールドスタート問題の解決など