Weitere ähnliche Inhalte
Ähnlich wie Icml2011 reading-sage (20)
Icml2011 reading-sage
- 3. Inference cost
• 評判情報やイデオロギーなど複数の側面を考慮した生成モ
デルを考えることがある(Mei + 2007 WWW, Ahmed & Xing
2010 EMNLP, Paul & Girju 2010 AAAI)
• 多くの場合複数の側面の追加はトークンごとの潜在変数の
追加が必要となる
– どの側面が有効かの”switch”に使われる
• このため推論のコストが大きくなる
Ahmed & Xing 2010(EMNLP)
- 5. Lack of sparsity
• 例えばDirichlet-multinomialに基づくNaive bayesモデルを考
えたとき、クラス中に単語が一回でも出てくるとその単語の
生成確率を考慮する必要がある
- 6. Sparse Additive GEnerative model (SAGE)
• 上記の問題解決のためSAGEというモデルを導入する
• このモデルではコーパスでの単語の対数頻度から文章ラベ
ルや潜在変数に応じた差分をモデル化する
• このモデルのメリットとして
– 差分に関してsparseになるようなpriorを導入することにより、多くの単
語の差分を0とできる
– 複数の側面があるときに各側面に関する差分を足し合わせるだけで
単語の生成確率が求まる
• このモデルはDirichlet-mutlinomialなモデルを単純に置き換
えることができる、論文では以下の3つのモデルに関して
SAGEの優位性を示している
– Naive bayes分類
– トピックモデル(LDA)
– イデオロギーや地理情報を加味した文章生成モデル
- 7. SAGEのアイディア
• 従来のトピックモデル word distribution
switch
topic a
z
topic b
• SAGE
word distribution
background
add
+
difference
- 8. SAGEのアイディア
• 従来のトピックモデル word distribution
switch
topic a
z
topic b
• SAGE
word distribution
background
add
+
difference
sparse
- 9. 単語の出現確率モデル
• background distribution : ������ ∈ ������������
• component vectors : *������������ ∈ ������������ +
– ここで添字������は文章のラベルに対応しているとする
• 文章������における単語の出現確率を以下のようにモデル化する
������ ������ ������������ , ������, ������ ∝ exp(������ + ������������������ )
• ラベルが既知のときはNaive Bayesモデルに対応し
• 未知の時は混合unigramモデルに対応する
- 10. Prior of ������
• ������の事前分布としては、なるべく疎になるようにLaplace 分布
を考える
• Laplace分布は正規分布と指数分布の結合モデルとして表現
できる(Lange & Sinsheimer 1993, J. Comp. Graph. Stat)
• すなわち、以下のようにすればLaplace分布に従って生成で
きる
������~������������������ ������
������~������ 0, ������
from wikipedia:Laplace_distribution
- 13. inference of ������
• 変分下限の������������ に関する項のみ抜き出すと
������ ������������ = ������������ ������������ − ������������ log
������ exp(������������������ + ������������ ) ������(������|������, ������)の部分
������:������������ =������ ������
−������������ diag < ������−1 > ������������ /2
������ ������
������(������|������)の部分
• ������������ : 文章dの単語頻度ベクトル
• ������������ = ������ ������������������ : ������������ の要素の合計
• ������������ = ������:������������ =������ ������������ : ラベル������が付いた文章ベクトルの和
• ������������ = ������ ������������������ : ������������ の要素の合計
- 14. inference of ������
• ������(������������ )の勾配を求めると
������������
= ������������ − ������������ ������������ − diag < ������−1 > ������������
������
������������������
• 最適化にはNewton法を使うためHessianを計算すると
������2 ������ ������2 ������
2 = ������������ ������������������ ������������������ − 1 −< ������������������ >, ������������ ������������ = ������������ ������������������ ������������������
������������������������ ������������ ������������
������(������������ ) = ������������ ������������ ������������ − diag ������������ ������������ +< ������−1 >
������ ������
- 15. inference of ������
• Hessianの逆行列はSherman-Morrison公式を使って効率的
に計算でき、ニュートン方向は以下のようになる
������������ ������������ ������������ ������������ ������������
������
������−1 ������������ = ������������ −
1 + ������������ ������������ ������������ ������������
������
−Δ������������ = ������−1 ������������ ������ ������������
������������ ������������ ������������
= ������������ ������ ������������ − ������������ ������������ ������(������������ )
1 + ������������ ������������ ������������ ������������ ������
������
−1
������������ = diag − ������������ ������������ +< ������−1
������ >
������������
������(������������ ) =
������������������
- 16. inference of ������
• まず変分分布が次のように書けることを仮定する
������ ������������ = ������������������������ (������������������ )
������
• また������������������������ はガンマ分布に従うとする、すなわち
������
exp(− )
������ ������ = ������ ������ ������, ������ = ������ ������−1 ������
à ������ ������ ������
• 期待値の性質として
−1
< ������ > = ������������, < ������ −1 > = ������ − 1 ������ , < log ������ > = ������ ������ + log ������
- 17. inference of ������
• ������(正確には������������������ だが簡単のため添字は省略)に関する項を抜
き出すと
• ������に関するニュートン方向と������の解析解は
- 18. inference of ������
• 前述の更新式では指数分布のパラメータである������を決定する
という問題が残る
• このため������の事前分布として無情報事前分布であるinproper
Jeffery’s prior ������ ∝ 1/������を採用する
• この場合でもSparse性がある(Guan & Dy 2009, AISTATS)
• このときの������に関するニュートン方向と������の解析解は
−2
• このとき、������の推論に必要な< ������ −1 >は< ������ −1 > = ������������������ となる
- 19. Application: 文章分類
• 20 Newsgroups データセットを使って、評価を行った
– http://people.csail.mit.edu/jrennie/20Newsgroups/
• ベースラインアルゴリズムとして、Dirichlet事前分布をいれたNB分
類器を用いる (Diriclet分布のparameterはNewton法を使って最適
化する(Minka 2003) )
– 当然識別モデルなどを使ったほうが分類性能は高くなるが、ここでは
Dirichlet-Multinomialな分布との比較が主眼であるため考慮しない
• また、ストップワードの除去は行わず、語彙数は50000となる
- 21. Latent Variable Models
• LDAと同様に以下のような文章生成モデルを考える
• For each document ������
– ������������ ∼ ������������������(������)
(������)
– For each ������������
(������)
• sample topic ������������ ∼ ������������������������������(������������ )
(������) ������
• sample word ������������ ∼ ������(������������ |������, ������������ ������ ) (������ ������ ������, ������ ∝ exp(������ + ������) )
������
cf. LDA(Blei+ 2003)
- 22. Inference
• 以下の変分下限を最適化する
• ここで������に関しては
• ������ ������, ������, ������ = ������ ������ ������ ������ ������(������)と分解できることを仮定する
• ここで������ ������ , ������(������)の変分推定の式はLDAと同じになる、また
������(������)の推定は前述の導出と同じになる
- 23. Estimation of ������
• ここで������の推定の時に������������������ = 0となったら< ������������������ >も動かなくな
るため、Mステップでは複数回反復を行わず、一回だけ更新
を行う
- 24. Application 2: Sparse topic models
• ベンチマークデータとしてNIPSデータセットを利用する
• 文章の20%をテストデータとする
• ストップワードの除去は行わない
• perplexityを比較するとトピック数が多いときSAGEの方が小さくなる
• またトピック数を10から50にしていったときパラメータの非ゼロ重みの数は
5%から1%へと減っている
- 25. Application 2: Sparse topic models
• 単語頻度ごとにトピック単語出現確率の平均からのずれを
みると、LDAでは頻度の低い単語においてもどこかのトピック
に集中して出現してることが分かるが、SAGEではそのような
現象はなく単語の頻度に比例することがわかる
- 27. Multifaceted generative models
(������)
• トピックに関する対数頻度ベクトルを������������ , 文章についている
(������)
ラベルに関するベクトルを������������ , トピックとラベルの交互作用
(������)
のベクトルを������������,������ とする
• このとき単語生成確率は
• 推論も前述と似た感じでできる
- 28. Application 3: Topic and ideology
• 右派のブログと左派のブログがそれぞれ3つ存在する
• ラベル未知の右派、左派のブログ2つを残りの4つを訓練
データとしてあてる
- 29. Application 4: Geolocation from Text
• 文章および位置情報が与えられたときのトピックモデル
– 隠れ変数として”region”があり、そこから文章と位置が生成される
– 実験にはtwitterのテキストデータと位置情報を利用
[Eisenstein+ 2010, EMNLP]