SlideShare ist ein Scribd-Unternehmen logo
1 von 31
Downloaden Sie, um offline zu lesen
論文紹介
Sparse Additive Generative Model for Text

            icml 2011読み会
               2011/7/16
論文の背景

• 近年Dirichlet-multinomial分布を使った文章の生成モデルが
  流行してる(e.g. LDA)
• これらの分布を使った推論は比較的簡単であるという利点
  がある
• しかしながら、このような生成モデルには3つの問題点がある
  – Inference cost
  – Overparametrization
  – Lack of sparsity
Inference cost

• 評判情報やイデオロギーなど複数の側面を考慮した生成モ
  デルを考えることがある(Mei + 2007 WWW, Ahmed & Xing
  2010 EMNLP, Paul & Girju 2010 AAAI)
• 多くの場合複数の側面の追加はトークンごとの潜在変数の
  追加が必要となる
  – どの側面が有効かの”switch”に使われる
• このため推論のコストが大きくなる




              Ahmed & Xing 2010(EMNLP)
Overparametrization

• “the”や”of”のような高頻度語に対してもトピックごとにトピッ
  ク単語出現確率を学習してしまう
  – 対策としてはストップワードの除去
  – 高頻度語を考慮したモデルを考える(Chemudugunta+ 2006, NIPS)
Lack of sparsity

• 例えばDirichlet-multinomialに基づくNaive bayesモデルを考
  えたとき、クラス中に単語が一回でも出てくるとその単語の
  生成確率を考慮する必要がある
Sparse Additive GEnerative model (SAGE)
• 上記の問題解決のためSAGEというモデルを導入する
• このモデルではコーパスでの単語の対数頻度から文章ラベ
  ルや潜在変数に応じた差分をモデル化する
• このモデルのメリットとして
  – 差分に関してsparseになるようなpriorを導入することにより、多くの単
    語の差分を0とできる
  – 複数の側面があるときに各側面に関する差分を足し合わせるだけで
    単語の生成確率が求まる
• このモデルはDirichlet-mutlinomialなモデルを単純に置き換
  えることができる、論文では以下の3つのモデルに関して
  SAGEの優位性を示している
  – Naive bayes分類
  – トピックモデル(LDA)
  – イデオロギーや地理情報を加味した文章生成モデル
SAGEのアイディア
   • 従来のトピックモデル            word distribution

                  switch
 topic a
                    z
 topic b


   • SAGE
                           word distribution
background
                  add

                    +

difference
SAGEのアイディア
   • 従来のトピックモデル                word distribution

                      switch
 topic a
                        z
 topic b


   • SAGE
                               word distribution
background
                      add

                        +

difference


             sparse
単語の出現確率モデル

• background distribution : ������ ∈ ������������
• component vectors : *������������ ∈ ������������ +
   – ここで添字������は文章のラベルに対応しているとする
• 文章������における単語の出現確率を以下のようにモデル化する
  ������ ������ ������������ , ������, ������ ∝ exp(������ + ������������������ )
• ラベルが既知のときはNaive Bayesモデルに対応し
• 未知の時は混合unigramモデルに対応する
Prior of ������
• ������の事前分布としては、なるべく疎になるようにLaplace 分布
  を考える
• Laplace分布は正規分布と指数分布の結合モデルとして表現
  できる(Lange & Sinsheimer 1993, J. Comp. Graph. Stat)
• すなわち、以下のようにすればLaplace分布に従って生成で
  きる

       ������~������������������ ������
       ������~������ 0, ������


                                from wikipedia:Laplace_distribution
SAGEによるNBモデル
• ラベル既知の文章における生成モデルは以下のように表さ
  れる




                 ������������,������ ∼ ������������������������������������������(0, ������)と等価
変分ベイズによる推定

• パラメータ������に関しては事後分布������(������|������, ������, ������)をなるべく近似
  するような変分分布������(������)を求める
• これは以下の変分下限を最大化することによって得られる




  – ここで<・>は変分分布で期待値をとることを意味する
• また������に関してはMAP推定により最適化する
inference of ������
• 変分下限の������������ に関する項のみ抜き出すと

       ������ ������������ =                 ������������ ������������ − ������������ log
                                   ������                        exp(������������������ + ������������ )   ������(������|������, ������)の部分
                   ������:������������ =������                          ������


                   −������������ diag < ������−1 > ������������ /2
                      ������          ������
                                                                                   ������(������|������)の部分


•   ������������ : 文章dの単語頻度ベクトル
•   ������������ = ������ ������������������ : ������������ の要素の合計
•   ������������ = ������:������������ =������ ������������ : ラベル������が付いた文章ベクトルの和
•   ������������ = ������ ������������������ : ������������ の要素の合計
inference of ������

• ������(������������ )の勾配を求めると
         ������������
               = ������������ − ������������ ������������ − diag < ������−1 > ������������
                                             ������
        ������������������

• 最適化にはNewton法を使うためHessianを計算すると
  ������2 ������                                         ������2 ������
     2 = ������������ ������������������ ������������������ − 1 −< ������������������ >, ������������ ������������       = ������������ ������������������ ������������������
 ������������������������                                        ������������   ������������


  ������(������������ ) = ������������ ������������ ������������ − diag ������������ ������������ +< ������−1 >
                          ������                       ������
inference of ������

• Hessianの逆行列はSherman-Morrison公式を使って効率的
  に計算でき、ニュートン方向は以下のようになる
                            ������������ ������������ ������������ ������������ ������������
                                             ������
        ������−1 ������������ = ������������ −
                           1 + ������������ ������������ ������������ ������������
                                         ������
             −Δ������������ = ������−1 ������������ ������ ������������
                                           ������������ ������������ ������������
                     = ������������ ������ ������������   −                        ������������ ������������ ������(������������ )
                                        1 + ������������ ������������ ������������ ������������ ������
                                                   ������
                                                     −1
        ������������ = diag − ������������ ������������ +<        ������−1
                                            ������   >
                  ������������
     ������(������������ ) =
                 ������������������
inference of ������

• まず変分分布が次のように書けることを仮定する
      ������ ������������ =                 ������������������������ (������������������ )
                        ������
• また������������������������ はガンマ分布に従うとする、すなわち
                                            ������
                                    exp(− )
     ������ ������ = ������ ������ ������, ������ = ������ ������−1         ������
                                     à ������ ������ ������
• 期待値の性質として
                                               −1
   < ������ > = ������������, < ������ −1 > =      ������ − 1 ������         , < log ������ > = ������ ������ + log ������
inference of ������

• ������(正確には������������������ だが簡単のため添字は省略)に関する項を抜
  き出すと




• ������に関するニュートン方向と������の解析解は
inference of ������

• 前述の更新式では指数分布のパラメータである������を決定する
  という問題が残る
• このため������の事前分布として無情報事前分布であるinproper
  Jeffery’s prior ������ ∝ 1/������を採用する
• この場合でもSparse性がある(Guan & Dy 2009, AISTATS)
• このときの������に関するニュートン方向と������の解析解は




                                        −2
• このとき、������の推論に必要な< ������ −1 >は< ������ −1 > = ������������������ となる
Application: 文章分類

• 20 Newsgroups データセットを使って、評価を行った
  – http://people.csail.mit.edu/jrennie/20Newsgroups/
• ベースラインアルゴリズムとして、Dirichlet事前分布をいれたNB分
  類器を用いる (Diriclet分布のparameterはNewton法を使って最適
  化する(Minka 2003) )
  – 当然識別モデルなどを使ったほうが分類性能は高くなるが、ここでは
    Dirichlet-Multinomialな分布との比較が主眼であるため考慮しない
• また、ストップワードの除去は行わず、語彙数は50000となる
Application: 文章分類




• SAGEは常にDirichletよりも良い結果となっている
  – 特にデータが尐ないときは10%以上の向上が見られる
• またfull-data利用時、パラメータの約90%が0となった
  – これはDirichletのときは50000 * 20 = 1Mのパラメータが必要なのに
    対して、SAGEでは0.1Mで済むことを意味している
Latent Variable Models

   • LDAと同様に以下のような文章生成モデルを考える
   • For each document ������
        – ������������ ∼ ������������������(������)
                        (������)
        – For each ������������
                               (������)
             • sample topic ������������      ∼ ������������������������������(������������ )
                                (������)              ������
             • sample word ������������        ∼ ������(������������ |������, ������������ ������ )   (������ ������ ������, ������ ∝ exp(������ + ������) )
                                                            ������



cf. LDA(Blei+ 2003)
Inference

• 以下の変分下限を最適化する




• ここで������に関しては
• ������ ������, ������, ������ = ������ ������ ������ ������ ������(������)と分解できることを仮定する
• ここで������ ������ , ������(������)の変分推定の式はLDAと同じになる、また
  ������(������)の推定は前述の導出と同じになる
Estimation of ������




• ここで������の推定の時に������������������ = 0となったら< ������������������ >も動かなくな
  るため、Mステップでは複数回反復を行わず、一回だけ更新
  を行う
Application 2: Sparse topic models
•   ベンチマークデータとしてNIPSデータセットを利用する
•   文章の20%をテストデータとする
•   ストップワードの除去は行わない
•   perplexityを比較するとトピック数が多いときSAGEの方が小さくなる
•   またトピック数を10から50にしていったときパラメータの非ゼロ重みの数は
    5%から1%へと減っている
Application 2: Sparse topic models




• 単語頻度ごとにトピック単語出現確率の平均からのずれを
  みると、LDAでは頻度の低い単語においてもどこかのトピック
  に集中して出現してることが分かるが、SAGEではそのような
  現象はなく単語の頻度に比例することがわかる
Multifaceted generative models

• 文章データは多くの場合単独で存在するわけではなく、レ
  ビューであれば評判情報や政治系のブログであれば支持政
  党などの情報が付随している
• このような複数の側面(Multi faceted)をもつデータに対して
  SAGEは有効に働く
Multifaceted generative models
                         (������)
• トピックに関する対数頻度ベクトルを������������ , 文章についている
                (������)
  ラベルに関するベクトルを������������ , トピックとラベルの交互作用
           (������)
 のベクトルを������������,������ とする
• このとき単語生成確率は



• 推論も前述と似た感じでできる
Application 3: Topic and ideology
• 右派のブログと左派のブログがそれぞれ3つ存在する
• ラベル未知の右派、左派のブログ2つを残りの4つを訓練
  データとしてあてる
Application 4: Geolocation from Text

• 文章および位置情報が与えられたときのトピックモデル
 – 隠れ変数として”region”があり、そこから文章と位置が生成される
 – 実験にはtwitterのテキストデータと位置情報を利用




                              [Eisenstein+ 2010, EMNLP]
Application 4: Geolocation from Text

• SAGEの性能がこれまでの手法よりもよい
Conclusion

• 離散データのためのSAGEという新しいモデルを提案した
• SAGEをNB分類器、トピックモデルに適応することにより、より
  尐数の単語により表現されるシンプルなモデルが学習できる
  ことを示した
• 複数の側面を持つ生成モデルにも適応を行った
• 今後はより複雑なモデルである階層トピックモデル, 混合効
  果モデルなどへの適応を考えたい

Weitere ähnliche Inhalte

Was ist angesagt?

はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
koba cky
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
sleipnir002
 

Was ist angesagt? (18)

TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んTokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
 
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
最近傍探索と直積量子化(Nearest neighbor search and Product Quantization)
 
PRML chapter7
PRML chapter7PRML chapter7
PRML chapter7
 
演習発表 Sari v.1.1
演習発表 Sari v.1.1演習発表 Sari v.1.1
演習発表 Sari v.1.1
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
 
CVIM#11 3. 最小化のための数値計算
CVIM#11 3. 最小化のための数値計算CVIM#11 3. 最小化のための数値計算
CVIM#11 3. 最小化のための数値計算
 
Tsulide
TsulideTsulide
Tsulide
 
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersKDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
 

Ähnlich wie Icml2011 reading-sage

Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
sleepy_yoshi
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
sleepy_yoshi
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notation
Kenta Oono
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Koji Matsuda
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布
t2tarumi
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
sesejun
 
2011年11月11日
2011年11月11日2011年11月11日
2011年11月11日
nukaemon
 

Ähnlich wie Icml2011 reading-sage (20)

詳説word2vec
詳説word2vec詳説word2vec
詳説word2vec
 
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
mathemaical_notation
mathemaical_notationmathemaical_notation
mathemaical_notation
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
CVIM mean shift-3
CVIM mean shift-3CVIM mean shift-3
CVIM mean shift-3
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
 
Rustで始める競技プログラミング
Rustで始める競技プログラミングRustで始める競技プログラミング
Rustで始める競技プログラミング
 
モンテカルロサンプリング
モンテカルロサンプリングモンテカルロサンプリング
モンテカルロサンプリング
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布
 
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
 
PFDS 5.5 Pairing heap
PFDS 5.5 Pairing heapPFDS 5.5 Pairing heap
PFDS 5.5 Pairing heap
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
2011年11月11日
2011年11月11日2011年11月11日
2011年11月11日
 

Mehr von 正志 坪坂

Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
正志 坪坂
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
正志 坪坂
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit
正志 坪坂
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
正志 坪坂
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
正志 坪坂
 

Mehr von 正志 坪坂 (20)

Recsys2018 unbiased
Recsys2018 unbiasedRecsys2018 unbiased
Recsys2018 unbiased
 
WSDM2018Study
WSDM2018StudyWSDM2018Study
WSDM2018Study
 
Recsys2016勉強会
Recsys2016勉強会Recsys2016勉強会
Recsys2016勉強会
 
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
 
Recsys2015
Recsys2015Recsys2015
Recsys2015
 
KDD 2015読み会
KDD 2015読み会KDD 2015読み会
KDD 2015読み会
 
Recsys2014 recruit
Recsys2014 recruitRecsys2014 recruit
Recsys2014 recruit
 
EMNLP2014_reading
EMNLP2014_readingEMNLP2014_reading
EMNLP2014_reading
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict
 
KDD2014_study
KDD2014_study KDD2014_study
KDD2014_study
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
 
Tokyowebmining2012
Tokyowebmining2012Tokyowebmining2012
Tokyowebmining2012
 

Icml2011 reading-sage

  • 1. 論文紹介 Sparse Additive Generative Model for Text icml 2011読み会 2011/7/16
  • 2. 論文の背景 • 近年Dirichlet-multinomial分布を使った文章の生成モデルが 流行してる(e.g. LDA) • これらの分布を使った推論は比較的簡単であるという利点 がある • しかしながら、このような生成モデルには3つの問題点がある – Inference cost – Overparametrization – Lack of sparsity
  • 3. Inference cost • 評判情報やイデオロギーなど複数の側面を考慮した生成モ デルを考えることがある(Mei + 2007 WWW, Ahmed & Xing 2010 EMNLP, Paul & Girju 2010 AAAI) • 多くの場合複数の側面の追加はトークンごとの潜在変数の 追加が必要となる – どの側面が有効かの”switch”に使われる • このため推論のコストが大きくなる Ahmed & Xing 2010(EMNLP)
  • 4. Overparametrization • “the”や”of”のような高頻度語に対してもトピックごとにトピッ ク単語出現確率を学習してしまう – 対策としてはストップワードの除去 – 高頻度語を考慮したモデルを考える(Chemudugunta+ 2006, NIPS)
  • 5. Lack of sparsity • 例えばDirichlet-multinomialに基づくNaive bayesモデルを考 えたとき、クラス中に単語が一回でも出てくるとその単語の 生成確率を考慮する必要がある
  • 6. Sparse Additive GEnerative model (SAGE) • 上記の問題解決のためSAGEというモデルを導入する • このモデルではコーパスでの単語の対数頻度から文章ラベ ルや潜在変数に応じた差分をモデル化する • このモデルのメリットとして – 差分に関してsparseになるようなpriorを導入することにより、多くの単 語の差分を0とできる – 複数の側面があるときに各側面に関する差分を足し合わせるだけで 単語の生成確率が求まる • このモデルはDirichlet-mutlinomialなモデルを単純に置き換 えることができる、論文では以下の3つのモデルに関して SAGEの優位性を示している – Naive bayes分類 – トピックモデル(LDA) – イデオロギーや地理情報を加味した文章生成モデル
  • 7. SAGEのアイディア • 従来のトピックモデル word distribution switch topic a z topic b • SAGE word distribution background add + difference
  • 8. SAGEのアイディア • 従来のトピックモデル word distribution switch topic a z topic b • SAGE word distribution background add + difference sparse
  • 9. 単語の出現確率モデル • background distribution : ������ ∈ ������������ • component vectors : *������������ ∈ ������������ + – ここで添字������は文章のラベルに対応しているとする • 文章������における単語の出現確率を以下のようにモデル化する ������ ������ ������������ , ������, ������ ∝ exp(������ + ������������������ ) • ラベルが既知のときはNaive Bayesモデルに対応し • 未知の時は混合unigramモデルに対応する
  • 10. Prior of ������ • ������の事前分布としては、なるべく疎になるようにLaplace 分布 を考える • Laplace分布は正規分布と指数分布の結合モデルとして表現 できる(Lange & Sinsheimer 1993, J. Comp. Graph. Stat) • すなわち、以下のようにすればLaplace分布に従って生成で きる ������~������������������ ������ ������~������ 0, ������ from wikipedia:Laplace_distribution
  • 11. SAGEによるNBモデル • ラベル既知の文章における生成モデルは以下のように表さ れる ������������,������ ∼ ������������������������������������������(0, ������)と等価
  • 12. 変分ベイズによる推定 • パラメータ������に関しては事後分布������(������|������, ������, ������)をなるべく近似 するような変分分布������(������)を求める • これは以下の変分下限を最大化することによって得られる – ここで<・>は変分分布で期待値をとることを意味する • また������に関してはMAP推定により最適化する
  • 13. inference of ������ • 変分下限の������������ に関する項のみ抜き出すと ������ ������������ = ������������ ������������ − ������������ log ������ exp(������������������ + ������������ ) ������(������|������, ������)の部分 ������:������������ =������ ������ −������������ diag < ������−1 > ������������ /2 ������ ������ ������(������|������)の部分 • ������������ : 文章dの単語頻度ベクトル • ������������ = ������ ������������������ : ������������ の要素の合計 • ������������ = ������:������������ =������ ������������ : ラベル������が付いた文章ベクトルの和 • ������������ = ������ ������������������ : ������������ の要素の合計
  • 14. inference of ������ • ������(������������ )の勾配を求めると ������������ = ������������ − ������������ ������������ − diag < ������−1 > ������������ ������ ������������������ • 最適化にはNewton法を使うためHessianを計算すると ������2 ������ ������2 ������ 2 = ������������ ������������������ ������������������ − 1 −< ������������������ >, ������������ ������������ = ������������ ������������������ ������������������ ������������������������ ������������ ������������ ������(������������ ) = ������������ ������������ ������������ − diag ������������ ������������ +< ������−1 > ������ ������
  • 15. inference of ������ • Hessianの逆行列はSherman-Morrison公式を使って効率的 に計算でき、ニュートン方向は以下のようになる ������������ ������������ ������������ ������������ ������������ ������ ������−1 ������������ = ������������ − 1 + ������������ ������������ ������������ ������������ ������ −Δ������������ = ������−1 ������������ ������ ������������ ������������ ������������ ������������ = ������������ ������ ������������ − ������������ ������������ ������(������������ ) 1 + ������������ ������������ ������������ ������������ ������ ������ −1 ������������ = diag − ������������ ������������ +< ������−1 ������ > ������������ ������(������������ ) = ������������������
  • 16. inference of ������ • まず変分分布が次のように書けることを仮定する ������ ������������ = ������������������������ (������������������ ) ������ • また������������������������ はガンマ分布に従うとする、すなわち ������ exp(− ) ������ ������ = ������ ������ ������, ������ = ������ ������−1 ������ Γ ������ ������ ������ • 期待値の性質として −1 < ������ > = ������������, < ������ −1 > = ������ − 1 ������ , < log ������ > = ������ ������ + log ������
  • 17. inference of ������ • ������(正確には������������������ だが簡単のため添字は省略)に関する項を抜 き出すと • ������に関するニュートン方向と������の解析解は
  • 18. inference of ������ • 前述の更新式では指数分布のパラメータである������を決定する という問題が残る • このため������の事前分布として無情報事前分布であるinproper Jeffery’s prior ������ ∝ 1/������を採用する • この場合でもSparse性がある(Guan & Dy 2009, AISTATS) • このときの������に関するニュートン方向と������の解析解は −2 • このとき、������の推論に必要な< ������ −1 >は< ������ −1 > = ������������������ となる
  • 19. Application: 文章分類 • 20 Newsgroups データセットを使って、評価を行った – http://people.csail.mit.edu/jrennie/20Newsgroups/ • ベースラインアルゴリズムとして、Dirichlet事前分布をいれたNB分 類器を用いる (Diriclet分布のparameterはNewton法を使って最適 化する(Minka 2003) ) – 当然識別モデルなどを使ったほうが分類性能は高くなるが、ここでは Dirichlet-Multinomialな分布との比較が主眼であるため考慮しない • また、ストップワードの除去は行わず、語彙数は50000となる
  • 20. Application: 文章分類 • SAGEは常にDirichletよりも良い結果となっている – 特にデータが尐ないときは10%以上の向上が見られる • またfull-data利用時、パラメータの約90%が0となった – これはDirichletのときは50000 * 20 = 1Mのパラメータが必要なのに 対して、SAGEでは0.1Mで済むことを意味している
  • 21. Latent Variable Models • LDAと同様に以下のような文章生成モデルを考える • For each document ������ – ������������ ∼ ������������������(������) (������) – For each ������������ (������) • sample topic ������������ ∼ ������������������������������(������������ ) (������) ������ • sample word ������������ ∼ ������(������������ |������, ������������ ������ ) (������ ������ ������, ������ ∝ exp(������ + ������) ) ������ cf. LDA(Blei+ 2003)
  • 22. Inference • 以下の変分下限を最適化する • ここで������に関しては • ������ ������, ������, ������ = ������ ������ ������ ������ ������(������)と分解できることを仮定する • ここで������ ������ , ������(������)の変分推定の式はLDAと同じになる、また ������(������)の推定は前述の導出と同じになる
  • 23. Estimation of ������ • ここで������の推定の時に������������������ = 0となったら< ������������������ >も動かなくな るため、Mステップでは複数回反復を行わず、一回だけ更新 を行う
  • 24. Application 2: Sparse topic models • ベンチマークデータとしてNIPSデータセットを利用する • 文章の20%をテストデータとする • ストップワードの除去は行わない • perplexityを比較するとトピック数が多いときSAGEの方が小さくなる • またトピック数を10から50にしていったときパラメータの非ゼロ重みの数は 5%から1%へと減っている
  • 25. Application 2: Sparse topic models • 単語頻度ごとにトピック単語出現確率の平均からのずれを みると、LDAでは頻度の低い単語においてもどこかのトピック に集中して出現してることが分かるが、SAGEではそのような 現象はなく単語の頻度に比例することがわかる
  • 26. Multifaceted generative models • 文章データは多くの場合単独で存在するわけではなく、レ ビューであれば評判情報や政治系のブログであれば支持政 党などの情報が付随している • このような複数の側面(Multi faceted)をもつデータに対して SAGEは有効に働く
  • 27. Multifaceted generative models (������) • トピックに関する対数頻度ベクトルを������������ , 文章についている (������) ラベルに関するベクトルを������������ , トピックとラベルの交互作用 (������) のベクトルを������������,������ とする • このとき単語生成確率は • 推論も前述と似た感じでできる
  • 28. Application 3: Topic and ideology • 右派のブログと左派のブログがそれぞれ3つ存在する • ラベル未知の右派、左派のブログ2つを残りの4つを訓練 データとしてあてる
  • 29. Application 4: Geolocation from Text • 文章および位置情報が与えられたときのトピックモデル – 隠れ変数として”region”があり、そこから文章と位置が生成される – 実験にはtwitterのテキストデータと位置情報を利用 [Eisenstein+ 2010, EMNLP]
  • 30. Application 4: Geolocation from Text • SAGEの性能がこれまでの手法よりもよい
  • 31. Conclusion • 離散データのためのSAGEという新しいモデルを提案した • SAGEをNB分類器、トピックモデルに適応することにより、より 尐数の単語により表現されるシンプルなモデルが学習できる ことを示した • 複数の側面を持つ生成モデルにも適応を行った • 今後はより複雑なモデルである階層トピックモデル, 混合効 果モデルなどへの適応を考えたい