Weitere ähnliche Inhalte Ähnlich wie Neural word embedding as implicit matrix factorization の論文紹介 (20) Neural word embedding as implicit matrix factorization の論文紹介1. 2015/05/18
大知 正直(Masanao Ochi)
Neural Word Embedding as Implicit Matrix
Factorization.
2015/5/28
Omer Levy
Department of Computer Science
Bar-Ilan University
Yoav Goldberg
Department of Computer Science
Bar-Ilan University
NIPS’14
2. M-ochi -1-
要するにWord2Vecは行列分解であることを示す論文です.
Abstract
2015/5/28
1. Skip-gram with negative-sampling(SGNS)を分析した.
2. Mikolovらによって導入された単語埋め込み法が,潜在的にはword—
context行列の行列分解であることを示す.
3. Word—context行列の要素はある定数分変えた(シフトさせた)
word,contextのPMIとする.
4. また,別の埋め込み法であるNCE(Noise Contrastive Estimation)は,潜在
的にはcontextが与えられた場合のwordの対数条件付き確率で構成された
類似行列を分解したものであることがわかった.
5. 単語を表現するために,SparseなShifted Positive PMI word—context 行
列を利用することが,2つの単語の類似度に関するタスクと2つの類推に関す
るタスクのうち1つで改善することを示す.
6. 高密度低次元ベクトルが好まれる場合に,SVDによる精密な行列分解は,単
語類似度に関するタスクについては,SGNSと同等の精度を達成することを示
す.
7. 類推に関するタスクに対してはSGNSはSVDよりも優れたままであり,これは
SGNSの分解が重み付きであることに起因すると推測する.
3. M-ochi -2-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
4. M-ochi -3-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
5. M-ochi -4-
Word2Vecについて完璧に解明したわけではなく,一部疑問点も残っている.
1. Introduction
2015/5/28
• 分散表現の起源
– Harrisの分布仮説(1954)[15]
• 類似した文脈に出現するものは,意味的にも類似した性質をもつと考えられていることから,同じ上位 feature をもつ(す
なわち,共通した性質を備える)下位 feature は,異なる上位 feature をもつ下位 feature に比べて類似した文脈に出現
するという仮説
– Word—context Matrix(M)で表現するものが多い.
• それぞれの要素𝑀𝑖,𝑗: 𝑤𝑖, 𝑐𝑗間のなんらかの関連度指標を入力する
• 各単語wはMの列または次元削減されたMの列で表現
• 最近の単語表現
– ニューラルネットワーク言語モデル(Deep Learning)にインスパイアされたものが多い[3,9,21,23]
– “neural embedding”, “word embedding”などと呼ばれ,様々なNLP界のタスクで良い結果を残している[1,10,26]
– 特にMilkolovとその仲間たちによる一連の論文[20,21]はskip-gramとnegative-sampling(SGNS)という方法で,効率的に訓練
し,すごい結果を様々な言語処理のタスクで残している.
– “word2vec”というソフトウェアパッケージに実装されたそれらは,すごく人気なんだけど,アルゴリズムによる最適化や良い単語
表現を獲得している理由について,詳しくは解明されてない.
• この論文の趣旨
– ニューラルネットワークベースの単語埋め込み法についての理論的理解を進める
– SGNS訓練法を重み付き行列分解として捉え,目的関数は,潜在的にはshifted PMI行列の分解であることを示す.
– NCE(Noise Contrastive Estimation)[24]による結果と同等である.
– 超高次元かつ高密度のShifted PMI行列を直接使うのは非実用的なので,スパースなpositive Shifted PMI行列(Shifted
PPMI)を提案する.
– Shifted PPMIはSGNSの目的関数を最適化するのにずっと良い結果を出力し,いくつかの言語処理上のタスクにおいて
word2vecよりもわずかにすぐれている.
– Shifted PPMI行列上にSVDに基づいた単純な固有値抽出アルゴリズムを提案する.
– SVDによる結果は単語の類似に関するタスクでは,SGNSとShifted PPMIを上回る結果を出す.
– しかし,単語類推に関するタスクでは,SGNS由来の表現より性能が悪い.
– この原因はSGNSが重み付き行列分解を実行しているからで,全ての要素に同じ重みを与えるSVDと比べ頻度の高いword,
contextのペアへ大きな影響を与えている,と推測する.
6. M-ochi -6-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
7. M-ochi -7-
Word Embeddings:単語,文脈をd次元で表現すること
2. Background: Skip-Gram with Negative Sampling(SGNS)
2015/5/28
• Setting and Notation
– Word 𝑤 ∈ 𝑉𝑤 , contexts 𝑐 ∈ 𝑉𝑐 , で表す.𝑉𝑤, 𝑉𝑐はword, contextの語彙
– Word 𝑤𝑖に対する幅Lのcontextは𝑤𝑖−𝐿, … , 𝑤𝑖−1, 𝑤𝑖+1, … , 𝑤𝑖+𝐿
– Word, contextのペア(w,c)で表し,観測された全集合をDで表す.
– (w,c)のペアの登場回数を#(𝑤, 𝑐)で表す.
– よって、𝐷に登場する𝑤, 𝑐の回数は,#(𝑤) = 𝑐′∈𝑉𝑐
#(𝑤, 𝑐′
) ,# 𝑐 = 𝑤′∈𝑉 𝑤
#(𝑤′
, 𝑐)で表される.
– 各word 𝑤はベクトル𝑤 ∈ ℝ 𝑑
で,context 𝑐 はベクトル 𝑐 ∈ ℝ 𝑑
で表す. dは表現する次元数を表し,ベクトル
各要素の値は観測できない潜在変数で,学習されるパラメータとして扱う.
– 𝑤を|𝑉𝑤| × 𝑑の行列𝑊の行(𝑊𝑖)として見る, 𝑐を|𝑉𝐶| × 𝑑の行列𝐶の行(𝐶𝑖)として見る場合もある.
≒ ☓
|𝑉𝑤|
|𝑉𝑐|
|𝑉𝑤|
|𝑉𝑐|𝑑
𝑑
𝑊𝑖, 𝑤
𝐶𝑖
𝑡
, 𝑤 𝑡
8. M-ochi -9-
ネガティブサンプリング:低頻度語の過小評価を見直す
2. Background: Skip-Gram with Negative Sampling(SGNS)
2015/5/28
• SGNS’s Objective
– (w,c)がデータDで観測される確率𝑃 𝐷 = 1 𝑤, 𝑐 としたとき,観測されない確率は𝑃 𝐷 = 0 𝑤, 𝑐 = 1 −
𝑃(𝐷 = 1|𝑤, 𝑐)で表される.
– ここで,𝑃 𝐷 = 1 𝑤, 𝑐 = 𝜎 𝑤, 𝑐 =
1
1+exp(−𝑤∙ 𝑐)
で表すことにする.
– 𝑤, 𝑐はd次元のベクトルで,学習するモデルパラメータとする.
– ネガティブサンプリングはランダムにサンプリングされたcontextの負例𝑃 𝐷 = 0 𝑤, 𝑐 を最大化しつつ,観測
される𝑃 𝐷 = 1 𝑤, 𝑐 を最大化することが目的である.
– ある(w,c)のSGNSの目的関数
• log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 𝑤 ∙ 𝑐 𝑁 ] (1)※ 負例を入れて,対数尤度を上げている.
• 𝑃 𝐷 𝑐 =
#(𝐶)
|𝐷|
の各cに関する確率分布からサンプリングする
– 目的関数(ある語が出現しない文脈も含めて対数尤度を最大化する)
• ℓ = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐
#(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 −𝑤 ∙ 𝑐 𝑁 ]) (2)
9. M-ochi -10-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
10. M-ochi -11-
Word—Context行列の各要素がPMIであることの証明(1/2)
3. SGNS as Implicit Matrix Factorization
2015/5/28
• Characterizing the Implicit Matrix
– ℓ = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐
#(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 −𝑤 ∙ 𝑐 𝑁 ])
– = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐
#(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 ) + 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐
#(𝑤, 𝑐)(𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 −𝑤 ∙ 𝑐 𝑁 ])
– = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐
#(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 ) + 𝑤∈𝑉 𝑤
#(𝑤)(𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 −𝑤 ∙ 𝑐 𝑁 ]) (3)
• ここで,ネガティブサンプリングで対象としているcの部分を抽出すると
• 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 −𝑤 ∙ 𝑐 𝑁 ]) = 𝑐 𝑁∈𝑉𝑐
#(𝑐 𝑁)
𝐷
log𝜎(−𝑤 ∙ 𝑐 𝑁)
• =
#(𝑐)
𝐷
log𝜎 −𝑤 ∙ 𝑐 + 𝑐 𝑁∈𝑉𝑐∖{𝑐}
#(𝑐 𝑁)
𝐷
log𝜎(−𝑤 ∙ 𝑐 𝑁) (4)
• 特定のw,cで(3)+(4)
– ℓ 𝑤, 𝑐 = #(𝑤, 𝑐)log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ #(𝑤) ∙
#(𝑐)
𝐷
log𝜎 −𝑤 ∙ 𝑐 (5)
• 𝑥 = 𝑤 ∙ 𝑐とおいて,xに関して微分
–
𝜕ℓ
𝜕𝑥
= # 𝑤, 𝑐 ∙ 𝜎 −𝑥 − 𝑘 ∙ #(𝑤) ∙
#(𝑐)
𝐷
∙ 𝜎(𝑥)
• この式を整理して,0と置く
– 𝑒2𝑥
−
#(𝑤,𝑐)
𝑘∙#(𝑤)∙
#(𝑐)
𝐷
− 1 𝑒 𝑥
−
#(𝑤,𝑐)
𝑘∙#(𝑤)∙
#(𝑐)
𝐷
= 0
• 𝑦 = 𝑒 𝑥
として,yについて解く
– 𝑦 =
#(𝑤,𝑐)
𝑘∙#(𝑤)∙
#(𝑐)
|𝐷|
=
#(𝑤,𝑐)∙|𝐷|
#(𝑤)∙#(𝑐)
∙
1
𝑘
• すなわち,
– 𝑤 ∙ 𝑐 = 𝑙𝑜𝑔
#(𝑤,𝑐)∙|𝐷|
#(𝑤)∙#(𝑐)
∙
1
𝑘
= log
#(𝑤,𝑐)∙|𝐷|
#(𝑤)∙#(𝑐)
− log𝑘 (6)
11. M-ochi -12-
Word—Context行列の各要素がPMIであることの証明(2/2)
3. SGNS as Implicit Matrix Factorization
2015/5/28
• ここで確率の形式にこの式を変形すると,PMI(Pointwise Mutual Information)で
あることがわかる ※PMI・・・2つの語の共起しやすい度を示す値
– 𝑤 ∙ 𝑐 = log
#(𝑤,𝑐)∙|𝐷|
#(𝑤)∙#(𝑐)
− log𝑘 = log
#(𝑤,𝑐)
𝐷
#(𝑤)
𝐷
∙
#(𝑐)
𝐷
− log𝑘 = log
𝑃 𝑤,𝑐
𝑃 𝑤 ∙𝑃 𝑐
− log𝑘
• つまり,SGNSが行列分解する元の行列Mは,
– 𝑀𝑖𝑗
𝑆𝐺𝑁𝑆
= 𝑊𝑖 ∙ 𝐶𝑗 = 𝑤𝑖 ∙ 𝑐𝑗 = 𝑃𝑀𝐼 𝑤𝑖, 𝑐𝑗 − 𝑙𝑜𝑔𝑘 (7)
• k=1のときはSGNSの目的関数は単にPMIで構成された行列𝑀 𝑃𝑀𝐼を分解するこ
とになる.k>1の場合はshifted PMI 行列𝑀 𝑃𝑀𝐼 𝑘 = 𝑀 𝑃𝑀𝐼 − 𝑙𝑜𝑔𝑘を分解する.
• 同様の方法でnoise-contrastive estimation[24]も条件付き確率の行列分解とし
て捉えることができる.
– 𝑀𝑖𝑗
𝑁𝐶𝐸
= 𝑤𝑖 ∙ 𝑐𝑗 = log
#(𝑤,𝑐)
#(𝑐)
− log𝑘 = log𝑃 𝑤 𝑐 − log𝑘 (8)
PMI(w,c)
12. M-ochi -13-
低次元に分解する場合には値がずれている可能性が高い(Future Work)
3. SGNS as Implicit Matrix Factorization
2015/5/28
2. Weighted Matrix Factorization
• ここまでの議論で,SGNSの目的は,𝑤 ∙ 𝑐 = 𝑃𝑀𝐼 𝑤, 𝑐 − log𝑘をすべてのw,c
の組に対して最適化することがわかった.
• しかし,この仮定は,𝑤, 𝑐完全にMを復元可能なくらいに高次元である必要があ
る.
• 完全な復元が不可能な場合,𝑤 ∙ 𝑐が最適な値から外れてしまう.
• 式(5)によると,ある(w,c)に対する損失は,観測数(#(w,c))とネガティブサンプ
ルの数(
𝑘∙#(𝑤)∙#(𝑐)
|𝐷|
)に依存している.
• よってSGNSの目的を重み付き行列分解最適化(weighted matrix factorization
problem)として考えると,頻出する(w,c)ペアをあまり出ないペアよりも重視する
行列𝑀 𝑃𝑀𝐼
− log𝑘の分解問題と考えることができる.
13. M-ochi -14-
正PMI行列の意味
3. SGNS as Implicit Matrix Factorization
2015/5/28
3. Pointwise Mutual Information
– 今回は,word w とcontext c間の関連性を計測するために用いている
– PMIはChurch and Hanks[8]によって導入され,単語の類似性に関するタスクで幅広く適用されている
[11,27,29]
– 𝑃𝑀𝐼 𝑥, 𝑦 = log
𝑃(𝑥,𝑦)
𝑃 𝑥 𝑃(𝑦)
– 今回の(w,c)のペア行列𝑀 𝑃𝑀𝐼
には文書中に全く共起していないペアが大量にありがち.
– その場合𝑃𝑀𝐼 𝑤, 𝑐 = log0 = −∞となり,行列のほとんどの入力がこうした値になる.
– 通常,ディリクレ事前分布を導入することで,少量の観測値を追加することでこの問題を避ける.
– NLPでよく使われる回避方法は,𝑀 𝑃𝑀𝐼
のかわりに𝑀0
𝑃𝑀𝐼
を利用することで,これは#(w,c)=0の場合,
PMI(w,c)=0とするものである.
– しかし,𝑀0
𝑃𝑀𝐼
には矛盾があって,観測されるが実際には無関係のペアには負の値が入力され,全く観測さ
れないペアには0が与えられる.
– スパースかつ一貫性のある代案手法として,すべての負の値を0にしてしまう,positive PMI(PPMI)というも
のがある.
• 𝑃𝑃𝑀𝐼 𝑤, 𝑐 = max(𝑃𝑀𝐼 𝑤, 𝑐 , 0)
– 単語を表現する場合に,この方法には負の値を無視するある直感がある.
– 人は(”Canada”といえば,”snow”)のようなpositiveな関係を簡単に考えることができるが,逆に
negativeな関係(”Canada”と”dessert”)を考えることはできない.
– これは人は,2つの語の類似性というものは,negativeな文脈よりpositiveな文脈により影響を受けている
ということを提案している.
– そして意味類似に関するタスクで大変良い結果を残している[5]
14. M-ochi -15-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
15. M-ochi -16-
SVDのΣ行列部分を両側に分配します.
4. Alternative Word Representation
2015/5/28
• PPMI行列は単にPMI行列を近似したもの.
• ここでは,𝑀 𝑃𝑃𝑀𝐼上で作成される別の2つの単語表現を提案する.
1. Shifted PPMI
– 𝑆𝑃𝑃𝑀𝐼 𝑘 𝑤, 𝑐 = max(𝑃𝑀𝐼 𝑤, 𝑐 − 𝑙𝑜𝑔𝑘, 0)
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
– SVD: 𝑀 = 𝑈 ∙ Σ ∙ 𝑉 𝑇
(U,Vは直交行列,Σは大きい固有値から順に対角上に並べた正方行列)
– Truncated SVD: 上位d次元の固有値でMを近似する手法
– Truncated SVD: 𝑀 ≈ 𝑀 𝑑 = 𝑈 𝑑 ∙ Σ 𝑑 ∙ 𝑉𝑑
𝑇
この𝑀 𝑑はL2ノルムによる近似つまり,𝑀 𝑑 =
𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑎𝑛𝑘 𝑀′ =𝑑 𝑀′
− 𝑀 2 となっている.
Symmetric SVD
• 通常NLPでは,𝑊 𝑆𝑉𝐷
= 𝑈 𝑑 ∙ Σ 𝑑,𝐶 𝑆𝑉𝐷
= 𝑉𝑑 とすることが多いが,𝑊 𝑆𝐺𝑁𝑆
より結果が悪いので,提案する.
• SGNSの場合,𝑊 𝑊2𝑉
, 𝐶 𝑊2𝑉
どちらも直交行列ではないので,どちらも非直交にする以下の方法を提案
– 𝑊 𝑆𝑉𝐷1/2 = 𝑈 𝑑 ∙ Σ 𝑑,𝐶 𝑆𝑉𝐷1/2 = 𝑉𝑑 ∙ Σ 𝑑
• 理論的には全然クリアではないけど,結果はとても良くなるよ.
• SVD(直交行列,固有値対角行列,直交行列に分解する手法)
16. M-ochi -17-
SVDのpros./cons.について議論
4. Alternative Word Representation
2015/5/28
SVD versus. SGNS
– 固有値分解には確率的勾配降下法(SGD)と比較して2つの点で有利である.
• 学習率の設定やハイパーパラメータの設定をしなくて良い.
• カウントデータに対して簡単に適用できる
– 同様にSGDにも良い点がある.一般的にSVDは未観測なデータの部分から悪い影響を受けることが知られて
いる[17].
– SGNSは頻出する(w,c)のペアには正しい値をそうではない(w,c)のペアにはそれなりの値を与えたい.
– 重み付きSVDは計算上かなり難しいことが知られている[25].
– SGNSは観測されたペアのみについてケアをするので,スパースでも高密度でもどちらでも最適化を行える.
SVDでは難しい.
– SVDにSGDの良さを取り入れたアプローチとしてstochastic matrix factorization(SMF)という手法がある[17]
が先の研究としておく.
17. M-ochi -18-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
18. M-ochi -19-
5. Empirical Results
2015/5/28
• 行列ベースのアルゴリズムとSGNSを2つの面から比較する
1. それぞれのアルゴリズムがどれくらいうまく対象を最適化できているか
2. 様々な言語処理上のタスクで比較
– いくつかのタスクでは大きな違いが出た.
Experimental Setup
– 全てのモデルは英語のWikipediaで訓練
– 前処理として,テキストではない要素の除去,sentence splitting, tokenize.
– コーパスは文章が77.5x10^6, トークン1.5x10^9,contextとしてあるトークンの前後2単語を取得,コーパス内
で100回以下の出現頻度の単語は無視,語彙は189,533
– SGNSの訓練のために,修正バージョンのword2vecを利用した[18].ネガティブサンプリングの数k={1,5,15}
の3パターンで実験した.
– SVDでは,§4で説明したとおり,𝑊 = 𝑈 𝑑 ∙ Σ 𝑑を使用する.
19. M-ochi -20-
行列の復元(dの次元数,kの数それぞれに注目)
5. Empirical Results
2015/5/28
1. Optimizing the Objective
– 式(2)に基づいてそれぞれのアルゴリズムの尤度ℓを計算.
– 最適なℓ 𝑂𝑝𝑡として𝑤 ∙ 𝑐 = 𝑃𝑀𝐼 𝑤, 𝑐 − 𝑙𝑜𝑔𝑘 を利用し,違い
(ℓ−ℓ 𝑂𝑝𝑡)
ℓ 𝑂𝑝𝑡
を計測し,結果をTable1に示す.
– 結果はSPPMIは正の値しか残さずたくさんの情報を捨てているのに,ほとんど完璧な近似になっている.
– 行列分解の結果では,期待通り次元dを増やすほど良い結果となっている.
– 𝑑 ≤ 500 𝑎𝑛𝑑 𝑘 = 1ではSVDはSGNSよりわずかに良い結果になっている.
– しかしSGNSは高次元ではエラー率がSVDより顕著に低い.
– これは値が0の成分が多すぎることによるのかもしれない.SVDのL2ノルムには重み付けをしていないので,
観測された値なのかそうでないのかを区別していないせいだろう.
20. M-ochi -21-
5. Empirical Results
2015/5/28
2. Performance of Word Representations on Linguistic Tasks
Linguistic Tasks and Datasets
– 単語類似と関係を類推するタスクについて4つのデータセットを使って評価する.
– 単語類似用のデータセットは,WordSim353[13]とMEN[4]
– これらのデータセットは単語のペア間で人が割り当てた類似度スコアを持っている.
– コサイン類似度で単語のペアの順位を比較する.比較にはスピアマンの順位相関係数を使用する.
– 関係類推用のデータセットは”𝑎 𝑖𝑠 𝑡𝑜 𝑎∗
𝑎𝑠 𝑏 𝑖𝑠 𝑡𝑜 𝑏∗
”のような形で”𝑏∗
”を隠して類推する.
– Syntacticデータセット[22]は8000のこうした形式の問題を持つ.
– 例)”good is to best as smart is to smartest.”
– Mixedデータセット[20]は19544の問題を持つ
– 半分はSyntacticデータセットと同様だが残りの半分はより意味的に難しい問題.例)”Paris is to France as
Tokyo is to Japan.”
– Wikipedia に無かった語彙に関しては取り除くと,Syntacticデータセットでは7118,Mixedデータセットだと
19258の問題が残った.
– 類推問題には,Levy and Gorldbergの類似積法[19]を利用する.(a,bの類似度に近いa*に対するb*を探す感
じ?)
𝑏∗
= 𝑎𝑟𝑔𝑚𝑎𝑥 𝑏∗∈ 𝑉 𝑤∖{𝑎∗,𝑏,𝑎}
𝑐𝑜𝑠(𝑏∗
, 𝑎∗
) ∙ 𝑐𝑜𝑠(𝑏∗
, 𝑏)
cos 𝑏∗, 𝑎 + 𝜖
– 選択したb*を答え合わせして,正解率で比較を行う.
21. M-ochi -22-
実験2の結果1/2
5. Empirical Results
2015/5/28
2. Performance of Word Representations on Linguistic Tasks
Results
– Table2に実験結果を示す.
– 単語類似タスクではSPPMIはSGNSより良い結果を残している.
– SVDはさらに良い結果を示している.
– SPPMIとSGNSの最高の結果同士を比較してもその差は小さいので,同等の結果と言って良いだろう.
– kの値は大きな影響を結果に与えるようだ
– SGNSはkが大きいほど良い結果を示すようだ.
– SSPMIとSVDはkが小さい方が良い結果だった.
– これは正の値だけを保持していて,kを大きくしすぎると情報損失が大きくなりすぎるのではないかと思われる.
– この結果は5.1(行列の復元タスク)でも同様だった.
– にもかかわらず,KのチューニングはSPPMIの性能を高めることができるようだ.
22. M-ochi -23-
実験2の結果2/2
5. Empirical Results
2015/5/28
2. Performance of Word Representations on Linguistic Tasks
Results
– 類推タスクの結果
– SVDはSGNSやSPPMIと同水準とは行かなかった.
– Syntacticデータセットの結果ではSGNSが圧倒的に良かった.
– この傾向は[22]の論文でも指摘されていた.
– Syntacticは他のとは違って変わったデータセットらしい(determiners(限定詞:広い意味の冠詞),auxiliary
verbs(助動詞)が口語上の意味の類似には重要らしい)
– この結果はSGNSは頻出語を重視するが,SVDはすべてを平等に扱っていることの影響だと考えられる.
23. M-ochi -24-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
24. M-ochi -25-
6. Conclusion
2015/5/28
• SGNS 単語埋め込みアルゴリズムについて分析した.
• そしてそれはSPPMI行列を確率的勾配法で最適化する方法であることを示した.
• SPPMI行列はPPMI行列を上回る性能を示した.
• SPPMIはSGNSの目的関数よりかなり良い方法であったが,必ずしもSGNSよ
り言語タスクにおいて良い結果を示すとは限らなかった(Syntacticにおける類推
タスク).
• SGNSが頻度の低い語に対して重みを低くしていることが関係していると疑って
いる.
• SVDはSGNSの目的関数を最適化するのはいまいちな結果だった.
• ただし,単語類似度タスクにおいては他の手法よりもわずかに良い結果だった.
• 単語類推タスクにおいては劣る結果だった.
• SVDとSGNSの違いは,SGNSは重み付き行列分解をしているという点で,類推
タスクでは重要な役割を与えているのかもしれない.
• 将来的には,PMIベースの指標でword-context行列の重み付き行列分解につ
いて調査することを提案する.