SlideShare ist ein Scribd-Unternehmen logo
1 von 25
2015/05/18
大知 正直(Masanao Ochi)
Neural Word Embedding as Implicit Matrix
Factorization.
2015/5/28
Omer Levy
Department of Computer Science
Bar-Ilan University
Yoav Goldberg
Department of Computer Science
Bar-Ilan University
NIPS’14
M-ochi -1-
要するにWord2Vecは行列分解であることを示す論文です.
Abstract
2015/5/28
1. Skip-gram with negative-sampling(SGNS)を分析した.
2. Mikolovらによって導入された単語埋め込み法が,潜在的にはword—
context行列の行列分解であることを示す.
3. Word—context行列の要素はある定数分変えた(シフトさせた)
word,contextのPMIとする.
4. また,別の埋め込み法であるNCE(Noise Contrastive Estimation)は,潜在
的にはcontextが与えられた場合のwordの対数条件付き確率で構成された
類似行列を分解したものであることがわかった.
5. 単語を表現するために,SparseなShifted Positive PMI word—context 行
列を利用することが,2つの単語の類似度に関するタスクと2つの類推に関す
るタスクのうち1つで改善することを示す.
6. 高密度低次元ベクトルが好まれる場合に,SVDによる精密な行列分解は,単
語類似度に関するタスクについては,SGNSと同等の精度を達成することを示
す.
7. 類推に関するタスクに対してはSGNSはSVDよりも優れたままであり,これは
SGNSの分解が重み付きであることに起因すると推測する.
M-ochi -2-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
M-ochi -3-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
M-ochi -4-
Word2Vecについて完璧に解明したわけではなく,一部疑問点も残っている.
1. Introduction
2015/5/28
• 分散表現の起源
– Harrisの分布仮説(1954)[15]
• 類似した文脈に出現するものは,意味的にも類似した性質をもつと考えられていることから,同じ上位 feature をもつ(す
なわち,共通した性質を備える)下位 feature は,異なる上位 feature をもつ下位 feature に比べて類似した文脈に出現
するという仮説
– Word—context Matrix(M)で表現するものが多い.
• それぞれの要素𝑀𝑖,𝑗: 𝑤𝑖, 𝑐𝑗間のなんらかの関連度指標を入力する
• 各単語wはMの列または次元削減されたMの列で表現
• 最近の単語表現
– ニューラルネットワーク言語モデル(Deep Learning)にインスパイアされたものが多い[3,9,21,23]
– “neural embedding”, “word embedding”などと呼ばれ,様々なNLP界のタスクで良い結果を残している[1,10,26]
– 特にMilkolovとその仲間たちによる一連の論文[20,21]はskip-gramとnegative-sampling(SGNS)という方法で,効率的に訓練
し,すごい結果を様々な言語処理のタスクで残している.
– “word2vec”というソフトウェアパッケージに実装されたそれらは,すごく人気なんだけど,アルゴリズムによる最適化や良い単語
表現を獲得している理由について,詳しくは解明されてない.
• この論文の趣旨
– ニューラルネットワークベースの単語埋め込み法についての理論的理解を進める
– SGNS訓練法を重み付き行列分解として捉え,目的関数は,潜在的にはshifted PMI行列の分解であることを示す.
– NCE(Noise Contrastive Estimation)[24]による結果と同等である.
– 超高次元かつ高密度のShifted PMI行列を直接使うのは非実用的なので,スパースなpositive Shifted PMI行列(Shifted
PPMI)を提案する.
– Shifted PPMIはSGNSの目的関数を最適化するのにずっと良い結果を出力し,いくつかの言語処理上のタスクにおいて
word2vecよりもわずかにすぐれている.
– Shifted PPMI行列上にSVDに基づいた単純な固有値抽出アルゴリズムを提案する.
– SVDによる結果は単語の類似に関するタスクでは,SGNSとShifted PPMIを上回る結果を出す.
– しかし,単語類推に関するタスクでは,SGNS由来の表現より性能が悪い.
– この原因はSGNSが重み付き行列分解を実行しているからで,全ての要素に同じ重みを与えるSVDと比べ頻度の高いword,
contextのペアへ大きな影響を与えている,と推測する.
M-ochi -6-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
M-ochi -7-
Word Embeddings:単語,文脈をd次元で表現すること
2. Background: Skip-Gram with Negative Sampling(SGNS)
2015/5/28
• Setting and Notation
– Word 𝑤 ∈ 𝑉𝑤 , contexts 𝑐 ∈ 𝑉𝑐 , で表す.𝑉𝑤, 𝑉𝑐はword, contextの語彙
– Word 𝑤𝑖に対する幅Lのcontextは𝑤𝑖−𝐿, … , 𝑤𝑖−1, 𝑤𝑖+1, … , 𝑤𝑖+𝐿
– Word, contextのペア(w,c)で表し,観測された全集合をDで表す.
– (w,c)のペアの登場回数を#(𝑤, 𝑐)で表す.
– よって、𝐷に登場する𝑤, 𝑐の回数は,#(𝑤) = 𝑐′∈𝑉𝑐
#(𝑤, 𝑐′
) ,# 𝑐 = 𝑤′∈𝑉 𝑤
#(𝑤′
, 𝑐)で表される.
– 各word 𝑤はベクトル𝑤 ∈ ℝ 𝑑
で,context 𝑐 はベクトル 𝑐 ∈ ℝ 𝑑
で表す. dは表現する次元数を表し,ベクトル
各要素の値は観測できない潜在変数で,学習されるパラメータとして扱う.
– 𝑤を|𝑉𝑤| × 𝑑の行列𝑊の行(𝑊𝑖)として見る, 𝑐を|𝑉𝐶| × 𝑑の行列𝐶の行(𝐶𝑖)として見る場合もある.
≒ ☓
|𝑉𝑤|
|𝑉𝑐|
|𝑉𝑤|
|𝑉𝑐|𝑑
𝑑
𝑊𝑖, 𝑤
𝐶𝑖
𝑡
, 𝑤 𝑡
M-ochi -9-
ネガティブサンプリング:低頻度語の過小評価を見直す
2. Background: Skip-Gram with Negative Sampling(SGNS)
2015/5/28
• SGNS’s Objective
– (w,c)がデータDで観測される確率𝑃 𝐷 = 1 𝑤, 𝑐 としたとき,観測されない確率は𝑃 𝐷 = 0 𝑤, 𝑐 = 1 −
𝑃(𝐷 = 1|𝑤, 𝑐)で表される.
– ここで,𝑃 𝐷 = 1 𝑤, 𝑐 = 𝜎 𝑤, 𝑐 =
1
1+exp(−𝑤∙ 𝑐)
で表すことにする.
– 𝑤, 𝑐はd次元のベクトルで,学習するモデルパラメータとする.
– ネガティブサンプリングはランダムにサンプリングされたcontextの負例𝑃 𝐷 = 0 𝑤, 𝑐 を最大化しつつ,観測
される𝑃 𝐷 = 1 𝑤, 𝑐 を最大化することが目的である.
– ある(w,c)のSGNSの目的関数
• log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 𝑤 ∙ 𝑐 𝑁 ] (1)※ 負例を入れて,対数尤度を上げている.
• 𝑃 𝐷 𝑐 =
#(𝐶)
|𝐷|
の各cに関する確率分布からサンプリングする
– 目的関数(ある語が出現しない文脈も含めて対数尤度を最大化する)
• ℓ = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐
#(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 −𝑤 ∙ 𝑐 𝑁 ]) (2)
M-ochi -10-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
M-ochi -11-
Word—Context行列の各要素がPMIであることの証明(1/2)
3. SGNS as Implicit Matrix Factorization
2015/5/28
• Characterizing the Implicit Matrix
– ℓ = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐
#(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 −𝑤 ∙ 𝑐 𝑁 ])
– = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐
#(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 ) + 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐
#(𝑤, 𝑐)(𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 −𝑤 ∙ 𝑐 𝑁 ])
– = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐
#(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 ) + 𝑤∈𝑉 𝑤
#(𝑤)(𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 −𝑤 ∙ 𝑐 𝑁 ]) (3)
• ここで,ネガティブサンプリングで対象としているcの部分を抽出すると
• 𝐸𝑐 𝑁~𝑃 𝐷
[log𝜎 −𝑤 ∙ 𝑐 𝑁 ]) = 𝑐 𝑁∈𝑉𝑐
#(𝑐 𝑁)
𝐷
log𝜎(−𝑤 ∙ 𝑐 𝑁)
• =
#(𝑐)
𝐷
log𝜎 −𝑤 ∙ 𝑐 + 𝑐 𝑁∈𝑉𝑐∖{𝑐}
#(𝑐 𝑁)
𝐷
log𝜎(−𝑤 ∙ 𝑐 𝑁) (4)
• 特定のw,cで(3)+(4)
– ℓ 𝑤, 𝑐 = #(𝑤, 𝑐)log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ #(𝑤) ∙
#(𝑐)
𝐷
log𝜎 −𝑤 ∙ 𝑐 (5)
• 𝑥 = 𝑤 ∙ 𝑐とおいて,xに関して微分
–
𝜕ℓ
𝜕𝑥
= # 𝑤, 𝑐 ∙ 𝜎 −𝑥 − 𝑘 ∙ #(𝑤) ∙
#(𝑐)
𝐷
∙ 𝜎(𝑥)
• この式を整理して,0と置く
– 𝑒2𝑥
−
#(𝑤,𝑐)
𝑘∙#(𝑤)∙
#(𝑐)
𝐷
− 1 𝑒 𝑥
−
#(𝑤,𝑐)
𝑘∙#(𝑤)∙
#(𝑐)
𝐷
= 0
• 𝑦 = 𝑒 𝑥
として,yについて解く
– 𝑦 =
#(𝑤,𝑐)
𝑘∙#(𝑤)∙
#(𝑐)
|𝐷|
=
#(𝑤,𝑐)∙|𝐷|
#(𝑤)∙#(𝑐)
∙
1
𝑘
• すなわち,
– 𝑤 ∙ 𝑐 = 𝑙𝑜𝑔
#(𝑤,𝑐)∙|𝐷|
#(𝑤)∙#(𝑐)
∙
1
𝑘
= log
#(𝑤,𝑐)∙|𝐷|
#(𝑤)∙#(𝑐)
− log𝑘 (6)
M-ochi -12-
Word—Context行列の各要素がPMIであることの証明(2/2)
3. SGNS as Implicit Matrix Factorization
2015/5/28
• ここで確率の形式にこの式を変形すると,PMI(Pointwise Mutual Information)で
あることがわかる ※PMI・・・2つの語の共起しやすい度を示す値
– 𝑤 ∙ 𝑐 = log
#(𝑤,𝑐)∙|𝐷|
#(𝑤)∙#(𝑐)
− log𝑘 = log
#(𝑤,𝑐)
𝐷
#(𝑤)
𝐷
∙
#(𝑐)
𝐷
− log𝑘 = log
𝑃 𝑤,𝑐
𝑃 𝑤 ∙𝑃 𝑐
− log𝑘
• つまり,SGNSが行列分解する元の行列Mは,
– 𝑀𝑖𝑗
𝑆𝐺𝑁𝑆
= 𝑊𝑖 ∙ 𝐶𝑗 = 𝑤𝑖 ∙ 𝑐𝑗 = 𝑃𝑀𝐼 𝑤𝑖, 𝑐𝑗 − 𝑙𝑜𝑔𝑘 (7)
• k=1のときはSGNSの目的関数は単にPMIで構成された行列𝑀 𝑃𝑀𝐼を分解するこ
とになる.k>1の場合はshifted PMI 行列𝑀 𝑃𝑀𝐼 𝑘 = 𝑀 𝑃𝑀𝐼 − 𝑙𝑜𝑔𝑘を分解する.
• 同様の方法でnoise-contrastive estimation[24]も条件付き確率の行列分解とし
て捉えることができる.
– 𝑀𝑖𝑗
𝑁𝐶𝐸
= 𝑤𝑖 ∙ 𝑐𝑗 = log
#(𝑤,𝑐)
#(𝑐)
− log𝑘 = log𝑃 𝑤 𝑐 − log𝑘 (8)
PMI(w,c)
M-ochi -13-
低次元に分解する場合には値がずれている可能性が高い(Future Work)
3. SGNS as Implicit Matrix Factorization
2015/5/28
2. Weighted Matrix Factorization
• ここまでの議論で,SGNSの目的は,𝑤 ∙ 𝑐 = 𝑃𝑀𝐼 𝑤, 𝑐 − log𝑘をすべてのw,c
の組に対して最適化することがわかった.
• しかし,この仮定は,𝑤, 𝑐完全にMを復元可能なくらいに高次元である必要があ
る.
• 完全な復元が不可能な場合,𝑤 ∙ 𝑐が最適な値から外れてしまう.
• 式(5)によると,ある(w,c)に対する損失は,観測数(#(w,c))とネガティブサンプ
ルの数(
𝑘∙#(𝑤)∙#(𝑐)
|𝐷|
)に依存している.
• よってSGNSの目的を重み付き行列分解最適化(weighted matrix factorization
problem)として考えると,頻出する(w,c)ペアをあまり出ないペアよりも重視する
行列𝑀 𝑃𝑀𝐼
− log𝑘の分解問題と考えることができる.
M-ochi -14-
正PMI行列の意味
3. SGNS as Implicit Matrix Factorization
2015/5/28
3. Pointwise Mutual Information
– 今回は,word w とcontext c間の関連性を計測するために用いている
– PMIはChurch and Hanks[8]によって導入され,単語の類似性に関するタスクで幅広く適用されている
[11,27,29]
– 𝑃𝑀𝐼 𝑥, 𝑦 = log
𝑃(𝑥,𝑦)
𝑃 𝑥 𝑃(𝑦)
– 今回の(w,c)のペア行列𝑀 𝑃𝑀𝐼
には文書中に全く共起していないペアが大量にありがち.
– その場合𝑃𝑀𝐼 𝑤, 𝑐 = log0 = −∞となり,行列のほとんどの入力がこうした値になる.
– 通常,ディリクレ事前分布を導入することで,少量の観測値を追加することでこの問題を避ける.
– NLPでよく使われる回避方法は,𝑀 𝑃𝑀𝐼
のかわりに𝑀0
𝑃𝑀𝐼
を利用することで,これは#(w,c)=0の場合,
PMI(w,c)=0とするものである.
– しかし,𝑀0
𝑃𝑀𝐼
には矛盾があって,観測されるが実際には無関係のペアには負の値が入力され,全く観測さ
れないペアには0が与えられる.
– スパースかつ一貫性のある代案手法として,すべての負の値を0にしてしまう,positive PMI(PPMI)というも
のがある.
• 𝑃𝑃𝑀𝐼 𝑤, 𝑐 = max(𝑃𝑀𝐼 𝑤, 𝑐 , 0)
– 単語を表現する場合に,この方法には負の値を無視するある直感がある.
– 人は(”Canada”といえば,”snow”)のようなpositiveな関係を簡単に考えることができるが,逆に
negativeな関係(”Canada”と”dessert”)を考えることはできない.
– これは人は,2つの語の類似性というものは,negativeな文脈よりpositiveな文脈により影響を受けている
ということを提案している.
– そして意味類似に関するタスクで大変良い結果を残している[5]
M-ochi -15-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
M-ochi -16-
SVDのΣ行列部分を両側に分配します.
4. Alternative Word Representation
2015/5/28
• PPMI行列は単にPMI行列を近似したもの.
• ここでは,𝑀 𝑃𝑃𝑀𝐼上で作成される別の2つの単語表現を提案する.
1. Shifted PPMI
– 𝑆𝑃𝑃𝑀𝐼 𝑘 𝑤, 𝑐 = max(𝑃𝑀𝐼 𝑤, 𝑐 − 𝑙𝑜𝑔𝑘, 0)
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
– SVD: 𝑀 = 𝑈 ∙ Σ ∙ 𝑉 𝑇
(U,Vは直交行列,Σは大きい固有値から順に対角上に並べた正方行列)
– Truncated SVD: 上位d次元の固有値でMを近似する手法
– Truncated SVD: 𝑀 ≈ 𝑀 𝑑 = 𝑈 𝑑 ∙ Σ 𝑑 ∙ 𝑉𝑑
𝑇
この𝑀 𝑑はL2ノルムによる近似つまり,𝑀 𝑑 =
𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑎𝑛𝑘 𝑀′ =𝑑 𝑀′
− 𝑀 2 となっている.
Symmetric SVD
• 通常NLPでは,𝑊 𝑆𝑉𝐷
= 𝑈 𝑑 ∙ Σ 𝑑,𝐶 𝑆𝑉𝐷
= 𝑉𝑑 とすることが多いが,𝑊 𝑆𝐺𝑁𝑆
より結果が悪いので,提案する.
• SGNSの場合,𝑊 𝑊2𝑉
, 𝐶 𝑊2𝑉
どちらも直交行列ではないので,どちらも非直交にする以下の方法を提案
– 𝑊 𝑆𝑉𝐷1/2 = 𝑈 𝑑 ∙ Σ 𝑑,𝐶 𝑆𝑉𝐷1/2 = 𝑉𝑑 ∙ Σ 𝑑
• 理論的には全然クリアではないけど,結果はとても良くなるよ.
• SVD(直交行列,固有値対角行列,直交行列に分解する手法)
M-ochi -17-
SVDのpros./cons.について議論
4. Alternative Word Representation
2015/5/28
SVD versus. SGNS
– 固有値分解には確率的勾配降下法(SGD)と比較して2つの点で有利である.
• 学習率の設定やハイパーパラメータの設定をしなくて良い.
• カウントデータに対して簡単に適用できる
– 同様にSGDにも良い点がある.一般的にSVDは未観測なデータの部分から悪い影響を受けることが知られて
いる[17].
– SGNSは頻出する(w,c)のペアには正しい値をそうではない(w,c)のペアにはそれなりの値を与えたい.
– 重み付きSVDは計算上かなり難しいことが知られている[25].
– SGNSは観測されたペアのみについてケアをするので,スパースでも高密度でもどちらでも最適化を行える.
SVDでは難しい.
– SVDにSGDの良さを取り入れたアプローチとしてstochastic matrix factorization(SMF)という手法がある[17]
が先の研究としておく.
M-ochi -18-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
M-ochi -19-
5. Empirical Results
2015/5/28
• 行列ベースのアルゴリズムとSGNSを2つの面から比較する
1. それぞれのアルゴリズムがどれくらいうまく対象を最適化できているか
2. 様々な言語処理上のタスクで比較
– いくつかのタスクでは大きな違いが出た.
Experimental Setup
– 全てのモデルは英語のWikipediaで訓練
– 前処理として,テキストではない要素の除去,sentence splitting, tokenize.
– コーパスは文章が77.5x10^6, トークン1.5x10^9,contextとしてあるトークンの前後2単語を取得,コーパス内
で100回以下の出現頻度の単語は無視,語彙は189,533
– SGNSの訓練のために,修正バージョンのword2vecを利用した[18].ネガティブサンプリングの数k={1,5,15}
の3パターンで実験した.
– SVDでは,§4で説明したとおり,𝑊 = 𝑈 𝑑 ∙ Σ 𝑑を使用する.
M-ochi -20-
行列の復元(dの次元数,kの数それぞれに注目)
5. Empirical Results
2015/5/28
1. Optimizing the Objective
– 式(2)に基づいてそれぞれのアルゴリズムの尤度ℓを計算.
– 最適なℓ 𝑂𝑝𝑡として𝑤 ∙ 𝑐 = 𝑃𝑀𝐼 𝑤, 𝑐 − 𝑙𝑜𝑔𝑘 を利用し,違い
(ℓ−ℓ 𝑂𝑝𝑡)
ℓ 𝑂𝑝𝑡
を計測し,結果をTable1に示す.
– 結果はSPPMIは正の値しか残さずたくさんの情報を捨てているのに,ほとんど完璧な近似になっている.
– 行列分解の結果では,期待通り次元dを増やすほど良い結果となっている.
– 𝑑 ≤ 500 𝑎𝑛𝑑 𝑘 = 1ではSVDはSGNSよりわずかに良い結果になっている.
– しかしSGNSは高次元ではエラー率がSVDより顕著に低い.
– これは値が0の成分が多すぎることによるのかもしれない.SVDのL2ノルムには重み付けをしていないので,
観測された値なのかそうでないのかを区別していないせいだろう.
M-ochi -21-
5. Empirical Results
2015/5/28
2. Performance of Word Representations on Linguistic Tasks
Linguistic Tasks and Datasets
– 単語類似と関係を類推するタスクについて4つのデータセットを使って評価する.
– 単語類似用のデータセットは,WordSim353[13]とMEN[4]
– これらのデータセットは単語のペア間で人が割り当てた類似度スコアを持っている.
– コサイン類似度で単語のペアの順位を比較する.比較にはスピアマンの順位相関係数を使用する.
– 関係類推用のデータセットは”𝑎 𝑖𝑠 𝑡𝑜 𝑎∗
𝑎𝑠 𝑏 𝑖𝑠 𝑡𝑜 𝑏∗
”のような形で”𝑏∗
”を隠して類推する.
– Syntacticデータセット[22]は8000のこうした形式の問題を持つ.
– 例)”good is to best as smart is to smartest.”
– Mixedデータセット[20]は19544の問題を持つ
– 半分はSyntacticデータセットと同様だが残りの半分はより意味的に難しい問題.例)”Paris is to France as
Tokyo is to Japan.”
– Wikipedia に無かった語彙に関しては取り除くと,Syntacticデータセットでは7118,Mixedデータセットだと
19258の問題が残った.
– 類推問題には,Levy and Gorldbergの類似積法[19]を利用する.(a,bの類似度に近いa*に対するb*を探す感
じ?)
𝑏∗
= 𝑎𝑟𝑔𝑚𝑎𝑥 𝑏∗∈ 𝑉 𝑤∖{𝑎∗,𝑏,𝑎}
𝑐𝑜𝑠(𝑏∗
, 𝑎∗
) ∙ 𝑐𝑜𝑠(𝑏∗
, 𝑏)
cos 𝑏∗, 𝑎 + 𝜖
– 選択したb*を答え合わせして,正解率で比較を行う.
M-ochi -22-
実験2の結果1/2
5. Empirical Results
2015/5/28
2. Performance of Word Representations on Linguistic Tasks
Results
– Table2に実験結果を示す.
– 単語類似タスクではSPPMIはSGNSより良い結果を残している.
– SVDはさらに良い結果を示している.
– SPPMIとSGNSの最高の結果同士を比較してもその差は小さいので,同等の結果と言って良いだろう.
– kの値は大きな影響を結果に与えるようだ
– SGNSはkが大きいほど良い結果を示すようだ.
– SSPMIとSVDはkが小さい方が良い結果だった.
– これは正の値だけを保持していて,kを大きくしすぎると情報損失が大きくなりすぎるのではないかと思われる.
– この結果は5.1(行列の復元タスク)でも同様だった.
– にもかかわらず,KのチューニングはSPPMIの性能を高めることができるようだ.
M-ochi -23-
実験2の結果2/2
5. Empirical Results
2015/5/28
2. Performance of Word Representations on Linguistic Tasks
Results
– 類推タスクの結果
– SVDはSGNSやSPPMIと同水準とは行かなかった.
– Syntacticデータセットの結果ではSGNSが圧倒的に良かった.
– この傾向は[22]の論文でも指摘されていた.
– Syntacticは他のとは違って変わったデータセットらしい(determiners(限定詞:広い意味の冠詞),auxiliary
verbs(助動詞)が口語上の意味の類似には重要らしい)
– この結果はSGNSは頻出語を重視するが,SVDはすべてを平等に扱っていることの影響だと考えられる.
M-ochi -24-
Contents.
2015/5/28
1. Introduction
2. Background: Skip-Gram with Negative Sampling(SGNS)
• Setting and Notation
• SGNS’s Objective
3. SGNS as Implicit Matrix Factorization
1. Characterizing the Implicit Matrix
2. Weighted Matrix Factorization
3. Pointwise Mutual Information
4. Alternative Word Representation
1. Shifted PPMI
2. Spectral Dimensionality Reduction: SVD over Shifted PPMI
• Symmetric SVD
• SVD versus. SGNS
5. Empirical Results
• Experimental Setup
1. Optimizing the Objective
2. Performance of Word Representations on Linguistic Tasks
• Linguistic Tasks and Datasets
• Results
6. Conclusion
M-ochi -25-
6. Conclusion
2015/5/28
• SGNS 単語埋め込みアルゴリズムについて分析した.
• そしてそれはSPPMI行列を確率的勾配法で最適化する方法であることを示した.
• SPPMI行列はPPMI行列を上回る性能を示した.
• SPPMIはSGNSの目的関数よりかなり良い方法であったが,必ずしもSGNSよ
り言語タスクにおいて良い結果を示すとは限らなかった(Syntacticにおける類推
タスク).
• SGNSが頻度の低い語に対して重みを低くしていることが関係していると疑って
いる.
• SVDはSGNSの目的関数を最適化するのはいまいちな結果だった.
• ただし,単語類似度タスクにおいては他の手法よりもわずかに良い結果だった.
• 単語類推タスクにおいては劣る結果だった.
• SVDとSGNSの違いは,SGNSは重み付き行列分解をしているという点で,類推
タスクでは重要な役割を与えているのかもしれない.
• 将来的には,PMIベースの指標でword-context行列の重み付き行列分解につ
いて調査することを提案する.
M-ochi -26-2015/5/28

Weitere ähnliche Inhalte

Was ist angesagt?

変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 

Was ist angesagt? (20)

[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
遺伝的アルゴリズム(Genetic Algorithm)を始めよう!遺伝的アルゴリズム(Genetic Algorithm)を始めよう!
遺伝的アルゴリズム (Genetic Algorithm)を始めよう!
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 
CVPR2019読み会@関東CV
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CV
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
ICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめ
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 

Andere mochten auch

Industrial Designers¡¦ Attitudes Toward Product Design
Industrial Designers¡¦ Attitudes Toward Product DesignIndustrial Designers¡¦ Attitudes Toward Product Design
Industrial Designers¡¦ Attitudes Toward Product Design
Waqas Tariq
 
C.9 water pollution n eutrophication
C.9 water pollution n eutrophicationC.9 water pollution n eutrophication
C.9 water pollution n eutrophication
Kai Wongyk
 

Andere mochten auch (20)

австралия
австралияавстралия
австралия
 
Industrial Designers¡¦ Attitudes Toward Product Design
Industrial Designers¡¦ Attitudes Toward Product DesignIndustrial Designers¡¦ Attitudes Toward Product Design
Industrial Designers¡¦ Attitudes Toward Product Design
 
первобытная культура
первобытная культурапервобытная культура
первобытная культура
 
PPR = Personnel Productivity Ratio
PPR = Personnel Productivity RatioPPR = Personnel Productivity Ratio
PPR = Personnel Productivity Ratio
 
Practica 6 edhiel
Practica 6 edhielPractica 6 edhiel
Practica 6 edhiel
 
Financial concepts and be the bank
Financial concepts and be the bankFinancial concepts and be the bank
Financial concepts and be the bank
 
E.T. Counts
E.T. CountsE.T. Counts
E.T. Counts
 
Plone4.3の特徴とPlone5へのロードマップ
Plone4.3の特徴とPlone5へのロードマップPlone4.3の特徴とPlone5へのロードマップ
Plone4.3の特徴とPlone5へのロードマップ
 
древний египет
древний египетдревний египет
древний египет
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
 
Углы Эйлера
Углы ЭйлераУглы Эйлера
Углы Эйлера
 
Docker and plone
Docker and ploneDocker and plone
Docker and plone
 
CubeSat separation dynamics
CubeSat separation dynamicsCubeSat separation dynamics
CubeSat separation dynamics
 
Understanding social connections
Understanding social connectionsUnderstanding social connections
Understanding social connections
 
Automatic generation of event summaries using microblog streams
Automatic generation of event summaries using microblog streamsAutomatic generation of event summaries using microblog streams
Automatic generation of event summaries using microblog streams
 
ABRA: Approximating Betweenness Centrality in Static and Dynamic Graphs with ...
ABRA: Approximating Betweenness Centrality in Static and Dynamic Graphs with ...ABRA: Approximating Betweenness Centrality in Static and Dynamic Graphs with ...
ABRA: Approximating Betweenness Centrality in Static and Dynamic Graphs with ...
 
Leveraging mobile network big data for urban planning
Leveraging mobile network big data for urban planningLeveraging mobile network big data for urban planning
Leveraging mobile network big data for urban planning
 
Opportunities in Higher Education & Career Guidance
Opportunities in Higher Education & Career GuidanceOpportunities in Higher Education & Career Guidance
Opportunities in Higher Education & Career Guidance
 
An Introduction to Optimal Transport
An Introduction to Optimal TransportAn Introduction to Optimal Transport
An Introduction to Optimal Transport
 
C.9 water pollution n eutrophication
C.9 water pollution n eutrophicationC.9 water pollution n eutrophication
C.9 water pollution n eutrophication
 

Ähnlich wie Neural word embedding as implicit matrix factorization の論文紹介

Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
 
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014dont_count_predict_in_acl2014
dont_count_predict_in_acl2014
Sho Takase
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Koji Matsuda
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
Koji Matsuda
 

Ähnlich wie Neural word embedding as implicit matrix factorization の論文紹介 (20)

Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014dont_count_predict_in_acl2014
dont_count_predict_in_acl2014
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
 
Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1
 
Word2vec alpha
Word2vec alphaWord2vec alpha
Word2vec alpha
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
 
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
 
chapter 11 structural svm
chapter 11 structural svmchapter 11 structural svm
chapter 11 structural svm
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
 

Neural word embedding as implicit matrix factorization の論文紹介

  • 1. 2015/05/18 大知 正直(Masanao Ochi) Neural Word Embedding as Implicit Matrix Factorization. 2015/5/28 Omer Levy Department of Computer Science Bar-Ilan University Yoav Goldberg Department of Computer Science Bar-Ilan University NIPS’14
  • 2. M-ochi -1- 要するにWord2Vecは行列分解であることを示す論文です. Abstract 2015/5/28 1. Skip-gram with negative-sampling(SGNS)を分析した. 2. Mikolovらによって導入された単語埋め込み法が,潜在的にはword— context行列の行列分解であることを示す. 3. Word—context行列の要素はある定数分変えた(シフトさせた) word,contextのPMIとする. 4. また,別の埋め込み法であるNCE(Noise Contrastive Estimation)は,潜在 的にはcontextが与えられた場合のwordの対数条件付き確率で構成された 類似行列を分解したものであることがわかった. 5. 単語を表現するために,SparseなShifted Positive PMI word—context 行 列を利用することが,2つの単語の類似度に関するタスクと2つの類推に関す るタスクのうち1つで改善することを示す. 6. 高密度低次元ベクトルが好まれる場合に,SVDによる精密な行列分解は,単 語類似度に関するタスクについては,SGNSと同等の精度を達成することを示 す. 7. 類推に関するタスクに対してはSGNSはSVDよりも優れたままであり,これは SGNSの分解が重み付きであることに起因すると推測する.
  • 3. M-ochi -2- Contents. 2015/5/28 1. Introduction 2. Background: Skip-Gram with Negative Sampling(SGNS) • Setting and Notation • SGNS’s Objective 3. SGNS as Implicit Matrix Factorization 1. Characterizing the Implicit Matrix 2. Weighted Matrix Factorization 3. Pointwise Mutual Information 4. Alternative Word Representation 1. Shifted PPMI 2. Spectral Dimensionality Reduction: SVD over Shifted PPMI • Symmetric SVD • SVD versus. SGNS 5. Empirical Results • Experimental Setup 1. Optimizing the Objective 2. Performance of Word Representations on Linguistic Tasks • Linguistic Tasks and Datasets • Results 6. Conclusion
  • 4. M-ochi -3- Contents. 2015/5/28 1. Introduction 2. Background: Skip-Gram with Negative Sampling(SGNS) • Setting and Notation • SGNS’s Objective 3. SGNS as Implicit Matrix Factorization 1. Characterizing the Implicit Matrix 2. Weighted Matrix Factorization 3. Pointwise Mutual Information 4. Alternative Word Representation 1. Shifted PPMI 2. Spectral Dimensionality Reduction: SVD over Shifted PPMI • Symmetric SVD • SVD versus. SGNS 5. Empirical Results • Experimental Setup 1. Optimizing the Objective 2. Performance of Word Representations on Linguistic Tasks • Linguistic Tasks and Datasets • Results 6. Conclusion
  • 5. M-ochi -4- Word2Vecについて完璧に解明したわけではなく,一部疑問点も残っている. 1. Introduction 2015/5/28 • 分散表現の起源 – Harrisの分布仮説(1954)[15] • 類似した文脈に出現するものは,意味的にも類似した性質をもつと考えられていることから,同じ上位 feature をもつ(す なわち,共通した性質を備える)下位 feature は,異なる上位 feature をもつ下位 feature に比べて類似した文脈に出現 するという仮説 – Word—context Matrix(M)で表現するものが多い. • それぞれの要素𝑀𝑖,𝑗: 𝑤𝑖, 𝑐𝑗間のなんらかの関連度指標を入力する • 各単語wはMの列または次元削減されたMの列で表現 • 最近の単語表現 – ニューラルネットワーク言語モデル(Deep Learning)にインスパイアされたものが多い[3,9,21,23] – “neural embedding”, “word embedding”などと呼ばれ,様々なNLP界のタスクで良い結果を残している[1,10,26] – 特にMilkolovとその仲間たちによる一連の論文[20,21]はskip-gramとnegative-sampling(SGNS)という方法で,効率的に訓練 し,すごい結果を様々な言語処理のタスクで残している. – “word2vec”というソフトウェアパッケージに実装されたそれらは,すごく人気なんだけど,アルゴリズムによる最適化や良い単語 表現を獲得している理由について,詳しくは解明されてない. • この論文の趣旨 – ニューラルネットワークベースの単語埋め込み法についての理論的理解を進める – SGNS訓練法を重み付き行列分解として捉え,目的関数は,潜在的にはshifted PMI行列の分解であることを示す. – NCE(Noise Contrastive Estimation)[24]による結果と同等である. – 超高次元かつ高密度のShifted PMI行列を直接使うのは非実用的なので,スパースなpositive Shifted PMI行列(Shifted PPMI)を提案する. – Shifted PPMIはSGNSの目的関数を最適化するのにずっと良い結果を出力し,いくつかの言語処理上のタスクにおいて word2vecよりもわずかにすぐれている. – Shifted PPMI行列上にSVDに基づいた単純な固有値抽出アルゴリズムを提案する. – SVDによる結果は単語の類似に関するタスクでは,SGNSとShifted PPMIを上回る結果を出す. – しかし,単語類推に関するタスクでは,SGNS由来の表現より性能が悪い. – この原因はSGNSが重み付き行列分解を実行しているからで,全ての要素に同じ重みを与えるSVDと比べ頻度の高いword, contextのペアへ大きな影響を与えている,と推測する.
  • 6. M-ochi -6- Contents. 2015/5/28 1. Introduction 2. Background: Skip-Gram with Negative Sampling(SGNS) • Setting and Notation • SGNS’s Objective 3. SGNS as Implicit Matrix Factorization 1. Characterizing the Implicit Matrix 2. Weighted Matrix Factorization 3. Pointwise Mutual Information 4. Alternative Word Representation 1. Shifted PPMI 2. Spectral Dimensionality Reduction: SVD over Shifted PPMI • Symmetric SVD • SVD versus. SGNS 5. Empirical Results • Experimental Setup 1. Optimizing the Objective 2. Performance of Word Representations on Linguistic Tasks • Linguistic Tasks and Datasets • Results 6. Conclusion
  • 7. M-ochi -7- Word Embeddings:単語,文脈をd次元で表現すること 2. Background: Skip-Gram with Negative Sampling(SGNS) 2015/5/28 • Setting and Notation – Word 𝑤 ∈ 𝑉𝑤 , contexts 𝑐 ∈ 𝑉𝑐 , で表す.𝑉𝑤, 𝑉𝑐はword, contextの語彙 – Word 𝑤𝑖に対する幅Lのcontextは𝑤𝑖−𝐿, … , 𝑤𝑖−1, 𝑤𝑖+1, … , 𝑤𝑖+𝐿 – Word, contextのペア(w,c)で表し,観測された全集合をDで表す. – (w,c)のペアの登場回数を#(𝑤, 𝑐)で表す. – よって、𝐷に登場する𝑤, 𝑐の回数は,#(𝑤) = 𝑐′∈𝑉𝑐 #(𝑤, 𝑐′ ) ,# 𝑐 = 𝑤′∈𝑉 𝑤 #(𝑤′ , 𝑐)で表される. – 各word 𝑤はベクトル𝑤 ∈ ℝ 𝑑 で,context 𝑐 はベクトル 𝑐 ∈ ℝ 𝑑 で表す. dは表現する次元数を表し,ベクトル 各要素の値は観測できない潜在変数で,学習されるパラメータとして扱う. – 𝑤を|𝑉𝑤| × 𝑑の行列𝑊の行(𝑊𝑖)として見る, 𝑐を|𝑉𝐶| × 𝑑の行列𝐶の行(𝐶𝑖)として見る場合もある. ≒ ☓ |𝑉𝑤| |𝑉𝑐| |𝑉𝑤| |𝑉𝑐|𝑑 𝑑 𝑊𝑖, 𝑤 𝐶𝑖 𝑡 , 𝑤 𝑡
  • 8. M-ochi -9- ネガティブサンプリング:低頻度語の過小評価を見直す 2. Background: Skip-Gram with Negative Sampling(SGNS) 2015/5/28 • SGNS’s Objective – (w,c)がデータDで観測される確率𝑃 𝐷 = 1 𝑤, 𝑐 としたとき,観測されない確率は𝑃 𝐷 = 0 𝑤, 𝑐 = 1 − 𝑃(𝐷 = 1|𝑤, 𝑐)で表される. – ここで,𝑃 𝐷 = 1 𝑤, 𝑐 = 𝜎 𝑤, 𝑐 = 1 1+exp(−𝑤∙ 𝑐) で表すことにする. – 𝑤, 𝑐はd次元のベクトルで,学習するモデルパラメータとする. – ネガティブサンプリングはランダムにサンプリングされたcontextの負例𝑃 𝐷 = 0 𝑤, 𝑐 を最大化しつつ,観測 される𝑃 𝐷 = 1 𝑤, 𝑐 を最大化することが目的である. – ある(w,c)のSGNSの目的関数 • log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷 [log𝜎 𝑤 ∙ 𝑐 𝑁 ] (1)※ 負例を入れて,対数尤度を上げている. • 𝑃 𝐷 𝑐 = #(𝐶) |𝐷| の各cに関する確率分布からサンプリングする – 目的関数(ある語が出現しない文脈も含めて対数尤度を最大化する) • ℓ = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐 #(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷 [log𝜎 −𝑤 ∙ 𝑐 𝑁 ]) (2)
  • 9. M-ochi -10- Contents. 2015/5/28 1. Introduction 2. Background: Skip-Gram with Negative Sampling(SGNS) • Setting and Notation • SGNS’s Objective 3. SGNS as Implicit Matrix Factorization 1. Characterizing the Implicit Matrix 2. Weighted Matrix Factorization 3. Pointwise Mutual Information 4. Alternative Word Representation 1. Shifted PPMI 2. Spectral Dimensionality Reduction: SVD over Shifted PPMI • Symmetric SVD • SVD versus. SGNS 5. Empirical Results • Experimental Setup 1. Optimizing the Objective 2. Performance of Word Representations on Linguistic Tasks • Linguistic Tasks and Datasets • Results 6. Conclusion
  • 10. M-ochi -11- Word—Context行列の各要素がPMIであることの証明(1/2) 3. SGNS as Implicit Matrix Factorization 2015/5/28 • Characterizing the Implicit Matrix – ℓ = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐 #(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷 [log𝜎 −𝑤 ∙ 𝑐 𝑁 ]) – = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐 #(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 ) + 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐 #(𝑤, 𝑐)(𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷 [log𝜎 −𝑤 ∙ 𝑐 𝑁 ]) – = 𝑤∈𝑉 𝑤 𝑐∈𝑉𝑐 #(𝑤, 𝑐)(log𝜎 𝑤 ∙ 𝑐 ) + 𝑤∈𝑉 𝑤 #(𝑤)(𝑘 ∙ 𝐸𝑐 𝑁~𝑃 𝐷 [log𝜎 −𝑤 ∙ 𝑐 𝑁 ]) (3) • ここで,ネガティブサンプリングで対象としているcの部分を抽出すると • 𝐸𝑐 𝑁~𝑃 𝐷 [log𝜎 −𝑤 ∙ 𝑐 𝑁 ]) = 𝑐 𝑁∈𝑉𝑐 #(𝑐 𝑁) 𝐷 log𝜎(−𝑤 ∙ 𝑐 𝑁) • = #(𝑐) 𝐷 log𝜎 −𝑤 ∙ 𝑐 + 𝑐 𝑁∈𝑉𝑐∖{𝑐} #(𝑐 𝑁) 𝐷 log𝜎(−𝑤 ∙ 𝑐 𝑁) (4) • 特定のw,cで(3)+(4) – ℓ 𝑤, 𝑐 = #(𝑤, 𝑐)log𝜎 𝑤 ∙ 𝑐 + 𝑘 ∙ #(𝑤) ∙ #(𝑐) 𝐷 log𝜎 −𝑤 ∙ 𝑐 (5) • 𝑥 = 𝑤 ∙ 𝑐とおいて,xに関して微分 – 𝜕ℓ 𝜕𝑥 = # 𝑤, 𝑐 ∙ 𝜎 −𝑥 − 𝑘 ∙ #(𝑤) ∙ #(𝑐) 𝐷 ∙ 𝜎(𝑥) • この式を整理して,0と置く – 𝑒2𝑥 − #(𝑤,𝑐) 𝑘∙#(𝑤)∙ #(𝑐) 𝐷 − 1 𝑒 𝑥 − #(𝑤,𝑐) 𝑘∙#(𝑤)∙ #(𝑐) 𝐷 = 0 • 𝑦 = 𝑒 𝑥 として,yについて解く – 𝑦 = #(𝑤,𝑐) 𝑘∙#(𝑤)∙ #(𝑐) |𝐷| = #(𝑤,𝑐)∙|𝐷| #(𝑤)∙#(𝑐) ∙ 1 𝑘 • すなわち, – 𝑤 ∙ 𝑐 = 𝑙𝑜𝑔 #(𝑤,𝑐)∙|𝐷| #(𝑤)∙#(𝑐) ∙ 1 𝑘 = log #(𝑤,𝑐)∙|𝐷| #(𝑤)∙#(𝑐) − log𝑘 (6)
  • 11. M-ochi -12- Word—Context行列の各要素がPMIであることの証明(2/2) 3. SGNS as Implicit Matrix Factorization 2015/5/28 • ここで確率の形式にこの式を変形すると,PMI(Pointwise Mutual Information)で あることがわかる ※PMI・・・2つの語の共起しやすい度を示す値 – 𝑤 ∙ 𝑐 = log #(𝑤,𝑐)∙|𝐷| #(𝑤)∙#(𝑐) − log𝑘 = log #(𝑤,𝑐) 𝐷 #(𝑤) 𝐷 ∙ #(𝑐) 𝐷 − log𝑘 = log 𝑃 𝑤,𝑐 𝑃 𝑤 ∙𝑃 𝑐 − log𝑘 • つまり,SGNSが行列分解する元の行列Mは, – 𝑀𝑖𝑗 𝑆𝐺𝑁𝑆 = 𝑊𝑖 ∙ 𝐶𝑗 = 𝑤𝑖 ∙ 𝑐𝑗 = 𝑃𝑀𝐼 𝑤𝑖, 𝑐𝑗 − 𝑙𝑜𝑔𝑘 (7) • k=1のときはSGNSの目的関数は単にPMIで構成された行列𝑀 𝑃𝑀𝐼を分解するこ とになる.k>1の場合はshifted PMI 行列𝑀 𝑃𝑀𝐼 𝑘 = 𝑀 𝑃𝑀𝐼 − 𝑙𝑜𝑔𝑘を分解する. • 同様の方法でnoise-contrastive estimation[24]も条件付き確率の行列分解とし て捉えることができる. – 𝑀𝑖𝑗 𝑁𝐶𝐸 = 𝑤𝑖 ∙ 𝑐𝑗 = log #(𝑤,𝑐) #(𝑐) − log𝑘 = log𝑃 𝑤 𝑐 − log𝑘 (8) PMI(w,c)
  • 12. M-ochi -13- 低次元に分解する場合には値がずれている可能性が高い(Future Work) 3. SGNS as Implicit Matrix Factorization 2015/5/28 2. Weighted Matrix Factorization • ここまでの議論で,SGNSの目的は,𝑤 ∙ 𝑐 = 𝑃𝑀𝐼 𝑤, 𝑐 − log𝑘をすべてのw,c の組に対して最適化することがわかった. • しかし,この仮定は,𝑤, 𝑐完全にMを復元可能なくらいに高次元である必要があ る. • 完全な復元が不可能な場合,𝑤 ∙ 𝑐が最適な値から外れてしまう. • 式(5)によると,ある(w,c)に対する損失は,観測数(#(w,c))とネガティブサンプ ルの数( 𝑘∙#(𝑤)∙#(𝑐) |𝐷| )に依存している. • よってSGNSの目的を重み付き行列分解最適化(weighted matrix factorization problem)として考えると,頻出する(w,c)ペアをあまり出ないペアよりも重視する 行列𝑀 𝑃𝑀𝐼 − log𝑘の分解問題と考えることができる.
  • 13. M-ochi -14- 正PMI行列の意味 3. SGNS as Implicit Matrix Factorization 2015/5/28 3. Pointwise Mutual Information – 今回は,word w とcontext c間の関連性を計測するために用いている – PMIはChurch and Hanks[8]によって導入され,単語の類似性に関するタスクで幅広く適用されている [11,27,29] – 𝑃𝑀𝐼 𝑥, 𝑦 = log 𝑃(𝑥,𝑦) 𝑃 𝑥 𝑃(𝑦) – 今回の(w,c)のペア行列𝑀 𝑃𝑀𝐼 には文書中に全く共起していないペアが大量にありがち. – その場合𝑃𝑀𝐼 𝑤, 𝑐 = log0 = −∞となり,行列のほとんどの入力がこうした値になる. – 通常,ディリクレ事前分布を導入することで,少量の観測値を追加することでこの問題を避ける. – NLPでよく使われる回避方法は,𝑀 𝑃𝑀𝐼 のかわりに𝑀0 𝑃𝑀𝐼 を利用することで,これは#(w,c)=0の場合, PMI(w,c)=0とするものである. – しかし,𝑀0 𝑃𝑀𝐼 には矛盾があって,観測されるが実際には無関係のペアには負の値が入力され,全く観測さ れないペアには0が与えられる. – スパースかつ一貫性のある代案手法として,すべての負の値を0にしてしまう,positive PMI(PPMI)というも のがある. • 𝑃𝑃𝑀𝐼 𝑤, 𝑐 = max(𝑃𝑀𝐼 𝑤, 𝑐 , 0) – 単語を表現する場合に,この方法には負の値を無視するある直感がある. – 人は(”Canada”といえば,”snow”)のようなpositiveな関係を簡単に考えることができるが,逆に negativeな関係(”Canada”と”dessert”)を考えることはできない. – これは人は,2つの語の類似性というものは,negativeな文脈よりpositiveな文脈により影響を受けている ということを提案している. – そして意味類似に関するタスクで大変良い結果を残している[5]
  • 14. M-ochi -15- Contents. 2015/5/28 1. Introduction 2. Background: Skip-Gram with Negative Sampling(SGNS) • Setting and Notation • SGNS’s Objective 3. SGNS as Implicit Matrix Factorization 1. Characterizing the Implicit Matrix 2. Weighted Matrix Factorization 3. Pointwise Mutual Information 4. Alternative Word Representation 1. Shifted PPMI 2. Spectral Dimensionality Reduction: SVD over Shifted PPMI • Symmetric SVD • SVD versus. SGNS 5. Empirical Results • Experimental Setup 1. Optimizing the Objective 2. Performance of Word Representations on Linguistic Tasks • Linguistic Tasks and Datasets • Results 6. Conclusion
  • 15. M-ochi -16- SVDのΣ行列部分を両側に分配します. 4. Alternative Word Representation 2015/5/28 • PPMI行列は単にPMI行列を近似したもの. • ここでは,𝑀 𝑃𝑃𝑀𝐼上で作成される別の2つの単語表現を提案する. 1. Shifted PPMI – 𝑆𝑃𝑃𝑀𝐼 𝑘 𝑤, 𝑐 = max(𝑃𝑀𝐼 𝑤, 𝑐 − 𝑙𝑜𝑔𝑘, 0) 2. Spectral Dimensionality Reduction: SVD over Shifted PPMI – SVD: 𝑀 = 𝑈 ∙ Σ ∙ 𝑉 𝑇 (U,Vは直交行列,Σは大きい固有値から順に対角上に並べた正方行列) – Truncated SVD: 上位d次元の固有値でMを近似する手法 – Truncated SVD: 𝑀 ≈ 𝑀 𝑑 = 𝑈 𝑑 ∙ Σ 𝑑 ∙ 𝑉𝑑 𝑇 この𝑀 𝑑はL2ノルムによる近似つまり,𝑀 𝑑 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑅𝑎𝑛𝑘 𝑀′ =𝑑 𝑀′ − 𝑀 2 となっている. Symmetric SVD • 通常NLPでは,𝑊 𝑆𝑉𝐷 = 𝑈 𝑑 ∙ Σ 𝑑,𝐶 𝑆𝑉𝐷 = 𝑉𝑑 とすることが多いが,𝑊 𝑆𝐺𝑁𝑆 より結果が悪いので,提案する. • SGNSの場合,𝑊 𝑊2𝑉 , 𝐶 𝑊2𝑉 どちらも直交行列ではないので,どちらも非直交にする以下の方法を提案 – 𝑊 𝑆𝑉𝐷1/2 = 𝑈 𝑑 ∙ Σ 𝑑,𝐶 𝑆𝑉𝐷1/2 = 𝑉𝑑 ∙ Σ 𝑑 • 理論的には全然クリアではないけど,結果はとても良くなるよ. • SVD(直交行列,固有値対角行列,直交行列に分解する手法)
  • 16. M-ochi -17- SVDのpros./cons.について議論 4. Alternative Word Representation 2015/5/28 SVD versus. SGNS – 固有値分解には確率的勾配降下法(SGD)と比較して2つの点で有利である. • 学習率の設定やハイパーパラメータの設定をしなくて良い. • カウントデータに対して簡単に適用できる – 同様にSGDにも良い点がある.一般的にSVDは未観測なデータの部分から悪い影響を受けることが知られて いる[17]. – SGNSは頻出する(w,c)のペアには正しい値をそうではない(w,c)のペアにはそれなりの値を与えたい. – 重み付きSVDは計算上かなり難しいことが知られている[25]. – SGNSは観測されたペアのみについてケアをするので,スパースでも高密度でもどちらでも最適化を行える. SVDでは難しい. – SVDにSGDの良さを取り入れたアプローチとしてstochastic matrix factorization(SMF)という手法がある[17] が先の研究としておく.
  • 17. M-ochi -18- Contents. 2015/5/28 1. Introduction 2. Background: Skip-Gram with Negative Sampling(SGNS) • Setting and Notation • SGNS’s Objective 3. SGNS as Implicit Matrix Factorization 1. Characterizing the Implicit Matrix 2. Weighted Matrix Factorization 3. Pointwise Mutual Information 4. Alternative Word Representation 1. Shifted PPMI 2. Spectral Dimensionality Reduction: SVD over Shifted PPMI • Symmetric SVD • SVD versus. SGNS 5. Empirical Results • Experimental Setup 1. Optimizing the Objective 2. Performance of Word Representations on Linguistic Tasks • Linguistic Tasks and Datasets • Results 6. Conclusion
  • 18. M-ochi -19- 5. Empirical Results 2015/5/28 • 行列ベースのアルゴリズムとSGNSを2つの面から比較する 1. それぞれのアルゴリズムがどれくらいうまく対象を最適化できているか 2. 様々な言語処理上のタスクで比較 – いくつかのタスクでは大きな違いが出た. Experimental Setup – 全てのモデルは英語のWikipediaで訓練 – 前処理として,テキストではない要素の除去,sentence splitting, tokenize. – コーパスは文章が77.5x10^6, トークン1.5x10^9,contextとしてあるトークンの前後2単語を取得,コーパス内 で100回以下の出現頻度の単語は無視,語彙は189,533 – SGNSの訓練のために,修正バージョンのword2vecを利用した[18].ネガティブサンプリングの数k={1,5,15} の3パターンで実験した. – SVDでは,§4で説明したとおり,𝑊 = 𝑈 𝑑 ∙ Σ 𝑑を使用する.
  • 19. M-ochi -20- 行列の復元(dの次元数,kの数それぞれに注目) 5. Empirical Results 2015/5/28 1. Optimizing the Objective – 式(2)に基づいてそれぞれのアルゴリズムの尤度ℓを計算. – 最適なℓ 𝑂𝑝𝑡として𝑤 ∙ 𝑐 = 𝑃𝑀𝐼 𝑤, 𝑐 − 𝑙𝑜𝑔𝑘 を利用し,違い (ℓ−ℓ 𝑂𝑝𝑡) ℓ 𝑂𝑝𝑡 を計測し,結果をTable1に示す. – 結果はSPPMIは正の値しか残さずたくさんの情報を捨てているのに,ほとんど完璧な近似になっている. – 行列分解の結果では,期待通り次元dを増やすほど良い結果となっている. – 𝑑 ≤ 500 𝑎𝑛𝑑 𝑘 = 1ではSVDはSGNSよりわずかに良い結果になっている. – しかしSGNSは高次元ではエラー率がSVDより顕著に低い. – これは値が0の成分が多すぎることによるのかもしれない.SVDのL2ノルムには重み付けをしていないので, 観測された値なのかそうでないのかを区別していないせいだろう.
  • 20. M-ochi -21- 5. Empirical Results 2015/5/28 2. Performance of Word Representations on Linguistic Tasks Linguistic Tasks and Datasets – 単語類似と関係を類推するタスクについて4つのデータセットを使って評価する. – 単語類似用のデータセットは,WordSim353[13]とMEN[4] – これらのデータセットは単語のペア間で人が割り当てた類似度スコアを持っている. – コサイン類似度で単語のペアの順位を比較する.比較にはスピアマンの順位相関係数を使用する. – 関係類推用のデータセットは”𝑎 𝑖𝑠 𝑡𝑜 𝑎∗ 𝑎𝑠 𝑏 𝑖𝑠 𝑡𝑜 𝑏∗ ”のような形で”𝑏∗ ”を隠して類推する. – Syntacticデータセット[22]は8000のこうした形式の問題を持つ. – 例)”good is to best as smart is to smartest.” – Mixedデータセット[20]は19544の問題を持つ – 半分はSyntacticデータセットと同様だが残りの半分はより意味的に難しい問題.例)”Paris is to France as Tokyo is to Japan.” – Wikipedia に無かった語彙に関しては取り除くと,Syntacticデータセットでは7118,Mixedデータセットだと 19258の問題が残った. – 類推問題には,Levy and Gorldbergの類似積法[19]を利用する.(a,bの類似度に近いa*に対するb*を探す感 じ?) 𝑏∗ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑏∗∈ 𝑉 𝑤∖{𝑎∗,𝑏,𝑎} 𝑐𝑜𝑠(𝑏∗ , 𝑎∗ ) ∙ 𝑐𝑜𝑠(𝑏∗ , 𝑏) cos 𝑏∗, 𝑎 + 𝜖 – 選択したb*を答え合わせして,正解率で比較を行う.
  • 21. M-ochi -22- 実験2の結果1/2 5. Empirical Results 2015/5/28 2. Performance of Word Representations on Linguistic Tasks Results – Table2に実験結果を示す. – 単語類似タスクではSPPMIはSGNSより良い結果を残している. – SVDはさらに良い結果を示している. – SPPMIとSGNSの最高の結果同士を比較してもその差は小さいので,同等の結果と言って良いだろう. – kの値は大きな影響を結果に与えるようだ – SGNSはkが大きいほど良い結果を示すようだ. – SSPMIとSVDはkが小さい方が良い結果だった. – これは正の値だけを保持していて,kを大きくしすぎると情報損失が大きくなりすぎるのではないかと思われる. – この結果は5.1(行列の復元タスク)でも同様だった. – にもかかわらず,KのチューニングはSPPMIの性能を高めることができるようだ.
  • 22. M-ochi -23- 実験2の結果2/2 5. Empirical Results 2015/5/28 2. Performance of Word Representations on Linguistic Tasks Results – 類推タスクの結果 – SVDはSGNSやSPPMIと同水準とは行かなかった. – Syntacticデータセットの結果ではSGNSが圧倒的に良かった. – この傾向は[22]の論文でも指摘されていた. – Syntacticは他のとは違って変わったデータセットらしい(determiners(限定詞:広い意味の冠詞),auxiliary verbs(助動詞)が口語上の意味の類似には重要らしい) – この結果はSGNSは頻出語を重視するが,SVDはすべてを平等に扱っていることの影響だと考えられる.
  • 23. M-ochi -24- Contents. 2015/5/28 1. Introduction 2. Background: Skip-Gram with Negative Sampling(SGNS) • Setting and Notation • SGNS’s Objective 3. SGNS as Implicit Matrix Factorization 1. Characterizing the Implicit Matrix 2. Weighted Matrix Factorization 3. Pointwise Mutual Information 4. Alternative Word Representation 1. Shifted PPMI 2. Spectral Dimensionality Reduction: SVD over Shifted PPMI • Symmetric SVD • SVD versus. SGNS 5. Empirical Results • Experimental Setup 1. Optimizing the Objective 2. Performance of Word Representations on Linguistic Tasks • Linguistic Tasks and Datasets • Results 6. Conclusion
  • 24. M-ochi -25- 6. Conclusion 2015/5/28 • SGNS 単語埋め込みアルゴリズムについて分析した. • そしてそれはSPPMI行列を確率的勾配法で最適化する方法であることを示した. • SPPMI行列はPPMI行列を上回る性能を示した. • SPPMIはSGNSの目的関数よりかなり良い方法であったが,必ずしもSGNSよ り言語タスクにおいて良い結果を示すとは限らなかった(Syntacticにおける類推 タスク). • SGNSが頻度の低い語に対して重みを低くしていることが関係していると疑って いる. • SVDはSGNSの目的関数を最適化するのはいまいちな結果だった. • ただし,単語類似度タスクにおいては他の手法よりもわずかに良い結果だった. • 単語類推タスクにおいては劣る結果だった. • SVDとSGNSの違いは,SGNSは重み付き行列分解をしているという点で,類推 タスクでは重要な役割を与えているのかもしれない. • 将来的には,PMIベースの指標でword-context行列の重み付き行列分解につ いて調査することを提案する.