All-but-the-Top: Simple and Effective Postprocessing for Word Representations

Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
2018年5月24日
読み手竹中誠（小町研）
特に断わりがない限り図表は論文より引用

どういう論文？
• word2vec とか GLOVE で得られる分散表現に対して、超簡単
な後処理を施すことで性能向上することを示した論文
• 単語分散表現から重心を差っ引き、さらに、支配的な成分を差っ引く
• この後処理がなぜうまくいくのか定性的・定量的に説明した
• どのようなケースで work するかを無矛盾に説明した
• いろんな設定で実験し解析した（Appendix13ページ）
1

提案手法
2
d 単語空間の次元
D 第D主成分まで差っ引く（ハイパパラメータでd/100程度）
V 語彙集合
v(w) w∈Vの分散表現
μ Vの重心ベクトル
v~(w) センタリング後の単語分散表現
ud 第d主成分の固有ベクトル
v’(w) 第1主成分から第D主成分までを差っ引いた分散表現

実験
① Word Similarity
② Concept Categorization
③ Word Analogy
④ Semantic Textual Similarity
⑤ NN-based Sentiment Analysis
off-the-shelf
self training
3

① Word Similarity
• タスク
• input：２つの単語
• output：類似度
• 類似度
• cos類似度
• 評価指標
• 人手評価とのスピアマン相関係数
• 結果
• 平均2.3ポイント向上
4

② Concept Categorization
• タスク
• 単語のクラスタリング
• クラスタリングアルゴリズム
• k-means (fixed k)
• データセット
• ap (402 → 21カテゴリ)
• esslli (446 → カテゴリ)
• batting (83 words → 10cats)
• 結果
• 平均2.5ポイント向上
5

③ Word Analogy
• analogy datasets(Mikolov+2013)
• syntactic part
• apparently – apparent + amazing = amazingly?
• semantics part
• Texas – Houston + Chicago = Illinois？
• 結果
• 実験①②と比較して、後処理後のスコア向上が微妙
• 考察
• 引き算によって中心がキャンセルされているから、そうなって然るべ
き
6

④ Semantic Textual Similarity
• タスク
• ２つの文の意味的類似度を評価
• input：２文
• output：cos類似度
• 文の特徴量
• 単語分散表現の総和
• 結果
• 平均4ポイント向上
• 考察
• ４つのタスクの中で後処理の効果が最も大きかった
• 分散表現を足して類似度とっているので、そうなって然るべき
7

⑤ ニューラルでworkするか
• Sentiment Analysis
• 2値 or 5値分類
• 結果
• するっぽいけど詳細は future work
8

一体どうやってこんなことを
思いついたのか？
9

背景
• 単語分散表現にはいろんな手法がある
• PMI（共起）ベースの手法に統一的な数理的解釈を与えた研究
（Arora+,TACL2016）があり、それが着想の端緒
• 時刻 t においてランダムウォークする文脈ベクトル ct があり、それに
従って単語 wt が以下の確率モデルに従って発生すると仮定
10

モチベーション〜着想
• Arora+2016
• 任意の単位ベクトル c に対し、分配関数 Z(c) が定数になってくれて
いれば嬉しい
• Z(c) =定数とはいかなる状況か？
• あらゆる w に対して直交（|ｗ|=1）
• ｗが単位球面上にランダムに分布している状況に対応
• しかしながら、SGNSやCBOWとかは「そうなっていない」
• だから、そうしてみた。
11

そうするために Isotropy の導入
• やりたいこと
• 任意の単位ベクトル c に対して Z(c)=定数にしたい
• Isotropy なる量を導入
• おもむろにテイラー展開しておく
12
I → 1 Z(c) → 定数

Isotropy の1次近似
• これが１になるには、下記になればOK
13
アルゴリズムの１
センタリングに対応
1,1,...,1
v(w1)
v(w2)
.
.
.
v(w|V|)
|V|
|V|

Isotropy の2次近似
• これを１にするには以下の両方を満たせばOK
14
アルゴリズムの１
センタリングに対応
アルゴリズムの２と３
支配的な主成分を引くことに対応

Z(c)＝定数にするには・・・
• 平均をゼロ、分散スペクトルをフラットにすればよさそう
• でも、そもそもそうなっていなかった？
→ なっていない。
15
平均は非ゼロ
分散表現の各次元の寄与率は、
上位10次元がほとんど支配的

後処理前後で I はどう変わるか
• I →１にちゃんとなっている
16

後処理前後で Z(c) はどう変わるか
• Z(c)=定数（ここでは１）にちゃんとなっている
17
1,000個ランダムにcを選んだときのZ(c)のヒストグラム

まとめ
• 分散表現の性能向上させる後処理手法を提案
• 下流タスクで効くことを示した
• 実験と解析いっぱいした
18

All-but-the-Top: Simple and Effective Postprocessing for Word Representations

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie All-but-the-Top: Simple and Effective Postprocessing for Word Representations

Ähnlich wie All-but-the-Top: Simple and Effective Postprocessing for Word Representations (20)

Mehr von Makoto Takenaka

Mehr von Makoto Takenaka (8)

All-but-the-Top: Simple and Effective Postprocessing for Word Representations