Adversarial Multi-task Learning for Text Classification
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
1. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
2018年5月24日
読み手 竹中誠(小町研)
特に断わりがない限り図表は論文より引用
2. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
どういう論文?
• word2vec とか GLOVE で得られる分散表現に対して、超簡単
な後処理を施すことで性能向上することを示した論文
• 単語分散表現から重心を差っ引き、さらに、支配的な成分を差っ引く
• この後処理がなぜうまくいくのか定性的・定量的に説明した
• どのようなケースで work するかを無矛盾に説明した
• いろんな設定で実験し解析した(Appendix13ページ)
1
3. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
提案手法
2
d 単語空間の次元
D 第D主成分まで差っ引く(ハイパパラメータでd/100程度)
V 語彙集合
v(w) w∈Vの分散表現
μ Vの重心ベクトル
v~(w) センタリング後の単語分散表現
ud 第d主成分の固有ベクトル
v’(w) 第1主成分から第D主成分までを差っ引いた分散表現
4. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
実験
① Word Similarity
② Concept Categorization
③ Word Analogy
④ Semantic Textual Similarity
⑤ NN-based Sentiment Analysis
off-the-shelf
self training
3
5. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
① Word Similarity
• タスク
• input:2つの単語
• output:類似度
• 類似度
• cos類似度
• 評価指標
• 人手評価とのスピアマン相関係数
• 結果
• 平均2.3ポイント向上
4
6. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
② Concept Categorization
• タスク
• 単語のクラスタリング
• クラスタリングアルゴリズム
• k-means (fixed k)
• データセット
• ap (402 → 21カテゴリ)
• esslli (446 → カテゴリ)
• batting (83 words → 10cats)
• 結果
• 平均2.5ポイント向上
5
7. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
③ Word Analogy
• analogy datasets(Mikolov+2013)
• syntactic part
• apparently – apparent + amazing = amazingly?
• semantics part
• Texas – Houston + Chicago = Illinois?
• 結果
• 実験①②と比較して、後処理後のスコア向上が微妙
• 考察
• 引き算によって中心がキャンセルされているから、そうなって然るべ
き
6
8. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
④ Semantic Textual Similarity
• タスク
• 2つの文の意味的類似度を評価
• input:2文
• output:cos類似度
• 文の特徴量
• 単語分散表現の総和
• 結果
• 平均4ポイント向上
• 考察
• 4つのタスクの中で後処理の効果が最も大きかった
• 分散表現を足して類似度とっているので、そうなって然るべき
7
9. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
⑤ ニューラルでworkするか
• Sentiment Analysis
• 2値 or 5値分類
• 結果
• するっぽいけど詳細は future work
8
10. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
一体どうやってこんなことを
思いついたのか?
9
11. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
背景
• 単語分散表現にはいろんな手法がある
• PMI(共起)ベースの手法に統一的な数理的解釈を与えた研究
(Arora+,TACL2016)があり、それが着想の端緒
• 時刻 t においてランダムウォークする文脈ベクトル ct があり、それに
従って単語 wt が以下の確率モデルに従って発生すると仮定
10
12. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
モチベーション〜着想
• Arora+2016
• 任意の単位ベクトル c に対し、分配関数 Z(c) が 定数 になってくれて
いれば嬉しい
• Z(c) =定数とはいかなる状況か?
• あらゆる w に対して直交(|w|=1)
• wが単位球面上にランダムに分布している状況に対応
• しかしながら、SGNSやCBOWとかは「そうなっていない」
• だから、そうしてみた。
11
13. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
そうするために Isotropy の導入
• やりたいこと
• 任意の単位ベクトル c に対して Z(c)=定数 にしたい
• Isotropy なる量を導入
• おもむろにテイラー展開しておく
12
I → 1 Z(c) → 定数
14. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Isotropy の1次近似
• これが1になるには、下記になればOK
13
アルゴリズムの1
センタリングに対応
1,1,...,1
v(w1)
v(w2)
.
.
.
v(w|V|)
|V|
|V|
15. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Isotropy の2次近似
• これを1にするには以下の両方を満たせばOK
14
アルゴリズムの1
センタリングに対応
アルゴリズムの2と3
支配的な主成分を引くことに対応
16. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Z(c)=定数 にするには・・・
• 平均をゼロ、分散スペクトルをフラットにすればよさそう
• でも、そもそもそうなっていなかった?
→ なっていない。
15
平均は非ゼロ
分散表現の各次元の寄与率は、
上位10次元がほとんど支配的
17. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
後処理前後で I はどう変わるか
• I →1にちゃんとなっている
16
18. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
後処理前後で Z(c) はどう変わるか
• Z(c)=定数(ここでは1)にちゃんとなっている
17
1,000個ランダムにcを選んだときのZ(c)のヒストグラム
19. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
まとめ
• 分散表現の性能向上させる後処理手法を提案
• 下流タスクで効くことを示した
• 実験と解析いっぱいした
18