SlideShare ist ein Scribd-Unternehmen logo
1 von 19
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
2018年5月24日
読み手 竹中誠(小町研)
特に断わりがない限り図表は論文より引用
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
どういう論文?
• word2vec とか GLOVE で得られる分散表現に対して、超簡単
な後処理を施すことで性能向上することを示した論文
• 単語分散表現から重心を差っ引き、さらに、支配的な成分を差っ引く
• この後処理がなぜうまくいくのか定性的・定量的に説明した
• どのようなケースで work するかを無矛盾に説明した
• いろんな設定で実験し解析した(Appendix13ページ)
1
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
提案手法
2
d 単語空間の次元
D 第D主成分まで差っ引く(ハイパパラメータでd/100程度)
V 語彙集合
v(w) w∈Vの分散表現
μ Vの重心ベクトル
v~(w) センタリング後の単語分散表現
ud 第d主成分の固有ベクトル
v’(w) 第1主成分から第D主成分までを差っ引いた分散表現
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
実験
① Word Similarity
② Concept Categorization
③ Word Analogy
④ Semantic Textual Similarity
⑤ NN-based Sentiment Analysis
off-the-shelf
self training
3
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
① Word Similarity
• タスク
• input:2つの単語
• output:類似度
• 類似度
• cos類似度
• 評価指標
• 人手評価とのスピアマン相関係数
• 結果
• 平均2.3ポイント向上
4
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
② Concept Categorization
• タスク
• 単語のクラスタリング
• クラスタリングアルゴリズム
• k-means (fixed k)
• データセット
• ap (402 → 21カテゴリ)
• esslli (446 → カテゴリ)
• batting (83 words → 10cats)
• 結果
• 平均2.5ポイント向上
5
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
③ Word Analogy
• analogy datasets(Mikolov+2013)
• syntactic part
• apparently – apparent + amazing = amazingly?
• semantics part
• Texas – Houston + Chicago = Illinois?
• 結果
• 実験①②と比較して、後処理後のスコア向上が微妙
• 考察
• 引き算によって中心がキャンセルされているから、そうなって然るべ
き
6
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
④ Semantic Textual Similarity
• タスク
• 2つの文の意味的類似度を評価
• input:2文
• output:cos類似度
• 文の特徴量
• 単語分散表現の総和
• 結果
• 平均4ポイント向上
• 考察
• 4つのタスクの中で後処理の効果が最も大きかった
• 分散表現を足して類似度とっているので、そうなって然るべき
7
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
⑤ ニューラルでworkするか
• Sentiment Analysis
• 2値 or 5値分類
• 結果
• するっぽいけど詳細は future work
8
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
一体どうやってこんなことを
思いついたのか?
9
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
背景
• 単語分散表現にはいろんな手法がある
• PMI(共起)ベースの手法に統一的な数理的解釈を与えた研究
(Arora+,TACL2016)があり、それが着想の端緒
• 時刻 t においてランダムウォークする文脈ベクトル ct があり、それに
従って単語 wt が以下の確率モデルに従って発生すると仮定
10
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
モチベーション〜着想
• Arora+2016
• 任意の単位ベクトル c に対し、分配関数 Z(c) が 定数 になってくれて
いれば嬉しい
• Z(c) =定数とはいかなる状況か?
• あらゆる w に対して直交(|w|=1)
• wが単位球面上にランダムに分布している状況に対応
• しかしながら、SGNSやCBOWとかは「そうなっていない」
• だから、そうしてみた。
11
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
そうするために Isotropy の導入
• やりたいこと
• 任意の単位ベクトル c に対して Z(c)=定数 にしたい
• Isotropy なる量を導入
• おもむろにテイラー展開しておく
12
I → 1 Z(c) → 定数
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Isotropy の1次近似
• これが1になるには、下記になればOK
13
アルゴリズムの1
センタリングに対応
1,1,...,1
v(w1)
v(w2)
.
.
.
v(w|V|)
|V|
|V|
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Isotropy の2次近似
• これを1にするには以下の両方を満たせばOK
14
アルゴリズムの1
センタリングに対応
アルゴリズムの2と3
支配的な主成分を引くことに対応
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
Z(c)=定数 にするには・・・
• 平均をゼロ、分散スペクトルをフラットにすればよさそう
• でも、そもそもそうなっていなかった?
→ なっていない。
15
平均は非ゼロ
分散表現の各次元の寄与率は、
上位10次元がほとんど支配的
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
後処理前後で I はどう変わるか
• I →1にちゃんとなっている
16
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
後処理前後で Z(c) はどう変わるか
• Z(c)=定数(ここでは1)にちゃんとなっている
17
1,000個ランダムにcを選んだときのZ(c)のヒストグラム
Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University
まとめ
• 分散表現の性能向上させる後処理手法を提案
• 下流タスクで効くことを示した
• 実験と解析いっぱいした
18

Weitere ähnliche Inhalte

Was ist angesagt?

時系列データ分析
時系列データ分析時系列データ分析
時系列データ分析
graySpace999
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
 

Was ist angesagt? (20)

マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
SMOTE resampling method slides 02-19-2018
SMOTE resampling method slides 02-19-2018SMOTE resampling method slides 02-19-2018
SMOTE resampling method slides 02-19-2018
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
時系列データ分析
時系列データ分析時系列データ分析
時系列データ分析
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 

Ähnlich wie All-but-the-Top: Simple and Effective Postprocessing for Word Representations

論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方
Satoshi Miura
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
Yuya Unno
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
 
[Paper Reading] The price of debasing automatic metrics in natural language e...
[Paper Reading] The price of debasing automatic metrics in natural language e...[Paper Reading] The price of debasing automatic metrics in natural language e...
[Paper Reading] The price of debasing automatic metrics in natural language e...
Kazutoshi Shinoda
 

Ähnlich wie All-but-the-Top: Simple and Effective Postprocessing for Word Representations (20)

LET関西メソ研20140915公開版
LET関西メソ研20140915公開版LET関西メソ研20140915公開版
LET関西メソ研20140915公開版
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLP
 
Presentation oct-2018-tokyo r
Presentation oct-2018-tokyo rPresentation oct-2018-tokyo r
Presentation oct-2018-tokyo r
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shift
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
Non-autoregressive text generation
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generation
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
Characterizing transferred epithet as alternation
Characterizing transferred epithet as alternationCharacterizing transferred epithet as alternation
Characterizing transferred epithet as alternation
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
Interop2017
Interop2017Interop2017
Interop2017
 
[Paper Reading] The price of debasing automatic metrics in natural language e...
[Paper Reading] The price of debasing automatic metrics in natural language e...[Paper Reading] The price of debasing automatic metrics in natural language e...
[Paper Reading] The price of debasing automatic metrics in natural language e...
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 

Mehr von Makoto Takenaka

Mehr von Makoto Takenaka (8)

[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
[論文紹介] Understanding and improving transformer from a multi particle dynamic ...
 
[論文紹介] Towards Understanding Linear Word Analogies
[論文紹介] Towards Understanding Linear Word Analogies[論文紹介] Towards Understanding Linear Word Analogies
[論文紹介] Towards Understanding Linear Word Analogies
 
Lpixel論文読み会資料 "Interpretation of neural network is fragile"
Lpixel論文読み会資料 "Interpretation of neural network is fragile"Lpixel論文読み会資料 "Interpretation of neural network is fragile"
Lpixel論文読み会資料 "Interpretation of neural network is fragile"
 
Understanding the origin of bias in word embeddings
Understanding the origin of bias in word embeddingsUnderstanding the origin of bias in word embeddings
Understanding the origin of bias in word embeddings
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
 
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
 
multimodal word distributions
multimodal word distributionsmultimodal word distributions
multimodal word distributions
 
Adversarial Multi-task Learning for Text Classification
Adversarial Multi-task Learning for Text ClassificationAdversarial Multi-task Learning for Text Classification
Adversarial Multi-task Learning for Text Classification
 

All-but-the-Top: Simple and Effective Postprocessing for Word Representations

  • 1. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 2018年5月24日 読み手 竹中誠(小町研) 特に断わりがない限り図表は論文より引用
  • 2. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University どういう論文? • word2vec とか GLOVE で得られる分散表現に対して、超簡単 な後処理を施すことで性能向上することを示した論文 • 単語分散表現から重心を差っ引き、さらに、支配的な成分を差っ引く • この後処理がなぜうまくいくのか定性的・定量的に説明した • どのようなケースで work するかを無矛盾に説明した • いろんな設定で実験し解析した(Appendix13ページ) 1
  • 3. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 提案手法 2 d 単語空間の次元 D 第D主成分まで差っ引く(ハイパパラメータでd/100程度) V 語彙集合 v(w) w∈Vの分散表現 μ Vの重心ベクトル v~(w) センタリング後の単語分散表現 ud 第d主成分の固有ベクトル v’(w) 第1主成分から第D主成分までを差っ引いた分散表現
  • 4. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 実験 ① Word Similarity ② Concept Categorization ③ Word Analogy ④ Semantic Textual Similarity ⑤ NN-based Sentiment Analysis off-the-shelf self training 3
  • 5. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University ① Word Similarity • タスク • input:2つの単語 • output:類似度 • 類似度 • cos類似度 • 評価指標 • 人手評価とのスピアマン相関係数 • 結果 • 平均2.3ポイント向上 4
  • 6. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University ② Concept Categorization • タスク • 単語のクラスタリング • クラスタリングアルゴリズム • k-means (fixed k) • データセット • ap (402 → 21カテゴリ) • esslli (446 → カテゴリ) • batting (83 words → 10cats) • 結果 • 平均2.5ポイント向上 5
  • 7. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University ③ Word Analogy • analogy datasets(Mikolov+2013) • syntactic part • apparently – apparent + amazing = amazingly? • semantics part • Texas – Houston + Chicago = Illinois? • 結果 • 実験①②と比較して、後処理後のスコア向上が微妙 • 考察 • 引き算によって中心がキャンセルされているから、そうなって然るべ き 6
  • 8. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University ④ Semantic Textual Similarity • タスク • 2つの文の意味的類似度を評価 • input:2文 • output:cos類似度 • 文の特徴量 • 単語分散表現の総和 • 結果 • 平均4ポイント向上 • 考察 • 4つのタスクの中で後処理の効果が最も大きかった • 分散表現を足して類似度とっているので、そうなって然るべき 7
  • 9. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University ⑤ ニューラルでworkするか • Sentiment Analysis • 2値 or 5値分類 • 結果 • するっぽいけど詳細は future work 8
  • 10. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 一体どうやってこんなことを 思いついたのか? 9
  • 11. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 背景 • 単語分散表現にはいろんな手法がある • PMI(共起)ベースの手法に統一的な数理的解釈を与えた研究 (Arora+,TACL2016)があり、それが着想の端緒 • 時刻 t においてランダムウォークする文脈ベクトル ct があり、それに 従って単語 wt が以下の確率モデルに従って発生すると仮定 10
  • 12. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University モチベーション〜着想 • Arora+2016 • 任意の単位ベクトル c に対し、分配関数 Z(c) が 定数 になってくれて いれば嬉しい • Z(c) =定数とはいかなる状況か? • あらゆる w に対して直交(|w|=1) • wが単位球面上にランダムに分布している状況に対応 • しかしながら、SGNSやCBOWとかは「そうなっていない」 • だから、そうしてみた。 11
  • 13. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University そうするために Isotropy の導入 • やりたいこと • 任意の単位ベクトル c に対して Z(c)=定数 にしたい • Isotropy なる量を導入 • おもむろにテイラー展開しておく 12 I → 1 Z(c) → 定数
  • 14. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Isotropy の1次近似 • これが1になるには、下記になればOK 13 アルゴリズムの1 センタリングに対応 1,1,...,1 v(w1) v(w2) . . . v(w|V|) |V| |V|
  • 15. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Isotropy の2次近似 • これを1にするには以下の両方を満たせばOK 14 アルゴリズムの1 センタリングに対応 アルゴリズムの2と3 支配的な主成分を引くことに対応
  • 16. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Z(c)=定数 にするには・・・ • 平均をゼロ、分散スペクトルをフラットにすればよさそう • でも、そもそもそうなっていなかった? → なっていない。 15 平均は非ゼロ 分散表現の各次元の寄与率は、 上位10次元がほとんど支配的
  • 17. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 後処理前後で I はどう変わるか • I →1にちゃんとなっている 16
  • 18. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 後処理前後で Z(c) はどう変わるか • Z(c)=定数(ここでは1)にちゃんとなっている 17 1,000個ランダムにcを選んだときのZ(c)のヒストグラム
  • 19. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University まとめ • 分散表現の性能向上させる後処理手法を提案 • 下流タスクで効くことを示した • 実験と解析いっぱいした 18