Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
2014/01/23
NIPS2013読み会@東京大学	

Distributed Representations of
Words and Phrases and their
Compositionality
(株)Preferred Inf...
⾃自⼰己紹介

海野  裕也 (@unnonouno)
l  Preferred Infrastructure (PFI)
l 

l 
l 

l 

Jubautsプロジェクトリーダー
http://jubat.us

専⾨門
l...
概要
l 

MikolovのICLR2013(word2vec)の続編
l 

l 

Berlin – German + France = Paris!!

計算をサボって速くしたら、何故か結果も良良くなった話
l 
l 

Be...
word2vec [Mikolov+13]
l 
l 

各単語の「意味」を表現するベクトルを作るはなし
vec(Berlin) – vec(German) + vec(France) と⼀一番近い単
語を探したら、vec(Paris)だっ...
Skip gramモデル[Mikolov+13]の⽬目的関数
l 

⼊入⼒力力コーパス: w1, w2, …, wT  (wiは単語)

これを最
⼤大化

cは文脈サイズで5くらい	

vwは単語wを表現するようなベクトル(適当な次元)で...
問題点

l 

語彙数が多すぎて∑の計算が⼤大変
l 

l 

W = 105 ~ 107

いかに効率率率よく計算をサボるかがこの論論⽂文の主題

6	
[Mikolov+13]より
Hierarchical Softmax (HS) [Morin+05]

ルートからw
までの全ノー
ドで積をとる

りんご

n3

n1

n2

みかん

カレー

ラーメン

各ノードのベ
クトル

σ(x)=1/(1 + exp(-...
Noise Contrastive Estimation (NCE) [Gutmann
+12]
l 
l 

本題から外れるので割愛
Softmaxによる分布を近似するらしい

8
Negative Sampling (NEG) (提案⼿手法1)
log P(wo|wI) =	

l 
l 

NCEをもっとサボった上式を使う
∑の中の期待値計算は、k個のサンプルを取って近似する
l 

l 

データが少ない時は...
頻出語のサブサンプリング(提案⼿手法2)
l 
l 
l 

“a”や”the”などの頻出語をうまくモデル化してもしょう
がないので、頻度度をディスカウントする
tは適当な閾値(10-5くらい)、f(w)は単語頻度度
もはやPとは何だった...
実験結果
l 

[Mikolov+13]でやったanalogical reasoning taskで評価
l 

l 
l 

vec(Berlin) – vec(Germany) + vec(France)の近傍探索索で
vec(P...
複合語の実験

l 

適当なスコア関数(上式)の⾼高いものを複合語として
取ってくる(δは適当なディスカウント係数)

l 

あとは同様に実験
l 

単語と複合語のスコアからどうやって⽬目的関数を設計したかは
ちゃんとかかれてない・...
複合語の実験結果

l 
l 

サブサンプリングなしだとNEGがいいが、ありだとHS
の⽅方がとたんに良良くなる
データセットとベクトルの次元を増やすとどんどんよく
なる
l 

最終的に72%の精度度まで上がった

13
意味の⾜足し算

l 
l 

単純に2つの単語のベクトルを⾜足すと複合的な意味の単
語が⾒見見つかる
2つの単語の両⽅方と頻出しやすい単語を探していること
になるからでは(AND検索索っぽく振る舞う)

14
議論論
l 

このベクトルは何を⽰示しているのか?

l 

Softmaxをとると何がおこるのか?

l 

ベクトルのたし引きは何を⽰示しているのか?

l 

Distributional Hypothesisの実現?
l 
...
参考⽂文献
l 

l 

l 

[Mikolov+13] Tomas Mikolov, Kai Chen, Greg
Corrado, and Jeffrey Dean. Efficient estimation of
word re...
Nächste SlideShare
Wird geladen in …5
×

NIPS2013読み会: Distributed Representations of Words and Phrases and their Compositionality

  • Loggen Sie sich ein, um Kommentare anzuzeigen.

NIPS2013読み会: Distributed Representations of Words and Phrases and their Compositionality

  1. 1. 2014/01/23 NIPS2013読み会@東京大学 Distributed Representations of Words and Phrases and their Compositionality (株)Preferred Infrastructure 海野  裕也 (@unnonouno)
  2. 2. ⾃自⼰己紹介 海野  裕也 (@unnonouno) l  Preferred Infrastructure (PFI) l  l  l  l  Jubautsプロジェクトリーダー http://jubat.us 専⾨門 l  l  ⾃自然⾔言語処理理 テキストマイニング 2
  3. 3. 概要 l  MikolovのICLR2013(word2vec)の続編 l  l  Berlin – German + France = Paris!! 計算をサボって速くしたら、何故か結果も良良くなった話 l  l  Before: ⽇日単位でかかっていた After: 15~30分 3
  4. 4. word2vec [Mikolov+13] l  l  各単語の「意味」を表現するベクトルを作るはなし vec(Berlin) – vec(German) + vec(France) と⼀一番近い単 語を探したら、vec(Paris)だった l  ベクトルの作り⽅方は次のスライドで説明 Paris!! France German Berlin 4
  5. 5. Skip gramモデル[Mikolov+13]の⽬目的関数 l  ⼊入⼒力力コーパス: w1, w2, …, wT  (wiは単語) これを最 ⼤大化 cは文脈サイズで5くらい vwは単語wを表現するようなベクトル(適当な次元)で、 これらを推定したい 5
  6. 6. 問題点 l  語彙数が多すぎて∑の計算が⼤大変 l  l  W = 105 ~ 107 いかに効率率率よく計算をサボるかがこの論論⽂文の主題 6 [Mikolov+13]より
  7. 7. Hierarchical Softmax (HS) [Morin+05] ルートからw までの全ノー ドで積をとる りんご n3 n1 n2 みかん カレー ラーメン 各ノードのベ クトル σ(x)=1/(1 + exp(-x)) l  l  単語で⽊木を作り、ルートからその単語までの各ノードの ベクトルと内積をとり、そのシグモイドの積にする 計算量量が単語数の対数時間になる 7
  8. 8. Noise Contrastive Estimation (NCE) [Gutmann +12] l  l  本題から外れるので割愛 Softmaxによる分布を近似するらしい 8
  9. 9. Negative Sampling (NEG) (提案⼿手法1) log P(wo|wI) = l  l  NCEをもっとサボった上式を使う ∑の中の期待値計算は、k個のサンプルを取って近似する l  l  データが少ない時は5~20個、多ければ2~5個で充分 P(w)として、1-gram頻度度の3/4乗に⽐比例例させたときが ⼀一番良良かった 9
  10. 10. 頻出語のサブサンプリング(提案⼿手法2) l  l  l  “a”や”the”などの頻出語をうまくモデル化してもしょう がないので、頻度度をディスカウントする tは適当な閾値(10-5くらい)、f(w)は単語頻度度 もはやPとは何だったのか・・・ 10
  11. 11. 実験結果 l  [Mikolov+13]でやったanalogical reasoning taskで評価 l  l  l  vec(Berlin) – vec(Germany) + vec(France)の近傍探索索で vec(Paris)を⾒見見つける NEGがHierarchical SoftmaxやNCEよりも⾼高精度度 サブサンプリングも効果的 小さい方がいい 11 大きい方がいい
  12. 12. 複合語の実験 l  適当なスコア関数(上式)の⾼高いものを複合語として 取ってくる(δは適当なディスカウント係数) l  あとは同様に実験 l  単語と複合語のスコアからどうやって⽬目的関数を設計したかは ちゃんとかかれてない・・・? 12
  13. 13. 複合語の実験結果 l  l  サブサンプリングなしだとNEGがいいが、ありだとHS の⽅方がとたんに良良くなる データセットとベクトルの次元を増やすとどんどんよく なる l  最終的に72%の精度度まで上がった 13
  14. 14. 意味の⾜足し算 l  l  単純に2つの単語のベクトルを⾜足すと複合的な意味の単 語が⾒見見つかる 2つの単語の両⽅方と頻出しやすい単語を探していること になるからでは(AND検索索っぽく振る舞う) 14
  15. 15. 議論論 l  このベクトルは何を⽰示しているのか? l  Softmaxをとると何がおこるのか? l  ベクトルのたし引きは何を⽰示しているのか? l  Distributional Hypothesisの実現? l  words that occur in the same contexts tend to have similar meanings (wikipedia) 15
  16. 16. 参考⽂文献 l  l  l  [Mikolov+13] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. ICLR 2013. [Morin+05] Frederic Morin and Yoshua Bengio. Hierarchical probabilistic neural network language model. AISTATS 2005. [Gutmann+12] Michael U. Gutmann and Aapo Hyvarinen. Noise-Contrastive Estimation of Unnormalized Statistical Models, with Applications to Natural Image Statistics. JMLR 2012. 16

×