Neural Language Model Tutorial
- 3. n-gram 的缺陷
● 容易受到維度爆炸的影響。
● 只能得出表面文字的關聯,無法得出較深層的語意。
● 事實上,語意可從其附近的字詞來得知。
罷免 蔡正元 失敗
罷免 祭止兀 失敗
蔡正元 是 最佳 助選員
祭止兀 是 最佳 助選員
祭止兀和蔡正元,
語意相近
- 4. 語意向量
● 把字詞對應到一個 n 維度的向量。
祭止兀 (1, 1,..., xn
)
蔡正元 (1, 1,..., xn
)
罷免 蔡正元 失敗
罷免 祭止兀 失敗
蔡正元 是 最佳 助選員
祭止兀 是 最佳 助選員
(x1
= 罷免 , x2
= 助選員 ,..., xn
)
石內卜 (0, 0,..., xn
)
- 6. 語意向量
● 語意上越相近的詞,在向量空間中的夾角越小。
祭止兀 (x1
, x2
, ...., xn
)
罷免 (x1
, x2
, ...., xn
)
蔡正元 (x1
, x2
, ...., xn
)
自己人 (x1
, x2
, ...., xn
)
帥哥 (x1
, x2
, ...., xn
)
石內卜 (x1
, x2
, ...., xn
)
割闌尾 (x1
, x2
, ...., xn
)
- 7. 語意向量
● Cosine Similarity
– 向量 A 和 向量 B 的 Cosine Similarity 為:
(A·B) / ( |A| * |B| )
祭止兀 (b1
, b2
, ...., bn
)
蔡正元 (a1
, a2
, ...., an
)
a1
b1
+ a2
b2
+....+ an
bn
蔡正元與祭止兀的 Cosine Similarity 為:
a1
2
+a2
2
+....+an
2
b1
2
+b2
2
+....+bn
2
- 19. 實作 3 : word2vec
●
先對語料庫進行斷詞:載入繁體字典,並加入自
定詞彙。
● 找出與自定詞彙最相近的詞。
●
任意挑選兩個詞,計算其相似程度。