3. Agenda
• Theme of LT
• Conversation Pattern
• Use Case 1
• Use Case 2
• System Architecture
• Choose TOPIC using by Wikipedia Entity Vector and Word Net
• Focus Speech of contents using by Attention Model
3
14. Choose TOPIC using by
Wikipedia Entity Vector and Word Net
• Word Netは何??
– 単語に概念を付与してグループ化してくれているデータセット
14
スコティッシュ
ホールド
クロネコ オレンジネコ
ネコ
15. 15
Choose TOPIC using by
Wikipedia Entity Vector and Word Net
しかし概念数が多い
:
その数57,238 概念
概念数が多いと
データを用意しづらい
16. 16
Choose TOPIC using by
Wikipedia Entity Vector and Word Net
同じような概念があるはず
:
それをまとめたい
17. Choose TOPIC using by
Wikipedia Entity Vector and Word Net
• Wikipedia Entity Vectorは何??
– 単語、および Wikipedia で記事となっているエンティティの分
散表現ベクトル
17
18. 18
Choose TOPIC using by
Wikipedia Entity Vector and Word Net
概念にベクトルが付与できる
:
つまり計算が可能に
(注意:今回は計算量とメモリ
の関係で20万単語のみ使用)
19. Choose TOPIC using by
Wikipedia Entity Vector and Word Net
19
Word Netと
Wikipedia Entity Vector
を組み合わせることで
概念クラスを
分散ベクトル化
20. Choose TOPIC using by
Wikipedia Entity Vector and Word Net
• Word Net とWikipedia Entity Vectorを組み合わせ
1:Word Netの概念クラスをWikipedia Entity Vectorを用いて
サマライズ
2: Word Netの未知語をWikipedia Entity Vectorで付与
3:概念クラスの平均ベクトルをWikipedia Entity Vectorで
導出
4:概念クラスをサマライズ
5:概念クラス内の単語の頻度が1000以上だけ残す
20
21. Choose TOPIC using by
Wikipedia Entity Vector and Word Net
1:Word Netの概念クラスをWikipedia Entity Vectorを用いて
サマライズ
21
ネコ:[0.2, 0.3, 0.4…]
犬:[0.3, 0.4, 0.5…]
Wikipedia
Entity Vector
うさぎ:[0.2, 0.5, 0.4…]
コ
サ
イ
ン
類
似
度
計
算
22. Choose TOPIC using by
Wikipedia Entity Vector and Word Net
2: Word Netの未知語をWikipedia Entity Vectorで付与
22
クロネコ
白猫
:
三毛猫
:
ネコWikipedia Entity
Vector
コサイン類似
度
近い
未知語なら
追加
23. 23
Choose TOPIC using by
Wikipedia Entity Vector and Word Net
各概念に属する単語数が増え
ある程度まとまったが
:
まだ多い
24. Choose TOPIC using by
Wikipedia Entity Vector and Word Net
3: 概念クラスの平均ベクトルをWikipedia Entity Vectorで導出
24
クロネコ:[0.2, 0.3, 0.4…]
白猫:[0.1, 0.3, 0.…]
:
ネコ
柴犬:[0.1, 0.3, 0.4…]
土佐犬:[0.1, 0.2, 0.…]
:
犬
平均ベクトル
平均ベクトル
25. Choose TOPIC using by
Wikipedia Entity Vector and Word Net
4: 概念クラスをサマライズ
25
クロネコ:[0.2, 0.3, 0.4…]
白猫:[0.1, 0.3, 0.…]
:
ネコ
柴犬:[0.1, 0.3, 0.4…]
土佐犬:[0.1, 0.2, 0.…]
:
犬
平均ベクトル
平均ベクトル
コサイン類似度計算
26. 26
Choose TOPIC using by
Wikipedia Entity Vector and Word Net
各概念に属する単語数が増え
ある程度まとまったが
:
まだ多い(20000程度)
27. Choose TOPIC using by
Wikipedia Entity Vector and Word Net
5: 概念クラス内の単語の頻度が1000以上だけ残す
27
クロネコ
白猫
:
ネコ
柴犬
土佐犬
:
犬
白鳥
アヒル
:
トリ
コアラ
コアラ
28. 28
Choose TOPIC using by
Wikipedia Entity Vector and Word Net
これで76概念まで減少
:
他は概念を与えないことに
全てのベクトル
使えばもっと良くなるはず・・
29. Choose TOPIC using by
Wikipedia Entity Vector and Word Net
29
その 服
可愛い
どこ で
買ったの?
彼氏
イケメン
かっこいい
:
妹
可愛い
服
:
パパ
お金
小遣い
:
単語の平均一致
率計算
31. Focus Speech of contents using by
Attention Model
31
私 と仕事の
どっちが 大事 ?
その 服
可愛い
どこ で
買ったの?
パパ 小遣い
頂戴
彼氏
妹
パパ
32. Focus Speech of contents using by
Attention Model
32
• Attention Modelとは
• 詳しくは下記のスライドで
http://www.slideshare.net/yutakikuchi927/deep-learning-nlp-attention