N-gram統計量からの係り受け情報の復元 (YANS2011)
- 1. N-gram
2011/09/22
NLP ⼿手 6
, ⼤大
{unno, hillbig}@prefered.jp
- 2. l N
⾏行行
l
l ⾒見見 ⾏行行
l ⽇日 ⾏行行
- 3. ⽂文 ⽤用
⼤大
⼤大
⼤大
l ⼊入
l ⾶飛
- 4. l
l ⼀一⽅方 ⾼高
l
l ⾔言 ⽂文
- 5. ⼤大
l
l
l
l
l
l
l N
- 6. ⻑⾧長
l ⽂文 ⼀一
l
l ⽤用
l ⼤大 ⾻骨 ⾻骨
l
l ⽤用
l
l ⼤大
l
l ⼤大⾬雨
l
- 7. Eisner [Eisner96]
A B C D E root
=
A D + B D + B C + D root + D E
l ⽊木 T S(T)
l S(T) = ∑(m, h) T s(m, h)
l (m, h) T ⾮非
l S(T) ⼤大 Topt O(n3)
- 8. Google N-gram ⾃自⼰己
PMI
l Google⽇日 N ⽤用
l #(mh) m, h
l #(m) m
l Eisner ⾜足 s(m, h) T
⼀一 const
- 10. 1. ⾃自
l
l
2.
l
l ⼤大
3. ⾃自
l ⾃自
l ⼤大
l ⼤大 ⾃自
- 11. 1. ⾃自
l
l
l ⾃自
l ⾼高 PMI
l 580K 117M 72K
l 580K 13.4M 20.5K
- 12. 2.
⼤大
l ⼤大
l
l 542M ⼤大 114M ⼤大 68K
l 542M 1.66M 77
l ⼤大
- 13. 3. ⾃自
⼤大
l ⼤大 ⽂文
l
l
- 15. 1 ⽂文
⼤大
⼤大
2
l ⼊入 ⼤大
l ⽊木
- 16. 2
⼤大⾬雨
⼤大⾬雨
l ⽊木
l ⽅方
l ⽂文 ⽤用
- 17. [⼯工 05][ +06]
(1) 1 0 1 1 0 1 0 1 0 0 0 1
(2) 0.95 0.05 0.95 0.95 0.05 0.95 0.05 0.95 0.05 0.05 0.05 0.95
(3) 0.99 0.01 0.99 0.89 0.18 0.85 0.19 0.95 0.0 0.0 0.0 0.99
(1) (2) SSC ( =0.95) (3)
l
⼒力力
l
l
- 18. ⼤大 PMI ⽤用 [Zhou+11]
l PMI ⼊入
l PMI Google ⽤用
l +1 ~ 2
- 19. ⽂文
l [Eisner96] J. M. Eisner. Three New Probabilistic Models for
Dependency Parsing: An Exploration. COLING ‘96.
l [⼯工 05] ⼯工 . ⽤用 ⼀一
⽤用. ⾔言 ⼤大 ’05.
l [ +06] ⼤大 , ⼯工 , . ⽤用
⽤用. NLP ⼿手
‘06.
l [Zhou+11] G. Zhou, J. Zhao, K. Liu, L. Cai. Exploiting Web-
Derived Selectional Preference to Improve Statistical
Dependency Parsing. ACL ’11.