トピックモデルの評価指標 Perplexity とは何なのか?4. トピックモデルの評価指標
• トピックモデルの評価指標として
Perplexity と Coherence の 2 つが広く
使われている。
• Perplexity :予測性能
• Coherence:トピックの品質
• 今回は Perplexity について解説する
4
Coherence については前回 の LT を参照してください。
http://www.slideshare.net/hoxo_m/coherence-57598192
5. Perplexity とは
• 辞書で引くと・・
– the feeling of being confused or worried by
something you cannot understand
(理理解できないものにより困惑する感覚)
5
http://www.ldoceonline.com/dictionary/perplexity
⇨ ぶっちゃけ分からん
10. ⾔言語モデルと候補数
• This is a ______.
• 普通に考えると
– ⼊入るのは名詞 (○ pen, × happy)
– 可算名詞である(× coffee, × information)
– ⼦子⾳音から始まる (× apple, × orange)
• 我々が持つ⾃自然な⾔言語モデルによる制約
⇨ ⾔言語モデルを仮定すると候補数は減る
11. 統計的⾔言語モデル
• LDA を仮定すれば候補数は減るはず
• LDA は統計的⾔言語モデル
This is a ______.
• 単語は、ここに⼊入るか⼊入らないかではな
く、⼊入る確率率率で表される
P(“pen”) = 0.01 P(“banana”) = 0.00001
• このとき「候補数」とはどのように考え
れば良良いか?
12. 正解確率率率と候補数
単語1 ⭕
単語2 ❌
単語3 ⭕
単語4 ⭕
単語5 ❌
単語6 ❌
候補は3個
⇨ 正解する確率率率は 1/3
単語1 確率率率 0.01
あとは不不明
正解する確率率率は 1/100
⇨ 候補が 100 個あるのと同じ
単語1を正解とすると・・
15. Perplexity まとめ
• Perplexity は、モデルに従って正解を選
ぶためのある種の困難さを表す
• どれぐらい困難かは、Perplexity 個の選
択肢から正解を選ぶときと同じ困難さ
• Perplexity は選択肢の数を表す
• Perplexity は確率率率の逆数で定義される
「確率率率の逆数は選択肢の数を表している」