Weitere ähnliche Inhalte
Ähnlich wie 暴走漫画数据挖掘从0到1 (20)
暴走漫画数据挖掘从0到1
- 9. TF-IDF/BM25
IDF
idf(t) = 1 + log ( numDocs / (docFreq + 1))
TF
tf(t in d) = √frequency
BM25
bm25(t in d) = tf(t in d) * (k + 1)/(tf(t in d) + k * (1-b+b*|D|/avgdl)
Field-length Norm
norm(d) = 1 / √numTerms
Weight
weight(t in d) = tf * idf * norm (using tf-idf)
weight(t in d) = bm25 * if * norm (using bm25)
9
- 10. vector space model
原理
查询语句以及每个候选由⼀一个 vector 表⽰示, vector 中的每个值是 term 的 weight 值
计算每个候选 vector 与 查询 vector 的 cosine 值,得分⾼高者排名⾼高
举例:
查询是: 暴⾛走|⼤大|事件 q = [0.8, 0.1, 0.6]
有两个候选:
doc1:暴⾛走|漫画 v1 = [0.82, 0, 0]
doc2:暴⾛走|事件 v2 = [0.82, 0, 0.63]
计算 cosine:
cos(q, v1) < cos(q, v2)
结论
doc2 排名⾼高
10