Information Retrieval - Evaluation

1. Information

2. Retrieval - 검색 시스템 평가 NAVER 조근희

3. 좋은 검색 엔진이란 • 얼마나 빨리 색인하느냐 – 시간당 색인 문서 수 – 평균 문서 길이(문서 길이의 분포는?) • 얼마나 빨리 검색하느냐 – 색인 크기에 따른 검색 시간 • 풍부한 information

4. needs

5. 의 표현 – 복잡한 질의의 표현 – 복잡한 질의의 빠른 처리 • 보기 좋은 검색 결과 • 공짜?

6. 사용자 만족도 • 지금까지는 측정 가능한 평가 기 준이었음:

7. speed/size

8. 등 – 질의의 표현 능력도…⋯ • 사용자 만족도(user

9. happiness) – 측정 가능한 평가 기준도 중요하지 만 – 매우 빠르지만 쓸모 없는 검색결과 는? • 사용자 만족도를 측정하기 위한 방법이 필요

10. 사용자 만족도 측정하기 • 사용자는 누구인가? – 그때그때 달라요 • 웹 검색:

11. – 사용자는 다시 방문하고 싶어 하는가? • 재방문율 – 목적이 아닌 수단

12. • 전자상거래: – 전자상거래 업체?

13. 최종 사용 자? – 거래 발생까지 걸리는 시간,

14. 검색 대비 매출 발생 비율 • 기업이나 학교:

15. 생산성이 가 장 중요 – 정보를 찾는데 걸린 시간 – 접근 권한 등의 보안

16. 결론은 쉽지 않다 • 일반적으로 검색 결과의 적합성(relevance)으로 측정 • relevance

17. 를 측정하는 방법은? • 지금부터 한번 알아보겠습니다

18. relevance

19. 측정에 필요한 것 • 3가지 – 문서 컬렉션 – 검색 질의 set – 각 질의와 문서간 적합성 정보 • 일반적으로 binary 속성(relevant

20. 또는 non-relevant)

21. 잘 알려진 테스트 컬렉션 • TREC(Text

22. REtrieval Conference) – NIST(National

23. Institute

24. of

25. Standards

26. and

27. Technology)

28. 에 서 개발한 검색 시스템 테스트 컬 렉션 • 그 밖에 Reuters

29. 등 다양한 테스 트 컬렉션이 있음 • 전문가에 의해 relevant/nonrelevant

30. 가 결정되어 있음 – 또는 질의에 대한 다른 검색 시스 템의 결과 집합을 가지고 있음

31. 기본 개념부터 • 사용자의 정보 요구(information

32. needs)는 질 의(query)

33. 로 표현 • relevance

34. 는 질의가 아닌 information

35. needs

36. 로 평가되어야 한다 • 예) – Information

37. needs:

38. 레드 와인이 화이트 와인보다 심장병 예방에 좋은가? – 질의:

39. “wine

40. red

41. white

42. heart

43. attack

44. effective” • 질의의 단어를 포함하는지가 아니라 Information

45. needs

46. 를 잘 설명하느냐가 중요

47. Precision

48. 과 Recall • Precision:

49. 검색된 문서 중 relevant

50. 문서의 비율 – 𝑷( 𝒓 𝒆𝒍𝒆𝒗𝒂𝒏𝒕 | 𝒓 𝒆𝒕𝒓𝒊𝒆𝒗𝒆𝒅 ) • Recall:

51. relevant

52. 문서 중 검색된 문서의 비율 – 𝑷( 𝒓 𝒆𝒕𝒓𝒊𝒆𝒗𝒆𝒅 | 𝒓 𝒆𝒍𝒆𝒗𝒂𝒏𝒕 ) • Precision

53. 𝑷 = 𝒕 𝒑 / ( 𝒕 𝒑 + 𝒇 𝒑 ) • Recall

54. 𝑹 = 𝒕 𝒑 / ( 𝒕 𝒑 + 𝒇 𝒏 ) • Unranked

55. retrieval

56. evaluation true

57. positive false

58. negative false

59. positive true

60. negative

61. 적합성(relevance)

62. 보다 정확성 (accuracy)

63. 는 어떨까 • 질의가 주어지면 “Relevant” 또는 “Non- relevant”

64. 로 분류하는 문제 • 정확성(accuracy)

66. 정확하게 분류한 비율 (𝑡𝑝 + 𝑡 𝑛) / ( 𝑡 𝑝 + 𝑓 𝑝 + 𝑓 𝑛 + 𝑡 𝑛) • Accuracy

67. 는 일반적으로 machine

68. learning

69. 의 분류 문제를 평가하는데 쓰임 • 정보 검색에는 적합하지 않은 이유는?

70. Accuracy

71. 가 안되는 이유 • 99.99999%의 accuracy

72. 를 갖는 검색 엔진 만들기 – 웹 검색 등 대규모 검색 엔진일 수록 non-relevant

73. 문서가 훨씬 많음 – 사용자는 쓰레기 결과를 보더라도 무언가 보여주기를 원함 Search

74. for:

76. matching

77. results

78. found.

79. Precision/Recall

80. 의 특징 • 모든 질의에 모든 문서를 보여주면 recall

81. 은 올라가지만 precision

82. 은 낮아짐 • recall

83. 은 검색된 문서 수가 많을 수록 올라감 • 좋은 검색 엔진은? – 검색된 문서 수나 recall

84. 이 증가할 수록 precision

85. 은 낮아짐 • 증명된 이론이 아니지만 경험에 의한 정설 • 일반적으로 positive(retrieved)

86. 가 correct

87. 한 것이 중요할 수록 precision

88. 을 사용

90. 의 한계 • 대규모 검색 시스템에 부적합 • 사람의 판단이 필요 – 사람은 못 믿음 • 오직 relevant

91. 또는 non-relevant

92. 만

93. 하나로 나타낼 수 없을까?

94. 𝐹 𝑚 𝑒𝑎𝑠𝑢𝑟𝑒 • precision/recall

95. 의 tradeoff

96. 관계를 나타내는 하나의 평가 기준 – 𝑭 𝒎 𝒆𝒂𝒔𝒖𝒓𝒆 (weighted

97. harmonic

98. mean): • 일반적으로 𝐹1 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 사용 – i.e.,

99. with

100. β = 1 or

101. α = ½ • 조화 평균은 보수적인 평균 계산 방법 – See

102. CJ

103. van

104. Rijsbergen,

105. Information

106. Retrieval RP PR RP F + + = −+ = 2 2 )1( 1 )1( 1 1 β β αα β

107. 1:

108. Precision

109. emphasized β

110. 1:

111. Recall

112. emphasized

113. F1 and

114. other

115. averages 0 20 40 60 80 100 0 50 100 Precision (Recall fixed at 70%) Combined Measures Minimum Maximum Arithmetic Geometric Harmonic

116. Rank

117. 정렬된 결과 평가하기 • 검색 엔진은 𝑛개의 결과를 반환한다 • 상위 rank

118. 된 결과로부터 일정 개수의 결과를 이용하여 precision-recall

119. curve

120. 를 얻을 수 있다

122. curve 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Recall Precision Interpolated Precision

123. Interpolated

124. Precision • recall

125. 이 증가함에 따라 precision

126. 이 증가하 면 • 오른쪽의 최대 precision

127. 값을 사용

128. 평가하기 • 그래프로 보여주는 것도 좋지만 하나의 measure

129. 를 원한 다 • Precision

130. at

131. fixed

132. retrieval

133. level – Precision-at-𝑘 :

134. top

135. 의 𝑘 개 결과로 Precision

136. 계산 – 웹 검색에 적합:

137. 사람들은 가장 좋은 결과를 가장 먼저 보기를 원함 – 𝑘 값을 결정하기 어렵고 평균 값이 엉망 • 11-point

138. interpolated

139. average

140. precision – 초기 TREC

141. 경진대회의 표준 평가 방법:

142. 0부터 1까지의 recall

143. 값을 11개의 level

144. 구분하여 precision

145. 계산(모든 값은 interpolated

146. 될 수 있고 0값은 언제나 interpolated) – 모든 recall

147. level

148. 에서 성능 측정

149. 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Recall Precision 일반적인 11

150. Point

151. Precisions • SabIR/Cornell

152. 8A1

153. 11pt

154. precision

155. from

156. TREC

157. 8

158. (1999)

160. n개의 질의로 평가하기 • precision-recall

161. 그래프는 질의에 따라 매우 다름 • 전체 질의 set

162. 을 평가하는 방법이 필요 • 고려해야 할 것들 – 그래프의 특정 지점에서 precision-recall

163. 계산하 기 – 각 지점간의 값은 어떻게 결정할 것인가?

164. 그 밖의 평가 방법들 • Mean

165. average

166. precision

167. (MAP) – 상위 𝑘 개의 검색된 문서 내 relevant

168. 문서들의 precision

169. 평 균 값 – 질의 set

170. 에 대한 MAP

171. 값은 단순 산술 평균 – 논문에서 주로 사용 – 사용자는 질의 마다 더 많은 relevant

172. 문서를 찾기를 원한다고 가정 • R-precision – 질의에 해당하는 relevant

173. 문서의 크기를 알고 있을 경우 상위 에 검색된 relevant

174. 문서의 precision

175. 평균 – 완전한 시스템의 score

176. 는 1.0

177. MAP

178. 예제

179. R-Precision

180. 예제

181. 평가 방법의 variance • 동일 query

182. 의 시스템 간 variance

183. 보다 다른 query

184. 의 동일 시스템 간 variance

185. 가 더 크 다 • 따라서 다양한 information

186. needs

187. 로 평가 하는 것이 필요

188. 테스트 컬렉션 만들기 • 다음과 같은 것들이 필요 – 테스트 질의 set – relevance

189. 평가(정답) • 테스트 질의 set – 사용 가능한 문서 집합에 적합해야 함 – 해당 분야의 전문가에 의해 작성되어야 함 – 무작위 질의 생성은 좋지 않음 • relevance

190. 평가(정답) – 평가자의 판단(시간이 필요) – 완벽하지 않음(사람이 하는 일)

191. 상호 평가 일치 정도를 나타내는 𝐾𝑎𝑝𝑝𝑎 𝑚 𝑒𝑎𝑠𝑢𝑟𝑒 • 𝐾𝑎𝑝𝑝𝑎 𝑚 𝑒𝑎𝑠𝑢𝑟𝑒 – 평가자 간 평가가 일치하는 정도를 나타냄 • 𝐾𝑎𝑝𝑝𝑎 = [ 𝑃(𝐴) – 𝑃(𝐸) ] / [ 1 – 𝑃(𝐸) ] • 𝑃(𝐴) – 평가자의 평가가 일치할 확률 • 𝑃(𝐸) – 평가자의 평가가 우연히 일치할 확률 • 𝐾𝑎𝑝𝑝𝑎 = 0 이면 우연히 일치,

192. 1 이면 완전 일치

193. Kappa

194. Measure:

195. Example Number of docs Judge 1 Judge 2 300 Relevant Relevant 70 Nonrelevant Nonrelevant 20 Relevant Nonrelevant 10 Nonrelevant Relevant

196. • 𝑃(𝐴) = 370/400 = 0.925 • 𝑃(𝑛𝑜𝑛 − 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡) = (10 + 20 + 70 + 70)/800 = 0.2125 • 𝑃(𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡) = (10 + 20 + 300 + 300)/800 = 0.7878 • 𝑃(𝐸) = 0.21252 + 0.78782 = 0.665 • 𝐾𝑎𝑝𝑝𝑎 = (0.925 – 0.665)/(1 − 0.665) = 0.776 • 𝐾𝑎𝑝𝑝𝑎 0.8 = 좋은 일치 • 0.67 𝐾 𝑎𝑝𝑝𝑎 0.8 − “자신없는 일치”

197. (Carletta ’96) • Depends

198. on

199. purpose

200. of

201. study

202. • For

203. 2 judges:

204. average

205. pairwise

206. kappas

207. 잘 알려진 테스트 컬렉션 크기,

208. 언어,

209. 성격 등이 다르기 때문에 목적에 맞는 테스트 컬렉션을 선택

210. 대규모 검색 시스템 평가하기 • Web-scale

211. 의 경우 Recall

212. 측정 어려움 • precision

213. at

214. top

215. 𝑘(e.g.,

216. 𝑘 = 10)

217. 주로 사용 • 또는 NDCG

218. (Normalized

219. Cumulative

220. Discounted

221. Gain) • relevance

222. 가 아닌 다른 평가 방법도 사용 – 첫번째 결과에 대한 Clickthrough – 사용자 행동 연구 – A/B

223. testing

224. DCG • DCG(Discounted

225. Cumulative

226. Gain) – 웹 검색에서 널리 쓰이는 평가 방법 – 높은 relevance

227. 를 갖는 문서가 더 중요 – 상위 rank

228. 문서가 하위 rank

229. 문서보다 더 중요 – the

230. total

231. gain

232. accumulated

233. at

234. a

235. particular

236. rank

237. p • DCG

238. 예제 – 10

239. ranked

240. documents

241. judged

242. on

243. 0‐3

244. relevance

245. scale:

246. – discounted

247. gain: • 3,

248. 2/1,

249. 3/1.59,

250. 0,

251. 0,

252. 1/2.59,

253. 2/2.81,

254. 2/3,

255. 3/3.17,

256. 0

257. • 3,

258. 2,

259. 1.89,

260. 0,

261. 0,

262. 0.39,

263. 0.71,

264. 0.67,

265. 0.95,

266. 0

267. – DCG: • 3,

268. 5,

269. 6.89,

270. 6.89,

271. 6.89,

272. 7.28,

273. 7.99,

274. 8.66,

275. 9.61,

276. 9.61

278. NDCG • NDCG(Normalized

279. DCG) – DCG

280. 값을 정규화하여 상대적인 비교를 더 쉽게 • NDCG

281. 예제 – Perfect

282. ranking: • 3,

283. 3,

284. 3,

285. 2,

286. 2,

287. 2,

288. 1,

289. 0,

290. 0,

291. 0 – ideal

292. DCG

293. values: • 3,

294. 6,

295. 7.89,

296. 8.89,

297. 9.75,

298. 10.52,

299. 10.88,

300. 10.88,

301. 10.88,

302. 10 – NDCG

303. values

304. (divide

305. actual

306. by

307. ideal): • 1,

308. 0.83,

309. 0.87,

310. 0.76,

311. 0.71,

312. 0.69,

313. 0.73,

314. 0.8,

315. 0.88,

316. 0.88 • NDCG

317. =

318. 1

319. at

320. any

321. rank

322. position

323. A/B

324. 테스트 • 목적:

325. 하나의 개선 포인트를 테스트 • 필요한 것:

326. 이미 서비스 중인 검색 시스템 • 방법: – 대부분의 사용자는 기존 시스템을 이용 – 1%

327. 정도의 일부 사용자는 개선 포인트가 적용된 새로운 시스템으로 접근 – 첫 번째 결과에 대한 click

328. 과 같은 자동화된 measure

329. 를 평가 – 개선 포인트가 사용자를 더 만족시키는 관찰 • 특징 – 대규모 검색 시스템에 적합 – 수학적 기법에 의한 분석보다 강력하지 않지만 쉽게 이해할 수 있음

330. 참고문헌 • Evaluation

331. in

332. information

333. retrieval,

334. Introduction

335. to

336. Information

337. Retrieval – http://nlp.stanford.edu/IR-book/pdf/08eval.pdf • Recent

338. evaluation,

339. NDCG,

340. using

341. clickthrough;

342. rate

343. queries

345. results,

346. Information

347. Retrieval

348. and

349. Web

350. Search

351. Spring

352. 2015 – http://web.stanford.edu/class/cs276/ • Search

353. Engines

354. Information

355. Retrieval

356. in

357. Practice • 정보검색론,

358. 이준호

359. Thank

360. you Your

361. questions

362. will

363. grow

364. me. Feel

365. free

366. to

367. contact…⋯ ghcho80@gmail.com

Information Retrieval - Evaluation

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Information Retrieval - Evaluation

Ähnlich wie Information Retrieval - Evaluation (9)

Information Retrieval - Evaluation