Weitere ähnliche Inhalte Ähnlich wie Information Retrieval - Evaluation (9) Information Retrieval - Evaluation3. 좋은 검색 엔진이란
• 얼마나 빨리 색인하느냐
– 시간당 색인 문서 수
– 평균 문서 길이(문서 길이의 분포는?)
• 얼마나 빨리 검색하느냐
– 색인 크기에 따른 검색 시간
• 풍부한 information
5. 의 표현
– 복잡한 질의의 표현
– 복잡한 질의의 빠른 처리
• 보기 좋은 검색 결과
• 공짜?
11.
– 사용자는 다시 방문하고
싶어 하는가?
• 재방문율
– 목적이 아닌 수단
16. 결론은 쉽지 않다
• 일반적으로 검색 결과의 적합성(relevance)으로
측정
• relevance
19. 측정에 필요한 것
• 3가지
– 문서 컬렉션
– 검색 질의 set
– 각 질의와 문서간 적합성 정보
• 일반적으로 binary 속성(relevant
29. 등 다양한 테스
트 컬렉션이 있음
• 전문가에 의해 relevant/non-
relevant
52. 문서 중 검색된 문서의 비율
– 𝑷(
𝒓 𝒆𝒕𝒓𝒊𝒆𝒗𝒆𝒅
|
𝒓 𝒆𝒍𝒆𝒗𝒂𝒏𝒕
)
• Precision
53. 𝑷
=
𝒕 𝒑
/
(
𝒕 𝒑
+
𝒇 𝒑
)
• Recall
54. 𝑹
=
𝒕 𝒑
/
(
𝒕 𝒑
+
𝒇 𝒏
)
• Unranked
72. 를 갖는 검색 엔진 만들기
– 웹 검색 등 대규모 검색 엔진일 수록 non-relevant
83. 은 검색된 문서 수가 많을 수록 올라감
• 좋은 검색 엔진은?
– 검색된 문서 수나 recall
85. 은 낮아짐
• 증명된 이론이 아니지만 경험에 의한 정설
• 일반적으로 positive(retrieved)
90. 의 한계
• 대규모 검색 시스템에 부적합
• 사람의 판단이 필요
– 사람은 못 믿음
• 오직 relevant
94.
𝐹
𝑚 𝑒𝑎𝑠𝑢𝑟𝑒
• precision/recall
101. α =
½
• 조화 평균은 보수적인 평균 계산 방법
– See
137. 사람들은 가장 좋은 결과를 가장 먼저 보기를
원함
– 𝑘 값을 결정하기 어렵고 평균 값이 엉망
• 11-point
146. 될 수 있고 0값은 언제나 interpolated)
– 모든 recall
162. 을 평가하는 방법이 필요
• 고려해야 할 것들
– 그래프의 특정 지점에서 precision-recall
171. 값은 단순 산술 평균
– 논문에서 주로 사용
– 사용자는 질의 마다 더 많은 relevant
189. 평가(정답)
• 테스트 질의 set
– 사용 가능한 문서 집합에 적합해야 함
– 해당 분야의 전문가에 의해 작성되어야 함
– 무작위 질의 생성은 좋지 않음
• relevance
191. 상호 평가 일치 정도를 나타내는
𝐾𝑎𝑝𝑝𝑎
𝑚 𝑒𝑎𝑠𝑢𝑟𝑒
• 𝐾𝑎𝑝𝑝𝑎
𝑚 𝑒𝑎𝑠𝑢𝑟𝑒
– 평가자 간 평가가 일치하는 정도를 나타냄
• 𝐾𝑎𝑝𝑝𝑎
=
[
𝑃(𝐴)
–
𝑃(𝐸)
]
/
[
1
–
𝑃(𝐸)
]
• 𝑃(𝐴) – 평가자의 평가가 일치할 확률
• 𝑃(𝐸) – 평가자의 평가가 우연히 일치할 확률
• 𝐾𝑎𝑝𝑝𝑎
=
0
이면 우연히 일치,
195. Example
Number of docs Judge 1 Judge 2
300 Relevant Relevant
70 Nonrelevant Nonrelevant
20 Relevant Nonrelevant
10 Nonrelevant Relevant
196. • 𝑃(𝐴)
=
370/400
=
0.925
• 𝑃(𝑛𝑜𝑛 − 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡)
=
(10 + 20 + 70 + 70)/800
=
0.2125
• 𝑃(𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡)
=
(10 + 20 + 300 + 300)/800
=
0.7878
• 𝑃(𝐸)
=
0.21252
+
0.78782
=
0.665
• 𝐾𝑎𝑝𝑝𝑎
=
(0.925
–
0.665)/(1 − 0.665)
=
0.776
• 𝐾𝑎𝑝𝑝𝑎
0.8
=
좋은 일치
• 0.67
𝐾 𝑎𝑝𝑝𝑎
0.8
−
“자신없는 일치”
222. 가 아닌 다른 평가 방법도 사용
– 첫번째 결과에 대한 Clickthrough
– 사용자 행동 연구
– A/B
326. 이미 서비스 중인 검색 시스템
• 방법:
– 대부분의 사용자는 기존 시스템을 이용
– 1%
327. 정도의 일부 사용자는 개선 포인트가 적용된 새로운 시스템으로
접근
– 첫 번째 결과에 대한 click
329. 를 평가
– 개선 포인트가 사용자를 더 만족시키는 관찰
• 특징
– 대규모 검색 시스템에 적합
– 수학적 기법에 의한 분석보다 강력하지 않지만 쉽게 이해할 수 있음