SlideShare ist ein Scribd-Unternehmen logo
1 von 37
Information
 Retrieval
- 검색 시스템 평가
NAVER
조근희
좋은 검색 엔진이란
• 얼마나 빨리 색인하느냐
– 시간당 색인 문서 수
– 평균 문서 길이(문서 길이의 분포는?)
• 얼마나 빨리 검색하느냐
– 색인 크기에 따른 검색 시간
• 풍부한 information
 needs
 의 표현
– 복잡한 질의의 표현
– 복잡한 질의의 빠른 처리
• 보기 좋은 검색 결과
• 공짜?
사용자 만족도
• 지금까지는 측정 가능한 평가 기
준이었음:
 speed/size
 등
– 질의의 표현 능력도…⋯
• 사용자 만족도(user
 happiness)
– 측정 가능한 평가 기준도 중요하지
만
– 매우 빠르지만 쓸모 없는 검색결과
는?
• 사용자 만족도를 측정하기 위한
방법이 필요
사용자 만족도 측정하기
• 사용자는 누구인가?
– 그때그때 달라요
• 웹 검색:
 
– 사용자는 다시 방문하고
싶어 하는가?
• 재방문율
– 목적이 아닌 수단
• 전자상거래:
– 전자상거래 업체?
 최종 사용
자?
– 거래 발생까지 걸리는 시간,
 
검색 대비 매출 발생 비율
• 기업이나 학교:
 생산성이 가
장 중요
– 정보를 찾는데 걸린 시간
– 접근 권한 등의 보안
결론은 쉽지 않다
• 일반적으로 검색 결과의 적합성(relevance)으로
측정
• relevance
 를 측정하는 방법은?
• 지금부터 한번 알아보겠습니다
relevance
 측정에 필요한 것
• 3가지
– 문서 컬렉션
– 검색 질의 set
– 각 질의와 문서간 적합성 정보
• 일반적으로 binary 속성(relevant
 또는 non-relevant)
잘 알려진 테스트 컬렉션
• TREC(Text
 REtrieval
Conference)
– NIST(National
 Institute
 of
 
Standards
 and
 Technology)
 에
서 개발한 검색 시스템 테스트 컬
렉션
• 그 밖에 Reuters
 등 다양한 테스
트 컬렉션이 있음
• 전문가에 의해 relevant/non-
relevant
 가 결정되어 있음
– 또는 질의에 대한 다른 검색 시스
템의 결과 집합을 가지고 있음
기본 개념부터
• 사용자의 정보 요구(information
 needs)는 질
의(query)
 로 표현
• relevance
 는 질의가 아닌 information
 needs
 
로 평가되어야 한다
• 예)
– Information
 needs:

Weitere ähnliche Inhalte

Ähnlich wie Information Retrieval - Evaluation

6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptx6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptx
ssuserd4afad
 

Ähnlich wie Information Retrieval - Evaluation (9)

[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
Mahout
MahoutMahout
Mahout
 
추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft
 
알고리즘 마케팅 CH5
알고리즘 마케팅 CH5알고리즘 마케팅 CH5
알고리즘 마케팅 CH5
 
데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력
 
Understanding My Data Myself [Ubicomp 2011]
Understanding My Data Myself [Ubicomp 2011]Understanding My Data Myself [Ubicomp 2011]
Understanding My Data Myself [Ubicomp 2011]
 
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
 
데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?
 
6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptx6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptx
 

Information Retrieval - Evaluation