2. 추천 엔진 구축의 기초
데이터 양이 증가하면서 정보의 과부하 문제 발생
사용자가 원하는 정보를 제공해 주는 추천 시
스템이 필요
추천 엔진의 목적
사용자가 관심이 있을만한 정보를 추천
어떤 상황에서 누구에게 보여줬는지를 매칭
개인화된 엔진
12년 4월 14일 토요일
3. 추천 엔진 소개
문맥
아이템 정보
추천 아이템
사용자 프로파일 추천 시스템
사용자 교류
일반적인 추천 유형
특정 동영상을 봤던 사용자들이 시청한 다른 동영상
특정 글과 관련된 새로운 아이템
성향이 비슷한 사용자들
관심을 가질만한 제품들
12년 4월 14일 토요일
4. 아이템 기반 분석과
사용자 기반 분석
아이템 기반 분석
특정 아이템과 관련이 있는 아이템을 판별
접근법
콘텐츠와 관련된 텀백터를 이용
협업 필터링으로 사용자 교류 정보를 사용
사용자 기반 분석
유사한 성향을 가진 사람들을 판별하여 추천에 이용
접근법
사용자의 프로파일을 이용한 분석 (나이, 성별, 거주지등)
사용자의 행동을 분석한 협업 기반의 분석
12년 4월 14일 토요일
5. 아이템 기반 방식 /
사용자 기반 방식의 선택
아이템 목록 변화의 빈번함
빈번할 경우: 사용자 기반 분석
적을 경우: 아이템 기반 분석을 활용한 아이템대 아이템 연관
테이블 생성
추천될 아이템이 사용자라면, 사용자 분석
아이템과 사용자 공간의 차원에 따라
수백만의 사용자가 있고, 아이템의 개수는 적다면, 아이템 기반
분석 방법 사용
아이템 기반 알고리즘이 계산량이 적고, 결과는 동등하거나 뛰어남
12년 4월 14일 토요일
6. 콘텐츠 기반과
협업 기반의 유사도 계산
콘텐츠 기반 분석의 아이템 추천
텀벡터가 유사한 아이템을 찾음
협업 필터링 알고리즘
고객을 N차원 아이템 벡터로 표현
거의 모든 사용자에 대해 희소 벡터로 표현
아이템 1 아이템 2 ... ... 아이템 N
사용자 1 2
사용자 2 5 1
...
... 1
사용자 N 2
12년 4월 14일 토요일
7. 콘텐츠 기반과
협업 기반 비교
협업 기반은 아이템을 블랙 박스로 다루는 장점이 있음
여러 도메인과 언어에 동일한 인프라를 제공하는 애플리케이
션에 쉽게 적용
콘텐츠 기반 분석에서는 텀 벡터를 사용하여 아이템의 품질을 고
려하지 않음, 협업 기반 분석에서는 아이템에 대한 정량적인 정
보를 사용
콘텐츠 기반의 결과는 일정 기간 동안 많이 변하지 않음, 협업 기
반의 전급 방법은 사용자 교류에 기반하여 아이템의 순위가 변경
협업 기반 방법은 누적된 데이터를 사용하기 때문에, 데이터가
충분하지 않을 경우 성능이 크게 떨어짐
12년 4월 14일 토요일
8. 협업 필터링
아이템은 블랙 박스로 간주하고, 아이템에 대한 사용자의 교류 정보
를 사용
Ex) 등급, 저장, 구매 등
알고리즘의 분류
메모리 기반 알고리즘
전체 사용자 아이템 데이터 베이스를 생성하여, 유사한 사용
자 셋을 추출하고 이 사용자들의 선호도를 결합하여 추천
모델 기반 알고리즘
과거 사용자의 등급 정보를 기반으로 사용자를 모델링하여,
새로운 아이템에 대해 등급을 예측
12년 4월 14일 토요일
9. 실제 사례 - 아마존
아이템 대 아이템 추천(Base)
특정 아이템에 대해서 구매 패턴을 분석해 관련된 아이템을
추천
사용자는 목록의 아이템에 대해 등급을 줄 수 있고, 고려 목
록에서 제거 할 수 있음
기반 데이터
짧은 텀 정보 - 최근 아이템 조회 이력
장바구니에 저장된 아이템
구매 이력
12년 4월 14일 토요일
10. 실제 사례 - 아마존(2)
아마존 추천엔진이 해결 해야할 도전 과제
수많은 사용자와 아이템
성능과 확장성
새로운 구매자에 대한 제한된 정보
새로운 정보에 대한 반응
참고
Amzon.com Recommendations: Item-to-Item Collaborative Filtering
대용량에 대한 확장성이 유연하면서도 구현하기가 간단한 협업
필터링 알고리즘
12년 4월 14일 토요일
11. 실제 사례 - 구글
구글 뉴스의 개인화
검색 이력을 제공하기로 동의한 사용자에게 개인화된 추천을 제공
검색 기록 및 방문한 뉴스 글 목록을 저장한 다음 적절한 이력이
쌓이면 추천
협업 필터링 방법을 적용
구글 뉴스 추천 시스템의 특징
자주 변하는 아이템 (속도가 중요시 됨)
잡음 등급
제품 구매와 달리 뉴스 기사 클릭에는 잡음이 더 섞이는 편
인스턴트 만족(즉시 추천에 통합) 및 높은 성능
12년 4월 14일 토요일
12. 실제 사례 - 구글(2)
세가지 알고리즘을 결합하여 하나의 알고리즘으로 구현
코비지 네이션 알고리즘(메모리 기반)
아이템 기반 접근 방법
특정 시간내에 함께 방문된 기사에 대해 가중치를 부여
MinHash(모델 기반)
두 사용자 사이에서 겹치는 클릭 아이템의 확률적인 비례를 기반
으로 두 사용자를 클러스터링
PLSI (모델 기반)
확률적 잠재 은닉 모델을 기반으로한, 호프먼이 개발한 협업 필
터링 알고리즘
12년 4월 14일 토요일
13. 요약
추천 엔진은 사이트를 개인화하기 위한 가장 좋은 방법
추천 시스템을 구축하는 방법
사용자 기반 분석
유사한 사용자들을 찾아서 이들이 추천한 아이템을 추천
아이템 기반 분석
특정 아이템과 유사한 아이템을 발굴해 사용자에게 추천
추천 엔진을 구축하는 방법
콘텐츠 기반
텀 벡터 사용, 아이템의 품질 보증이 어려움
협업 기반
아이템은 블랙 박스로 간주, 아이템의 사용자 교류가 유사도 판단의 기준
12년 4월 14일 토요일