SlideShare a Scribd company logo
1 of 14
Powered by kth 이호철
대용량 실시간 분석/추천 솔루션
DAISY
Data Intelligence System
- Recommendation -
1. 데이터 마이닝 (Data Mining)
대량의 데이터 집합으로부터 유용한 정보를 추출
통계,수학 및 패턴 인식 기술 이용 - 새로운 상관관계, 패턴, 추세 등을 발견
2. 데이터 마이닝 주요 개념 및 효과
- 38% 이상의 조회가 추천에 의해 발생
- 대여되는 영화의 2/3가 추천으로부터 발생
판매의 35%가 추천으로 부터 발생 -
Classification / Prediction / Association Rules / Predictive Analytics
Data Reduction / Data Exploration / Data Visualization
3. kth DAISY
추천
소셜 분석
DAISY
실시간 분석
인기 키워드, 실시간 통계
상품 추천
친구 추천, 장소 추천
대용량 분산 DataStore
메모리 기반의 빠른 데이터 처리 속도
저비용 / 확장 용이
Real Time Analytics Solution
3. kth DAISY – 데이터 마이닝
4. 서비스에서 추천의 필요성
현 황
• 대량의 콘텐츠에서 선택의
어려움
• Mass Marketing 관점의
기존 추천
• 다양한 고객의 취향, 기호
개 선
• 추천을 통한 검색 보완
• 고객 맞춤형 콘텐츠 제공
• 데이터 마이닝을 통한
맞춤형 추천
• 구매이력 기반 연관 추천
• 고객 세분화 및 특성에 맞
는 타겟팅
상품간 유사도 기반 추천 제공 / 시스템을 통한 자동화 추천
5. DAISY 추천 FLOW
DAISY를 통한 수집/추천/API 제공 자동화
User Service DAISY UserService
서비스 Database
사용자
행동 패턴
접속/구매 HDFS
Data collector
Data Analysis / Mining
Engine
분석 모델 적용
ML, Hive 활용
사용자 데이터
- 구매 로그
- 채널 접속 통계
- 클릭 로그
요일/시간별
사용자 성향별
연관 상품 추천
구매 상품과 연
관성 높은 상품
추천
요일/시간별
BEST 카테고리
상품 추천
구매 로그
서비스 Database
Log
Agent
사용자 분류
사용자 기반 연관
분석
상품 기반 연관
분석
검증
구매로그
접속 로그
Screen
추천
6. 추천 알고리즘 – User/Item Based CF
A
C
B
D
이용자 1
이용자 2
이용자 3
high
correlation
like
User-based Filtering
A
C
B
D
이용자 1
이용자 2
이용자 3
high
correlation
like
Item-based Filtering
6. 추천 알고리즘 : Item-Based CF – Cosine Similarity
Item-Based Collaborative Filtering 의 상세 알고리즘 중
- Cosine Similarity
• Manhattan Distance로 잘 알려진, 두 지점 간의 거리를 구하는 방법의 확장
판
• 두 지점간의 거리를 구할 때 2차원의 좌표값을 사용했다면, 이를 3차원
벡터로 확장한 알고리즘
• 각 문서간의 유사도를 평가할 때, 두 문서의 각도를 척도로 함
• 값의 범위: (-1~1)
• -1: 두 vector는 정확히 반대, 0: 두 vector는 독립, 1: 두 vector는 같다
A C B
B D A
B A
A B C D
A 0 1 1 1
B 1 0 1 1
C 1 1 0 0
D 1 1 0 0
이용자 1
이용자 2
이용자 3
A- 연관 VOD
이용자 N
“A” 선택/설명 보는 중 또는 “A” 기 구매자
A와 유사도 계산
A와 B : 0.67
A와 C : 0.41
A와 D : 0.41
Item-based Filtering
(Cosine Similarity
Algorithms 적용)
B
추천
-1 : 정반대 / 0 : 독립
1 : 동일
6. 추천 알고리즘 : Item-Based CF – Cosine Similarity
구매
로그
수집
7. DAISY 추천 설계
기반 데이터
• 구매 로그
• 콘텐츠 정보
• 사용자 정보
수집 / 전처리
• 데이터 수집
• 데이터 적재
• 전처리
데이터 마이닝
• Item-based
Filtering
• Clustering
• Classification
서비스 제공
• Open-API
• 연관 상품
• 사용자 그룹별
• 카테고리별
Open
API
일 배치 수집
최근 3개월 데이터
기반
추천결과 저장
매일 배치 처리
서비스 로그 저장
(사용자 반응)
- 검증
유무선상의 TV 에서 생성하는 거대한 데이터
사용자들은 손쉽게 추천을 받게 된다.
- kth DAISY 2013 -
*. Reference
• 본 문서 설명 블로그 http://hochul.net/blog/recommendation-daisy/
• kth DAISY 소개 http://dev.kthcorp.com/2013/01/07/big-data-age-
introducing-kth-daisy/
• ML(Machine Learning) 의 대표적 오픈 소스 Apache Mahout
• http://mahout.apache.org/
• https://cwiki.apache.org/confluence/display/MAHOUT/Recommender+Do
cumentation
• http://hochul.net/blog/about-apache-mahout/
대용량 실시간 분석/추천 솔루션
DAISY
Data Intelligence System
감사합니다!

More Related Content

Similar to Kth daisy 추천솔루션_20130509_v1.0_이호철

개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술coolsign
 
Preference Elicitation as an Optimization Problem - Sepliarskaia, et al
Preference Elicitation as an Optimization Problem - Sepliarskaia, et alPreference Elicitation as an Optimization Problem - Sepliarskaia, et al
Preference Elicitation as an Optimization Problem - Sepliarskaia, et alMinjoon Kim
 
kaggle hm fashion recsys pjct 발표 자료.pptx
kaggle hm fashion recsys pjct 발표 자료.pptxkaggle hm fashion recsys pjct 발표 자료.pptx
kaggle hm fashion recsys pjct 발표 자료.pptxJohnKim663844
 
데이터과학 입문 8장
데이터과학 입문 8장데이터과학 입문 8장
데이터과학 입문 8장Jinpil Chung
 
Social Analytics 소개 (SDEC 오프모임 세미나)
Social Analytics 소개 (SDEC 오프모임 세미나)Social Analytics 소개 (SDEC 오프모임 세미나)
Social Analytics 소개 (SDEC 오프모임 세미나)NAVER D2
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programmingSeongWan Son
 
Yonsei Data Science Lab - Recommender System Intro
Yonsei Data Science Lab - Recommender System IntroYonsei Data Science Lab - Recommender System Intro
Yonsei Data Science Lab - Recommender System IntroDataScienceLab
 
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
Sun-young Kim
 
제10회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 밑바닥부터 시작하는 trivago 추천시스템
제10회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 밑바닥부터 시작하는 trivago 추천시스템제10회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 밑바닥부터 시작하는 trivago 추천시스템
제10회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 밑바닥부터 시작하는 trivago 추천시스템BOAZ Bigdata
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템Kweonwoo Moon
 
퍼지로직&상품추천프로세스개선
퍼지로직&상품추천프로세스개선퍼지로직&상품추천프로세스개선
퍼지로직&상품추천프로세스개선Jong MIn Yu
 
[시스템종합설계].pptx
[시스템종합설계].pptx[시스템종합설계].pptx
[시스템종합설계].pptxJohnKim663844
 
5일차.map reduce 활용
5일차.map reduce 활용5일차.map reduce 활용
5일차.map reduce 활용주영 송
 
알고리즘 마케팅 CH5
알고리즘 마케팅 CH5알고리즘 마케팅 CH5
알고리즘 마케팅 CH5kyuchul kim
 
Recommendation System History
Recommendation System HistoryRecommendation System History
Recommendation System HistoryTae Young Lee
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
Collaborative filtering
Collaborative filteringCollaborative filtering
Collaborative filteringSungMin OH
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드BOAZ Bigdata
 
추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례HELENA LEE
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스Lee Seungeun
 

Similar to Kth daisy 추천솔루션_20130509_v1.0_이호철 (20)

개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
 
Preference Elicitation as an Optimization Problem - Sepliarskaia, et al
Preference Elicitation as an Optimization Problem - Sepliarskaia, et alPreference Elicitation as an Optimization Problem - Sepliarskaia, et al
Preference Elicitation as an Optimization Problem - Sepliarskaia, et al
 
kaggle hm fashion recsys pjct 발표 자료.pptx
kaggle hm fashion recsys pjct 발표 자료.pptxkaggle hm fashion recsys pjct 발표 자료.pptx
kaggle hm fashion recsys pjct 발표 자료.pptx
 
데이터과학 입문 8장
데이터과학 입문 8장데이터과학 입문 8장
데이터과학 입문 8장
 
Social Analytics 소개 (SDEC 오프모임 세미나)
Social Analytics 소개 (SDEC 오프모임 세미나)Social Analytics 소개 (SDEC 오프모임 세미나)
Social Analytics 소개 (SDEC 오프모임 세미나)
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programming
 
Yonsei Data Science Lab - Recommender System Intro
Yonsei Data Science Lab - Recommender System IntroYonsei Data Science Lab - Recommender System Intro
Yonsei Data Science Lab - Recommender System Intro
 
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

 
제10회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 밑바닥부터 시작하는 trivago 추천시스템
제10회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 밑바닥부터 시작하는 trivago 추천시스템제10회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 밑바닥부터 시작하는 trivago 추천시스템
제10회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 밑바닥부터 시작하는 trivago 추천시스템
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
 
퍼지로직&상품추천프로세스개선
퍼지로직&상품추천프로세스개선퍼지로직&상품추천프로세스개선
퍼지로직&상품추천프로세스개선
 
[시스템종합설계].pptx
[시스템종합설계].pptx[시스템종합설계].pptx
[시스템종합설계].pptx
 
5일차.map reduce 활용
5일차.map reduce 활용5일차.map reduce 활용
5일차.map reduce 활용
 
알고리즘 마케팅 CH5
알고리즘 마케팅 CH5알고리즘 마케팅 CH5
알고리즘 마케팅 CH5
 
Recommendation System History
Recommendation System HistoryRecommendation System History
Recommendation System History
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
Collaborative filtering
Collaborative filteringCollaborative filtering
Collaborative filtering
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
 
추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스
 

Kth daisy 추천솔루션_20130509_v1.0_이호철

  • 1. Powered by kth 이호철 대용량 실시간 분석/추천 솔루션 DAISY Data Intelligence System - Recommendation -
  • 2. 1. 데이터 마이닝 (Data Mining) 대량의 데이터 집합으로부터 유용한 정보를 추출 통계,수학 및 패턴 인식 기술 이용 - 새로운 상관관계, 패턴, 추세 등을 발견
  • 3. 2. 데이터 마이닝 주요 개념 및 효과 - 38% 이상의 조회가 추천에 의해 발생 - 대여되는 영화의 2/3가 추천으로부터 발생 판매의 35%가 추천으로 부터 발생 - Classification / Prediction / Association Rules / Predictive Analytics Data Reduction / Data Exploration / Data Visualization
  • 4. 3. kth DAISY 추천 소셜 분석 DAISY 실시간 분석 인기 키워드, 실시간 통계 상품 추천 친구 추천, 장소 추천 대용량 분산 DataStore 메모리 기반의 빠른 데이터 처리 속도 저비용 / 확장 용이 Real Time Analytics Solution
  • 5. 3. kth DAISY – 데이터 마이닝
  • 6. 4. 서비스에서 추천의 필요성 현 황 • 대량의 콘텐츠에서 선택의 어려움 • Mass Marketing 관점의 기존 추천 • 다양한 고객의 취향, 기호 개 선 • 추천을 통한 검색 보완 • 고객 맞춤형 콘텐츠 제공 • 데이터 마이닝을 통한 맞춤형 추천 • 구매이력 기반 연관 추천 • 고객 세분화 및 특성에 맞 는 타겟팅 상품간 유사도 기반 추천 제공 / 시스템을 통한 자동화 추천
  • 7. 5. DAISY 추천 FLOW DAISY를 통한 수집/추천/API 제공 자동화 User Service DAISY UserService 서비스 Database 사용자 행동 패턴 접속/구매 HDFS Data collector Data Analysis / Mining Engine 분석 모델 적용 ML, Hive 활용 사용자 데이터 - 구매 로그 - 채널 접속 통계 - 클릭 로그 요일/시간별 사용자 성향별 연관 상품 추천 구매 상품과 연 관성 높은 상품 추천 요일/시간별 BEST 카테고리 상품 추천 구매 로그 서비스 Database Log Agent 사용자 분류 사용자 기반 연관 분석 상품 기반 연관 분석 검증 구매로그 접속 로그 Screen 추천
  • 8. 6. 추천 알고리즘 – User/Item Based CF A C B D 이용자 1 이용자 2 이용자 3 high correlation like User-based Filtering A C B D 이용자 1 이용자 2 이용자 3 high correlation like Item-based Filtering
  • 9. 6. 추천 알고리즘 : Item-Based CF – Cosine Similarity Item-Based Collaborative Filtering 의 상세 알고리즘 중 - Cosine Similarity • Manhattan Distance로 잘 알려진, 두 지점 간의 거리를 구하는 방법의 확장 판 • 두 지점간의 거리를 구할 때 2차원의 좌표값을 사용했다면, 이를 3차원 벡터로 확장한 알고리즘 • 각 문서간의 유사도를 평가할 때, 두 문서의 각도를 척도로 함 • 값의 범위: (-1~1) • -1: 두 vector는 정확히 반대, 0: 두 vector는 독립, 1: 두 vector는 같다
  • 10. A C B B D A B A A B C D A 0 1 1 1 B 1 0 1 1 C 1 1 0 0 D 1 1 0 0 이용자 1 이용자 2 이용자 3 A- 연관 VOD 이용자 N “A” 선택/설명 보는 중 또는 “A” 기 구매자 A와 유사도 계산 A와 B : 0.67 A와 C : 0.41 A와 D : 0.41 Item-based Filtering (Cosine Similarity Algorithms 적용) B 추천 -1 : 정반대 / 0 : 독립 1 : 동일 6. 추천 알고리즘 : Item-Based CF – Cosine Similarity 구매 로그 수집
  • 11. 7. DAISY 추천 설계 기반 데이터 • 구매 로그 • 콘텐츠 정보 • 사용자 정보 수집 / 전처리 • 데이터 수집 • 데이터 적재 • 전처리 데이터 마이닝 • Item-based Filtering • Clustering • Classification 서비스 제공 • Open-API • 연관 상품 • 사용자 그룹별 • 카테고리별 Open API 일 배치 수집 최근 3개월 데이터 기반 추천결과 저장 매일 배치 처리 서비스 로그 저장 (사용자 반응) - 검증
  • 12. 유무선상의 TV 에서 생성하는 거대한 데이터 사용자들은 손쉽게 추천을 받게 된다. - kth DAISY 2013 -
  • 13. *. Reference • 본 문서 설명 블로그 http://hochul.net/blog/recommendation-daisy/ • kth DAISY 소개 http://dev.kthcorp.com/2013/01/07/big-data-age- introducing-kth-daisy/ • ML(Machine Learning) 의 대표적 오픈 소스 Apache Mahout • http://mahout.apache.org/ • https://cwiki.apache.org/confluence/display/MAHOUT/Recommender+Do cumentation • http://hochul.net/blog/about-apache-mahout/
  • 14. 대용량 실시간 분석/추천 솔루션 DAISY Data Intelligence System 감사합니다!