SlideShare ist ein Scribd-Unternehmen logo
1 von 2
Downloaden Sie, um offline zu lesen
데이터 사이언스 SCHOOL
1
Abstract
Expedia의 사용자 데이터를 바탕으로 추천 알고리즘을 효율적으로 할 방안을 찾고자
함. 본디 Expedia에서는 Hotel Cluster를 예측해주길 바랐으나, 정확도가 낮고 개선점이
보이지 않아 Dataset의 특성을 파악하여 다른 방안을 찾고자 하였음. 그 결과, 특정
조건에서의 패키지 이용 특성을 발견하여, DecisionTree Classifier를 이용해 패키지
이용여부를 예측함. 이를 통해 추천 알고리즘의 성능 향상이 가능하다 판단함.
Project Description-1
GOAL (프로젝트 목표)
● 유저의 위치, 호텔의 위치 등 데이터를 바탕으로 Hotel Cluster 분류 예측
● Hotel Cluster에 대한 데이터가 없어 차선으로 패키지 사용 예측
WHY (동기)
● 실제 현업에서는 사내 데이터부터 활용가능한지 판단할 수 있을까?
● Expedia에서 제공한 데이터를 통해 추천 알고리즘 효율을 높일 방안을 찾고자 함
HOW (데이터 수집 및 분석 방법론)
● 데이터 수집
- Kaggle 사이트에서 Expedia측이 제공한 dataset을 사용 (약 3000만개)
● 방법론
- package 사용여부 예측
> dataset 분석 결과 특정한 조건에서는 package 비율이 높다는 것을 파악함.
Project-02 : Package Prediction
>개인 project / 2016.11 ~ 2016.12
<표 1.> package 선택 시
선호 국가 Top10 숙박 기간
<그림 1.> 전체 중 선호 국가 Top10에 대한
패키지 선택별 평균 숙박일 비교
package 를 주로 선택!
데이터 사이언스 SCHOOL
2
Project Description-2
Why DecisionTreeClassifier
● Decision Tree는 회귀분석, 분류에 모두 사용이 가능한 모델
● Decision Tree는 규칙을 기반으로 독립 변수 공간을 분할, 다시 규칙을 적용해
분할함
● 패키지 선택 시 특정 국가나 숙박이 길 것이라 추측하고 특정 규칙을 적용할 수
있기에 선택함.
Business Insight
● 특정 국가, 특정 도시는 주로 패키지를 이용함.
● 패키지 사용시 숙박을 길게하는 경향이 있음.
● 접속 시각과 체크인 날짜까지의 기간인 준비기간 또한 무시할 수 없음.
Project-02 : Package Prediction
>개인 project / 2016.11 ~ 2016.12
<그림 2.> DecisionTreeClassifier에 사용된 Feature(X)
<그림 3.> DecisionTreeClassifier Predict 결과
<그림 4.> 숙박 1일 때
패키지 이용률(녹)
<그림 5.> 숙박 3일 때
패키지 이용률(녹)

Weitere ähnliche Inhalte

Andere mochten auch

[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviewsSung Guk Lee
 
[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측Robert Lee
 
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측Robert Lee
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템Kweonwoo Moon
 
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템FAST CAMPUS
 
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규FAST CAMPUS
 
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범FAST CAMPUS
 
Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)FAST CAMPUS
 
Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템FAST CAMPUS
 

Andere mochten auch (9)

[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews
 
[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측
 
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
 
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
 
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
 
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
 
Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)
 
Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템
 

[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측

  • 1. 데이터 사이언스 SCHOOL 1 Abstract Expedia의 사용자 데이터를 바탕으로 추천 알고리즘을 효율적으로 할 방안을 찾고자 함. 본디 Expedia에서는 Hotel Cluster를 예측해주길 바랐으나, 정확도가 낮고 개선점이 보이지 않아 Dataset의 특성을 파악하여 다른 방안을 찾고자 하였음. 그 결과, 특정 조건에서의 패키지 이용 특성을 발견하여, DecisionTree Classifier를 이용해 패키지 이용여부를 예측함. 이를 통해 추천 알고리즘의 성능 향상이 가능하다 판단함. Project Description-1 GOAL (프로젝트 목표) ● 유저의 위치, 호텔의 위치 등 데이터를 바탕으로 Hotel Cluster 분류 예측 ● Hotel Cluster에 대한 데이터가 없어 차선으로 패키지 사용 예측 WHY (동기) ● 실제 현업에서는 사내 데이터부터 활용가능한지 판단할 수 있을까? ● Expedia에서 제공한 데이터를 통해 추천 알고리즘 효율을 높일 방안을 찾고자 함 HOW (데이터 수집 및 분석 방법론) ● 데이터 수집 - Kaggle 사이트에서 Expedia측이 제공한 dataset을 사용 (약 3000만개) ● 방법론 - package 사용여부 예측 > dataset 분석 결과 특정한 조건에서는 package 비율이 높다는 것을 파악함. Project-02 : Package Prediction >개인 project / 2016.11 ~ 2016.12 <표 1.> package 선택 시 선호 국가 Top10 숙박 기간 <그림 1.> 전체 중 선호 국가 Top10에 대한 패키지 선택별 평균 숙박일 비교 package 를 주로 선택!
  • 2. 데이터 사이언스 SCHOOL 2 Project Description-2 Why DecisionTreeClassifier ● Decision Tree는 회귀분석, 분류에 모두 사용이 가능한 모델 ● Decision Tree는 규칙을 기반으로 독립 변수 공간을 분할, 다시 규칙을 적용해 분할함 ● 패키지 선택 시 특정 국가나 숙박이 길 것이라 추측하고 특정 규칙을 적용할 수 있기에 선택함. Business Insight ● 특정 국가, 특정 도시는 주로 패키지를 이용함. ● 패키지 사용시 숙박을 길게하는 경향이 있음. ● 접속 시각과 체크인 날짜까지의 기간인 준비기간 또한 무시할 수 없음. Project-02 : Package Prediction >개인 project / 2016.11 ~ 2016.12 <그림 2.> DecisionTreeClassifier에 사용된 Feature(X) <그림 3.> DecisionTreeClassifier Predict 결과 <그림 4.> 숙박 1일 때 패키지 이용률(녹) <그림 5.> 숙박 3일 때 패키지 이용률(녹)