1. 데이터 사이언스 SCHOOL
1
Abstract
Expedia의 사용자 데이터를 바탕으로 추천 알고리즘을 효율적으로 할 방안을 찾고자
함. 본디 Expedia에서는 Hotel Cluster를 예측해주길 바랐으나, 정확도가 낮고 개선점이
보이지 않아 Dataset의 특성을 파악하여 다른 방안을 찾고자 하였음. 그 결과, 특정
조건에서의 패키지 이용 특성을 발견하여, DecisionTree Classifier를 이용해 패키지
이용여부를 예측함. 이를 통해 추천 알고리즘의 성능 향상이 가능하다 판단함.
Project Description-1
GOAL (프로젝트 목표)
● 유저의 위치, 호텔의 위치 등 데이터를 바탕으로 Hotel Cluster 분류 예측
● Hotel Cluster에 대한 데이터가 없어 차선으로 패키지 사용 예측
WHY (동기)
● 실제 현업에서는 사내 데이터부터 활용가능한지 판단할 수 있을까?
● Expedia에서 제공한 데이터를 통해 추천 알고리즘 효율을 높일 방안을 찾고자 함
HOW (데이터 수집 및 분석 방법론)
● 데이터 수집
- Kaggle 사이트에서 Expedia측이 제공한 dataset을 사용 (약 3000만개)
● 방법론
- package 사용여부 예측
> dataset 분석 결과 특정한 조건에서는 package 비율이 높다는 것을 파악함.
Project-02 : Package Prediction
>개인 project / 2016.11 ~ 2016.12
<표 1.> package 선택 시
선호 국가 Top10 숙박 기간
<그림 1.> 전체 중 선호 국가 Top10에 대한
패키지 선택별 평균 숙박일 비교
package 를 주로 선택!
2. 데이터 사이언스 SCHOOL
2
Project Description-2
Why DecisionTreeClassifier
● Decision Tree는 회귀분석, 분류에 모두 사용이 가능한 모델
● Decision Tree는 규칙을 기반으로 독립 변수 공간을 분할, 다시 규칙을 적용해
분할함
● 패키지 선택 시 특정 국가나 숙박이 길 것이라 추측하고 특정 규칙을 적용할 수
있기에 선택함.
Business Insight
● 특정 국가, 특정 도시는 주로 패키지를 이용함.
● 패키지 사용시 숙박을 길게하는 경향이 있음.
● 접속 시각과 체크인 날짜까지의 기간인 준비기간 또한 무시할 수 없음.
Project-02 : Package Prediction
>개인 project / 2016.11 ~ 2016.12
<그림 2.> DecisionTreeClassifier에 사용된 Feature(X)
<그림 3.> DecisionTreeClassifier Predict 결과
<그림 4.> 숙박 1일 때
패키지 이용률(녹)
<그림 5.> 숙박 3일 때
패키지 이용률(녹)