SlideShare a Scribd company logo
1 of 13
Download to read offline
Project-01
Kaggle Competition - Outbrain Click Prediction
*개인 Project/ 2016. 11 ~2016. 12
Abstract
Goal (프로젝트의목표)
- 대용량 데이터(샘플 8천만개 이상)를 분석하여광고가 클릭될 것인지 아닌지를예측
- 광고와 광고를 접하는 유저의 특징들을데이터화하여변수(X)로 삼고
해당 광고가 클릭될 것인지에대한 확률(클릭예상률)을 예측값(Y)으로 함
프로젝트 개요
Why ? (프로젝트를하게 된 계기)
- 이전 회사에서광고를 집행하는데있어 GA상으로 CPC, ROI 등의 단순 수치만 보면서 광고 집행 여부를
결정하던방식을 데이터분석차원에서개선해보고자함
How? (데이터 수집 및 분석 방법론)
- 데이터 수집 및 전처리
- Kaggle Competition에서 제공하는대용량 데이터 (총 30GB 이상)
- 광고와 광고를 접하는 유저의 특징을 데이터화
- 광고 : 얼마나 자주 클릭되는광고인지(광고의 피클릭수), 광고게재자의성적(게재자 기준 피 클릭수)
- 유저 : 광고 클릭 빈도, 광고 게재 페이지 방문 시간대, 소득수준, 플랫폼(데스크탑, 모바일, 태블릿)
- 방법론
- Decision Tree Model
- 광고의 클릭 여부를 예측
- 광고별로클릭될 확률에 따라 정렬 (Kaggle 답안 양식)
Data science school
<그림1. 원본데이터 샘플 및 전처리 후 샘플>
<그림2. Decision Tree>
데이터 전처리 과정
Kaggle에서 제공하는데이터 형태
(단순화한 이미지이며, 실제로는 여러 csv 파일에 분산되어 있음)
Data science school
모델 적용을 위해 구성한 데이터셋
전체 코드는 GitHub 참조
https://github.com/sseuraeki/outbrain
데이터 전처리 과정
ad_id별 피클릭수
Data science school
clicks_train.csv (트레인셋)에 있는 클릭 여부 데이터를 ad_id별로 합산
uuid별 클릭수
events.csv 에 있는 display_id별 uuid를 조인 후, uuid별 클릭수를산출
데이터 전처리 과정
지역 정보
Data science school
events.csv에 있는 geo_location을 수치로 변환 후 데이터셋에조인
국가정보는카테고리변수(순서, 크기 등이 없는 데이터)로서 분석을 위해 인코딩할필요가 있음
Label Encoding -> One Hot Encoding을 시도하였으나
200개가 넘는 국가값들을인코딩하려니메모리 에러 발생
=> 국가정보는결국 유저의 소득수준을보기 위한 것 (소득수준이클릭에 영향끼칠것으로 가정)
=> 국가정보를국가별 gdp로 대체 (인코딩 필요가 없음)
(gdp.csv는 IMF 사이트에서 구한 데이터를 엑셀에서 조인 가능 형태로 변환한 것)
데이터 전처리 과정
시간 정보
Data science school
events.csv에 있는 timestamp를 육안으로확인 가능한 형태로 변환
변환된 timestamp에서 방문 요일과 시간대를추출
데이터 전처리 과정
시간 정보
Data science school
요일 카테고리값을수치화하기위해 One Hot Encoding
시간대 카테고리값을수치화하기위해 One Hot Encoding
24시간을 모두 변환하기엔메모리 에러가 발생할 수 있어
6시간씩 4분할 (새벽, 오전, 오후, 저녁)하여 인코딩
데이터 전처리 과정
최종 데이터셋
Data science school
플랫폼 정보도 One Hot Encoding을 하여 추가 (desktop, mobile, tablet)
위의 방식으로만든 트레인셋을사용하여
같은 방식으로테스트셋도구비
테스트셋에는클릭 정보가 없으나 (클릭 여부가 답안이기때문)
트레인셋의클릭 정보를 광고피클릭수, 유저클릭수로조인함
트레인셋을사용하여 Decision Tree Model을 적용
의사결정나무 (Decision Tree)
Data science school
모델이 너무 큰 관계로 잘라서 표시함 (각 이미지를좌 -> 우로 연결)
전체 사이즈는링크 참조 : https://github.com/sseuraeki/outbrain/blob/master/tree_image.png
의사결정나무 (Decision Tree)
Data science school
의사결정나무 (Decision Tree)
Data science school
성능 체크 및 Kaggle 답안 형태로 변환
Data science school
트레인셋을통한 성능 체크
위는 display_id + ad_id 조합이 클릭될 것인지(1) 안될 것인지(0)를 예측한 것으로
평균 72% 정도의 적중률을보임
하지만 Kaggle에서 요구하는답안은
display_id별 ad_id의 클릭률을구한 후
이를 클릭률에따라 정렬하는것
성능 체크 및 Kaggle 답안 형태로 변환
Data science school
Kaggle 결과 및 개선점
Data science school
Kaggle 결과는 약 55%로
12월 6일 기준 1등(69%)과 다소 차이가 남
단순히 클릭 여부 (0, 1)를 예측하는것이 아니라 클릭률에따라 정렬 후
정렬된 상태를 채점하는것이라 점수가 높게 나오기 힘들어보임
개선점으로는
ad_id에 대한 정보가 부족했다고 생각함
- 광고별 게재 위치 (페이지의상하단, 좌우 여부) 추가
=> 이에 대한 데이터가있으나 일일이 URL을 찾아가 육안으로확인해야하기에시간이 부족
- 광고별 광고주 정보 추가
=> 광고주 또한 카테고리값이기에변환을 해야하나너무 다양하여메모리 한계가 있음
트레인셋을10%만 활용하였음
=> 컴퓨터 성능상의한계로 10%만 활용
=> 부족한 성능으로도100%를 다 활용할 방안 모색
전체적으로
광고를 접하게 되는 “유저의 성향”을 나타내는정보는 구할 수 있는건 다 적용하였으나,
각 “광고의 성향”을 나타내는정보는 시간적 한계, 컴퓨터 성능의 한계로 충분히 적용하지못함

More Related Content

What's hot

소비자분석_광진구교통사고주의및예측서비스
소비자분석_광진구교통사고주의및예측서비스소비자분석_광진구교통사고주의및예측서비스
소비자분석_광진구교통사고주의및예측서비스황 창현
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.Byounghee Kim
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)Wonjin Lee
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)
 
데이터 사이언티스트 키노트 Pt 20141008
데이터 사이언티스트 키노트 Pt 20141008데이터 사이언티스트 키노트 Pt 20141008
데이터 사이언티스트 키노트 Pt 20141008Myung-Hoe Huh
 
데이터마이닝의 개요
데이터마이닝의 개요데이터마이닝의 개요
데이터마이닝의 개요Chris Kim
 
Big data on 제조 글로벌 제조사 품질 개선 사례-Dhan-kim-2013-7-2
 Big data on 제조 글로벌 제조사 품질 개선 사례-Dhan-kim-2013-7-2 Big data on 제조 글로벌 제조사 품질 개선 사례-Dhan-kim-2013-7-2
Big data on 제조 글로벌 제조사 품질 개선 사례-Dhan-kim-2013-7-2Donghan Kim
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)SuHyun Jeon
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410Peter Woo
 
빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략Seungbyung Chae
 
저널리즘과 생존, 공존의 해법
저널리즘과 생존, 공존의 해법저널리즘과 생존, 공존의 해법
저널리즘과 생존, 공존의 해법Sungkyu Lee
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)동학 노
 

What's hot (13)

소비자분석_광진구교통사고주의및예측서비스
소비자분석_광진구교통사고주의및예측서비스소비자분석_광진구교통사고주의및예측서비스
소비자분석_광진구교통사고주의및예측서비스
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
데이터 사이언티스트 키노트 Pt 20141008
데이터 사이언티스트 키노트 Pt 20141008데이터 사이언티스트 키노트 Pt 20141008
데이터 사이언티스트 키노트 Pt 20141008
 
데이터마이닝의 개요
데이터마이닝의 개요데이터마이닝의 개요
데이터마이닝의 개요
 
Big data on 제조 글로벌 제조사 품질 개선 사례-Dhan-kim-2013-7-2
 Big data on 제조 글로벌 제조사 품질 개선 사례-Dhan-kim-2013-7-2 Big data on 제조 글로벌 제조사 품질 개선 사례-Dhan-kim-2013-7-2
Big data on 제조 글로벌 제조사 품질 개선 사례-Dhan-kim-2013-7-2
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
 
빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략
 
저널리즘과 생존, 공존의 해법
저널리즘과 생존, 공존의 해법저널리즘과 생존, 공존의 해법
저널리즘과 생존, 공존의 해법
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
빅데이터
빅데이터빅데이터
빅데이터
 

Viewers also liked

[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측
[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측
[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측Giwook Lee
 
[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측Giwook Lee
 
[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & KaggleElle Chung
 
[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviewsSung Guk Lee
 
[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측Robert Lee
 
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측Robert Lee
 
머신러닝 In 충치 진단
머신러닝 In 충치 진단머신러닝 In 충치 진단
머신러닝 In 충치 진단영준 유
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템Kweonwoo Moon
 
[패스트캠퍼스] Making Travel Schedule
[패스트캠퍼스] Making Travel Schedule[패스트캠퍼스] Making Travel Schedule
[패스트캠퍼스] Making Travel ScheduleJeong-Ho Lee
 
[데이터를 부탁해] 비전공자가 데이터 분석가로 거듭나기 by 황준식
[데이터를 부탁해] 비전공자가 데이터 분석가로 거듭나기 by 황준식 [데이터를 부탁해] 비전공자가 데이터 분석가로 거듭나기 by 황준식
[데이터를 부탁해] 비전공자가 데이터 분석가로 거듭나기 by 황준식 FAST CAMPUS
 
집단지성 프로그래밍 06-의사결정트리-01
집단지성 프로그래밍 06-의사결정트리-01집단지성 프로그래밍 06-의사결정트리-01
집단지성 프로그래밍 06-의사결정트리-01Kwang Woo NAM
 
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템FAST CAMPUS
 
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규FAST CAMPUS
 
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범FAST CAMPUS
 
Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)FAST CAMPUS
 
Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템FAST CAMPUS
 

Viewers also liked (16)

[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측
[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측
[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측
 
[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측
 
[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle
 
[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews
 
[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측
 
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
 
머신러닝 In 충치 진단
머신러닝 In 충치 진단머신러닝 In 충치 진단
머신러닝 In 충치 진단
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
 
[패스트캠퍼스] Making Travel Schedule
[패스트캠퍼스] Making Travel Schedule[패스트캠퍼스] Making Travel Schedule
[패스트캠퍼스] Making Travel Schedule
 
[데이터를 부탁해] 비전공자가 데이터 분석가로 거듭나기 by 황준식
[데이터를 부탁해] 비전공자가 데이터 분석가로 거듭나기 by 황준식 [데이터를 부탁해] 비전공자가 데이터 분석가로 거듭나기 by 황준식
[데이터를 부탁해] 비전공자가 데이터 분석가로 거듭나기 by 황준식
 
집단지성 프로그래밍 06-의사결정트리-01
집단지성 프로그래밍 06-의사결정트리-01집단지성 프로그래밍 06-의사결정트리-01
집단지성 프로그래밍 06-의사결정트리-01
 
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
 
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
 
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
 
Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)
 
Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템
 

Similar to [패스트캠퍼스] Outbrain Click Prediction

Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담
Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담
Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담Juseok Kim
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
Google analytics in business
Google analytics in businessGoogle analytics in business
Google analytics in businessTae Young Lee
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.
 
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...Jeongmin Ju
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)Jaimie Kwon (권재명)
 
언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차chan693050
 
[BizSpring] Data Consulting_사례집.pdf
[BizSpring] Data Consulting_사례집.pdf[BizSpring] Data Consulting_사례집.pdf
[BizSpring] Data Consulting_사례집.pdfBizSpring Inc.
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오Kihoon4
 
Predictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPredictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPikdata Inc.
 
AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...
AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...
AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...SodamKim14
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례Amazon Web Services Korea
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
[Gastudy.net] Digital analytics fundamentals
[Gastudy.net] Digital analytics fundamentals[Gastudy.net] Digital analytics fundamentals
[Gastudy.net] Digital analytics fundamentalsSeHeung Oh
 
Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5Eunyoung Kim
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석YOO SE KYUN
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기Amazon Web Services Korea
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
Offering 효과 분석-시계열 예측 모델 활용
Offering 효과 분석-시계열 예측 모델 활용Offering 효과 분석-시계열 예측 모델 활용
Offering 효과 분석-시계열 예측 모델 활용JeongMin Kwon
 

Similar to [패스트캠퍼스] Outbrain Click Prediction (20)

Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담
Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담
Display Ads Platform에 대한 약간 그럴싸한 안내와 잡담
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
Google analytics in business
Google analytics in businessGoogle analytics in business
Google analytics in business
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...[데이터야놀자 2023]  비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
[데이터야놀자 2023] 비즈니스 분석가 vs 프로덕트 분석가_ 데이터 분석ᄀ...
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차
 
[BizSpring] Data Consulting_사례집.pdf
[BizSpring] Data Consulting_사례집.pdf[BizSpring] Data Consulting_사례집.pdf
[BizSpring] Data Consulting_사례집.pdf
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오
 
Predictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPredictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryx
 
AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...
AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...
AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
[Gastudy.net] Digital analytics fundamentals
[Gastudy.net] Digital analytics fundamentals[Gastudy.net] Digital analytics fundamentals
[Gastudy.net] Digital analytics fundamentals
 
20140320_private
20140320_private20140320_private
20140320_private
 
Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
Offering 효과 분석-시계열 예측 모델 활용
Offering 효과 분석-시계열 예측 모델 활용Offering 효과 분석-시계열 예측 모델 활용
Offering 효과 분석-시계열 예측 모델 활용
 

[패스트캠퍼스] Outbrain Click Prediction

  • 1. Project-01 Kaggle Competition - Outbrain Click Prediction *개인 Project/ 2016. 11 ~2016. 12 Abstract Goal (프로젝트의목표) - 대용량 데이터(샘플 8천만개 이상)를 분석하여광고가 클릭될 것인지 아닌지를예측 - 광고와 광고를 접하는 유저의 특징들을데이터화하여변수(X)로 삼고 해당 광고가 클릭될 것인지에대한 확률(클릭예상률)을 예측값(Y)으로 함 프로젝트 개요 Why ? (프로젝트를하게 된 계기) - 이전 회사에서광고를 집행하는데있어 GA상으로 CPC, ROI 등의 단순 수치만 보면서 광고 집행 여부를 결정하던방식을 데이터분석차원에서개선해보고자함 How? (데이터 수집 및 분석 방법론) - 데이터 수집 및 전처리 - Kaggle Competition에서 제공하는대용량 데이터 (총 30GB 이상) - 광고와 광고를 접하는 유저의 특징을 데이터화 - 광고 : 얼마나 자주 클릭되는광고인지(광고의 피클릭수), 광고게재자의성적(게재자 기준 피 클릭수) - 유저 : 광고 클릭 빈도, 광고 게재 페이지 방문 시간대, 소득수준, 플랫폼(데스크탑, 모바일, 태블릿) - 방법론 - Decision Tree Model - 광고의 클릭 여부를 예측 - 광고별로클릭될 확률에 따라 정렬 (Kaggle 답안 양식) Data science school <그림1. 원본데이터 샘플 및 전처리 후 샘플> <그림2. Decision Tree>
  • 2. 데이터 전처리 과정 Kaggle에서 제공하는데이터 형태 (단순화한 이미지이며, 실제로는 여러 csv 파일에 분산되어 있음) Data science school 모델 적용을 위해 구성한 데이터셋 전체 코드는 GitHub 참조 https://github.com/sseuraeki/outbrain
  • 3. 데이터 전처리 과정 ad_id별 피클릭수 Data science school clicks_train.csv (트레인셋)에 있는 클릭 여부 데이터를 ad_id별로 합산 uuid별 클릭수 events.csv 에 있는 display_id별 uuid를 조인 후, uuid별 클릭수를산출
  • 4. 데이터 전처리 과정 지역 정보 Data science school events.csv에 있는 geo_location을 수치로 변환 후 데이터셋에조인 국가정보는카테고리변수(순서, 크기 등이 없는 데이터)로서 분석을 위해 인코딩할필요가 있음 Label Encoding -> One Hot Encoding을 시도하였으나 200개가 넘는 국가값들을인코딩하려니메모리 에러 발생 => 국가정보는결국 유저의 소득수준을보기 위한 것 (소득수준이클릭에 영향끼칠것으로 가정) => 국가정보를국가별 gdp로 대체 (인코딩 필요가 없음) (gdp.csv는 IMF 사이트에서 구한 데이터를 엑셀에서 조인 가능 형태로 변환한 것)
  • 5. 데이터 전처리 과정 시간 정보 Data science school events.csv에 있는 timestamp를 육안으로확인 가능한 형태로 변환 변환된 timestamp에서 방문 요일과 시간대를추출
  • 6. 데이터 전처리 과정 시간 정보 Data science school 요일 카테고리값을수치화하기위해 One Hot Encoding 시간대 카테고리값을수치화하기위해 One Hot Encoding 24시간을 모두 변환하기엔메모리 에러가 발생할 수 있어 6시간씩 4분할 (새벽, 오전, 오후, 저녁)하여 인코딩
  • 7. 데이터 전처리 과정 최종 데이터셋 Data science school 플랫폼 정보도 One Hot Encoding을 하여 추가 (desktop, mobile, tablet) 위의 방식으로만든 트레인셋을사용하여 같은 방식으로테스트셋도구비 테스트셋에는클릭 정보가 없으나 (클릭 여부가 답안이기때문) 트레인셋의클릭 정보를 광고피클릭수, 유저클릭수로조인함 트레인셋을사용하여 Decision Tree Model을 적용
  • 8. 의사결정나무 (Decision Tree) Data science school 모델이 너무 큰 관계로 잘라서 표시함 (각 이미지를좌 -> 우로 연결) 전체 사이즈는링크 참조 : https://github.com/sseuraeki/outbrain/blob/master/tree_image.png
  • 11. 성능 체크 및 Kaggle 답안 형태로 변환 Data science school 트레인셋을통한 성능 체크 위는 display_id + ad_id 조합이 클릭될 것인지(1) 안될 것인지(0)를 예측한 것으로 평균 72% 정도의 적중률을보임 하지만 Kaggle에서 요구하는답안은 display_id별 ad_id의 클릭률을구한 후 이를 클릭률에따라 정렬하는것
  • 12. 성능 체크 및 Kaggle 답안 형태로 변환 Data science school
  • 13. Kaggle 결과 및 개선점 Data science school Kaggle 결과는 약 55%로 12월 6일 기준 1등(69%)과 다소 차이가 남 단순히 클릭 여부 (0, 1)를 예측하는것이 아니라 클릭률에따라 정렬 후 정렬된 상태를 채점하는것이라 점수가 높게 나오기 힘들어보임 개선점으로는 ad_id에 대한 정보가 부족했다고 생각함 - 광고별 게재 위치 (페이지의상하단, 좌우 여부) 추가 => 이에 대한 데이터가있으나 일일이 URL을 찾아가 육안으로확인해야하기에시간이 부족 - 광고별 광고주 정보 추가 => 광고주 또한 카테고리값이기에변환을 해야하나너무 다양하여메모리 한계가 있음 트레인셋을10%만 활용하였음 => 컴퓨터 성능상의한계로 10%만 활용 => 부족한 성능으로도100%를 다 활용할 방안 모색 전체적으로 광고를 접하게 되는 “유저의 성향”을 나타내는정보는 구할 수 있는건 다 적용하였으나, 각 “광고의 성향”을 나타내는정보는 시간적 한계, 컴퓨터 성능의 한계로 충분히 적용하지못함