Suche senden
Hochladen
Kaggle KKBox Churn Prediction
•
3 gefällt mir
•
760 views
J
Junyoung Park
Folgen
Kaggle KKBox Churn Prediction 대회 발표자료
Weniger lesen
Mehr lesen
Daten & Analysen
Melden
Teilen
Melden
Teilen
1 von 21
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
AWS EMR + Spark ML
AWS EMR + Spark ML
Junyoung Park
Hadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobile
상연 최
왜 Spark 와 infinispan 왜 같이 쓰지
왜 Spark 와 infinispan 왜 같이 쓰지
Un Gi Jung
2020 01 21_aws_recap
2020 01 21_aws_recap
KyungHo Joo
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
Matthew (정재화)
Spark은 왜 이렇게 유명해지고 있을까?
Spark은 왜 이렇게 유명해지고 있을까?
KSLUG
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Taejun Kim
카일린 Kylin, OLAP on hadoop
카일린 Kylin, OLAP on hadoop
Doo Yong Kim
Empfohlen
AWS EMR + Spark ML
AWS EMR + Spark ML
Junyoung Park
Hadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobile
상연 최
왜 Spark 와 infinispan 왜 같이 쓰지
왜 Spark 와 infinispan 왜 같이 쓰지
Un Gi Jung
2020 01 21_aws_recap
2020 01 21_aws_recap
KyungHo Joo
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
Matthew (정재화)
Spark은 왜 이렇게 유명해지고 있을까?
Spark은 왜 이렇게 유명해지고 있을까?
KSLUG
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Taejun Kim
카일린 Kylin, OLAP on hadoop
카일린 Kylin, OLAP on hadoop
Doo Yong Kim
구글의 공룡화
구글의 공룡화
juhyun
Zeppelin notebook 만들기
Zeppelin notebook 만들기
Soo-Kyung Choi
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
AWSKRUG - AWS한국사용자모임
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Taejun Kim
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcamp
Sang-bae Lim
Spark_Overview_qna
Spark_Overview_qna
현철 박
빅데이터 구축 사례
빅데이터 구축 사례
Taehyeon Oh
Google2
Google2
imscott
Google2
Google2
imscott
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Yongho Ha
Spark machine learning & deep learning
Spark machine learning & deep learning
hoondong kim
Zeppelin(제플린) 서울시립대학교 데이터 마이닝연구실 활용사례
Zeppelin(제플린) 서울시립대학교 데이터 마이닝연구실 활용사례
Taejun Kim
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
hoondong kim
(Apacje Spark)아파치 스파크 개요, 소개, 스파크란?
(Apacje Spark)아파치 스파크 개요, 소개, 스파크란?
탑크리에듀(구로디지털단지역3번출구 2분거리)
분석가를 위한 Aws 기반의 digital 플랫폼 구축
분석가를 위한 Aws 기반의 digital 플랫폼 구축
Nak Joo Kwon
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
Gruter
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
Channy Yun
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With Spark
SangHoon Lee
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
Gruter
Cassandra education material
Cassandra education material
Youngki Kim
병렬프로그래밍과 Cuda
병렬프로그래밍과 Cuda
Seok-joon Yun
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
SangHoon Lee
Weitere ähnliche Inhalte
Was ist angesagt?
구글의 공룡화
구글의 공룡화
juhyun
Zeppelin notebook 만들기
Zeppelin notebook 만들기
Soo-Kyung Choi
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
AWSKRUG - AWS한국사용자모임
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Taejun Kim
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcamp
Sang-bae Lim
Spark_Overview_qna
Spark_Overview_qna
현철 박
빅데이터 구축 사례
빅데이터 구축 사례
Taehyeon Oh
Google2
Google2
imscott
Google2
Google2
imscott
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Yongho Ha
Spark machine learning & deep learning
Spark machine learning & deep learning
hoondong kim
Zeppelin(제플린) 서울시립대학교 데이터 마이닝연구실 활용사례
Zeppelin(제플린) 서울시립대학교 데이터 마이닝연구실 활용사례
Taejun Kim
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
hoondong kim
(Apacje Spark)아파치 스파크 개요, 소개, 스파크란?
(Apacje Spark)아파치 스파크 개요, 소개, 스파크란?
탑크리에듀(구로디지털단지역3번출구 2분거리)
분석가를 위한 Aws 기반의 digital 플랫폼 구축
분석가를 위한 Aws 기반의 digital 플랫폼 구축
Nak Joo Kwon
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
Gruter
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
Channy Yun
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With Spark
SangHoon Lee
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
Gruter
Cassandra education material
Cassandra education material
Youngki Kim
Was ist angesagt?
(20)
구글의 공룡화
구글의 공룡화
Zeppelin notebook 만들기
Zeppelin notebook 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Spark & Zeppelin을 활용한 한국어 텍스트 분류
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcamp
Spark_Overview_qna
Spark_Overview_qna
빅데이터 구축 사례
빅데이터 구축 사례
Google2
Google2
Google2
Google2
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark machine learning & deep learning
Spark machine learning & deep learning
Zeppelin(제플린) 서울시립대학교 데이터 마이닝연구실 활용사례
Zeppelin(제플린) 서울시립대학교 데이터 마이닝연구실 활용사례
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
(Apacje Spark)아파치 스파크 개요, 소개, 스파크란?
(Apacje Spark)아파치 스파크 개요, 소개, 스파크란?
분석가를 위한 Aws 기반의 digital 플랫폼 구축
분석가를 위한 Aws 기반의 digital 플랫폼 구축
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With Spark
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
Cassandra education material
Cassandra education material
Ähnlich wie Kaggle KKBox Churn Prediction
병렬프로그래밍과 Cuda
병렬프로그래밍과 Cuda
Seok-joon Yun
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
SangHoon Lee
[스마트스터디]MongoDB 의 역습
[스마트스터디]MongoDB 의 역습
smartstudy_official
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
PgDay.Seoul
AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)
AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)
Amazon Web Services Korea
[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영
NAVER D2
Accelerate spring boot application with apache ignite
Accelerate spring boot application with apache ignite
YEON BOK LEE
[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준
NAVER D2
[Foss4 g2013 korea]postgis와 geoserver를 이용한 대용량 공간데이터 기반 일기도 서비스 구축 사례
[Foss4 g2013 korea]postgis와 geoserver를 이용한 대용량 공간데이터 기반 일기도 서비스 구축 사례
BJ Jang
GraphQL in Action - REST와 이별할 때 생각해야 하는 것들
GraphQL in Action - REST와 이별할 때 생각해야 하는 것들
Kivol
Cloud DW technology trends and considerations for enterprises to apply snowflake
Cloud DW technology trends and considerations for enterprises to apply snowflake
SANG WON PARK
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
Jaikwang Lee
[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_spark
NAVER D2
분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기
NAVER D2
Cassandra 멘붕기 | Devon 2012
Cassandra 멘붕기 | Devon 2012
Daum DNA
Apache spark 소개 및 실습
Apache spark 소개 및 실습
동현 강
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouse
NAVER Engineering
Binarized CNN on FPGA
Binarized CNN on FPGA
홍배 김
Ndc2011 성능 향상을_위한_데이터베이스_아키텍쳐_구축_및_개발_가이드
Ndc2011 성능 향상을_위한_데이터베이스_아키텍쳐_구축_및_개발_가이드
cranbe95
The MongoDB Strikes Back / MongoDB 의 역습
The MongoDB Strikes Back / MongoDB 의 역습
Hyun-woo Park
Ähnlich wie Kaggle KKBox Churn Prediction
(20)
병렬프로그래밍과 Cuda
병렬프로그래밍과 Cuda
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
[스마트스터디]MongoDB 의 역습
[스마트스터디]MongoDB 의 역습
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)
AWS re:Invent 특집(4) – 개발자를 위한 신규 서비스 총정리(윤석찬)
[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영
Accelerate spring boot application with apache ignite
Accelerate spring boot application with apache ignite
[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준
[Foss4 g2013 korea]postgis와 geoserver를 이용한 대용량 공간데이터 기반 일기도 서비스 구축 사례
[Foss4 g2013 korea]postgis와 geoserver를 이용한 대용량 공간데이터 기반 일기도 서비스 구축 사례
GraphQL in Action - REST와 이별할 때 생각해야 하는 것들
GraphQL in Action - REST와 이별할 때 생각해야 하는 것들
Cloud DW technology trends and considerations for enterprises to apply snowflake
Cloud DW technology trends and considerations for enterprises to apply snowflake
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_spark
분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기
Cassandra 멘붕기 | Devon 2012
Cassandra 멘붕기 | Devon 2012
Apache spark 소개 및 실습
Apache spark 소개 및 실습
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouse
Binarized CNN on FPGA
Binarized CNN on FPGA
Ndc2011 성능 향상을_위한_데이터베이스_아키텍쳐_구축_및_개발_가이드
Ndc2011 성능 향상을_위한_데이터베이스_아키텍쳐_구축_및_개발_가이드
The MongoDB Strikes Back / MongoDB 의 역습
The MongoDB Strikes Back / MongoDB 의 역습
Mehr von Junyoung Park
Quantitive Algorithm Trading
Quantitive Algorithm Trading
Junyoung Park
K-Means Clustering
K-Means Clustering
Junyoung Park
Common Design for Distributed Machine Learning
Common Design for Distributed Machine Learning
Junyoung Park
Spark config
Spark config
Junyoung Park
Cloudera & Zookeeper
Cloudera & Zookeeper
Junyoung Park
한국어 자연어처리 101
한국어 자연어처리 101
Junyoung Park
Continuous Integration with Gitlab
Continuous Integration with Gitlab
Junyoung Park
Docker Intro
Docker Intro
Junyoung Park
Python Testing for Flask
Python Testing for Flask
Junyoung Park
News clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word Embedding
Junyoung Park
Clustering, k means algorithm
Clustering, k means algorithm
Junyoung Park
About Neural Network
About Neural Network
Junyoung Park
About SVM
About SVM
Junyoung Park
Mehr von Junyoung Park
(13)
Quantitive Algorithm Trading
Quantitive Algorithm Trading
K-Means Clustering
K-Means Clustering
Common Design for Distributed Machine Learning
Common Design for Distributed Machine Learning
Spark config
Spark config
Cloudera & Zookeeper
Cloudera & Zookeeper
한국어 자연어처리 101
한국어 자연어처리 101
Continuous Integration with Gitlab
Continuous Integration with Gitlab
Docker Intro
Docker Intro
Python Testing for Flask
Python Testing for Flask
News clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word Embedding
Clustering, k means algorithm
Clustering, k means algorithm
About Neural Network
About Neural Network
About SVM
About SVM
Kaggle KKBox Churn Prediction
1.
KKBox's Churn Prediction
Challenge Can you predict when subscribers will churn?
2.
3.
데이터소개
4.
데이터소개 극단적인불균형데이터 이탈비율: 929,560 /
63,471 나중에알게된사실: 테스트셋은이탈유저1명(?)
5.
데이터소개 Kaggle에서보기 힘든대용량데이터 train :
992,931 transaction : 21,547,746 member : 5,116,194 userlog : 392,106,544 (약4억) Pandas로읽으려하면, "MemoryError" 발생
6.
Spark을활용한대용량데이터처리 데이터의사이즈를줄이고 pandas chunk,
map, concat 등을이용하면 어떻게든읽을수는있으나, 전처리까지하려면한참걸림 그냥PySpark으로처리하자 쉽고 빠르게 분산처리를지원 pandas와API가 유사하면서완벽하게 호환, toPandas()
7.
Spark SQL +
Zeppelin EDA
8.
유저이탈정의 트랜잭션이발생하는경우: 실제결제, 자동결제설정,
취소 25일까지구독을적극적으로취소 이후30일동안거래가 갱신되지않는유저 training : 17년2월이탈유저 test : 17년3월이탈유저 실제제공된데이터의기간은2015년부터2월까지 그렇다면과거 데이터를통해이탈자를생성할수있지않을까?
9.
1월이탈자데이터생성 train, member에정의되어있는유저아이디를이용 이탈비율: 986,970
/ 5,961 안타깝게도별로효과가 없었음
10.
사용한Feature 유저의히스토리(최근 6개월, 1년...) 가장마지막으로남긴
로그 음악을듣는간격, 날짜전처리 할인여부, 장수유저인지, 지불금액대비얼마나듣는지 이후에열린추천대회로부터얻은노래장르 기타등등...
11.
Feature Selection
12.
Feature Selection RandomForest 모델의경우,
Recursive Feature Elimination을사용 sklearn.feature_selection.RFE metrics.log_loss값과 Kaggle 리더보드의log loss 값이달라변수를하 나씩추가, 삭제해가면변수를선택함
13.
데이터불균형처리 http://contrib.scikit‑learn.org/imbalanced‑learn/stable/index.html
14.
Over‑sampling Naive random over‑sampling(RandomOverSampler) From
random over‑sampling to SMOTE and ADASYN(SMOTE, ADASYN) Under‑sampling Prototype generation(ClusterCentroids) Prototype selection Controlled under‑sampling techniques RandomUnderSampler, NearMiss Cleaning under‑sampling techniques AllKNN, InstanceHardnessThreshold
15.
데이터불균형처리 모델의파라메터튜닝을통해해결하는방법 StatifiedKFold + Model XGBoost
: scale_pos_weight, max_delta_step LightGBM : is_unbalance
16.
Parameter Tuning GridSearchCV (30시간
돌리다포기) RandomizedSearchCV (log_loss값이default 보다안좋음)
17.
Distributed Parameter Tuning from
spark_sklearn import GridSearchCV Sklearn에서사용하던것과 동일한인터페이스사용 AWS EMR 환경 + m4.xlarge 10대에서약50분소요
18.
Stacking XGBoost (scale_pos_weight로데이터불균형조정) LightGBM (is_unbalance로데이터불균형조정) RandomForest
(결과 값이더안좋아짐ㅠㅠ)
19.
현재리더보드상황
20.
최종결과 및느낀점 모델을돌리기에앞서데이터셋을잘추출하는게 얼마나중요한지깨닫게 됨(대회주최자욕바가지로드심) 분산처리는강력함(전처리,
파라메터튜닝) 불균형데이터의데이터균형화가 중요 parameter tuning보다feature engineering으로로그 로스값이많이 줄어듬 로그 데이터많다고 더좋은결과 값을가져오는것은아님 Data leakage로대회는망하고 허탈함 Kaggle에서리서치대회참가는비추
21.
Thank you
Jetzt herunterladen