1. 데이터 사이언스 SCHOOL
1
Abstract
UCI machine learning repository에서 weighted data와 nominal data가 섞여 있는 dataset을
효과적으로 분류 수행하는 방법을 탐구하였음. 데이터가 주어졌을 때 분석효율을 높이는 경험에
초점을 두었음.
프로젝트 개요
-데이터 읽고 모든 14개 column에 대해 각각 시각화와 도수분포를 보여주는 함수를 작성하고 시각화와 도
수분포 정보를 통해 분석 로드맵을 설정.
-로지스틱 회귀를 통한 분류 후, 평가 스코어가 좋지 않아 변수 간 상관관계를 시각화 하여 정규화 함.
-Imputing을 함수 구현하여 직접 하는 것이 편리하다 판단하여 Imputing 함수 작성함.
*Nominal data와 interval data가 섞여 있는 경우 로지스틱 회귀분석에서 OneHotEncoding이 더 제대로 된 결과를 가져올 것이라
생각된다. 이 방법으로 다시 시도해 볼 것이다.
*랜덤포레스트로 더 좋은 결과를 도출했다는 정보를 서치할 수 있었다. 이 방법도 다시 시도해 볼 것이다.
50만달러 이상 연봉 근로자 예측(Classification)
개인프로젝트
*모델 평가 스코어
향상되었고 최종
예측 성능 76%를
얻을 수 있었음