1. 데이터 사이언스 SCHOOL
프로젝트 개요
Why ? (프로젝트를 하게 된 계기)
- 1. 스포츠에서는 어떻게 연봉이 책정될까? 정말 능력 위주로 연봉이 책정될까?
- 2. 가설 : 타자의 연봉은 전 시즌 기록을 기반으로 하여 선형 관계가 있을 것이다.
⇒ 류현진, KBO에서의 마지막 리그, 2012년 한화에서의 연봉은 4억 3천만원
⇒ 투수는 주로 선발 투수에 기록이 집중되어있으므로, 1~9번 타자 고르게 기회가 주어지는타자
기록으로예측
⇒ 선수의 경기력 + 경력 외에 연봉을 결정하는요소는 제외 (Naive 가정)
How? (데이터 수집 및 분석 방법론)
- 데이터 수집
- 야구 통계 사이트 Statiz의 2015 시즌 100타석 이상의 타자 기록 크롤링 하여 학습 데이터로사용
- X-feature (타석, 타율, 안타, 도루 등)로 사용
- 동일 사이트의시즌 별 연봉 통계를 참고하여y값으로 사용
- 방법론
- Scikit-Learn의 Linear Regression 사용
- X_feature 들을 Normaliz화 하여 정규화 및 Scaling 실시
- overfitting 및 multicolinearity제거를 위해 주성분 회기분석실시
- y값(연봉)은 이분산 문제를 해결하기위해 log화
- Scikit-Learn Linear Regression 및 Cross Validation으로 model 성능 평가
Abstract
Goal(Project 목표)
- 야구 통계 사이트 statiz에 기재되어 있는 타자의 데이터를 기반으로 타자 연봉 예측
- 시즌 기록(타석, 타율)을 입력(input)으로 연봉(y)을 출력하는 선형 회귀 모델로 2016 타자의
연봉을 예측
1
한국 프로야구 타자 연봉예측
팀 project / 2016.10 ~ 2016.11
그림 2 PCA 적용후 변수 설명력그림 1 X_feature간 상관 관계
Heatmap
상관성이 높은 변수로
PCA로 차원축소 필요
PCA 차원축소시
갖는 변수의 설명력
3개 선택시 약 78%
2. 데이터 사이언스 SCHOOL
2
프로젝트 결과
Results
- 1. 주성분(3개) + 선수 경력을 최종 독립 변수로 설정
- 주성분 3개 변수 선택시 78%의 설명력을가짐
- 2. 선형 회귀 분석 결과 R2
0.733
- 105개( 85개 : Train set, 20개 : Test set)으로 진행
- 36번 Data, 20번 Data Outliar로 제거
- 3. Final Test 예측 결과 : 3회 평균 70%로 연봉 예측
- 3회 평균 예측 결과 70%의 성능을 보임
Conclusion
- 문제점
- 전체선수 약 230명 중 타석 100타석 이상인 선수들 105명으로 Data 부족한 영향
- 선수 경기력 이외에 나이, 포지션 등 영향을 끼치는 변수가 더 있을 것으로 생각됨.
- 야구선수 중 경력 7년 이후 FA 재계약 후 연봉이 급등하는 경우가 많아 이점이 고려되지 않았음
- 20번, 36번 Data를 확인하지 않고 Outliar로 판단해 제거 실시 ⇒ 실제 Data를 확인하여 검증 필요
- 향후 진행 및 보완 방향
- 모든 타자의 데이터를포함한 주성분 회기분석실시
- 선수의 데이터는 매년 축적되므로 일반 회귀분석이 아닌 시계열 분석을 실시해 연봉 예측 모델링을 수정
후 진행
네이버 및 다음 뉴스 분류 예측
개인 project / 2016.12.7 ~ 2016.12.21
그림 5 정치 주제 뉴스 단어 빈도
시각화
그림 4 선형 모델 OLS Report
그림 3 Data의 오차 및 영향력