SlideShare ist ein Scribd-Unternehmen logo
1 von 2
Downloaden Sie, um offline zu lesen
데이터 사이언스 SCHOOL
프로젝트 개요
Why ? (프로젝트를 하게 된 계기)
- 1. 스포츠에서는 어떻게 연봉이 책정될까? 정말 능력 위주로 연봉이 책정될까?
- 2. 가설 : 타자의 연봉은 전 시즌 기록을 기반으로 하여 선형 관계가 있을 것이다.
⇒ 류현진, KBO에서의 마지막 리그, 2012년 한화에서의 연봉은 4억 3천만원
⇒ 투수는 주로 선발 투수에 기록이 집중되어있으므로, 1~9번 타자 고르게 기회가 주어지는타자
기록으로예측
⇒ 선수의 경기력 + 경력 외에 연봉을 결정하는요소는 제외 (Naive 가정)
How? (데이터 수집 및 분석 방법론)
- 데이터 수집
- 야구 통계 사이트 Statiz의 2015 시즌 100타석 이상의 타자 기록 크롤링 하여 학습 데이터로사용
- X-feature (타석, 타율, 안타, 도루 등)로 사용
- 동일 사이트의시즌 별 연봉 통계를 참고하여y값으로 사용
- 방법론
- Scikit-Learn의 Linear Regression 사용
- X_feature 들을 Normaliz화 하여 정규화 및 Scaling 실시
- overfitting 및 multicolinearity제거를 위해 주성분 회기분석실시
- y값(연봉)은 이분산 문제를 해결하기위해 log화
- Scikit-Learn Linear Regression 및 Cross Validation으로 model 성능 평가
Abstract
Goal(Project 목표)
- 야구 통계 사이트 statiz에 기재되어 있는 타자의 데이터를 기반으로 타자 연봉 예측
- 시즌 기록(타석, 타율)을 입력(input)으로 연봉(y)을 출력하는 선형 회귀 모델로 2016 타자의
연봉을 예측
1
한국 프로야구 타자 연봉예측
팀 project / 2016.10 ~ 2016.11
그림 2 PCA 적용후 변수 설명력그림 1 X_feature간 상관 관계
Heatmap
상관성이 높은 변수로
PCA로 차원축소 필요
PCA 차원축소시
갖는 변수의 설명력
3개 선택시 약 78%
데이터 사이언스 SCHOOL
2
프로젝트 결과
Results
- 1. 주성분(3개) + 선수 경력을 최종 독립 변수로 설정
- 주성분 3개 변수 선택시 78%의 설명력을가짐
- 2. 선형 회귀 분석 결과 R2
0.733
- 105개( 85개 : Train set, 20개 : Test set)으로 진행
- 36번 Data, 20번 Data Outliar로 제거
- 3. Final Test 예측 결과 : 3회 평균 70%로 연봉 예측
- 3회 평균 예측 결과 70%의 성능을 보임
Conclusion
- 문제점
- 전체선수 약 230명 중 타석 100타석 이상인 선수들 105명으로 Data 부족한 영향
- 선수 경기력 이외에 나이, 포지션 등 영향을 끼치는 변수가 더 있을 것으로 생각됨.
- 야구선수 중 경력 7년 이후 FA 재계약 후 연봉이 급등하는 경우가 많아 이점이 고려되지 않았음
- 20번, 36번 Data를 확인하지 않고 Outliar로 판단해 제거 실시 ⇒ 실제 Data를 확인하여 검증 필요
- 향후 진행 및 보완 방향
- 모든 타자의 데이터를포함한 주성분 회기분석실시
- 선수의 데이터는 매년 축적되므로 일반 회귀분석이 아닌 시계열 분석을 실시해 연봉 예측 모델링을 수정
후 진행
네이버 및 다음 뉴스 분류 예측
개인 project / 2016.12.7 ~ 2016.12.21
그림 5 정치 주제 뉴스 단어 빈도
시각화
그림 4 선형 모델 OLS Report
그림 3 Data의 오차 및 영향력

Weitere ähnliche Inhalte

Was ist angesagt?

gitを使って、レポジトリの一部抽出forkしてみました
gitを使って、レポジトリの一部抽出forkしてみましたgitを使って、レポジトリの一部抽出forkしてみました
gitを使って、レポジトリの一部抽出forkしてみましたTakako Miyagawa
 
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019devCAT Studio, NEXON
 
SharePoint Online 外部共有を考える
SharePoint Online 外部共有を考えるSharePoint Online 外部共有を考える
SharePoint Online 外部共有を考えるTeruchika Yamada
 
KLabのエンジニアを支えるカルチャー
KLabのエンジニアを支えるカルチャーKLabのエンジニアを支えるカルチャー
KLabのエンジニアを支えるカルチャーKLab Inc. / Tech
 
「黒騎士と白の魔王」gRPCによるHTTP/2 - API, Streamingの実践
「黒騎士と白の魔王」gRPCによるHTTP/2 - API, Streamingの実践「黒騎士と白の魔王」gRPCによるHTTP/2 - API, Streamingの実践
「黒騎士と白の魔王」gRPCによるHTTP/2 - API, Streamingの実践Yoshifumi Kawai
 
양승명, 다음 세대 크로스플랫폼 MMORPG 아키텍처, NDC2012
양승명, 다음 세대 크로스플랫폼 MMORPG 아키텍처, NDC2012양승명, 다음 세대 크로스플랫폼 MMORPG 아키텍처, NDC2012
양승명, 다음 세대 크로스플랫폼 MMORPG 아키텍처, NDC2012devCAT Studio, NEXON
 
RESTful Web アプリの設計レビューの話
RESTful Web アプリの設計レビューの話RESTful Web アプリの設計レビューの話
RESTful Web アプリの設計レビューの話Takuto Wada
 
이승재, 일정대로 출시하기 왜 & 어떻게: 개발자를 위한 제작진행개론, NDC2017
이승재, 일정대로 출시하기 왜 & 어떻게: 개발자를 위한 제작진행개론, NDC2017이승재, 일정대로 출시하기 왜 & 어떻게: 개발자를 위한 제작진행개론, NDC2017
이승재, 일정대로 출시하기 왜 & 어떻게: 개발자를 위한 제작진행개론, NDC2017devCAT Studio, NEXON
 
스타트업에서 기술책임자로 살아가기
스타트업에서 기술책임자로 살아가기스타트업에서 기술책임자로 살아가기
스타트업에서 기술책임자로 살아가기Hyun-woo Park
 
ふつうのRailsアプリケーション開発
ふつうのRailsアプリケーション開発ふつうのRailsアプリケーション開発
ふつうのRailsアプリケーション開発Takafumi ONAKA
 
5分でわかるGoのポインタ
5分でわかるGoのポインタ5分でわかるGoのポインタ
5分でわかるGoのポインタY N
 
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)Heungsub Lee
 
Twitterのsnowflakeについて
TwitterのsnowflakeについてTwitterのsnowflakeについて
Twitterのsnowflakeについてmoai kids
 
シェル・ワンライナー160本ノック
シェル・ワンライナー160本ノックシェル・ワンライナー160本ノック
シェル・ワンライナー160本ノックRyuichi Ueda
 
스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기Sunyoung Shin
 
マイクロサービスの基盤として注目の「NGINX」最新情報 | 20180127 OSC2018 OSAKA
マイクロサービスの基盤として注目の「NGINX」最新情報 | 20180127 OSC2018 OSAKAマイクロサービスの基盤として注目の「NGINX」最新情報 | 20180127 OSC2018 OSAKA
マイクロサービスの基盤として注目の「NGINX」最新情報 | 20180127 OSC2018 OSAKAMurata Tatsuhiro
 
Redmineでメトリクスを見える化する方法
Redmineでメトリクスを見える化する方法Redmineでメトリクスを見える化する方法
Redmineでメトリクスを見える化する方法Hidehisa Matsutani
 
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 정주 김
 
マイクロサービス化デザインパターン - #AWSDevDay Tokyo 2018
マイクロサービス化デザインパターン - #AWSDevDay Tokyo 2018マイクロサービス化デザインパターン - #AWSDevDay Tokyo 2018
マイクロサービス化デザインパターン - #AWSDevDay Tokyo 2018Yusuke Suzuki
 

Was ist angesagt? (20)

gitを使って、レポジトリの一部抽出forkしてみました
gitを使って、レポジトリの一部抽出forkしてみましたgitを使って、レポジトリの一部抽出forkしてみました
gitを使って、レポジトリの一部抽出forkしてみました
 
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
 
SharePoint Online 外部共有を考える
SharePoint Online 外部共有を考えるSharePoint Online 外部共有を考える
SharePoint Online 外部共有を考える
 
KLabのエンジニアを支えるカルチャー
KLabのエンジニアを支えるカルチャーKLabのエンジニアを支えるカルチャー
KLabのエンジニアを支えるカルチャー
 
「黒騎士と白の魔王」gRPCによるHTTP/2 - API, Streamingの実践
「黒騎士と白の魔王」gRPCによるHTTP/2 - API, Streamingの実践「黒騎士と白の魔王」gRPCによるHTTP/2 - API, Streamingの実践
「黒騎士と白の魔王」gRPCによるHTTP/2 - API, Streamingの実践
 
양승명, 다음 세대 크로스플랫폼 MMORPG 아키텍처, NDC2012
양승명, 다음 세대 크로스플랫폼 MMORPG 아키텍처, NDC2012양승명, 다음 세대 크로스플랫폼 MMORPG 아키텍처, NDC2012
양승명, 다음 세대 크로스플랫폼 MMORPG 아키텍처, NDC2012
 
RESTful Web アプリの設計レビューの話
RESTful Web アプリの設計レビューの話RESTful Web アプリの設計レビューの話
RESTful Web アプリの設計レビューの話
 
이승재, 일정대로 출시하기 왜 & 어떻게: 개발자를 위한 제작진행개론, NDC2017
이승재, 일정대로 출시하기 왜 & 어떻게: 개발자를 위한 제작진행개론, NDC2017이승재, 일정대로 출시하기 왜 & 어떻게: 개발자를 위한 제작진행개론, NDC2017
이승재, 일정대로 출시하기 왜 & 어떻게: 개발자를 위한 제작진행개론, NDC2017
 
스타트업에서 기술책임자로 살아가기
스타트업에서 기술책임자로 살아가기스타트업에서 기술책임자로 살아가기
스타트업에서 기술책임자로 살아가기
 
ふつうのRailsアプリケーション開発
ふつうのRailsアプリケーション開発ふつうのRailsアプリケーション開発
ふつうのRailsアプリケーション開発
 
Go入門
Go入門Go入門
Go入門
 
5分でわかるGoのポインタ
5分でわかるGoのポインタ5分でわかるGoのポインタ
5分でわかるGoのポインタ
 
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)
[야생의 땅: 듀랑고] 서버 아키텍처 Vol. 2 (자막)
 
Twitterのsnowflakeについて
TwitterのsnowflakeについてTwitterのsnowflakeについて
Twitterのsnowflakeについて
 
シェル・ワンライナー160本ノック
シェル・ワンライナー160本ノックシェル・ワンライナー160本ノック
シェル・ワンライナー160本ノック
 
스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기
 
マイクロサービスの基盤として注目の「NGINX」最新情報 | 20180127 OSC2018 OSAKA
マイクロサービスの基盤として注目の「NGINX」最新情報 | 20180127 OSC2018 OSAKAマイクロサービスの基盤として注目の「NGINX」最新情報 | 20180127 OSC2018 OSAKA
マイクロサービスの基盤として注目の「NGINX」最新情報 | 20180127 OSC2018 OSAKA
 
Redmineでメトリクスを見える化する方法
Redmineでメトリクスを見える化する方法Redmineでメトリクスを見える化する方法
Redmineでメトリクスを見える化する方法
 
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
 
マイクロサービス化デザインパターン - #AWSDevDay Tokyo 2018
マイクロサービス化デザインパターン - #AWSDevDay Tokyo 2018マイクロサービス化デザインパターン - #AWSDevDay Tokyo 2018
マイクロサービス化デザインパターン - #AWSDevDay Tokyo 2018
 

Andere mochten auch

[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측Robert Lee
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템Kweonwoo Moon
 
[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & KaggleElle Chung
 
[패스트캠퍼스] Making Travel Schedule
[패스트캠퍼스] Making Travel Schedule[패스트캠퍼스] Making Travel Schedule
[패스트캠퍼스] Making Travel ScheduleJeong-Ho Lee
 
[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviewsSung Guk Lee
 
[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측
[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측
[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측Giwook Lee
 
[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측Giwook Lee
 
[패스트캠퍼스] Outbrain Click Prediction
[패스트캠퍼스] Outbrain Click Prediction[패스트캠퍼스] Outbrain Click Prediction
[패스트캠퍼스] Outbrain Click Prediction완식 윤
 
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델경수 김
 
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델Youngil Koh
 

Andere mochten auch (10)

[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
 
[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle
 
[패스트캠퍼스] Making Travel Schedule
[패스트캠퍼스] Making Travel Schedule[패스트캠퍼스] Making Travel Schedule
[패스트캠퍼스] Making Travel Schedule
 
[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews
 
[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측
[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측
[패스트캠퍼스] 사용자 데이터를 이용한 패키지 사용 예측
 
[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측
 
[패스트캠퍼스] Outbrain Click Prediction
[패스트캠퍼스] Outbrain Click Prediction[패스트캠퍼스] Outbrain Click Prediction
[패스트캠퍼스] Outbrain Click Prediction
 
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델
 
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델
 

Ähnlich wie [패스트캠퍼스] 야구선수 연봉예측

[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측GD-Park
 
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작DACON AI 데이콘
 
Smash box 배드민턴 운동 능력 향상을 위한 자세 교정 장치
Smash box 배드민턴 운동 능력 향상을 위한 자세 교정 장치Smash box 배드민턴 운동 능력 향상을 위한 자세 교정 장치
Smash box 배드민턴 운동 능력 향상을 위한 자세 교정 장치halim moon
 
Nba 경기결과 데이터를 활용한 선수 연봉 회귀모형 및 예측
Nba 경기결과 데이터를 활용한 선수 연봉 회귀모형 및 예측Nba 경기결과 데이터를 활용한 선수 연봉 회귀모형 및 예측
Nba 경기결과 데이터를 활용한 선수 연봉 회귀모형 및 예측FAST CAMPUS
 
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -FOOTBALL TIMELINER
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -FOOTBALL TIMELINER제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -FOOTBALL TIMELINER
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -FOOTBALL TIMELINERBOAZ Bigdata
 
파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트itproman35
 
IT전략계획- 02.정보전략계획(isp)
IT전략계획- 02.정보전략계획(isp)IT전략계획- 02.정보전략계획(isp)
IT전략계획- 02.정보전략계획(isp)InGuen Hwang
 
야구선수 연봉 예측
야구선수 연봉 예측야구선수 연봉 예측
야구선수 연봉 예측Giwook Lee
 
스포츠 팀에서 분석을 통해 성과를 거두는 7가지 분야
스포츠 팀에서 분석을 통해 성과를 거두는 7가지 분야스포츠 팀에서 분석을 통해 성과를 거두는 7가지 분야
스포츠 팀에서 분석을 통해 성과를 거두는 7가지 분야HT Kim
 

Ähnlich wie [패스트캠퍼스] 야구선수 연봉예측 (10)

[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측
 
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작
 
Smash box 배드민턴 운동 능력 향상을 위한 자세 교정 장치
Smash box 배드민턴 운동 능력 향상을 위한 자세 교정 장치Smash box 배드민턴 운동 능력 향상을 위한 자세 교정 장치
Smash box 배드민턴 운동 능력 향상을 위한 자세 교정 장치
 
Nba 경기결과 데이터를 활용한 선수 연봉 회귀모형 및 예측
Nba 경기결과 데이터를 활용한 선수 연봉 회귀모형 및 예측Nba 경기결과 데이터를 활용한 선수 연봉 회귀모형 및 예측
Nba 경기결과 데이터를 활용한 선수 연봉 회귀모형 및 예측
 
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -FOOTBALL TIMELINER
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -FOOTBALL TIMELINER제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -FOOTBALL TIMELINER
제 12회 보아즈(BOAZ) 빅데이터 컨퍼런스 -FOOTBALL TIMELINER
 
파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트파이썬 데이터 분석 3종세트
파이썬 데이터 분석 3종세트
 
Sportslife
SportslifeSportslife
Sportslife
 
IT전략계획- 02.정보전략계획(isp)
IT전략계획- 02.정보전략계획(isp)IT전략계획- 02.정보전략계획(isp)
IT전략계획- 02.정보전략계획(isp)
 
야구선수 연봉 예측
야구선수 연봉 예측야구선수 연봉 예측
야구선수 연봉 예측
 
스포츠 팀에서 분석을 통해 성과를 거두는 7가지 분야
스포츠 팀에서 분석을 통해 성과를 거두는 7가지 분야스포츠 팀에서 분석을 통해 성과를 거두는 7가지 분야
스포츠 팀에서 분석을 통해 성과를 거두는 7가지 분야
 

[패스트캠퍼스] 야구선수 연봉예측

  • 1. 데이터 사이언스 SCHOOL 프로젝트 개요 Why ? (프로젝트를 하게 된 계기) - 1. 스포츠에서는 어떻게 연봉이 책정될까? 정말 능력 위주로 연봉이 책정될까? - 2. 가설 : 타자의 연봉은 전 시즌 기록을 기반으로 하여 선형 관계가 있을 것이다. ⇒ 류현진, KBO에서의 마지막 리그, 2012년 한화에서의 연봉은 4억 3천만원 ⇒ 투수는 주로 선발 투수에 기록이 집중되어있으므로, 1~9번 타자 고르게 기회가 주어지는타자 기록으로예측 ⇒ 선수의 경기력 + 경력 외에 연봉을 결정하는요소는 제외 (Naive 가정) How? (데이터 수집 및 분석 방법론) - 데이터 수집 - 야구 통계 사이트 Statiz의 2015 시즌 100타석 이상의 타자 기록 크롤링 하여 학습 데이터로사용 - X-feature (타석, 타율, 안타, 도루 등)로 사용 - 동일 사이트의시즌 별 연봉 통계를 참고하여y값으로 사용 - 방법론 - Scikit-Learn의 Linear Regression 사용 - X_feature 들을 Normaliz화 하여 정규화 및 Scaling 실시 - overfitting 및 multicolinearity제거를 위해 주성분 회기분석실시 - y값(연봉)은 이분산 문제를 해결하기위해 log화 - Scikit-Learn Linear Regression 및 Cross Validation으로 model 성능 평가 Abstract Goal(Project 목표) - 야구 통계 사이트 statiz에 기재되어 있는 타자의 데이터를 기반으로 타자 연봉 예측 - 시즌 기록(타석, 타율)을 입력(input)으로 연봉(y)을 출력하는 선형 회귀 모델로 2016 타자의 연봉을 예측 1 한국 프로야구 타자 연봉예측 팀 project / 2016.10 ~ 2016.11 그림 2 PCA 적용후 변수 설명력그림 1 X_feature간 상관 관계 Heatmap 상관성이 높은 변수로 PCA로 차원축소 필요 PCA 차원축소시 갖는 변수의 설명력 3개 선택시 약 78%
  • 2. 데이터 사이언스 SCHOOL 2 프로젝트 결과 Results - 1. 주성분(3개) + 선수 경력을 최종 독립 변수로 설정 - 주성분 3개 변수 선택시 78%의 설명력을가짐 - 2. 선형 회귀 분석 결과 R2 0.733 - 105개( 85개 : Train set, 20개 : Test set)으로 진행 - 36번 Data, 20번 Data Outliar로 제거 - 3. Final Test 예측 결과 : 3회 평균 70%로 연봉 예측 - 3회 평균 예측 결과 70%의 성능을 보임 Conclusion - 문제점 - 전체선수 약 230명 중 타석 100타석 이상인 선수들 105명으로 Data 부족한 영향 - 선수 경기력 이외에 나이, 포지션 등 영향을 끼치는 변수가 더 있을 것으로 생각됨. - 야구선수 중 경력 7년 이후 FA 재계약 후 연봉이 급등하는 경우가 많아 이점이 고려되지 않았음 - 20번, 36번 Data를 확인하지 않고 Outliar로 판단해 제거 실시 ⇒ 실제 Data를 확인하여 검증 필요 - 향후 진행 및 보완 방향 - 모든 타자의 데이터를포함한 주성분 회기분석실시 - 선수의 데이터는 매년 축적되므로 일반 회귀분석이 아닌 시계열 분석을 실시해 연봉 예측 모델링을 수정 후 진행 네이버 및 다음 뉴스 분류 예측 개인 project / 2016.12.7 ~ 2016.12.21 그림 5 정치 주제 뉴스 단어 빈도 시각화 그림 4 선형 모델 OLS Report 그림 3 Data의 오차 및 영향력