SlideShare ist ein Scribd-Unternehmen logo
1 von 22
Downloaden Sie, um offline zu lesen
球種予測に関する論文紹介
スポーツアナリティクス Advent Calendar 2019 7日目
論文について
2
Using Multi-Class Classification Methods to Predict Baseball Pitch Types
“多クラス分類法を用いた投球予測”
Glenn Sidle, Hien Tran. Journal of Sports Analytics, vol.4, no.1, pp.85-93, 2018.
背景
どんな内容?
3
球種予測をテーマにした研究はいくつもあるが,多くは2値(ストレート
or変化球)のみを予測するもので多クラス(球種そのもの)を予測する研究
は2つしかない.
さらにその2つの研究もワールドシリーズの試合だけを予測していたり,
投手を4人だけに絞っていたりと非常に限定的.
そこでこれらの2つの論文を拡張し,より汎用的な予測を行った際にどれ
だけの精度を得ることができるのかを知りたい.
長期間のデータでもっと多くの投手を対象として球種予測を行う.
その際に以下を調査する.
1. 最も良いパフォーマンスを発揮する手法とその精度
2. 予測精度と投手の成績指標は関係性があるのか
3. 予測するうえで重要な変数は何なのか
4. 実際のゲームをリアルタイムで予測したときにどれだけの精度を残
せるか
目的
他研究との比較
4
球種を予測(多クラス)
Ganeshapillai and Guttag (2012)
Hamilton (2014)
Hoang (2015)
Yifan (2018)
スト/変化を予測(2値)
Woodward
(2014)
Bock (2015)
限定的
当研究
汎用的
データ概要 ~PITCHf/xについて~
5
複数の地点からボールを撮影することで,リ
リースポイントや投球コースだけでなく,二次
的にボールの球速・変化量を測定することがで
きる.
得られた投球データを判別機にかけることで球
種ラベルを自動的に割り振っている.球種は
FF,CT,SI,SL,CU,CH,KNの7種類.
PITCHf/xについて
2014&2015年度ともに500球以上投げている投手287人
が対象.
内訳は先発が150人,リリーフが137人.
投手ごとのデータ数はmax10343, ave4682, min1108
投球ごとの特徴量はmax103, min63, ave81
データの絞り込みFF:ストレート
CT:カットボール
SI:シンカー
SL:スライダー
CU:カーブ
CH:チェンジアップ
KN:ナックル
データ概要 ~使用する変数①~
6
属性値 種類
イニング カテゴリ
表裏 2値
アウト カテゴリ
打順 カテゴリ
打席数 カテゴリ
スコア カテゴリ
日時 カテゴリ
打席位置 2値
ストライク カテゴリ
ボール カテゴリ
ランナーがいるか 2値
属性値 種類
塁状況 カテゴリ
前打席結果 カテゴリ
前投球結果 カテゴリ
前投球の球種 カテゴリ
前投球の投球座標 カテゴリ
投球数 カテゴリ
前投球情報
(球速・変化量)
連続値
直近5球の傾向 連続値
直近10球の傾向 連続値
直近20球の傾向 連続値
データ概要 ~使用する変数②~
7
属性値 種類
直近5球のストライク率 連続値
直近10球のストライク率 連続値
直近20球のストライク率 連続値
ピッチャーの傾向(累計) 連続値
ピッチャーの傾向(vs当該バッター) 連続値
バッターのストライク傾向 連続値
バッターの打席結果傾向 連続値
バッターのボール傾向 連続値
比較する3つの手法
8
LDA
SVM Random Forest
手法概要 ~LDA~
9
Fisherの判別分析:クラス間分散とクラス内分散の比を
最大にするような𝝎で射影する
𝑦 = 𝒘 𝑻
𝒙
𝑚𝑎𝑥𝑖𝑚𝑖𝑧𝑒 𝐽 𝒘 =
𝒎 𝟐 − 𝒎 𝟏
𝟐
𝒔 𝟏
𝟐
+ 𝒔 𝟐
𝟐
=
𝒘 𝑻
𝑺 𝑩 𝒘
𝒘 𝑻 𝑺 𝑾 𝒘
𝑺 𝑩 = 𝒎 𝟐 − 𝒎 𝟏 𝒎 𝟐 − 𝒎 𝟏
𝑇
𝑺 𝑾 = ෍
𝑘=1,2
෍
𝑛∈𝐶 𝑘
𝒙 𝒏 − 𝒎 𝒌 𝒙 𝒏 − 𝒎 𝒌
𝑻
2クラスの場合
多クラスの場合
𝑦 = 𝒘 𝑻
𝒙
𝑚𝑎𝑥𝑖𝑚𝑖𝑧𝑒 𝐽 𝒘 =
𝒘 𝑻
𝑺 𝑩′𝒘
𝒘 𝑻 𝑺 𝑾′𝒘
𝑺 𝑩′ = ෍
𝑘=1
𝐾
𝑁𝑘 𝒎 𝒌 − 𝒎 𝒎 𝒌 − 𝒎 𝑇
𝑺 𝑾′ = ෍
𝑘=1
𝐾
෍
𝑛∈𝐶 𝑘
𝒙 𝒏 − 𝒎 𝒌 𝒙 𝒏 − 𝒎 𝒌
𝑻
手法紹介 ~SVM~
10
教師データ𝒙の中で最も他のクラスに近いサンプル(=サ
ポートベクター)を基準とし,その距離が最大となるように
分類する手法.スラック変数𝜁を導入することで誤判別を許
容する.Cは誤差の許容程度を決めるハイパーパラメータ.
min
𝒘 2
2
+ 𝐶 ෍
𝑛=1
𝑁
𝜁 𝑛
ソフトマージン(C-SVM)
カーネル関数の一種
𝜑 𝑥 = 𝑒 𝜸 𝑥 𝑖−𝑥 𝑗
𝜸は一つの訓練データが与える影響の範囲を意味するハイ
パーパラメータ.𝛾の値が小さいほど単純な決定境界となり,
大きいほど複雑な決定境界となる.
RBFカーネル
手法紹介 ~SVM~
11
2クラスのペアを作っていき,それらを分類する
SVMをペアごとに作成する.nクラスに対して
𝑛𝐶2個のSVMが必要になるため,クラス数が多
い場合は計算コストが大きくなる.
1対1分類法(ovo)
あるクラスとその他のクラス全部を分類する
SVMを作成する.nクラスに対してn個のSVMが
必要になり,ovoに比べて計算コストがかから
ない.
1対他分類法(ovr)
ovoだと中央にどのクラスにも属さない空白の領域が生ま
れてしまうというデメリットがある.一方ovrの場合は空白
の領域が発生しない.後者を採用した方が予測精度を高め
ることができそう.
→ovrを採用
多クラス分類への応用
手法紹介 ~ランダムフォレスト~
12
CARTを採用(2進木の決定木)
不純度にはジニ係数を採用
𝐼 = 1 − ෍
𝑖=1
𝑁
𝑃2
(𝑖)
コスト関数を基準に剪定(具体的なコスト関数は
明記されていない)
オプション
予測をする上での変数の重要度を算出する方法
手順
① 訓練データをhold-out validation,基準となるエラー𝐸 𝑂𝑖 を求める
② 訓練データの中で対象にしたい変数𝑃𝑖 だけをランダムに並べ替えて新たな訓練データを作る
③ ②で作成した訓練データでhold-out validationしエラー値𝐸 𝑃𝑖を求める
④ 𝐸 𝑂𝑖 − 𝐸 𝑃𝑖を求める.これは変数𝑃𝑖の重要度を表す
⑤ ②~④をすべての変数で行い,すべての変数の重要度を求める
PVDE (permuted variable delta error)
予測結果を見る前に…
13
3つの手法の精度はnaïve guessを基準として比較
naïve guess:その投手の中で最も投球割合が高い球種と予測
ex)訓練データでのアリエッタの投球割合を見るとシンカーが最も投球割合が
高い(26.31%)
テストデータでの投球割合は34.03%
→アリエッタに関してのnaïve guessの精度は34.03%
naïve guessの全投手の平均は54.38%
naïve guessについて
予測結果
14
ランダムフォレストが最も良い精度になった. ത𝑃𝐵のみLDAが一番良い精度となったが,LDAは ത𝑃 𝑊の
数字が悪すぎる.またSVMは処理時間が一番長いのにもかかわらず最も劣った精度となった.
naïve超えの数(投手)
naïve超えの確率
予測精度
naïveとの差の平均
naïve以上の時の差の平均
naïve以下の時の差の平均
平均精度の範囲?
処理時間
以後の予測はすべてランダムフォレスト!
予測結果 ~球種別~
15
FF:ストレート
CT:カットボール
SI:シンカー
SL:スライダー
CU:カーブ
CH:チェンジアップ
KN:ナックル
Odrisamer Despaigne投手についての予測
先行研究である(Woodward2014)との比較用
に示しているが,先行研究では細部まで説明
されていなかったり,例が限定的であるため
完全に比較することはできない.
そのため,この結果についての考察は示され
ていない.
Woodwardの結果
予測結果 ~カウント別~
16
カウント別で見ると打者有利(ボール先行)のときに正答
率が高い
→四球を避けるためカウントをとれる球を投げるから
逆に投手有利の時は正答率が低い
→自由に投げれて選択肢が広がるから
論文での考察
初球(0-0)でこれだけの精度を残せているのは驚き.投球
割合の低い変化球を初球に使うことはよくあるが,その
時もきちんと予測できているのか興味がある.
1-2,2-2の時の予測が難しいのは直感通り.ただ3-2に
なった途端に正答率が15%程度も上がるのは驚き.3-2か
ら誘い球を投じることもあるが,その時も予測できてい
るのか.(自分の研究にかかわってくる)
自分の考察・コメント
予測結果 ~予測の良し悪し別~
17
1つの球種ばかり投げてる投手はnaive guessからの正答率の増加割合が小さい
あまり伸びなかった投手の方がFIP,WARの数字が良い
→大差はないがこの結果から予測するのが難しい投手ほど、ゲームで優れているといえる
また高いWARを持った予測の発展が難しい投手は平均して球種が少ない
→一つの球種ばかり投げているからそもそものnaïve guessが高い(そりゃそうだ)
→わかっていても打てないようなウイニングショット的な球種を持っているといえる?
変数重要度(PVDE)
18
投球数は投手の疲労具合を表すから,当然球種
選択に大きな影響を与える.カウントも球種選
択に大きな影響を与えそうなので2番,3番に来
るのも自然.驚くような結果ではない.
論文での考察
カウントを差し置いて投球数が1番影響を与えて
いるのは予想外.
また,塁状況にかかわる変数も大きく効いてく
るかと思ったが,重要度はあまり高くならな
かった.得点圏かそうでないかといった分け方
ならもう少し重要度は高くなるかもしれない.
前球や前打席の情報は重要度が高いが,これが2
球前以前の投球も変数に加えたらどこまで影響
を与えているのか.(自分の研究に大きくかか
わってくる)
自分の考察・コメント
イニング
表裏
アウト
打順
打席数
スコア
日時
打席位置
ストライク
ボール
ランナーがいるか
塁状況
前打席結果
前投球結果
前投球球種
前投球座標
投球数
前投球情報(球速・変化量)
直近5球の傾向
直近10球の傾向
直近20球の傾向
直近5球のストライク率
直近10球のストライク率
直近20球のストライク率
ピッチャーの傾向(累計)
ピッチャーの傾向(vs当該打者)
バッターのストライク傾向
バッターの打席結果傾向
バッターのボール傾向
リアルタイムで投球予測
19
いままでは与えられた固定の訓練データ・テストデータで予測していたが,実際にリアルタイムで
予測する際には,日々データが蓄積されていくため,モデルの更新を行っていった方が適切である.
2016年度9,10月レギュラーシーズンの試合が対象.対象期間に登板した全投手1人1人に対しモデル
を構築.データの収集はオールスター明け(7月の中旬)からスタート.
全投球の予測精度
59.07%
各ゲーム各投手の
平均精度
60.09%
結果
試合ごと
に更新
結論と今後の課題
20
• LDA,SVM,ランダムフォレストの3つの手法で球種を予測したところランダ
ムフォレストが最も精度が高く,その精度は66.62%だった.
• 予測に重要な変数として投球数,カウント,前投球の情報などが挙げられ
た.
• 予測が難しい投手ほど、FIPやWARといった指標も良い傾向にあった
• リアルタイムで予測すると59.07%の精度を得られた.
• (Hoang 2015)のような特徴選択法を用いて,どの変数が予測に重要なのか
見極める必要がある.
• 多クラス分類問題を構築するためにはFスコアやROC曲線分析などの実装
が必要.そのためには有効非巡回グラフを使用した分類の導入が求められ
る.
参考文献(論文)
21
• Sidle, Glenn, and Hien Tran. "Using multi-class classification methods to
predict baseball pitch types." Journal of Sports Analytics Preprint: 1-9.
• Ganeshapillai, Gartheeban, and John Guttag. "Predicting the next pitch."
Sloan Sports Analytics Conference. 2012.
• Noah Woodward. A Decision Tree Approach to Pitch Prediction. The
Hardball Times, 2014.
• Bock, Joel R. "Pitch sequence complexity and long-term pitcher
performance." Sports 3.1 (2015): 40-55.
• Hoang, Phuong. "Supervised Learning in Baseball Pitch Prediction and
Hepatitis C Diagnosis." (2015).
• Hamilton, Michael, et al. "Applying machine learning techniques to
baseball pitch prediction." Proceedings of the 3rd International Conference
on Pattern Recognition Applications and Methods. SCITEPRESS-Science
and Technology Publications, Lda, 2014.
参考文献(論文以外)
22
• C.M. ビショップ(2012)『パターン認識と機械学習 上』(元田浩ほか訳)
丸善出版
• MathWorks「マルチクラス分類用のバイナリ分類決定木の近似」,
http://jp.mathworks.com/help/stats/fitctree.html , 2018/10/9アクセス.
• MathWorks「判別分析分類」,
http://jp.mathworks.com/help/stats/discriminant-analysis.html ,
2018/10/10アクセス.
• MathWorks「決定木のbag of treesの作成」,
https://jp.mathworks.com/help/stats/treebagger.html ,2018/10/10アクセス.
• scikit learn「1.4 Support Vector Machines」,
http://scikit-learn.org/stable/modules/svm.html , 2018/10/13アクセス.
• @pika_shi 「SVMを使いこなす!チェックポイント8つ」,
https://qiita.com/pika_shi/items/5e59bcf69e85fdd9edb2 , 2018/10/13アク
セス.

Weitere ähnliche Inhalte

Was ist angesagt?

新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るには新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るにはAsai Masataro
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度Seiichi Uchida
 
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習Ichigaku Takigawa
 
A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”Kota Matsui
 
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知智文 中野
 
Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-Joe Suzuki
 
パーセプトロン型学習規則
パーセプトロン型学習規則パーセプトロン型学習規則
パーセプトロン型学習規則Shuhei Sowa
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料Yasunori Ozaki
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
ベイズ最適化
ベイズ最適化ベイズ最適化
ベイズ最適化MatsuiRyo
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデルKei Nakagawa
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
ベイジアンディープニューラルネット
ベイジアンディープニューラルネットベイジアンディープニューラルネット
ベイジアンディープニューラルネットYuta Kashino
 

Was ist angesagt? (20)

新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るには新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るには
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
LBFGSの実装
LBFGSの実装LBFGSの実装
LBFGSの実装
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
自然言語処理の最新技術動向紹介
自然言語処理の最新技術動向紹介自然言語処理の最新技術動向紹介
自然言語処理の最新技術動向紹介
 
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習
 
A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”
 
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知
 
Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-Bayes Independence Test - HSIC と性能を比較する-
Bayes Independence Test - HSIC と性能を比較する-
 
パーセプトロン型学習規則
パーセプトロン型学習規則パーセプトロン型学習規則
パーセプトロン型学習規則
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
ベイズ最適化
ベイズ最適化ベイズ最適化
ベイズ最適化
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
ベイジアンディープニューラルネット
ベイジアンディープニューラルネットベイジアンディープニューラルネット
ベイジアンディープニューラルネット
 

球種予測に関する研究サーベイ