SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Downloaden Sie, um offline zu lesen
主成分分析って?
多変量のデータを統合し、
新たな総合指標を作り出すための手法。
多くの変数に重みをつけて
少数の合成変数を作るのが主成分分析です。
2参考:マクロミル http://www.macromill.com/landing/words/b007.html
使うデータ
3
名
 
前
チ
ー
ム
防
御
率
試
合
数
勝
 
利
敗
 
北
セ
ー
ブ
勝
 
率
投
球
回
被
安
打
被
H
R
四
 
球
死
 
球
奪
三
振
失
 
点
自
責
点
菅
野
巨
人
3.12	
 27	
 13	
 6	
 0	
 0.684	
176	
 166	
 10	
 37	
 5	
 155	
 70	
 61	
藤
浪
阪
神
2.75	
 24	
 10	
 6	
 0	
 0.625	
137.2	
119	
 10	
 44	
 2	
 126	
 48	
 42	
前
田
広
島
2.10	
 26	
 15	
 7	
 0	
 0.682	
175.2	
129	
 13	
 40	
 2	
 158	
 46	
 41	
田
中
楽
天
1.27	
 28	
 24	
 0	
 1	
 1	
 212	
 168	
 6	
 32	
 3	
 183	
 35	
 30	
摂
津
バ
ン
ク
ソ
フ
ト
3.05	
 25	
 15	
 8	
 0	
 0.652	
162.1	
138	
 11	
 42	
 8	
 146	
 68	
 55	
大
谷
日
ハ
ム
4.23	
 13	
 3	
 0	
 0	
 1	
 61.2	
 57	
 4	
 33	
 8	
 46	
 30	
 29	
※2013年の規定投球回1/3以上を投げてる113投手
分析で使うデータグラフ用
データ元:プロ野球データFreak http://baseball-data.com/
Plotしてみる
4
2次元のプロットが
14C2=91通りもできるん
だから、1枚ずつ見て
いったら切りがない!
分析しづらいから
もっと変数を減らし
て!!
5
分析手順
下図のZk(k=1,2,…,n)の分散が最大に
なるようなa11∼annを決める。    
      
6
第1主成分
第2主成分
第 n 主成分
(防御率・試合数・四球 etc.)
わかりにくいので、2次元で考える
7
名 前 投球回 被安打
菅野 176	
 166	
藤浪 137.2	
 119	
前田 175.2	
 129	
田中 212	
 168	
摂津 162.1	
 138	
大谷 61.2	
 57	
※ 計113投手
わかりにくいので、2次元で考える
8
わかりにくいので、2次元で考える
9
先ほどのZkの分散が最大に
なるように新たな軸となる
線をひく。
わかりにくいので、2次元で考える
10
それぞれの点から垂線を下ろし
たときの交点が、主成分得点と
なり、1次元で表せるように
なった。
先ほどのZkの分散が最大に
なるように新たな軸となる
線をひく。
わかりにくいので、2次元で考える
11
先ほどのZkの分散が最大に
なるように新たな軸となる
線をひく。 情報損失
第2主成分以降はこの
情報損失を補うように
していく
それぞれの点から垂線を下ろし
たときの交点が、主成分得点と
なり、1次元で表せるように
なった。
なんでZkの分散が最大に
なるようにとるの?
12
直感的なお話
13
適切な軸をとらないと、情報
の損失が起き、データどうし
の距離が近くなってしまう。
分散が小さくなる
=
数学のお話
14参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf
数学のお話
15参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf
これだとa1,a2はいくらでも大きくできてしまう
数学のお話
16参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf
そこで制約条件を考える
x2
x1
θ1
θ2
1
a1
a2
つまり、a1とa2の比(=主成分の傾き)+原点となる
基準点(=重心)を考えることで、分散が大きくなり
続けることを制限している
max.
s.t.
数学のお話
17参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf
分散共分散行列!
固有値問題になった!
ここで…
18
先ほどの上式の①に×a1、②に×a2をして足すと
…①
…②
( 制約条件)
となり、λはZkの分散であることがわかった。
max.
s.t.
これに関連して…
 軸を最適にしようというのはわかった。
が、まだ問題がある。
19
 一般にデータは列ごとに単位が異なることが多い。
 単位が違ったまま考えると分散・共分散を考えるときに、
 大きく差が生じてしまう。
参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf
これに関連して…
20参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf
そこで!
 軸を最適にしようというのはわかった。
が、まだ問題がある。
 一般にデータは列ごとに単位が異なることが多い。
 単位が違ったまま考えると分散・共分散を考えるときに、
 大きく差が生じてしまう。
21参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf
標準化!
簡単のため2次元で考えて
きましたが、多次元でも考え
にくいだけで考え方は一緒です。
22
DEMONSTRATION
23
WITH
24
一致してる!
25
固有ベクトルなの
で、マイナスを外
に出すかで結果が
変わり
ますが、結果的に
は一緒です
標準化 ver.
26
投球回
被安打
傾きを表してる
寄与率
多次元 Ver.
27
※再掲
28
名
 
前
チ
ー
ム
防
御
率
試
合
数
勝
 
利
敗
 
北
セ
ー
ブ
勝
 
率
投
球
回
被
安
打
被
H
R
四
 
球
死
 
球
奪
三
振
失
 
点
自
責
点
菅
野
巨
人
3.12	
 27	
 13	
 6	
 0	
 0.684	
176	
 166	
 10	
 37	
 5	
 155	
 70	
 61	
藤
浪
阪
神
2.75	
 24	
 10	
 6	
 0	
 0.625	
137.2	
119	
 10	
 44	
 2	
 126	
 48	
 42	
前
田
広
島
2.10	
 26	
 15	
 7	
 0	
 0.682	
175.2	
129	
 13	
 40	
 2	
 158	
 46	
 41	
田
中
楽
天
1.27	
 28	
 24	
 0	
 1	
 1	
 212	
 168	
 6	
 32	
 3	
 183	
 35	
 30	
摂
津
バ
ン
ク
ソ
フ
ト
3.05	
 25	
 15	
 8	
 0	
 0.652	
162.1	
138	
 11	
 42	
 8	
 146	
 68	
 55	
大
谷
日
ハ
ム
4.23	
 13	
 3	
 0	
 0	
 1	
 61.2	
 57	
 4	
 33	
 8	
 46	
 30	
 29	
※2013年の規定投球回1/3以上を投げてる113投手
分析で使うデータグラフ用
データ元:プロ野球データFreak http://baseball-data.com/
固有値・固有ベクトル
29
※標準化してます
主成分
30
※標準化してます
見づらいけど…
31
若干、マシ
32
奪三振
勝利
失点
自責点
フォアボール
寄与率
33
一般的に累積寄与率が0.8を超える主成分までを
考慮するので、今回は第4主成分まで考える
解釈
Z1 = 0.093 × 防御率 – 0.19 × 試合数 + 0.28 × 勝利 + 0.28 × 敗北 - 0.15 × セーブ +
   0.04 × 勝率 + 0.34 × 投球回 + 0.35 × 被安打 + 0.31 × 被本塁打 + 0.29 × 四球 +
0.18 × 死球 + 0.28 × 奪三振 + 0.35 × 失点 + 0.35 × 自責点
   先発投手度
Z2 = - 0.58 × 防御率 + 0.31 × 試合数 + 0.34 × 勝利 – 0.18 × 敗北 + 0.22 × セーブ +
   0.40 × 勝率 + 0.22 × 投球回 + 0.07 × 被安打 – 0.07 × 被本塁打 + 0.003 × 四球 -
0.02 × 死球 + 0.34 × 奪三振 – 0.18 × 失点 – 0.14 × 自責点
   点を取られない投手度
Z3 = - 0.15 × 防御率 + 0.41 × 試合数 - 0.18 × 勝利 + 0.41 × 敗北 + 0.47 × セーブ -
   0.57 × 勝率 + 0.05 × 投球回 + 0.07 × 被安打 + 0.07 × 被本塁打 + 0.08 × 四球 -
0.14 × 死球 + 0.13 × 奪三振 + 0.06 × 失点 + 0.03 × 自責点
   抑え投手度
Z4 = - 0.04 × 防御率 – 0.07 × 試合数 + 0.02 × 勝利 – 0.03 × 敗北 – 0.31 × セーブ -
   0.03 × 勝率 + 0.06 × 投球回 + 0.02 × 被安打 + 0.14 × 被本塁打 + 0.10 × 四球 -
0.91 × 死球 + 0.11 × 奪三振 – 0.04 × 失点 – 0.02 × 自責点
   コントロールが良い投手度 34
まとめ
•  変数を減らすことができたが、解釈に主観
が入ってしまうため、使いどころが難しい。
•  この手法とクラスター分析などを組み合わ
せれば、解釈が多少容易になる。
•  量的変数だけでなく、質的変数でも得点化
すれば、この手法が使えるので、アンケー
トデータなどの分析にも便利。
35
Rによる主成分分析 入門

Weitere ähnliche Inhalte

Was ist angesagt?

[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析Mitsuo Shimohata
 
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会Shotaro Sano
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心takehikoihayashi
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)Masaru Tokuoka
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法Hidetoshi Matsui
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会Kenyu Uehara
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いwada, kazumi
 
はじパタ6章前半
はじパタ6章前半はじパタ6章前半
はじパタ6章前半T T
 
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介Ryohei Ueda
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 
タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装RyuichiKanoh
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)Yohei Sato
 
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列Toru Tamaki
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Shohei Hido
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリングShushi Namba
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 
自然言語処理基礎の基礎
自然言語処理基礎の基礎自然言語処理基礎の基礎
自然言語処理基礎の基礎Takashi Minowa
 

Was ist angesagt? (20)

Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
 
はじパタ6章前半
はじパタ6章前半はじパタ6章前半
はじパタ6章前半
 
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)
 
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリング
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
自然言語処理基礎の基礎
自然言語処理基礎の基礎自然言語処理基礎の基礎
自然言語処理基礎の基礎
 

Rによる主成分分析 入門