Suche senden
Hochladen
Rによる主成分分析 入門
•
16 gefällt mir
•
14,504 views
Hiro47
Folgen
Daten & Analysen
Melden
Teilen
Melden
Teilen
1 von 36
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
Shuyo Nakatani
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
【勉強会】自己組織化マップ(SOM)
【勉強会】自己組織化マップ(SOM)
Jun Harada
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
Daisuke Yoneoka
ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」
Akifumi Eguchi
Empfohlen
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
Shuyo Nakatani
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
【勉強会】自己組織化マップ(SOM)
【勉強会】自己組織化マップ(SOM)
Jun Harada
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
Daisuke Yoneoka
ぞくパタ最終回: 13章「共クラスタリング」
ぞくパタ最終回: 13章「共クラスタリング」
Akifumi Eguchi
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP
質的変数の相関・因子分析
質的変数の相関・因子分析
Mitsuo Shimohata
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
関数データ解析の概要とその方法
関数データ解析の概要とその方法
Hidetoshi Matsui
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
Kenyu Uehara
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
wada, kazumi
はじパタ6章前半
はじパタ6章前半
T T
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
Ryohei Ueda
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
智之 村上
タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装
RyuichiKanoh
異常行動検出入門(改)
異常行動検出入門(改)
Yohei Sato
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
Toru Tamaki
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
馬に蹴られるモデリング
馬に蹴られるモデリング
Shushi Namba
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
自然言語処理基礎の基礎
自然言語処理基礎の基礎
Takashi Minowa
Weitere ähnliche Inhalte
Was ist angesagt?
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP
質的変数の相関・因子分析
質的変数の相関・因子分析
Mitsuo Shimohata
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
関数データ解析の概要とその方法
関数データ解析の概要とその方法
Hidetoshi Matsui
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
Kenyu Uehara
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
wada, kazumi
はじパタ6章前半
はじパタ6章前半
T T
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
Ryohei Ueda
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
智之 村上
タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装
RyuichiKanoh
異常行動検出入門(改)
異常行動検出入門(改)
Yohei Sato
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
Toru Tamaki
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
馬に蹴られるモデリング
馬に蹴られるモデリング
Shushi Namba
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
自然言語処理基礎の基礎
自然言語処理基礎の基礎
Takashi Minowa
Was ist angesagt?
(20)
Stan超初心者入門
Stan超初心者入門
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
質的変数の相関・因子分析
質的変数の相関・因子分析
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
サポートベクトルデータ記述法による異常検知 in 機械学習プロフェッショナルシリーズ輪読会
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
関数データ解析の概要とその方法
関数データ解析の概要とその方法
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
はじパタ6章前半
はじパタ6章前半
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
タクシー運行最適化を実現する機械学習システムの社会実装
タクシー運行最適化を実現する機械学習システムの社会実装
異常行動検出入門(改)
異常行動検出入門(改)
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
馬に蹴られるモデリング
馬に蹴られるモデリング
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
自然言語処理基礎の基礎
自然言語処理基礎の基礎
Rによる主成分分析 入門
1.
2.
主成分分析って? 多変量のデータを統合し、 新たな総合指標を作り出すための手法。 多くの変数に重みをつけて 少数の合成変数を作るのが主成分分析です。 2参考:マクロミル http://www.macromill.com/landing/words/b007.html
3.
使うデータ 3 名 前 チ ー ム 防 御 率 試 合 数 勝 利 敗 北 セ ー ブ 勝 率 投 球 回 被 安 打 被 H R 四 球 死 球 奪 三 振 失 点 自 責 点 菅 野 巨 人 3.12 27 13
6 0 0.684 176 166 10 37 5 155 70 61 藤 浪 阪 神 2.75 24 10 6 0 0.625 137.2 119 10 44 2 126 48 42 前 田 広 島 2.10 26 15 7 0 0.682 175.2 129 13 40 2 158 46 41 田 中 楽 天 1.27 28 24 0 1 1 212 168 6 32 3 183 35 30 摂 津 バ ン ク ソ フ ト 3.05 25 15 8 0 0.652 162.1 138 11 42 8 146 68 55 大 谷 日 ハ ム 4.23 13 3 0 0 1 61.2 57 4 33 8 46 30 29 ※2013年の規定投球回1/3以上を投げてる113投手 分析で使うデータグラフ用 データ元:プロ野球データFreak http://baseball-data.com/
4.
Plotしてみる 4 2次元のプロットが 14C2=91通りもできるん だから、1枚ずつ見て いったら切りがない!
5.
分析しづらいから もっと変数を減らし て!! 5
6.
分析手順 下図のZk(k=1,2,…,n)の分散が最大に なるようなa11∼annを決める。 6 第1主成分 第2主成分 第 n
主成分 (防御率・試合数・四球 etc.)
7.
わかりにくいので、2次元で考える 7 名 前 投球回 被安打 菅野
176 166 藤浪 137.2 119 前田 175.2 129 田中 212 168 摂津 162.1 138 大谷 61.2 57 ※ 計113投手
8.
わかりにくいので、2次元で考える 8
9.
わかりにくいので、2次元で考える 9 先ほどのZkの分散が最大に なるように新たな軸となる 線をひく。
10.
わかりにくいので、2次元で考える 10 それぞれの点から垂線を下ろし たときの交点が、主成分得点と なり、1次元で表せるように なった。 先ほどのZkの分散が最大に なるように新たな軸となる 線をひく。
11.
わかりにくいので、2次元で考える 11 先ほどのZkの分散が最大に なるように新たな軸となる 線をひく。 情報損失 第2主成分以降はこの 情報損失を補うように していく それぞれの点から垂線を下ろし たときの交点が、主成分得点と なり、1次元で表せるように なった。
12.
なんでZkの分散が最大に なるようにとるの? 12
13.
直感的なお話 13 適切な軸をとらないと、情報 の損失が起き、データどうし の距離が近くなってしまう。 分散が小さくなる =
14.
数学のお話 14参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf
15.
数学のお話 15参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf これだとa1,a2はいくらでも大きくできてしまう
16.
数学のお話 16参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf そこで制約条件を考える x2 x1 θ1 θ2 1 a1 a2 つまり、a1とa2の比(=主成分の傾き)+原点となる 基準点(=重心)を考えることで、分散が大きくなり 続けることを制限している max. s.t.
17.
数学のお話 17参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf 分散共分散行列! 固有値問題になった!
18.
ここで… 18 先ほどの上式の①に×a1、②に×a2をして足すと …① …② ( 制約条件) となり、λはZkの分散であることがわかった。 max. s.t.
19.
これに関連して… 軸を最適にしようというのはわかった。 が、まだ問題がある。 19 一般にデータは列ごとに単位が異なることが多い。 単位が違ったまま考えると分散・共分散を考えるときに、 大きく差が生じてしまう。 参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf
20.
これに関連して… 20参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf そこで! 軸を最適にしようというのはわかった。 が、まだ問題がある。 一般にデータは列ごとに単位が異なることが多い。 単位が違ったまま考えると分散・共分散を考えるときに、 大きく差が生じてしまう。
21.
21参考文献: http://racco.mikeneko.jp/Kougi/10s/AS/AS06pr.pdf 標準化!
22.
簡単のため2次元で考えて きましたが、多次元でも考え にくいだけで考え方は一緒です。 22
23.
DEMONSTRATION 23 WITH
24.
24 一致してる!
25.
25 固有ベクトルなの で、マイナスを外 に出すかで結果が 変わり ますが、結果的に は一緒です 標準化 ver.
26.
26 投球回 被安打 傾きを表してる 寄与率
27.
多次元 Ver. 27
28.
※再掲 28 名 前 チ ー ム 防 御 率 試 合 数 勝 利 敗 北 セ ー ブ 勝 率 投 球 回 被 安 打 被 H R 四 球 死 球 奪 三 振 失 点 自 責 点 菅 野 巨 人 3.12 27 13
6 0 0.684 176 166 10 37 5 155 70 61 藤 浪 阪 神 2.75 24 10 6 0 0.625 137.2 119 10 44 2 126 48 42 前 田 広 島 2.10 26 15 7 0 0.682 175.2 129 13 40 2 158 46 41 田 中 楽 天 1.27 28 24 0 1 1 212 168 6 32 3 183 35 30 摂 津 バ ン ク ソ フ ト 3.05 25 15 8 0 0.652 162.1 138 11 42 8 146 68 55 大 谷 日 ハ ム 4.23 13 3 0 0 1 61.2 57 4 33 8 46 30 29 ※2013年の規定投球回1/3以上を投げてる113投手 分析で使うデータグラフ用 データ元:プロ野球データFreak http://baseball-data.com/
29.
固有値・固有ベクトル 29 ※標準化してます
30.
主成分 30 ※標準化してます
31.
見づらいけど… 31
32.
若干、マシ 32 奪三振 勝利 失点 自責点 フォアボール
33.
寄与率 33 一般的に累積寄与率が0.8を超える主成分までを 考慮するので、今回は第4主成分まで考える
34.
解釈 Z1 = 0.093
× 防御率 – 0.19 × 試合数 + 0.28 × 勝利 + 0.28 × 敗北 - 0.15 × セーブ + 0.04 × 勝率 + 0.34 × 投球回 + 0.35 × 被安打 + 0.31 × 被本塁打 + 0.29 × 四球 + 0.18 × 死球 + 0.28 × 奪三振 + 0.35 × 失点 + 0.35 × 自責点 先発投手度 Z2 = - 0.58 × 防御率 + 0.31 × 試合数 + 0.34 × 勝利 – 0.18 × 敗北 + 0.22 × セーブ + 0.40 × 勝率 + 0.22 × 投球回 + 0.07 × 被安打 – 0.07 × 被本塁打 + 0.003 × 四球 - 0.02 × 死球 + 0.34 × 奪三振 – 0.18 × 失点 – 0.14 × 自責点 点を取られない投手度 Z3 = - 0.15 × 防御率 + 0.41 × 試合数 - 0.18 × 勝利 + 0.41 × 敗北 + 0.47 × セーブ - 0.57 × 勝率 + 0.05 × 投球回 + 0.07 × 被安打 + 0.07 × 被本塁打 + 0.08 × 四球 - 0.14 × 死球 + 0.13 × 奪三振 + 0.06 × 失点 + 0.03 × 自責点 抑え投手度 Z4 = - 0.04 × 防御率 – 0.07 × 試合数 + 0.02 × 勝利 – 0.03 × 敗北 – 0.31 × セーブ - 0.03 × 勝率 + 0.06 × 投球回 + 0.02 × 被安打 + 0.14 × 被本塁打 + 0.10 × 四球 - 0.91 × 死球 + 0.11 × 奪三振 – 0.04 × 失点 – 0.02 × 自責点 コントロールが良い投手度 34
35.
まとめ • 変数を減らすことができたが、解釈に主観 が入ってしまうため、使いどころが難しい。 • この手法とクラスター分析などを組み合わ せれば、解釈が多少容易になる。 •
量的変数だけでなく、質的変数でも得点化 すれば、この手法が使えるので、アンケー トデータなどの分析にも便利。 35
Jetzt herunterladen