SlideShare ist ein Scribd-Unternehmen logo
1 von 36
変数同士の関連を
見ようよ
~21世紀の相関 (MIC) の話とか~
難波 修史
自己紹介
•難波 修史(なんば しゅうし)
•広島大学大学院教育学研究科D1
•感情表情の表出・認知の研究してます。
•R歴:ちょこちょこ
•twitter:@NSushi
Motivation
• データを分析する人達
(ひいては R users
何が見たいん?
=データ同士の関連を見たい
• 得られたデータAとBの項目に何らかの関連がみ
られる=相関がある。(⇔項目同士が独立
ピアソンの相関係数
• 2つの変数(X and Y)間にある線形な関係の強
弱を図る指標(-1~1)。
• 式
線形?(http://www.sqc-works.com/qc7-04.htmlより拝借
こんな感じに
2変数が直線の
関係を持つこと
(例:xが高いほどyが低くなる
Rでの実装
• x <- runif(10)
• y <- 3*x + 2 # plot(x, y) ↓ こんな感じ
• cor(x,y) # 結果は当然1
こんなのもあるはず
• t <- seq(-2*pi, 2*pi, 0.2)
• y1 <- sin(2*t)
• plot(t, y1) # これ→
非線形データでは
ピアソンの相関係
数では関連無し
世の中はすべて線形?(wikiより拝借
下段のように明らかにデータ同士に関連があっても
線形関係を検討するPearsonじゃわかんないです><
どうすんの?
そこでMICですよ。
21世紀の相関なるものがある?
• Maximal Information Coefficient (Reshef et al., 2011) = 非線
形関係も含めた変数間の関連を見る指標
• 線形関係であればMIC ~= Pearsonの相関2
• Science誌にて報告
され、「21世紀の
相関」として推薦
される (右図
MICの哲学 (logics of blueより拝借
もしも2つの変数間
に相関があるなら
データを要約するよ
うにデータを分割す
るグリッドを引ける。
ちなみに詳細をわか
りやすく説明されて
る資料はこちら ↓
http://lectures.molgen.mpg
.de/algsysbio12/MINEPres
entation.pdf
MIC,つおい:ノイズなしの関連データに対する結果
あびゃー
すごーい
なんにでも
あてはまる
どんなデータにも概ね対応!
色=2変数間の
関連性
x軸=ノイズ
上=MIC
下=スピアマン
の順位相関係数
理想的
挙動!!
MICの実装
• library(minerva)
• mine(x, y) これだけ!!
Cor = -.19
ほかの指標
• MAS:単調性
• MEV:関数っぽさ
• MCN:複雑さ
• MIC-R2:非線形度合い
※詳しい内容は計算の仕方(グリッドの線の引き方やら相
互情報量やら)とも関わってくるのでminervaのHelpや上に
あげているわかりやすい資料などを参照ください
こいつらとあわせてMICを解釈して
データの関連に思いを馳せよう!!
データ生成の例
• n <- 100 #逆U字
• x <- runif(n, min = -1, max = 1)
• y <- sqrt(1 - x^2) + rnorm(n, 0, 0.05)
• plot(x, y)
• x1 <- runif(n, min = 0, max = 4) #なんかジグザグ
• y1 <- x1 - floor(x1) + rnorm(n, 0, 0.05)
• plot(x1, y1)
cor.test() と mine() の結果を見比
べて興奮したりしよう!!
補足
• MICはビッグデータを前提にしているの
で、nが少ない時はalphaを1.0に設定して
あげてネ!
• ※α = グリッドの分け方に関するパラメータ、
詳しくは論文とか、Help、読め
やったぜ!これでかつる!
21世紀の相関に関する
別のアプローチ
• HSIC (Hilbert-Schmidt Independence Criteria):独
立性の検定
• 独立性?
• 変数同士が関連を持つことを見たい
=変数同士が独立してるか否かを調べたい
=データを再生核ヒルベルト空間に
飛ばし、そこでの関係性を見る
ことで非線形であっても関係性を
見出せばええやん!!!
こんな資料が!
(http://www.slideshare.net/motivic/tokyo-r-lt-25759212
結果!
どうやらMICはノイズ
に弱いらしい!
ほんならHSIC
• データをなんかかっこいい次元にとばすらしい
ぜ!
• 友達に自慢しよう!
• ちゃんと自慢したい人は以下の論文を読もう!
※ぼくは諦めたぞ!!
Measuring Statistical Dependence with Hilbert-
Schmidt Norms (Gretton et al., Algorithmic
Learning Theory, 2005)
HSICの実装
• library(dHSIC) #hsicCCA, EDAでもいけるらしい
• X <- list(x, y) #さっきの逆U字型のやつ使ってます
• dhsic.test(X,method="gamma",kernel="gaussian",B
=100)
=関連してるぞ!!
※この辺、自信ないので、間違っ
てたらご指摘お願いします。
なるほど。
•つまりHSICをつかえばええのん?
は?負けてへんし
• MIC論文の著者がMICの限界を乗り越える
ためのMICに関する指標をいくつか提案
(Reshef et al. 2015; 実際の比較 Reshef et al. 2015)
• 関連を見るのにはMIC*(MICの母数値), MICe
(equicharacteristic matrixを用いたMIC*の推定値: このわけ
わからん行列の詳細はReshef et al. 2015のp12)
•TIC=独立性の検定にかかわる統計量
TICの実装
• git_hub版のminervaをインストールするん
じゃ(簡単!
• library(devtools)
• install_github(“cran/minerva”)
• ※もちろんネット環境でね!
TICの実装
• ※逆U字型のやつ使ってます。
高いほど2変数
が関連してる!
あれ?
• Reshef et al. (2015)の論文に
はMICeがたまんねえって書
いてあったけど、どう算出
すんのよ?
世界の変態を待ちましょう
(あなたが作ってもいいのよ
へー!2変数の関係を見る指
標っていろいろあるんだね!
でも…
やっぱ可視化が一番!
• 指標もいいけどまずはグラフやプロットで2変
数同士の関係を可視化しよう!
視覚的に2変数を眺めたら
関係性なんて一発やん!!
結論:可視化、大事
• やはりggplot2じゃっ
たか… 。
• 過去のHijiyama.Rで
発表されてる紀の定
先生の資料、つよい。
発表のまとめ
• 現状は最新版のminervaのmine関数で変数同士
の関連に思いをはせましょう。
• より素敵な指標に関しては世界の変態を待つ
か、待ちきれない変態は自分で作りましょう。
• 関係見るには可視化が一番だけどたくさん
データがあればとっかかりにMICを使える。
番外編
• http://www.exploredata.net/
• MINE: Maximal Information-based Nonparametric
Exploration MIC論文の著者によるサイト、
データセットなりJavaを介したRの関数なりが
あって興奮する。
• https://www.ncbi.nlm.nih.gov/pubmed/26283601
• CANOVA:非線形データの独立性を検討する
やつ。C++により作成されてる (Wang et al.
2015)。ちゃんと読んでない。
参考資料
• これまでのスライドに含まれてたURL
• http://logics-of-
blue.com/%E9%9D%9E%E7%B7%9A%E5%BD%
A2%E3%82%82ok%E3%81%AA%E7%9B%B8%
E9%96%A2%E4%BF%82%E6%95%B0%EF%BC
%9Amic/
• http://takehiko-i-
hayashi.hatenablog.com/entry/20130426/13669485
60
参考論文
• Reshef, D., Reshef, Y., Finucane, H., Grossman, S.,
McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher,
M., and Sabeti, P. (2011) Detecting Novel Associations
in Large Data Sets,Science, highwire 334, 1518–1524.
• Reshef, D. N., Reshef, Y. A., Sabeti, P. C., &
Mitzenmacher, M. M. (2015). An empirical study of
leading measures of dependence. arXiv preprint
arXiv:1505.02214.
• Reshef, Y. A., Reshef, D. N., Finucane, H. K., Sabeti, P.
C., and Mitzenmacher, M. M. (2015) Measuring
dependence powerfully and equitably.

Weitere ähnliche Inhalte

Was ist angesagt?

多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用 Koichiro Gibo
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにShushi Namba
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
心理学のためのPsychパッケージ
心理学のためのPsychパッケージ心理学のためのPsychパッケージ
心理学のためのPsychパッケージ考司 小杉
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践Yasuyuki Okumura
 
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方Sayuri Shimizu
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価daiki hojo
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"takehikoihayashi
 
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれRで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれHiroshi Shimizu
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギーHiroshi Shimizu
 
Nagoya.R #12 非線形の相関関係を検出する指標の算出
Nagoya.R #12 非線形の相関関係を検出する指標の算出Nagoya.R #12 非線形の相関関係を検出する指標の算出
Nagoya.R #12 非線形の相関関係を検出する指標の算出Yusaku Kawaguchi
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33horihorio
 
ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学Shushi Namba
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回Hikaru GOTO
 
因果探索: 観察データから 因果仮説を探索する
因果探索: 観察データから因果仮説を探索する因果探索: 観察データから因果仮説を探索する
因果探索: 観察データから 因果仮説を探索するShiga University, RIKEN
 

Was ist angesagt? (20)

多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
心理学のためのPsychパッケージ
心理学のためのPsychパッケージ心理学のためのPsychパッケージ
心理学のためのPsychパッケージ
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価
 
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"因果推論の奥へ: "What works" meets "why it works"
因果推論の奥へ: "What works" meets "why it works"
 
因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
 
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれRで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
 
Nagoya.R #12 非線形の相関関係を検出する指標の算出
Nagoya.R #12 非線形の相関関係を検出する指標の算出Nagoya.R #12 非線形の相関関係を検出する指標の算出
Nagoya.R #12 非線形の相関関係を検出する指標の算出
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
 
ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回
 
因果探索: 観察データから 因果仮説を探索する
因果探索: 観察データから因果仮説を探索する因果探索: 観察データから因果仮説を探索する
因果探索: 観察データから 因果仮説を探索する
 

Andere mochten auch

StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章Shushi Namba
 
がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!Shushi Namba
 
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Shushi Namba
 
心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes FactorShushi Namba
 
Sparkler - Spark Crawler
Sparkler - Spark Crawler Sparkler - Spark Crawler
Sparkler - Spark Crawler Thamme Gowda
 
Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会Shushi Namba
 
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会Shushi Namba
 
主成分分析(Pca)
主成分分析(Pca)主成分分析(Pca)
主成分分析(Pca)Shushi Namba
 
Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2Takayuki Goto
 
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...Spark Summit
 

Andere mochten auch (10)

StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
 
がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!がんばろう!はじめてのDnn!
がんばろう!はじめてのDnn!
 
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!
 
心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor
 
Sparkler - Spark Crawler
Sparkler - Spark Crawler Sparkler - Spark Crawler
Sparkler - Spark Crawler
 
Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会Psychophysical functions@BCM勉強会
Psychophysical functions@BCM勉強会
 
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
 
主成分分析(Pca)
主成分分析(Pca)主成分分析(Pca)
主成分分析(Pca)
 
Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2
 
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
Sparkler—Crawler on Apache Spark: Spark Summit East talk by Karanjeet Singh a...
 

Mehr von Shushi Namba

回帰モデルとして見る信号検出理論
回帰モデルとして見る信号検出理論回帰モデルとして見る信号検出理論
回帰モデルとして見る信号検出理論Shushi Namba
 
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析Shushi Namba
 
表情から見た情動
表情から見た情動表情から見た情動
表情から見た情動Shushi Namba
 
今夜は動的モデリングよ~Dynrで簡単クッキング!~
今夜は動的モデリングよ~Dynrで簡単クッキング!~今夜は動的モデリングよ~Dynrで簡単クッキング!~
今夜は動的モデリングよ~Dynrで簡単クッキング!~Shushi Namba
 
Mental model for emotion
Mental model for emotionMental model for emotion
Mental model for emotionShushi Namba
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリングShushi Namba
 

Mehr von Shushi Namba (6)

回帰モデルとして見る信号検出理論
回帰モデルとして見る信号検出理論回帰モデルとして見る信号検出理論
回帰モデルとして見る信号検出理論
 
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
 
表情から見た情動
表情から見た情動表情から見た情動
表情から見た情動
 
今夜は動的モデリングよ~Dynrで簡単クッキング!~
今夜は動的モデリングよ~Dynrで簡単クッキング!~今夜は動的モデリングよ~Dynrで簡単クッキング!~
今夜は動的モデリングよ~Dynrで簡単クッキング!~
 
Mental model for emotion
Mental model for emotionMental model for emotion
Mental model for emotion
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリング
 

変数同士の関連_MIC