MICの解説

あたらしい相関係数
“MIC”の解説

名前：馬場真哉
Webサイト： logics of blue で検索！
http://logics-of-blue.com/
1

Caution！
私の主観的な見方で読み解いたものです
正確な表現ではないかもしれません

「分かり易さ」を最重視しました。

2

参考にした論文
Detecting Novel Associations in
Large Data Sets
Reshef, David N., et al.
science 334.6062 (2011): 1518-1524.

3

どんな論文？
相関係数の論文です
相関なし

相関あり

4

地味な研究に見えますか？

実はとってもすごい相関係数の論文です！
どこがすごいの・・・？

5

②Scienceに推薦論文が載った

7

③たくさん引用された

4.3

日回

被引用件数132（byGoogle,2013年7月2日時点）
発表されてから570日経過（2013年7月8日現在）
8

相関係数の一体何がすごいの？

Big Data

の台頭

（論文の中ではLarge Data Setsと記載）
9

データの構造はグラフで分かる？
変数

組み合わせ

10 個

100

45通り

4950

個

1000

個

通り

499500

通り
10

２変数間の関係性の指標を提示します

MIC
(Maximum Information Coefficient)
11

発表の順序

① MICって何？

② MICで計測
③実データで MIC

12

MICでできること

• 関係性の有無の検出
𝑅 2 とよく似た値
検定可能

• 散布図の形状が（大体）わかる
MASなど別の指標も利用
14

MICの考え方：相関があるとは？

X

X

相関なし

相関あり
15

MICの考え方：相関があるとは？

X

X

相関なし

相関あり
16

MICの哲学
もしも2つの変数間に相関があるなら
データを要約するように
データを分割するグリッドを引ける
17

マス目関係なし

全てのマスのうち
7マスにしかデータがない

相関なし

相関あり
18

マス目に合わせているかどうかの判別

MI を使用
Mutual Information ：相互情報量

𝑰 𝑿; 𝒀 =

𝒑 𝒙, 𝒚
𝒑 𝒙, 𝒚 𝒍𝒐𝒈
𝒑 𝒙 𝒑 𝒚
19

マス目に合わせているかどうかの判別

MI を使用
Mutual Information ：相互情報量

不確実性の減少量
不確実性とは？
20

どこの箱にデータが入っている？
左

真

右

不確実性

①

大

②

中

③

小
21

ⅩによってＹの不確実性は減少したか？

左

真

右

？

？

？

MI低

X

左

真

右

下

上

中

X

MI高
22

MI低

左

真

MI高

右

X

左

真

右

X

マス目関係なし

マス目に収まった！

相関なし

相関あり

23

今までのまとめ～相関が得られるまで～

マス目

データを要約する
マス目が引けたか
判別する
MI
24

MICの哲学
もしも2つの変数間に相関があるなら
データを要約するように
データを分割できるグリッドを引ける

どうやって線を引く？
最大情報量規準
25

ダメな分け方

左

右

？

良い分け方

？

X

情報量増えてない

左

右

？

下

X

ちょっとわかった！
26

Reshef et al(2011) より転載

27

線を増やしても
意味がない

Reshef et al(2011) より転載して一部改編

28

おまけ
• 線はサンプルサイズの0.6乗まで増やす
• 線を増やしてもMIが増えるとは限らない
• MIは最大値が１になるよう標準化

29

結果


MICの特徴
•

0～1の間に収まる
𝑅2 とよく似た値

•

完全な関数形なら必ず1

•

検定できる（シミュレーションの利用）

•

Ｘ～ＹもＹ～Ｘも同じ値になる（対称）
31

MICの分類

MINE の一種
Maximum Information-based Nonparametric exploration
情報量最大化ベースのノンパラメトリックな探究

MINEの仲間たち
MIC ・ MAS ・ MIC − 𝝆 𝟐
32

散布図の「形」を見分ける指数

• MAS
グリッドの本数をⅩとＹで逆にした時と
通常のMICの差の大きさ
単調性の指標

•

𝟐
MIC−𝝆
MICとピアソンの積率相関係数との差
非線形性の指標
33


関数の形

35


関数の形

全て識別できた

36

MIC VS 平滑化スプライン
散布図に滑らかな線を引く

平滑化スプラインの𝑹 𝟐 を使えば十分？
37


MIC
0.80

関係性のタイプ

0.65

0.50

0.35

ノイズ付与

38


MIC
0.80

関係性のタイプ

0.65

0.50

0.35

ノイズ付与

MICは線が２本あってもOK
39


MIC VS 通常のMI（相互情報量）
MIC = 1

MIC = 0.6

MI = 1
MI = 0.5
40


MIC
MIC VS 通常のMI（相互情報量）
完璧！
MIC = 1

MIC = 0.6
MI

にょろにょろに弱い

MI = 1
MI = 0.5
41

MIC はなぜ「にょろにょろ」に強いの？
Ans.

各々の箱の中は結構不確実
MICは箱の中のばらつきを考慮しないから

42

やや論文から離れますが・・・

箱の中のばらつきを考慮しなくて大丈夫？

MICはどうなる？
43

Rでやってみた by Package “minerva”
データ
para <- 20
x2 <- c(rnorm(n=50, mean=10, sd=para), rnorm(n=50, mean=200, sd=para))
y2 <- c(rnorm(n=50, mean=10, sd=para), rnorm(n=50, mean=200, sd=para))

結果

MIC = 1
普段使う「相関」とはやや趣が異なる様子
44

③実データで MIC
• WHOの社会データ
• 腸内細菌叢データ
（本当はもっとたくさんあるけど省略）

45


成人女性の肥満度(％)

怪我による年間死亡数

WHOの社会データ
（357個の変数・63546通りの組み合わせ）

1000人当たり歯医者の密度

相関なし

収入/人口

相関あり

46

腸内細菌叢データ
MIC−𝝆 𝟐 で細菌の共生関係を調べる
B種

B種

A種

A種

線形

非線形

共存

非共存

47


腸内細菌叢データ
MIC−𝝆 𝟐 で細菌の共生関係を調べる

OTU5948の密度(%)

非線形性の指標

OTU710の密度(%)

48

Big Data
MIC
MICはBig Data解析に便利……かも。
49

MICの解説

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Mehr von logics-of-blue

Mehr von logics-of-blue (17)

Kürzlich hochgeladen

Kürzlich hochgeladen (12)

MICの解説