SlideShare ist ein Scribd-Unternehmen logo
1 von 43
連続変量を含む条件付相互情報量の推定
@九大IMIにおけるセミナー
2017年12月7日
鈴木譲 (大阪大学)
計算数理B(3年後期): 機械学習入門
1. 機械学習の概要 8. Lasso回帰とRidge回帰
2. 線形回帰 (1) 理論解析 9. 主成分分析、主成分回帰、部分的最小2乗法
3. 線形回帰 (2) 応用 10. スプライン回帰、一般化加法モデル
4. ロジスティック回帰、最尤法、フィッシャー情報量 11. 決定木
5. 線形判別、2次判別、K近傍法 12. バギング、ランダムフォーレスト、ブースティング
6. クロスバリデーションとブートストラップ 13. サポートベクトルマシン
7. 情報量基準 14. クラスタリング
学部3年で、機械学習の専門家レベル
原理の本質を理解する (数学で証明できる)
実データに適用して、応用のイメージを定着させる
An Introduction to Statistical
Learning with Applications in R
Gareth James, Daniela Witten,
Trevor Hastie and Robert
Tibshirani
Springer, 2013
450ページ
最後(第15回は、機械学習を利用した実例に関する発表会)
機械学習のトップ会議UAI 2017採択 (2017年8月)
Uncertainty in Artificial Intelligence, August 12-15, 2017
“Branch and Bound for Regular Bayesian Network Structure Learning”
Joe Suzuki and Jun Kawahara
本日のお話の手順
• 相互情報量の推定 (離散)
• 相互情報量の推定 (連続)
• 森の構造学習
• 応用(1): BNSLパッケージ
• 条件付き相互情報量の推定(離散、連続)
• 証明
• 応用(2): ゲノム解析への応用
相互情報量
独立であるとき
だけ0になる
独立性を仮定した場合
とのK-L情報量
相互情報量 を推定したい
離散
スジの悪い統計家の解答
最適をめざさず、最尤推定で満足してしまう
独立性を検知できる推定量 (Suzuki 93)
(負のときは0とする)
Suzuki 93を用いると、事後確率最大の森が生成される
𝐼 𝑛は過学習: 独立性を評価できない
X
サンプル数nとともに、確率1で
J 𝑛の導出 その1
のときのBICの値
一般の場合のBICの値
両者の差をとって、nで割る
J 𝑛の導出 その2
その1, その2の𝐽 𝑛の値は
漸近的に一致性してくる
ベイズ統計学: データのもとでの事後確率最大化
P(構造|データ)
= P(構造) 𝑃 データ 構造, パラメータ 𝑃(パラメータ|構造)𝑑パラメータ
パラメータを周辺化した事後確率
構造 森のどれか
パラメータ 各部分の条件付き確率
構造の事前確率 パラメータの事前確率
事前確率としては、標準的なもの
森の構造学習
データフレーム
p=3のとき
森で
はない
木 木木
分布をK-L情報量を最小にする木に近似
(Chow-Liu, Kruskal)
分布が木で表現されることを仮定
相互情報量の推定値大きいものから、
ループができない限り、辺を結んでいく
データ -> 相互情報量の推定値 -> 森
(Chow-Liu, Kruskal)
分布が森で表現されることを仮定
相互情報量の推定値大きいものから、
ループができない限り、辺を結んでいく
alarmはBNで1日かかるが、森だと5秒で完了
pの2乗の時間
asia alarm
Chow-Liuに適用
𝐼 𝑛: 尤度最大 𝐽 𝑛: 記述長最小・事後確率最大
独立な頂点があっても、
全頂点が連結される
独立な頂点は、
分離される
真の相互情報量I(X,Y)のかわりに
推定量である 𝐼 𝑛, 𝐽 𝑛を用いる
連続: 正規分布を仮定する場合
相関係数の推定に帰着
一般の場合は、どうするのか
X,Yが正規分布でないとき
Xが離散、Yが連続のとき
多変量解析は、連続変数だけ、離散変数だけでいいのか
Boston データセット (住宅物件に関するデータ)
mi(x,y proc=10)の動作 (Suzuki,16)
X, Y ともに等頻度の分割表ができる
Xを等頻度に分割
Yを等頻度に分割
X,Yは離散でも連続でもよいが、区切って頻度を数える
相互情報量の推定量 𝐽 𝑛を計算
いろいろなサイズの分割表を生成して、 𝐽 𝑛の最大値を計算
連続値は、量子化される
(離散の)相互情報量の推定値が最大のメッシュ
サンプル数nのときに、𝑚 𝑛個のメッシュを用意
(離散などで) 同じ値が境界をまたぐとき
連続値と離散値を区別しない
順序統計量
各グループでサンプル数がほぼ同じに
同じ値のものは同じグループに
条件付き相互情報量の推定(離散)
条件付き相互情報量の推定(連続)
最近の仕事
Rパッケージ
BNSL(Bayesian Network Structure Learning)
2017年3月5日にCRANで公開
鈴木譲 (阪大) 川原純(NAIST)
BNSLの特徴
ベイジアンネットワークの
構造学習の最新の成果を搭載
Rcppで高速化をはかる
BNSL CRAN公開の動機
研究成果を使ってもらいたい
論文の被引用件数を増やす
高速化のためにRcppを適用
• Rでプログラミングするより、50-100倍高速
• C++で関数を構築して、Rから呼び出す
Rにはポインタがない。RcppではRの関数が使えない
R, C++を知っていても、インターフェイスになれるのに
若干時間がかかる
Rパッケージ BNSLの主な関数
関数名 機能
mi 相互情報量の推定
mi_matrix データフレームから相互情報量の推定量の行列を生成
cmi 条件付き相互情報量の推定
kruskal Chow-Liuアルゴリズムの実行で必要
parent_set ベイジアンネットワーク構築の親集合
bnsl ベイジアンネットワークの→の向き、変数の順序を決定
mi(x, y, proc=0)
等しい長さのベクトルx,yから、相互情報量を推定。
Jeffreys’ (proc=0), MDL (proc=1), 最尤 (proc=9), 連続を含む (proc=10)
他ツールとの比較 (自己評価)
bnlearn BayoLink BNSL
連続 △ ☓ ◯
研究の最先端 ☓ ☓ ◎
大規模な
BNの構造学習
近似を許して、大規
模な処理を行う
近似を許して、大規
模な処理を行う
最適解が求まる場
合しか動かない
ユーザ数 ◎ ◯ △
価格 無料 (Rパッケージ) 有料 無料 (Rパッケージ)
グラフィック △ ◎ ☓
library(MASS)
df=Boston
mm=mi_matrix(df, proc=10)
edge.list=kruskal(mm)
g=graph_from_edgelist(edge.list, directed=FALSE)
V(g)$label <- 1:ncol(df)
plot(g,vertex.size=20.0)
導出のキーとなった命題
命題1
命題2
Borel-Cantelliの補題
(強)一致性
証明
ゲノム解析への応用 (1)
Int. J. Approximate Reasoning, 2016
青: p値の大きな遺伝子
赤: 症例/対照
1000個の連続変量
1個の2値変量
乳がん患者の遺伝子発現データ
(p51遺伝子をもつサンプル192個、
もたないサンプル58個)
ゲノム解析への応用 (2)
Int. J. Approximate Reasoning, 2016
青: 遺伝子発現量
赤: SNP (3値)
一塩基多型(SNP)
飲めない人がもつSNP ALDH2遺伝子をもつ人の比率
マイクロアレイからRNA-seq へ
ゲノム解析データが大量に取得できるが、確率的モデルが異なる
古い 主流になりつつある
(産総研瀬々氏のスライド)
まとめ
• 過去の結果の紹介 (昔とった杵柄)
• 応用例(ゲノム、CRAN パッケージ BNSL)
• 最近の成果の紹介(証明が完成したこと)

Weitere ähnliche Inhalte

Was ist angesagt?

状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
 

Was ist angesagt? (20)

最適化超入門
最適化超入門最適化超入門
最適化超入門
 
[DL輪読会]Generative Models of Visually Grounded Imagination
[DL輪読会]Generative Models of Visually Grounded Imagination[DL輪読会]Generative Models of Visually Grounded Imagination
[DL輪読会]Generative Models of Visually Grounded Imagination
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
MCMC法
MCMC法MCMC法
MCMC法
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
EMアルゴリズム
EMアルゴリズムEMアルゴリズム
EMアルゴリズム
 

Mehr von Joe Suzuki

分枝限定法でモデル選択の計算量を低減する
分枝限定法でモデル選択の計算量を低減する分枝限定法でモデル選択の計算量を低減する
分枝限定法でモデル選択の計算量を低減する
Joe Suzuki
 
The Universal Measure for General Sources and its Application to MDL/Bayesian...
The Universal Measure for General Sources and its Application to MDL/Bayesian...The Universal Measure for General Sources and its Application to MDL/Bayesian...
The Universal Measure for General Sources and its Application to MDL/Bayesian...
Joe Suzuki
 

Mehr von Joe Suzuki (20)

RとPythonを比較する
RとPythonを比較するRとPythonを比較する
RとPythonを比較する
 
R集会@統数研
R集会@統数研R集会@統数研
R集会@統数研
 
E-learning Development of Statistics and in Duex: Practical Approaches and Th...
E-learning Development of Statistics and in Duex: Practical Approaches and Th...E-learning Development of Statistics and in Duex: Practical Approaches and Th...
E-learning Development of Statistics and in Duex: Practical Approaches and Th...
 
分枝限定法でモデル選択の計算量を低減する
分枝限定法でモデル選択の計算量を低減する分枝限定法でモデル選択の計算量を低減する
分枝限定法でモデル選択の計算量を低減する
 
E-learning Design and Development for Data Science in Osaka University
E-learning Design and Development for Data Science in Osaka UniversityE-learning Design and Development for Data Science in Osaka University
E-learning Design and Development for Data Science in Osaka University
 
UAI 2017
UAI 2017UAI 2017
UAI 2017
 
AMBN2017 サテライトワークショップ
AMBN2017 サテライトワークショップAMBN2017 サテライトワークショップ
AMBN2017 サテライトワークショップ
 
CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要CRAN Rパッケージ BNSLの概要
CRAN Rパッケージ BNSLの概要
 
Forest Learning from Data
Forest Learning from DataForest Learning from Data
Forest Learning from Data
 
A Bayesian Approach to Data Compression
A Bayesian Approach to Data CompressionA Bayesian Approach to Data Compression
A Bayesian Approach to Data Compression
 
A Conjecture on Strongly Consistent Learning
A Conjecture on Strongly Consistent LearningA Conjecture on Strongly Consistent Learning
A Conjecture on Strongly Consistent Learning
 
A Generalization of the Chow-Liu Algorithm and its Applications to Artificial...
A Generalization of the Chow-Liu Algorithm and its Applications to Artificial...A Generalization of the Chow-Liu Algorithm and its Applications to Artificial...
A Generalization of the Chow-Liu Algorithm and its Applications to Artificial...
 
A Generalization of Nonparametric Estimation and On-Line Prediction for Stati...
A Generalization of Nonparametric Estimation and On-Line Prediction for Stati...A Generalization of Nonparametric Estimation and On-Line Prediction for Stati...
A Generalization of Nonparametric Estimation and On-Line Prediction for Stati...
 
研究紹介(学生向け)
研究紹介(学生向け)研究紹介(学生向け)
研究紹介(学生向け)
 
Bayesian Criteria based on Universal Measures
Bayesian Criteria based on Universal MeasuresBayesian Criteria based on Universal Measures
Bayesian Criteria based on Universal Measures
 
MDL/Bayesian Criteria based on Universal Coding/Measure
MDL/Bayesian Criteria based on Universal Coding/MeasureMDL/Bayesian Criteria based on Universal Coding/Measure
MDL/Bayesian Criteria based on Universal Coding/Measure
 
The Universal Measure for General Sources and its Application to MDL/Bayesian...
The Universal Measure for General Sources and its Application to MDL/Bayesian...The Universal Measure for General Sources and its Application to MDL/Bayesian...
The Universal Measure for General Sources and its Application to MDL/Bayesian...
 
Universal Prediction without assuming either Discrete or Continuous
Universal Prediction without assuming either Discrete or ContinuousUniversal Prediction without assuming either Discrete or Continuous
Universal Prediction without assuming either Discrete or Continuous
 
Bayesian network structure estimation based on the Bayesian/MDL criteria when...
Bayesian network structure estimation based on the Bayesian/MDL criteria when...Bayesian network structure estimation based on the Bayesian/MDL criteria when...
Bayesian network structure estimation based on the Bayesian/MDL criteria when...
 
The Universal Bayesian Chow-Liu Algorithm
The Universal Bayesian Chow-Liu AlgorithmThe Universal Bayesian Chow-Liu Algorithm
The Universal Bayesian Chow-Liu Algorithm
 

連続変量を含む条件付相互情報量の推定