Suche senden
Hochladen
ようやく分かった!最尤推定とベイズ推定
•
Als PPTX, PDF herunterladen
•
126 gefällt mir
•
97,270 views
Akira Masuda
Folgen
最尤推定やベイズ推定の基本がようやく理解できたため,かみ砕いて説明したプレゼンを作りました.
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 31
Jetzt herunterladen
Empfohlen
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
Masashi Komori
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
階層ベイズとWAIC
階層ベイズとWAIC
Hiroshi Shimizu
Empfohlen
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
Masashi Komori
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
階層ベイズとWAIC
階層ベイズとWAIC
Hiroshi Shimizu
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
ryosuke-kojima
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Deep Learning Lab(ディープラーニング・ラボ)
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
関数データ解析の概要とその方法
関数データ解析の概要とその方法
Hidetoshi Matsui
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
Yuya Takashina
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
Taku Yoshioka
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
Hiroshi Nakagawa
PRML輪読#1
PRML輪読#1
matsuolab
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
最適輸送入門
最適輸送入門
joisino
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Preferred Networks
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
Hiroshi Shimizu
IoT and 5G: Opportunities and Challenges, SenZations 2015
IoT and 5G: Opportunities and Challenges, SenZations 2015
SenZations Summer School
Weitere ähnliche Inhalte
Was ist angesagt?
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
ryosuke-kojima
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Deep Learning Lab(ディープラーニング・ラボ)
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
関数データ解析の概要とその方法
関数データ解析の概要とその方法
Hidetoshi Matsui
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
Yuya Takashina
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
Taku Yoshioka
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
Hiroshi Nakagawa
PRML輪読#1
PRML輪読#1
matsuolab
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
最適輸送入門
最適輸送入門
joisino
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Preferred Networks
Was ist angesagt?
(20)
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
ベイズファクターとモデル選択
ベイズファクターとモデル選択
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
Stan超初心者入門
Stan超初心者入門
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
関数データ解析の概要とその方法
関数データ解析の概要とその方法
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
深層生成モデルと世界モデル
深層生成モデルと世界モデル
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
PRML輪読#1
PRML輪読#1
coordinate descent 法について
coordinate descent 法について
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
最適輸送入門
最適輸送入門
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Andere mochten auch
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
Hiroshi Shimizu
IoT and 5G: Opportunities and Challenges, SenZations 2015
IoT and 5G: Opportunities and Challenges, SenZations 2015
SenZations Summer School
スパース推定
スパース推定
y-uti
PRML輪読#13
PRML輪読#13
matsuolab
エクセルで統計分析5 マルチレベル分析のやり方
エクセルで統計分析5 マルチレベル分析のやり方
Hiroshi Shimizu
エクセルで統計分析2 HADの使い方
エクセルで統計分析2 HADの使い方
Hiroshi Shimizu
エクセルで統計分析4 因子分析のやり方
エクセルで統計分析4 因子分析のやり方
Hiroshi Shimizu
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
裕樹 奥田
エクセルで統計分析3 回帰分析のやり方
エクセルで統計分析3 回帰分析のやり方
Hiroshi Shimizu
5G Cloud RAN & IoT Architecture
5G Cloud RAN & IoT Architecture
Sathiya keerthi
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
khcoder
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
khcoder
KH Coder 2 チュートリアル(スライド版)
KH Coder 2 チュートリアル(スライド版)
khcoder
2 2.尤度と最尤法
2 2.尤度と最尤法
logics-of-blue
PRML8章
PRML8章
弘毅 露崎
PRML輪読#14
PRML輪読#14
matsuolab
マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1
Nagi Teramo
学部生向けベイズ統計イントロ(公開版)
学部生向けベイズ統計イントロ(公開版)
考司 小杉
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Yasutomo Kawanishi
Andere mochten auch
(19)
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
IoT and 5G: Opportunities and Challenges, SenZations 2015
IoT and 5G: Opportunities and Challenges, SenZations 2015
スパース推定
スパース推定
PRML輪読#13
PRML輪読#13
エクセルで統計分析5 マルチレベル分析のやり方
エクセルで統計分析5 マルチレベル分析のやり方
エクセルで統計分析2 HADの使い方
エクセルで統計分析2 HADの使い方
エクセルで統計分析4 因子分析のやり方
エクセルで統計分析4 因子分析のやり方
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
エクセルで統計分析3 回帰分析のやり方
エクセルで統計分析3 回帰分析のやり方
5G Cloud RAN & IoT Architecture
5G Cloud RAN & IoT Architecture
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
KH Coder 2 チュートリアル(スライド版)
KH Coder 2 チュートリアル(スライド版)
2 2.尤度と最尤法
2 2.尤度と最尤法
PRML8章
PRML8章
PRML輪読#14
PRML輪読#14
マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1
学部生向けベイズ統計イントロ(公開版)
学部生向けベイズ統計イントロ(公開版)
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Kürzlich hochgeladen
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
Kürzlich hochgeladen
(8)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
ようやく分かった!最尤推定とベイズ推定
1.
ようやく分かった! 最尤推定とベイズ推定 -そして機械学習へ- 大阪大学 情報科学研究科 マルチメディア工学専攻 修士2年 増田
彬
2.
まずは反省 • 機械学習のツールを使っていてもその中身 をほとんど理解していなかった →ブラックボックス統計学 • 手法の実現を試みてばかりで,学習手法の 特性や分析するデータの特性を考えずに 研究してきた ? 時間ないし,理論 むずいからデータ 突っ込めー 何か知らんけどパ ラメータ変えたら 良い結果やし, 論文書いてまえー
3.
構成 • 最尤推定とベイズ推定の話 • 機械学習を使う際の心構え
4.
ベイズ推定と最尤推定 • Wikipediaより 分かったような,分からないような… でも,これを理解しないとより高度な手法 が理解できない [機械学習の基礎] “ベイズ確率の考え方に基づき、観測事象(観測された 事実)から、推定したい事柄(それの起因である原因 事象)を、確率的な意味で推論することを指す。”
5.
身近なことで説明しよう • 世の研究室には学生とラボ畜がいる よゆー 今日もラボだブヒ~
6.
研究室のブラック具合 • ホワイトな研究室もあれば,ブラックな 研究室もある ... ...研究室
M研究室 A M教授
7.
条件付き確率 • 研究室AとMがあるとする. ともに学生が3人所属している. ランダムに選んだ研究室から1人の 学生を選んだとき「ラボ畜」かどうか? 研究室 M研究室
A 研究室A 研究室M 学生 ラボ畜 どちらの研究室が選ばれるか? ランダムに選ぶのでともに 𝑝 𝐻 = 𝐴 = 𝑝 𝐻 = 𝑀 = 1 2 学生全体のうち「学生」 か「ラボ畜」か? 𝑝 𝐷 = 畜 = 2 3 研究室がMの時,ラボ畜の割合は? 条件付き確率 𝑝 𝐷 = 畜|𝐻 = M = 3 3 同時確率の表 2 3 ∙ 1 2 1 3 ∙ 1 2 1 2 1 2 0 3 ∙ 1 2 3 3 ∙ 1 2 1 3 2 3 D H 𝑝 𝐷 𝑝 𝐻
8.
• 事象 𝐷を「観測データ」事象
𝐻を「データの発生源」とする. • ラボ畜モデルで言えば, 𝐷が学生, 𝐻が研究室 同時確率は と表せるため,以下のベイズの公式が求まる ここで,尤度 𝑃 𝐷 𝐻 とは 「研究室𝐻が与えられたときにデータDが発生する確率」 あるいは 「データDが観測されたとき研究室𝐻 から発生した確率」 例えば,研究室𝑀から選ばれた学生が D = ラボ畜 である 確率 は 3 3 ベイズの公式 𝑃 𝐻 𝐷 = 𝑃 𝐷 𝐻 𝑃(𝐻) 𝑃(𝐷) = 𝑃 𝐷 𝐻 𝑃(𝐻) 𝑃 𝐷 𝐻 𝑃(𝐻) 𝑃 𝐷, 𝐻 = 𝑃 𝐷 𝐻 𝑃 𝐻 = 𝑃 𝐻 𝐷 𝑃(𝐷) 𝑃 𝐻 𝐷 ∶ 事後確率 𝑃 D H ∶ 尤度 𝑃(𝐻) ∶ 事前確率
9.
• 事象 𝐷を「観測データ」事象
𝐻を「データの発生源」とする. • ラボ畜モデルで言えば, 𝐷が学生, 𝐻が研究室 同時確率は と表せるため,以下のベイズの公式が求まる 「ある学生がラボ畜のとき,研究室M所属である確率」を 𝑃 𝐻 𝐷 から求められる →ラボ畜はM研によく所属している (観測データ「ラボ畜」は発生源「M研究室」から生じた) ベイズの公式 𝑃 𝐻 𝐷 = 𝑃 𝐷 𝐻 𝑃(𝐻) 𝑃(𝐷) = 𝑃 𝐷 𝐻 𝑃(𝐻) 𝑃 𝐷 𝐻 𝑃(𝐻) 𝑃 𝐷, 𝐻 = 𝑃 𝐷 𝐻 𝑃 𝐻 = 𝑃 𝐻 𝐷 𝑃(𝐷) 𝑃 𝐻 = 𝑀 𝐷1 = 畜 = 3 3 ∙ 1 2 2 3 = 3 4 𝑃 𝐻 𝐷 ∶ 事後確率 𝑃 D H ∶ 尤度 𝑃(𝐻) ∶ 事前確率 ブヒー
10.
ベイズ推定 Q: ある研究室から学生を2回選択したら共に「ラボ畜」だった. その研究室は何研でしょう?
11.
ベイズ推定 Q: ある研究室から学生を2回選択したら共に「ラボ畜」だった. その研究室は何研でしょう? D =
[ラボ畜, ラボ畜] とするとまず最初(D1 )の「ラボ畜」学生 だけを考えて ここで,最初の学生だけでは事前確率 p(H) はランダムに 研究室AかMかを仮定しているため, 𝑃 𝐻 = 𝐴 𝐷1 = 畜 = 𝑃 𝐷1 = 畜 𝐻 = 𝐴 𝑃(𝐻 = 𝐴) 𝑃(𝐷1 = 畜) = 1 4 𝑃 𝐻 = 𝑀 𝐷1 = 畜 = 𝑃 𝐷1 = 畜 𝐻 = 𝑀 𝑃(𝐻 = 𝑀) 𝑃(𝐷1 = 畜) = 3 4 𝑝 𝐻 = 𝐴 = 𝑝 𝐻 = 𝑀 = 1 2
12.
ベイズ推定 Q: ある研究室から学生を2回選択したら共に「ラボ畜」だった. その研究室は何研でしょう? 一回目に選ばれた学生が「ラボ畜」だったことから, だと分かった.二回目の学生も「ラボ畜」だったから, 𝑃 𝐻
= 𝐴 𝐷 = 畜 = 1 4 𝑃 𝐻 = 𝑀 𝐷 = 畜 = 3 4 𝑃 𝐻 = 𝐴 𝐷2 = 畜 = 𝑃 𝐷2 = 畜 𝐻 = 𝐴 𝑃(𝐻 = 𝐴) 𝑃(𝐷2 = 畜) = 1 8 𝑃 𝐻 = 𝐴 𝐷1 = 畜 = 1 4 で更新研究室Aである確率が減った
13.
ベイズ推定 Q: ある研究室から学生を2回選択したら共に「ラボ畜」だった. その研究室は何研でしょう? 一回目に選ばれた学生が「ラボ畜」だったことから, だと分かった.二回目の学生も「ラボ畜」だったから, 𝑃 𝐻
= 𝐴 𝐷 = 畜 = 1 4 𝑃 𝐻 = 𝑀 𝐷 = 畜 = 3 4 𝑃 𝐻 = 𝑀 𝐷2 = 畜 = 𝑃 𝐷2 = 畜 𝐻 = 𝑀 𝑃(𝐻 = 𝑀) 𝑃(𝐷2 = 畜) = 7 8 𝑃 𝐻 = M 𝐷1 = 畜 = 3 4 で更新研究室Mである確率が増えた
14.
研究テーマと絡めてみよう • 先ほどの問題は「あるデータ(学生)が観測され た場合,研究室AとMのどちらに所属するのか」 と いう2クラス分類問題 •
研究のテーマで 「加速度データから男女の性別推定」や 「歩行データからの酩酊検知」を行っているが どれも根底にある考え方は一緒!
15.
ここまでは講義の内容
16.
尤度って分からなくない? • 研究室AとMにそれぞれどれほどの割合で P 𝐷
= 畜|𝐻 = 𝐴 = 1 3 , P 𝐷 = 畜|𝐻 = M = 3 3 「ラボ畜」学生が所属していたか分かっている前提だった → 現実は甘くない • 現実問題,例えば男女の違いがどれほどの割合で 加速度データに影響するか分からない → 確率分布を仮定する [統計モデリング] 研究室 M研究室 A
17.
• どんな人でも観測できるのはデータ𝐷のみ • データ𝐷は何かしらの分布Hから生成される •
観測されたデータ𝐷 から分布H(のパラメータ)を推定する のが最尤推定とベイズ推定(&機械学習) データ𝐷 (研究室Hから選ばれた学生) パラメータ○○の 二項分布 だから推定を行う に 正規分布一様分布 混合分布 に 分布は数個の パラメータで 表せる 正体不明の 分布
18.
ラボ畜モデル再来 • 𝑖をある研究室に所属する「ラボ畜」の数とする (𝑖をパラメータと呼ぶ) • 研究室の学生の数をNとおいてもよいが,簡単 のため,3人とする
(0 ≤ 𝑖 ≤ 3 ) • パラメータ𝑖をおいたことにより,ある研究室の 「ラボ畜」尤度を以下のように仮定できる ある研究室のモデル Lラボ畜 = P 𝐷 = 畜|𝐻 = 𝑖 3 ラボ畜数 𝑖 L学生 = P 𝐷 = 学生|𝐻 = 3 − 𝑖 3
19.
尤度最大化とは? • 「観測データ」Dに対してもっと(尤)もらしい 「データの発生源」Hを求める Lラボ畜 =
P 𝐷 = 畜|𝐻 = 𝑖 3 と仮定したから,「ラボ畜」が1回のみ観測され たとき尤もらしい発生源Hは最大の値となる 𝑖 = 3 3人中3人が「ラボ畜」のような ブラック研究室
20.
尤度最大化とは? • 「観測データ」Dに対してもっと(尤)もらしい 「データの発生源」Hを求める Lラボ畜 =
P 𝐷 = 畜|𝐻 = 𝑖 3 と仮定したから,「ラボ畜」が1回のみ観測され たとき尤もらしい発生源Hは最大の値となる 𝑖 = 3 反対に「通常の学生」が1回のみ観測されたとき 尤もらしい発生源Hは L学生 = P 𝐷 = 学生|𝐻 = 3 − 𝑖 3 が最大となる 𝑖 = 0 3人中0人が「ラボ畜」の ようなホワイト研究室
21.
尤度最大化とは? D = ラボ畜,
ラボ畜, 学生 だとするとどうなるか? 各データは互いに独立であるため, LD = L ラボ畜 2 L 学生 = 𝑖 3 2 3 − 𝑖 3 を最大化すればよい.グラフを書けば分かるが, 簡単に解くために対数をかける(対数尤度) ln LD = 2 ln 𝑖 3 + ln 3 − 𝑖 3 これを微分し傾きが0になる 𝑖 = 2 で尤度が最大 3人中2人が「ラボ 畜」のような グレー研究室 「最初がラボ畜だと次のデータもラボ畜になりやすい」のような影響を及ぼさない 時系列データ(例えば自然言語処理)は各データが独立でない
22.
尤度最大でいいの? D = 学生,
学生, 学生 というデータが得られたとする 実際はブラックな研究室からたまたま3回とも通常の学生が 選ばれただけかもしれないのに最大尤度 𝑖 = 0(つまりラボ畜 の学生がいない)で本当にいいのか? 選ばれた学生が全員通常なんで, 「ラボ畜」な学生なんていませんよ~ M教授 実際の分布 ・・・ 研究室1 研究室2 研究室100
23.
尤度以外も考慮する手法があったような... Thomas Bayes (1702-1761) Yes, Bayes! ベイズの公式 𝑃 𝐻
𝐷 = 𝑃 𝐷 𝐻 𝑃(𝐻) 𝑃(𝐷) を用いると, 𝑃 𝐻 = ブラック 𝐷 = [畜, 畜, 畜] = 1 3 ∙ 99 100 1 ∙ 1 100 + 1 3 ∙ 99 100 = 33 34 𝑃(𝐻)を考慮する ブラック研究室の確率が高い!
24.
尤度最大化と比べてベイズ推定は事後確率 𝑃 𝐻
𝐷 を最大にする 𝑃 𝐻 𝐷 = 𝑃 𝐷 𝐻 𝑃(𝐻) 𝑃(𝐷) D = ラボ畜 だとすると,パラメータ𝑖の範囲を0 ≤ 𝑖 ≤ 3とし ていたため,𝑃(𝐻)が一様だと仮定すると 𝑃 𝐻 = 1 3 となる 𝑃 𝐻 𝐷1 = 畜 = 𝑖 3 ∙ 1 4 𝑃(𝐷1 = 畜) = 𝑖 12 ∙ 1 𝑃 𝐷 𝐻 𝑃 𝐻 = 𝑖 12 ∙ 1 6 12 = 𝑖 6 これが最大になるのは𝑖 = 3のとき → 結果は尤度最大化と同じ (事前確率𝑃(𝐻)が一様だから) ベイズ推定(再登場) 𝑃(𝐷)は事後確率の総和を1とするための正規化項 𝑃 𝐻 𝐷 ∶ 事後確率 𝑃 D H ∶ 尤度 𝑃(𝐻) ∶ 事前確率 𝑖 𝑃(𝐻|𝐷1) 3 1 2 総和1
25.
D = ラボ畜,
ラボ畜 のとき,事前確率が 𝑃 𝐻 = 2 9 𝑖になるため, 𝑃 𝐻 𝐷2 = 畜 = 𝑃 𝐷2 = 畜 𝐻 𝑃(𝐻) 𝑃(𝐷2 = 畜) = 𝑖 3 ∙ 𝑖 6 14 18 = 𝑖2 14 ベイズ推定(再登場) 2乗になって より𝑖の影響 が強くなった 新しいデータで ベイズ更新 𝑖 𝑃(𝐻|𝐷2, 𝐷1) 3 新しいデータによって, より分布が急になった! この例では簡単のため,「ブラックな研究室もホワイトな研究室も一様に存在する」 分布を用いたが,実際は「グレーな研究室が多くて,ブラックやホワイトは少ない」 かもしれない. その場合は P 𝐷 = 畜|𝐻 = 3 𝑖 𝑞 𝑖 1 − 𝑞 3−𝑖 のような二項分布を仮定する 𝑖 𝑃(𝐻|𝐷1) 3 1 2 総和1 9 14 総和1
26.
まとめ 確率・統計の教科書で出てくる問題は尤度 𝑃 𝐷
𝐻 が 与えられていることが多い → 現実はそんなに甘くない パラメータ(例ではラボ畜の数 i)をおいて, 尤度の分布を仮定する = 統計モデリング することで 尤度最大化やベイズ推定で尤もらしい分布を推定できる (実際は尤度の分布に正規分布など多種多様な分布を用いる) →現実はそれでもまだ甘くない 例では尤度最大化などを解析的に解けたが,現実には 解けない場合がある(MCMCの出番). しかも,尤度のパラメータだけでは説明できず 超パラメータを追加する場合も…
27.
まとめ 確率・統計の教科書で出てくる問題は尤度 𝑃 𝐷
𝐻 が 与えられていることが多い → 現実はそんなに甘くない パラメータ(例ではラボ畜の数 i)をおいて, 尤度の分布を仮定する = 統計モデリング することで 尤度最大化やベイズ推定で尤もらしい分布を推定できる (実際は尤度の分布に正規分布など多種多様な分布を用いる) →現実はそれでもまだ甘くない 例では尤度最大化などを解析的に解けたが,現実には 解けない場合がある(MCMCの出番). しかも,尤度のパラメータだけでは説明できず 超パラメータを追加する場合も… 現実は甘く ないよ!
28.
構成 • 最尤推定とベイズ推定の話 • 機械学習を使う際の心構え
29.
そして機械学習へ • 機械学習がブラックボックスになりがちな理由 • ラボ畜モデルのように, 「データがどの分布に従うと仮定するのか」 が非常に大切 –
とりま,混合ガウス分布で! – 流行りのDeep Learningしょ! – CRFがですね... となる前にデータを視覚化しよう! グラフ化してどの分布が適切かを考えるのが大切 解析的に解けないものを計算機的に近似して解いている
30.
研究の道は険しい • 今回説明したデータの分析だけでなく, データの取得や分析結果の評価などが 全て正しくてようやく研究成果となる 研究の道は険しい... ではどうしたら良いか? 皆さんも ラボ畜になりましょう! 今日もラボだブヒ~
31.
参考文献 • 「史上最強図解 これならわかる!ベイズ統計学」 涌井
良幸 (著), 涌井 貞美 (著) • 「データ解析のための統計モデリング入門」 久保 拓弥 (著) • イラストに「いらすとや」さんのものを使わせて頂きました ありがとうございます. http://www.irasutoya.com/
Jetzt herunterladen