More Related Content
More from Hirotaka Hachiya
More from Hirotaka Hachiya (20)
データ解析14 ナイーブベイズ
- 7. 確率的判別分析とは
11
カテゴリ事後確率𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦|𝒙𝒙 を用いた判別分析方法
𝒙𝒙:入力(説明変数)のベクトル、𝑦𝑦:質的な出力(目的変数)のスカラー
事後確率が確信度(自信)を表し、確信度が高いカテゴリを選択
確率的判別分析の例:血圧の値から病気か否かを判定
ベイズの定理を用いて、カテゴリの事後確率を求める
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦 = 病気|𝒙𝒙 = 140 = 0.8
入力「血圧𝑥𝑥1 = 140」の場合:
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦 = 健康|𝒙𝒙 = 140 = 0.2
事後確率の
モデルを学習
80%の確信度(自信)で「病気」と判別
血圧 病気
120 ×
120 ×
130 ×
140 〇
130 〇
130 ×
120 ×
150 〇
130 ×
- 8. ベイズの定理の復習
12
ベイズの定理:
事象𝑦𝑦𝑖𝑖を原因(病気・健康)、事象𝑥𝑥𝑗𝑗を結果(血圧)と考える
しかし、実際には診断(判別)では、逆の条件付き確率が必要
この結果𝑥𝑥を観測したもとでの原因𝑦𝑦の条件付き確率を
「事後確率」という
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦𝑖𝑖|𝑥𝑥𝑗𝑗 =
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗 𝑦𝑦𝑖𝑖 𝑃𝑃𝑌𝑌(𝑦𝑦𝑖𝑖)
𝑃𝑃𝑋𝑋(𝑥𝑥𝑗𝑗)
例えば、原因𝑦𝑦𝑖𝑖:病気、 結果𝑥𝑥𝑗𝑗:血圧140とした場合、病気の患者と健康な人を集め
て、血圧140の人を観測することにより、以下の尤度を求めることができる。
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140 Y = 病気 と𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140 Y = 健康
𝑃𝑃𝑌𝑌|𝑋𝑋 Y = 病気 𝑋𝑋 = 血圧140
事前確率尤度
周辺確率
事後確率
- 9. ベイズの定理の定理復習 続き
13
ベイズの定理:
ベイズの定理より、事後確率を求めることができる
𝑃𝑃(𝑦𝑦𝑗𝑗)を事前確率といい、人間の知識またはデータに基づき決定
分母は、周辺確率と乗法定理より求める
𝑃𝑃𝑌𝑌|𝑋𝑋 Y = 病気 𝑋𝑋 = 血圧140 =
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140 Y = 病気 𝑃𝑃𝑌𝑌 Y = 病気
𝑃𝑃𝑋𝑋(𝑋𝑋 = 血圧140)
例えば、病気の人の割合は、一般的に低いので𝑃𝑃𝑌𝑌 Y = 病気 = 0.2
𝑃𝑃𝑋𝑋 𝑋𝑋 = 血圧140 = �
𝑦𝑦∈{病気、健康}
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140 Y = 𝑦𝑦 𝑃𝑃𝑌𝑌 Y = 𝑦𝑦
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦𝑖𝑖|𝑥𝑥𝑗𝑗 =
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗 𝑦𝑦𝑖𝑖 𝑃𝑃𝑌𝑌(𝑦𝑦𝑖𝑖)
𝑃𝑃𝑋𝑋(𝑥𝑥𝑗𝑗)
事前確率尤度
周辺確率
事後確率
- 11. 演習1の解答例2
16
2. 条件付き確率(尤度)、周辺確率を
それぞれ計算し、カテゴリ事後確率を求めなさい。
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 = 130 𝑦𝑦 = 病気 =
1
3
条件付き確率(尤度):
𝑃𝑃𝑋𝑋 𝒙𝒙 = 130周辺確率:
=
1
3
1
5
+
3
6
4
5
=
1
15
+
6
15
=
7
15
= 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 = 130 𝑦𝑦 = 病気 𝑃𝑃𝑌𝑌 𝑦𝑦 = 病気
+𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 = 130 𝑦𝑦 = 健康 𝑃𝑃𝑌𝑌 𝑦𝑦 = 健康
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦 = 病気|𝒙𝒙 = 130 =
𝑃𝑃𝑋𝑋|𝑌𝑌 𝒙𝒙 = 130 𝑦𝑦 = 病気 𝑃𝑃𝑌𝑌 𝑦𝑦 = 病気
𝑃𝑃𝑋𝑋 𝒙𝒙 = 130
=
1
3
1
5
7
15
=
1
7
血圧 病気
120 ×
120 ×
130 ×
140 〇
130 〇
130 ×
120 ×
150 〇
130 ×
𝑃𝑃𝑌𝑌 𝑦𝑦 = 病気 = 0.2 =
1
5
𝑃𝑃𝑌𝑌 𝑦𝑦 = 健康 = 0.8 =
4
5
事前確率
- 16. 演習2
21
1. 以下の単語の尤度を求めなさい。
2. 以下の事前確率をデータから求めなさい。
タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
メールに含まれていた単語(説明変数) 種類(目的変数)
𝒙𝒙𝟏𝟏
= おめでとう、誕生日、お祝い、プレゼント 𝑦𝑦1
=ハム
𝒙𝒙𝟐𝟐
= いつも、会議、連絡先、よろしく 𝑦𝑦2
=ハム
𝒙𝒙𝟑𝟑
= いつも、資料、アップロード、よろしく 𝑦𝑦3
=ハム
𝒙𝒙𝟒𝟒
= おめでとう、当選、100万円、振り込み 𝑦𝑦4
=スパム
𝒙𝒙𝟓𝟓
= いつも、講演、依頼、よろしく 𝑦𝑦5
=ハム
𝒙𝒙𝟔𝟔
= はじめまして、出会い、連絡先、よろしく 𝑦𝑦6
=スパム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = よろしく 𝑦𝑦 = ハム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = よろしく 𝑦𝑦 = スパム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 出会い 𝑦𝑦 = ハム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 出会い 𝑦𝑦 = スパム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 連絡先 𝑦𝑦 = ハム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 連絡先 𝑦𝑦 = スパム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = おめでとう 𝑦𝑦 = ハム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = おめでとう 𝑦𝑦 = スパム
𝑃𝑃𝑌𝑌 𝑦𝑦 = ハム 𝑃𝑃𝑌𝑌 𝑦𝑦 = スパム
- 17. ナイーブベイズの手順
23
ステップ1:学習データにおける各単語の尤度を計算し保持
ステップ2:事前確率を設定
人間の知識に基づき設定、またはデータから計算
ステップ3:新しいメール文の単語を抽出
例えば、「おめでとう」、「連絡先」、「よろしく」
𝑃𝑃𝑌𝑌 𝑦𝑦 = ハム 𝑃𝑃𝑌𝑌 𝑦𝑦 = スパム
𝑥𝑥 = おめでとう 𝑥𝑥 = 出会い 𝑥𝑥 = 連絡先 𝑥𝑥 =よろしく
𝑦𝑦 = ハム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 ⋯
𝑦𝑦 = スパム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 ⋯
- 18. ナイーブベイズの手順 2
24
ステップ4:ステップ1の単語尤度を用いて、
新しいメール文の尤度を計算
ステップ5:ステップ2の事前確率を用いて、
新しいメール文の事後確率を計算
ステップ6:事後確率を比較し、値が大きいカテゴリを選択
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = ハム = 𝑃𝑃𝑋𝑋|𝑌𝑌 |おめでとう、連絡先、よろしく 𝑦𝑦 = ハム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = スパム = 𝑃𝑃𝑋𝑋|𝑌𝑌 |おめでとう、連絡先、よろしく 𝑦𝑦 = スパム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = ハム 𝑃𝑃𝑌𝑌 𝑦𝑦 = ハム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = スパム 𝑃𝑃𝑌𝑌 𝑦𝑦 = スパム
- 19. 演習3
25
1. 演習2の結果を用いて、以下の単語を含むメール文の
事後確率を求めなさい。
2. 事後確率を比較し、カテゴリを判別しなさい
タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
𝒙𝒙 = おめでとう、連絡先、よろしく
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = ハム 𝑃𝑃𝑌𝑌 𝑦𝑦 = ハム =?
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = スパム 𝑃𝑃𝑌𝑌 𝑦𝑦 = スパム =?
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = よろしく 𝑦𝑦 = ハム =
3
4
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = よろしく 𝑦𝑦 = スパム =
1
2
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 連絡先 𝑦𝑦 = ハム =
1
4
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 連絡先 𝑦𝑦 = スパム =
1
2
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = おめでとう 𝑦𝑦 = ハム =
1
4
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = おめでとう 𝑦𝑦 = スパム =
1
2
𝑃𝑃𝑌𝑌 𝑦𝑦 = ハム =
4
6
𝑃𝑃𝑌𝑌 𝑦𝑦 = スパム =
2
6
【事前確率】
【単語尤度】