データ解析14 ナイーブベイズ

データ解析第14回
2018年7月19日八谷大岳
1

講義内容
6
数学の復習
機械学習の基礎

内容：
7
 線形判別分析の復習
 確率的判別分析（ナイーブベイズ）
 ナイーブベイズとは
 ベイズの定理の復習
 ナイーブベイズの応用
 手順
 Pythonによる実装例

線形判別分析の復習
8
 目的：入力（説明変数）と、質的データの出力（目的変数）の関係
を学習し、未知の入力に対する出力の予測
 直線𝑧𝑧のモデル式： �𝑦𝑦 = 𝑤𝑤1 𝑥𝑥1 − 𝑥𝑥1 + 𝑤𝑤2 𝑥𝑥2 − 𝑥𝑥2
 判別分析の例：血圧と心拍数の値から病気か否かを判定したい
血圧心拍数病気
107 70 ×
132 63 ×
110 91 〇
160 85 〇
123 98 〇
線形判別分析
健康
病気
分類境界

線形判別分析の問題点
 2つのカテゴリのどちらかが必ず選ばれる
 分類境界線付近の判別が難しいデータ点もどちらかのカテゴリを選択
 病気55%、健康45%のような曖昧さや、「わからない」を表現できない。
9
健康
病気
分類境界
分類境界付近にあるが、
100%病気と判定

内容：
10
 確率的判別分析
 確率的判別分析とベイズの定理の復習
 ナイーブベイズ
 手順

確率的判別分析とは
11
 カテゴリ事後確率𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦|𝒙𝒙 を用いた判別分析方法
 𝒙𝒙：入力（説明変数）のベクトル、𝑦𝑦：質的な出力（目的変数）のスカラー
 事後確率が確信度（自信）を表し、確信度が高いカテゴリを選択
 確率的判別分析の例：血圧の値から病気か否かを判定
 ベイズの定理を用いて、カテゴリの事後確率を求める
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦 = 病気|𝒙𝒙 = 140 = 0.8
入力「血圧𝑥𝑥1 = 140」の場合：
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦 = 健康|𝒙𝒙 = 140 = 0.2
事後確率の
モデルを学習
80%の確信度（自信）で「病気」と判別
血圧病気
120 ×
120 ×
130 ×
140 〇
130 〇
130 ×
120 ×
150 〇
130 ×

ベイズの定理の復習
12
 ベイズの定理：
 事象𝑦𝑦𝑖𝑖を原因（病気・健康）、事象𝑥𝑥𝑗𝑗を結果（血圧）と考える
 しかし、実際には診断（判別）では、逆の条件付き確率が必要
 この結果𝑥𝑥を観測したもとでの原因𝑦𝑦の条件付き確率を
「事後確率」という
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦𝑖𝑖|𝑥𝑥𝑗𝑗 =
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗 𝑦𝑦𝑖𝑖 𝑃𝑃𝑌𝑌(𝑦𝑦𝑖𝑖)
𝑃𝑃𝑋𝑋(𝑥𝑥𝑗𝑗)
例えば、原因𝑦𝑦𝑖𝑖：病気、結果𝑥𝑥𝑗𝑗：血圧140とした場合、病気の患者と健康な人を集め
て、血圧140の人を観測することにより、以下の尤度を求めることができる。
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140 Y = 病気と𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140 Y = 健康
𝑃𝑃𝑌𝑌|𝑋𝑋 Y = 病気 𝑋𝑋 = 血圧140
事前確率尤度
周辺確率
事後確率

ベイズの定理の定理復習続き
13
 ベイズの定理：
 ベイズの定理より、事後確率を求めることができる
 𝑃𝑃(𝑦𝑦𝑗𝑗)を事前確率といい、人間の知識またはデータに基づき決定
 分母は、周辺確率と乗法定理より求める
𝑃𝑃𝑌𝑌|𝑋𝑋 Y = 病気 𝑋𝑋 = 血圧140 =
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140 Y = 病気 𝑃𝑃𝑌𝑌 Y = 病気
𝑃𝑃𝑋𝑋(𝑋𝑋 = 血圧140)
例えば、病気の人の割合は、一般的に低いので𝑃𝑃𝑌𝑌 Y = 病気 = 0.2
𝑃𝑃𝑋𝑋 𝑋𝑋 = 血圧140 = �
𝑦𝑦∈{病気、健康}
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140 Y = 𝑦𝑦 𝑃𝑃𝑌𝑌 Y = 𝑦𝑦
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦𝑖𝑖|𝑥𝑥𝑗𝑗 =
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗 𝑦𝑦𝑖𝑖 𝑃𝑃𝑌𝑌(𝑦𝑦𝑖𝑖)
𝑃𝑃𝑋𝑋(𝑥𝑥𝑗𝑗)
事前確率尤度
周辺確率
事後確率

演習1
14
1. カテゴリ事後確率を、ベイズの定理に基づき観測可能な
条件付き確率（尤度）、事前確率、周辺確率を用いて表しなさい。
2. 条件付き確率（尤度）、周辺確率をそ
それぞれ計算し、カテゴリ事後確率を求めなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一番上
に記載
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦 = 病気|𝒙𝒙 = 130 = ？カテゴリ事後確率：
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦|𝒙𝒙 =
𝑃𝑃𝑋𝑋|𝑌𝑌 𝒙𝒙 𝑦𝑦 𝑃𝑃𝑌𝑌(𝑦𝑦)
𝑃𝑃𝑋𝑋(𝒙𝒙)
事前確率
事後確率
尤度
周辺確率
【ベイズの定理】
血圧病気
120 ×
120 ×
130 ×
140 〇
130 〇
130 ×
120 ×
150 〇
130 ×
ただし、事前確率は人間の知識に基づき以下のように設定する
𝑃𝑃𝑌𝑌 𝑦𝑦 = 病気 = 0.2 𝑃𝑃𝑌𝑌 𝑦𝑦 = 健康 = 0.8

演習1の解答例2
16
2. 条件付き確率（尤度）、周辺確率を
それぞれ計算し、カテゴリ事後確率を求めなさい。
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 = 130 𝑦𝑦 = 病気 =
1
3
条件付き確率（尤度）：
𝑃𝑃𝑋𝑋 𝒙𝒙 = 130周辺確率：
=
1
3
1
5
+
3
6
4
5
=
1
15
+
6
15
=
7
15
= 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 = 130 𝑦𝑦 = 病気 𝑃𝑃𝑌𝑌 𝑦𝑦 = 病気
+𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 = 130 𝑦𝑦 = 健康 𝑃𝑃𝑌𝑌 𝑦𝑦 = 健康
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦 = 病気|𝒙𝒙 = 130 =
𝑃𝑃𝑋𝑋|𝑌𝑌 𝒙𝒙 = 130 𝑦𝑦 = 病気 𝑃𝑃𝑌𝑌 𝑦𝑦 = 病気
𝑃𝑃𝑋𝑋 𝒙𝒙 = 130
=
1
3
1
5
7
15
=
1
7
血圧病気
120 ×
120 ×
130 ×
140 〇
130 〇
130 ×
120 ×
150 〇
130 ×
𝑃𝑃𝑌𝑌 𝑦𝑦 = 病気 = 0.2 =
1
5
𝑃𝑃𝑌𝑌 𝑦𝑦 = 健康 = 0.8 =
4
5
事前確率

内容：
17
 手順

内容：
19
 手順

ナイーブベイズの応用例
20
 ナイーブベイズは、スパムメールの検出への応用が有名
 学習データ：人間が過去のメールにハム・スパムの判別をしたもの
メール
ナイーブベイズ
単語抽出
正常
（ハム）
スパム
当選
出会い
会議こんにちは
お世話
集合協力
和歌山
各メールに含まれていた単語（説明変数）種類（目的変数）
𝒙𝒙𝟏𝟏
= はじめまして、販売、見積もり、よろしく 𝑦𝑦1
=ハム
𝒙𝒙𝟐𝟐
= いつも、会議、集合、よろしく 𝑦𝑦2
=ハム
𝒙𝒙𝟑𝟑
= いつも、資料、アップロード、よろしく 𝑦𝑦3
=ハム
𝒙𝒙𝟒𝟒
= おめでとう、当選、金額、よろしく 𝑦𝑦4
=スパム
𝒙𝒙𝟓𝟓
= いつも、講演、依頼、よろしく 𝑦𝑦5
=ハム
𝒙𝒙𝟔𝟔
= おめでとう、出会い、連絡先、よろしく 𝑦𝑦6
=スパム
【学習データの例】

演習2
21
1. 以下の単語の尤度を求めなさい。
2. 以下の事前確率をデータから求めなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
メールに含まれていた単語（説明変数）種類（目的変数）
𝒙𝒙𝟏𝟏
= おめでとう、誕生日、お祝い、プレゼント 𝑦𝑦1
=ハム
𝒙𝒙𝟐𝟐
= いつも、会議、連絡先、よろしく 𝑦𝑦2
=ハム
𝒙𝒙𝟑𝟑
= いつも、資料、アップロード、よろしく 𝑦𝑦3
=ハム
𝒙𝒙𝟒𝟒
= おめでとう、当選、100万円、振り込み 𝑦𝑦4
=スパム
𝒙𝒙𝟓𝟓
= いつも、講演、依頼、よろしく 𝑦𝑦5
=ハム
𝒙𝒙𝟔𝟔
= はじめまして、出会い、連絡先、よろしく 𝑦𝑦6
=スパム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = よろしく 𝑦𝑦 = ハム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = よろしく 𝑦𝑦 = スパム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 出会い 𝑦𝑦 = ハム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 出会い 𝑦𝑦 = スパム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 連絡先 𝑦𝑦 = ハム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 連絡先 𝑦𝑦 = スパム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = おめでとう 𝑦𝑦 = ハム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = おめでとう 𝑦𝑦 = スパム
𝑃𝑃𝑌𝑌 𝑦𝑦 = ハム 𝑃𝑃𝑌𝑌 𝑦𝑦 = スパム

ナイーブベイズの手順
23
 ステップ1：学習データにおける各単語の尤度を計算し保持
 ステップ2：事前確率を設定
 人間の知識に基づき設定、またはデータから計算
 ステップ3：新しいメール文の単語を抽出
 例えば、「おめでとう」、「連絡先」、「よろしく」
𝑃𝑃𝑌𝑌 𝑦𝑦 = ハム 𝑃𝑃𝑌𝑌 𝑦𝑦 = スパム
𝑥𝑥 = おめでとう 𝑥𝑥 = 出会い 𝑥𝑥 = 連絡先 𝑥𝑥 =よろしく
𝑦𝑦 = ハム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 ⋯
𝑦𝑦 = スパム 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 𝑦𝑦 ⋯

ナイーブベイズの手順 2
24
 ステップ4：ステップ1の単語尤度を用いて、
新しいメール文の尤度を計算
 ステップ5：ステップ2の事前確率を用いて、
新しいメール文の事後確率を計算
 ステップ6：事後確率を比較し、値が大きいカテゴリを選択
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = ハム = 𝑃𝑃𝑋𝑋|𝑌𝑌 |おめでとう、連絡先、よろしく 𝑦𝑦 = ハム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = スパム = 𝑃𝑃𝑋𝑋|𝑌𝑌 |おめでとう、連絡先、よろしく 𝑦𝑦 = スパム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = ハム 𝑃𝑃𝑌𝑌 𝑦𝑦 = ハム
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = スパム 𝑃𝑃𝑌𝑌 𝑦𝑦 = スパム

演習3
25
1. 演習2の結果を用いて、以下の単語を含むメール文の
事後確率を求めなさい。
2. 事後確率を比較し、カテゴリを判別しなさい
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
𝒙𝒙 = おめでとう、連絡先、よろしく
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = ハム 𝑃𝑃𝑌𝑌 𝑦𝑦 = ハム =?
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝒙𝒙 𝑦𝑦 = スパム 𝑃𝑃𝑌𝑌 𝑦𝑦 = スパム =?
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = よろしく 𝑦𝑦 = ハム =
3
4
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = よろしく 𝑦𝑦 = スパム =
1
2
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 連絡先 𝑦𝑦 = ハム =
1
4
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = 連絡先 𝑦𝑦 = スパム =
1
2
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = おめでとう 𝑦𝑦 = ハム =
1
4
𝑃𝑃𝑋𝑋|𝑌𝑌 |𝑥𝑥 = おめでとう 𝑦𝑦 = スパム =
1
2
𝑃𝑃𝑌𝑌 𝑦𝑦 = ハム =
4
6
𝑃𝑃𝑌𝑌 𝑦𝑦 = スパム =
2
6
【事前確率】
【単語尤度】

内容：
27
 判別分析とは
 線形判別分析の基礎
 直線を用いたカテゴリ判別
 カテゴリ間分散・カテゴリ内分散による定式化
 直線の最適化
 線形判別分析の応用
 手順

その他の応用：文章からの感情分類
28
 感情分類：文章を肯定的か否定的かの2つのカテゴリに分類
するタスク
 Yahoo! Japanのリアルタイム検索ではツイッターの文章を
感情分類する機能が提供されている
2017年12月5日時点で、話題となった有名人
「上沼恵美子」と「とろサーモン」をリアルタイ
ム検索した例

Amazonの商品レビューの感情分類
29
 学習データ：
 Amazonの商品レビューの星の数が4以上を肯定的（𝑦𝑦𝑖𝑖 = 1）、
3以下を否定的（𝑦𝑦𝑖𝑖
= 0）にカテゴリ分けしたデータを800件用意
 商品レビューの文章から単語を抽出
【商品レビューの例】
𝒙𝒙𝑖𝑖, 𝑦𝑦𝑖𝑖 = 0
レビューの文章
から単語𝒙𝒙𝑖𝑖を抽出
𝒙𝒙𝑖𝑖 = 𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿, 𝐻𝐻𝐻𝐻𝐻𝐻, 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆, 𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊, 𝑂𝑂𝑂𝑂𝑂𝑂, …
星の数に基づき
カテゴリ𝑦𝑦𝑖𝑖を決定

Pythonによるナイーブベイズの実装例
30
 数値演算ライブラリNumpyを用いた実装
ステップ１：カテゴリごとの単語尤度の計算
ステップ２：カテゴリごとの事前確率の計算
ステップ4-5：カテゴリごとの事後確率を計算
ステップ6：事後確率を比較して、カテゴリの判定

商品レビューの感情分類の結果例
31
 ナイーブベイズを用いた感情分類の結果の例：
カテゴリ：
0:否定的
1:肯定的
正解率：83%
予測真値商品レビュー文章

課題
32
 上記の学習データが与えられたとする。以下の問いに答えなさい。
1. 各カテゴリの血圧𝑥𝑥1の尤度を求めなさい。
2. 各カテゴリの心拍𝑥𝑥2の尤度を求めなさい。
3. 各カテゴリの事前確率を求めなさい。
4. 1,2,3の結果を用いて、以下の事後確率を求め、カテゴリを判別しなさい。
血圧𝑥𝑥1 心拍𝑥𝑥2 病気𝑦𝑦
120 90 ×
140 70 ×
130 70 ×
140 90 〇
130 100 〇
130 70 ×
120 100 〇
140 70 ×
130 70 ×
血圧𝑥𝑥1 = 130 心拍𝑥𝑥2 = 90

レポートの提出方法
33
 演習レポート：
 タイトル「演習レポート」、日付・学生番号・氏名を用紙の一番上に記載
 課題レポート：
 タイトル「課題レポート」、出題日・学生番号・氏名を用紙の一番上に記載
 2ページ以上になる場合は、ホッチキス留め
 A4サイズの用紙を使用
 一度に複数の課題レポートを提出する場合出題日ごとに別々に綴じる

データ解析14 ナイーブベイズ

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Hirotaka Hachiya

More from Hirotaka Hachiya (20)

データ解析14 ナイーブベイズ