SlideShare a Scribd company logo
1 of 43
Download to read offline
入門 機械学習 異常検知
- R 実践 -
2
大國
1
題材
• 井手 剛 2015 ,
入門 機械学習 異常検知- R 実
践 - , コロ 社
– 著者 記書籍 訳者 一人
• タ ン認識 機械学習 第12章 巻
• 統計的学習 基礎 ― タマ ン 推論 予測―
第6章
2
本書 目次
• 1 異常検知 基本的 考え方
• 2 正規 布 従う タ 異常検知
• 3 非正規 タ 異常検知
• 4 性能評価 方法
• 5 要 次元 含 タ 異常検知
• 6 入力 出力 あ タ 異常検知
• 7 系列 タ 異常検知
• 8 くあ そ 対処法
本資料 内容
3
2 正規 布 従う タ 異常検知
内容
• 2章 内容 ★ 印部 本資料 掲載
– 2.1 異常検知手 流
– 2.2 1変数正規 布 基 く異常検知
– 2.3 1変数 ン 理論 詳細
– 2.4 多変量正規 布 基 く異常検知
– 2.5 多変数 ン 理論 詳細
– 2.6 マ ビ = タ チ法
– 2.7 t 布 異常 定
– 2.8 ン 理論 課題
★
★
★
★
★
4
2章 前 1/2
• 2章 多く ン 理論 割 い
– ン 理論 そ 応用 マ ビ タ チ法 MT法
日本 特 製造業 現場 広く使わ い いう現実 考慮 構成
• ン 理論 異常検知理論 エ セン 最重要部 いうわ い
• 筆者 ン 理論 +MT法 限界 課題 明示 強調? い
– 理論 く 実用 役 立 ばいい 実際 ン 理論 う く使
え 場面 限 いう 実感 p.57
– ン 理論 例えば半 体 プロセ 制御 実用化 い 一般的
方法 妥当 非常 く制御 値 静的 一定値 う 状
況 い p.58
– 本書 3章以降 考え い う
• 幸い 2000 代半ば 統計的機械学習 実用的 異常検知 枠組 多
様 問題 適用 う ン 理論 位置 変わ
あ p.57
• 次章以降 記 う 課題 ※2.8節 念頭 機械学習 観点 異
常検知 手法 見 ゆ p.58
5
2章 前 2/2
• 2章 方
– ン 理論 必要以 意識
– 3章以降 機械学習 的 部
あ 種 準備運動 ≠異常検知 エ セン
く い 気持 ば い
あく 私見
2
本書 目次
• 1 異常検知 基本的 考え方
• 2 正規 布 従う タ 異常検知
• 3 非正規 タ 異常検知
• 4 性能評価 方法
• 5 要 次元 含 タ 異常検知
• 6 入力 出力 あ タ 異常検知
• 7 系列 タ 異常検知
• 8 くあ そ 対処法
本資料 内容
7
2. 正規 布 従う タ 異常検知 1/31
• 2.1 異常検知手 流 1/4
– ン 理論
• 多変量解析 外 値検出手法
• いわば異常検知 典理論
– 外 値検出問題 念頭 置い 異常値検知 流
• 0 準備
• 1 プ1 布推定
• 2 プ2 異常度 定義
• 3 プ3 閾値 設定
8
2. 正規 布 従う タ 異常検知 2/31
• 2.1 異常検知手 流 2/4
– 0 準備
• タ 準備 M次元 観測値 N個
• タ 中 異常 観測値 含 い い
含 い そ 影響 無視 仮定
– 1 プ1 布推定
• タ 性質 応 適 確率 布 仮定
• タ θ
• 典型的 布推定 問題
{ })()2()1(
,,, N
xxxD L=
決 問題タ未知)|( Dxp θθ
9
2. 正規 布 従う タ 異常検知 3/31
• 2.1 異常検知手 流 3/4
– 2 プ2 異常度 定義
• 観測値 x 対 予測 布
– D 変数 く タ 条件付 確率 表記 使う 本来
誤用
– タ D 情報 使 未知量 決 後 布
いう意味 く使わ
• 新 観測値 x’ 対 異常度
– 異常度 定義
» 情報理論的 筋 通
» 正規 布 形 密接 関係
– ⇒付録 A.4.1 理論的 議論あ
)|( Dxp
)|'(ln)'( Dxpxa −=
10
2. 正規 布 従う タ 異常検知 4/31
• 2.1 異常検知手 流 4/4
– 3 プ3 閾値 設定
• 異常度 決定 閾値 設定 異常検知 可能
• 理想的
– 正常 異常度 確率 布 明示的 求
観測値 理論的 発生確率 異常 定 行う
– 一般 異常度 確率 布 明示的 求 簡単 い
• 経験的
– 正常 信 タ D 割合 位点 センタ
使う 普通
– 複雑 無関係 常 計算可能 実用 い 便利
3
2 正規 布 従う タ 異常検知
内容
• 2章 内容 ★ 印部 本資料 掲載
– 2.1 異常検知手 流
– 2.2 1変数正規 布 基 く異常検知
– 2.3 1変数 ン 理論 詳細
– 2.4 多変量正規 布 基 く異常検知
– 2.5 多変数 ン 理論 詳細
– 2.6 マ ビ = タ チ法
– 2.7 t 布 異常 定
– 2.8 ン 理論 課題
★
★
★
★
★
12
2. 正規 布 従う タ 異常検知 5/31
• 2.2 1変数正規 布 基 く異常検知 1/6
– 2.2.1 プ1 布推定
– 2.2.2 プ2 異常度 定義
• 式 2.3 異常度 定義
– 対数 取 整え
表う値 確率得 うい任意 観測値予測 布
代入式最尤推定 タ
式
)ˆ,ˆ|((2.3)ˆ,ˆ
)(
2
1
exp
)2(
1
),|((2.3)
22
2
22/12
2
x'
xN
xxN
σµσµ
µ
σπσ
σµ
→






−−=
2
2
2
ˆ
)ˆ'(
1
(2.6) 




 −
=−≡
σ
µ
µ
σ
x
xa(x')式
子 標本 均
母 ば 正規化
13
2. 正規 布 従う タ 異常検知 6/31
• 2.2 1変数正規 布 基 く異常検知 2/6
– 2.2.3 プ3 閾値 設定
• 正規 布 仮定 a(x’) 確率 布 明示的 出可能
• a(x’) ば 原因
– 観測値 x’ 自体 ば
– 推定 タ D ば 標本 限性 必然
• 正規 布 仮定 基 い 異常度 確率 布 う く ?
統計学 外 値理論 詳細 2.3節
• ン 理論 ン 統計量 ン T2 次頁
• 基本的 統計的仮 検定 同 手 思 い
14
2. 正規 布 従う タ 異常検知 7/31
• 2.2 1変数正規 布 基 く異常検知 3/6
– 2.2.3 プ3 閾値 設定
{ } ( )
)1,1(~)'((2.8)
11)'(1
)1,1(~)'(
1
1
(2.7)
F)1,1(
)'((2.6)'
,,,1
12.1
2
2)()1(
χ
σµ
xa
xaN
NFxa
N
N
N
xax
NxxD N
式
乗 布 従う因子そ 自由度特
式
布 従う わ自由度
定数倍式う同 布 独立 従新 観測値
従い布各観測値 独立 同次元 観測 タ
変数布ン 統計量定理
>>
−
+
−
−
= K
ン 統計量 or ン T2
15
2. 正規 布 従う タ 異常検知 8/31
• 2.2 1変数正規 布 基 く異常検知 4/6
– 2.2.4 R 実行例
• 使用 car Davis タ
※ car タ 使う 目的
• weight 体重 1変数 使 異常検知
– 後段 2.4 節 weight 体重 height 身長 2変数
即 多変数 場合 異常検知 行う
4
2章 前 1/2
• 2章 多く ン 理論 割 い
– ン 理論 そ 応用 マ ビ タ チ法 MT法
日本 特 製造業 現場 広く使わ い いう現実 考慮 構成
• ン 理論 異常検知理論 エ セン 最重要部 いうわ い
• 筆者 ン 理論 +MT法 限界 課題 明示 強調? い
– 理論 く 実用 役 立 ばいい 実際 ン 理論 う く使
え 場面 限 いう 実感 p.57
– ン 理論 例えば半 体 プロセ 制御 実用化 い 一般的
方法 妥当 非常 く制御 値 静的 一定値 う 状
況 い p.58
– 本書 3章以降 考え い う
• 幸い 2000 代半ば 統計的機械学習 実用的 異常検知 枠組 多
様 問題 適用 う ン 理論 位置 変わ
あ p.57
• 次章以降 記 う 課題 ※2.8節 念頭 機械学習 観点 異
常検知 手法 見 ゆ p.58
17
2. 正規 布 従う タ 異常検知 10/31
• 2.2.4 R 実行例 6/6
プ
– weight 体重 布
正規 布
タ 計算
– 各 異常度 算出
– 乗 布 ※近似
基 く閾値 設定
そ 閾値 超 い
確認
右
18
2.4 多変量正規 布 基 く異常検知
19
2. 正規 布 従う タ 異常検知 11/31
• 2.4 多変量正規 布 基 く異常検知 1/7
• 1変数 ン 理論 ⇒ 2変数以 張
• 独立同 布 従う M 次元 N 個 観測値 タ D 想定
• 多次元正規 布 式(2.30) 化
– ※式 複雑そう 見え
» 基本的 形 1変数 正規 布 同
» ン 理論 枠組
最終的 使う 異常度 布 近似的 乗 布
– 正規 布 仮定 いう
» タ 布 山 い い安定 い
» 淡々 生産 続 工場 設備 異常 定 いう






−Σ′−−
Σ
=Σ −
−
)()(
2
1
exp
)2(
),|((2.30) 1
2/
2/1
µµ
π
µ xxxN M
式
20
2. 正規 布 従う タ 異常検知 12/31
• 2.4 多変量正規 布 基 く異常検知 2/7
– 2.4.1 プ1 多次元正規 布 最尤推定
– 2.4.2 プ2 異常度 定義
• 1変数 場合 同様 負 対数尤度 2倍 式 2.35
• ⇒ 観測 タ x’ 標本 均 μ い 表
• ⇒マ ビ 距 2乗
– ば 大 応 異常度 定義
» 正常 ば い 少 見逃 い
» 正常 ば 大 い 多少 ば 大目 見
• M 次元 系全体 要約 一 値 計算
– 異常度 a(x’) 高い x’ 変数 ?
– ン 理論 そ 問題 ン 理論 課題 2.8節
)ˆ'(ˆ)ˆ'()(2.35 1
µµ −Σ′−=′ −
xxxa式
∑
∑
=
=
′−−≡Σ=Σ
=
N
n
nn
N
n
n
xx
N
x
N
1
)()(
1
)(
)ˆ)(ˆ(
1ˆ(2.34)
1
ˆ(2.32)
µµ
µ
式
式
21
2. 正規 布 従う タ 異常検知 13/31
• 2.4 多変量正規 布 基 く異常検知 3/7
– 2.4.3 プ3 閾値 設定 ン T2 理論
( ) { }
( )
乗 布 従う因子近似的 自由度場合
布 従う自由度量く 統計式
従う次元ウ 布行列由度統計的 独立 自
次元正規 布 従う共 散均
以 成立新 観測独立標本
定義式標本共 散式標本 均
基個 独立標本次元正規 布
理論多変数 ン定理
1)(4.
),()(
)1(
2.353.
1ˆ2.
1
01.
,
2.34ˆ2.32ˆ
,,,
T2.6
)()1(
2
MxaMN
FMNMxa
MN
MN
MNxN
M
N
N
x
xN
xxNNM N
′>>
−′
+
−
Σ−−′Σ
Σ
+
−′
′Σ
Σ
Σ
µ
µ
µ
µ
µ K
)ˆ(ˆ)ˆ(
)1(
2.36 12
µµ −′Σ−′
+
−
≡ −
xx
MN
MN
T T
式 ン 統計量 ン T2
5
2章 前 2/2
• 2章 方
– ン 理論 必要以 意識
– 3章以降 機械学習 的 部
あ 種 準備運動 ≠異常検知 エ セン
く い 気持 ば い
あく 私見
23
2. 正規 布 従う タ 異常検知 15/31
• 2.4 多変量正規 布 基 く異常検知 5/7
– 2.4.4 R 実行例
• 使用 car Davis タ
• weight 体重 height 身長 2変数 使う
• 流 同 ※言葉 1変数 場合 微妙 変え あ
– タ 準備 閾値 確率値 設定
– プ1 標本 均 標本 散 計算
– プ2 異常度 計算
– プ3 異常 定
24
2. 正規 布 従う タ 異常検知 16/31
• 2.4.4 R 実行例 6/7
#出力用P)Fファイルに関 設定
じmg.name <- paste("じmg_eで_「.4-5", ".p”f", sep="")
p”f(fじle = じmg.name, famじlと = "Japan1Gotしじ“BBB")
# ッ ー 読み込み
#じnstall.pa“kages("“ar") #イン ール未済 場合 実行
lじbrarと(“ar)
#================================================================
# ータ 確認
#================================================================
# てeじgしt しeじgしt 「変数 ータ行列 作成
で <- “bじn”()aづじs$てeじgしt, )aづじs$しeじgしt)
str(で)
# 散布図
plot(で[, 1], で[, 「],
p“し = 16,
maじn = "図「.5 )aづじs ータ 体重 身長に関 散布図",
でlab = "てeじgしt", とlab = "しeじgしt"
)
#================================================================
# 多変量正規分布に基 く異常検知 実行例
#================================================================
#------------------------------
# ップ0:閾値 設定
#------------------------------
# カイ二乗分布を基に た閾値 設定
(tし <- q“しじsq(0.99, 「)) #1%基準、自由度 「
#------------------------------
# ップ1:分布推定
#------------------------------
# 標本平均(ベ ル)
(mつ <- applと(で, 「, mean))
# で - μ 算出(中心化)
で“ <- で - matrじで(1, nroて(で), 1) %*% mつ
# 標本分散(共分散行列)
(“oづ <- t(で“) %*% で“ / nroて(で))
#------------------------------
# ップ「:異常度 計算
#------------------------------
# 式(「.」5)によ 異常度 定義 --> マ ラ 距離( 「乗)
a <- applと((で“ %*% solづe(“oづ)) * で“, 1, sつm)
str(a)
#------------------------------
# ップ」:閾値 設定
#------------------------------
# 異常度判定 作図
plot(a,
maじn = "図「.」 )aづじs ータ 体重 身長 「変数に関 異常度",
でlab = "標本番号", とlab = "異常度"
)
lじnes(0:「00, rep(tし, lengtし(0:「00)), “ol = "re”", ltと = 「) #閾値
#================================================================
# 出力
#================================================================
# イ を閉
”eづ.off()
25
2. 正規 布 従う タ 異常検知 17/31
• 2.4.4 R 実行例 7/7
26
2.6 マ ビ タ チ法
27
2. 正規 布 従う タ 異常検知 18/31
• 2.6 マ ビ タ チ法
– 2.6.1 手法 概要
• ン 理論 多変量
– 全系 総合的 異常度 あ
– 個 変数 異常度 い
• マ ビ タ チ法 MT法 MT MTS
– ン 統計量 or マ ビ 距 基 く
外 値検出手法 加え
– 異常変数 選択手法 組 入
6
2.1 異常検知手 流
29
2. 正規 布 従う タ 異常検知 20/31
• 2.6 マ ビ タ チ法
– 手 2.3 マ ビ タ チ法
• 経験的 指標 SNq 入
– 変数集合 q 対 SN 比
– aq タ ン q 対応 Mq × Mq 次元 共 散行列
使 異常度
– SN 比 部
» 子 =1 正常状態 1変数当 異常度 期待値
» 母 異常状態 1変数当 異常度
• SNq 見方
– 1変数 見 場合
» q M 通 Mq = 1
» 第 q 変数 N’個 異常 例 大半 大 く寄 い
1変数当 異常度 大変大 く
⇒ SNq 大 く
⇒ SNq 見 ば 変数 q 異常 定 用性
– 複数変数 考え 場合 実験計画法 直交表 利用
30
2. 正規 布 従う タ 異常検知 21/31
• 2.6 マ ビ タ チ法
– 2.6.2 R 実行例
• MASS road タ
• road タ 内容
– 26州
– deaths 交通死亡 故者数
– drivers 運転者数
– popden 人 密度
– rural 郊外地区 道路延長距
– temp 1 1日 最高気温 均値
– fuel 1 燃料消費量
• プロ や い
– 26州 い 州 比 異常 ※あく 取
い タ 限 定 州 い そ 原因 い 考
え 変数 マ ビ タ チ法 MT法 特定
– temp drivers 割 奇異 計算
31
2. 正規 布 従う タ 異常検知 22/31
• 2.6.2 R 実行例 ※一部省略
※前略
> #================================================================
> # ータ 確認 準備
> #================================================================
> #------------------------------
> # ータ 確認
> #------------------------------
> ”ata(roa”)
> str(roa”)
'”ata.frame': 「6 obs. of 6 づarじables:
$ ”eatしs : じnt 968 4」 588 640 474」 566 」「5 118 115 1545 ...
$ ”rじづers: じnt 158 11 91 9「 95「 109 167 」0 」5 「98 ...
$ pop”en : nつm 64 0.4 1「 」4 100 ...
$ rつral : nつm 66 5.9 」」 7」 118 7」 5.1 」.4 0 57 ...
$ temp : じnt 6「 」0 64 51 65 4「 」7 41 44 67 ...
$ fつel : nつm 119 6.「 65 74 105 78 95 「0 「」 「16 ...
> しea”(roa”)
”eatしs ”rじづers pop”en rつral temp fつel
Alabama 968 158 64.0 66.0 6「 119.0
Alaska 4」 11 0.4 5.9 」0 6.「
Arじzona 588 91 1「.0 」」.0 64 65.0
Arkanas 640 9「 」4.0 7」.0 51 74.0
(alじf 474」 95「 100.0 118.0 65 105.0
(olo 566 109 17.0 7」.0 4「 78.0
32
2. 正規 布 従う タ 異常検知 23/31
• 2.6.2 R 実行例 ※一部省略
> sつmmarと(roa”)
”eatしs ”rじづers pop”en rつral
Mじn. : 4」.0 Mじn. : 11.0 Mじn. : 0.40 Mじn. : 0.00
1st Qつ.: 571.5 1st Qつ.: 86.5 1st Qつ.: 」1.75 1st Qつ.: 」0.00
Me”じan : 799.5 Me”じan :148.5 Me”じan : 66.00 Me”じan : 65.50
Mean :1000.7 Mean :191.「 Mean : 595.74 Mean : 60.71
」r” Qつ.:1「65.8 」r” Qつ.:「「6.「 」r” Qつ.: 1」5.00 」r” Qつ.: 9」.50
Maで. :474」.0 Maで. :95「.0 Maで. :1「5「4.00 Maで. :1「4.00
temp fつel
Mじn. :「「.00 Mじn. : 6.「0
1st Qつ.:」」.75 1st Qつ.: 67.「5
Me”じan :41.50 Me”じan :104.50
Mean :4」.69 Mean :115.「4
」r” Qつ.:5」.「5 」r” Qつ.:154.50
Maで. :67.00 Maで. :」50.00
> plot(roa”)
>
plot 散布 出力
7
2. 正規 布 従う タ 異常検知 1/31
• 2.1 異常検知手 流 1/4
– ン 理論
• 多変量解析 外 値検出手法
• いわば異常検知 典理論
– 外 値検出問題 念頭 置い 異常値検知 流
• 0 準備
• 1 プ1 布推定
• 2 プ2 異常度 定義
• 3 プ3 閾値 設定
34
2. 正規 布 従う タ 異常検知 25/31
• 2.6.2 R 実行例 ※一部省略
> #================================================================
> # MT法によ 異常検知 実行例
> #================================================================
> #------------------------------
> # ップ1:標本平均、標本分散 計算
> #------------------------------
> # 標本平均(ベ ル)
> (mつ <- applと(で, 「, mean))
[1] 1.8585916 0.668448」 0.」48965」 0.」671115 0.5「64756
>
> # で - μ 算出(中心化)
> で“ <- で - matrじで(1, nroて(で), 1) %*% mつ
>
> # 標本分散(共分散行列)
> (“oづ <- t(で“) %*% で“ / nroて(で))
[,1] [,「] [,」] [,4] [,5]
[1,] 0.14157「989 -0.147619580 0.0」4」1「5「8 0.00669「856 0.01「110」56
[「,] -0.147619580 1.」154」」86」 -0.1「9「75「78 0.10」6」」5「7 -0.004655647
[」,] 0.0」4」1「5「8 -0.1「9「75「78 0.054」4「「46 0.01「1「6「」6 0.008」17778
[4,] 0.00669「856 0.10」6」」5「7 0.01「1「6「」6 0.08「911「」6 0.00「」1685」
[5,] 0.01「110」56 -0.004655647 0.008」17778 0.00「」1685」 0.0089「776「
>
35
2. 正規 布 従う タ 異常検知 26/31
• 2.6.2 R 実行例 ※一部省略
> #------------------------------
> # ップ「:異常度 計算
> #------------------------------
> # マ ラ 距離( 「乗) 異常度 a1 を変数 数 割
> # -->1変数当た 異常度 算出
> a <- applと((で“ %*% solづe(“oづ)) * で“, 1, sつm) / n“ol(で)
>
> #------------------------------
> # ップ」:異常判定1
> #------------------------------
> # 異常度判定 作図(※閾値を1 い )
> plot(a,
+ maじn = "図「.7(a) roa” ータ 各標本 1変数当た 異常度",
+ でlab = "標本番号", とlab = "異常度"
+ )
> lじnes(0:」0, rep(1, lengtし(0:」0)), “ol = "re”", ltと = 「)
>
5 異常標本 存 伺え
標本番号 2, 5, 9, 19, 26 5 最 異常
36
2. 正規 布 従う タ 異常検知 27/31
• 2.6.2 R 実行例 ※一部省略
> #------------------------------
> # ップ4:異常判定「
> #------------------------------
> # 行列に列名、行名を入 (復活させ )
> “olnames(で“) <- “("”eatしs", "pop”en", "rつral", "temp", "fつel")
> roてnames(で“) <- “(
+ "Alabama",
中略
+ "Mont"
+ )
>
> #+++++++++++++++
> # 異常標本
> #+++++++++++++++
> # 5番目 標本("(alじf")におけ SN比 算出 作図
> samp.no = 5
> で“「 <- で“[samp.no, ]
> sn <- 10 * log10(で“「^「 / ”じag(“oづ))
> str(sn)
Name” nつm [1:5] -14.6」11 -6.0951 -0.0」7」 0.」87 1「.9957
- attr(*, "names")= “しr [1:5] "”eatしs" "pop”en" "rつral" "temp" ...
> barplot(sn, maじn = paste(samp.no, "_", roてnames(で“)[samp.no], sep = ""))
fuel 飛 抜 高い値
そ 0 近傍以
※負 SN比 偏差 標準偏差 表
⇒ 異常 fuel 帰 う
解釈
37
2. 正規 布 従う タ 異常検知 28/31
• 2.6.2 R 実行例 ※一部省略
– そ 州 SN比 フ抜粋
• 異常 正常
• いく 州 い 出力 出力PDF参照
異常 標本番号 9 正常 標本番号 1 標本番号 8
8
2. 正規 布 従う タ 異常検知 2/31
• 2.1 異常検知手 流 2/4
– 0 準備
• タ 準備 M次元 観測値 N個
• タ 中 異常 観測値 含 い い
含 い そ 影響 無視 仮定
– 1 プ1 布推定
• タ 性質 応 適 確率 布 仮定
• タ θ
• 典型的 布推定 問題
{ })()2()1(
,,, N
xxxD L=
決 問題タ未知)|( Dxp θθ
39
2.8 ン 理論 課題
40
2. 正規 布 従う タ 異常検知 30/31
• 2.8 ン 理論 課題
– 実用 課題
• 1 タ生成 単一 正規 布 従う いう仮定 限界
– いく あ う 場合 変化 追従
誤報 頻発
• 2 少数 変数 生 異常 捉え い
– ン 統計量 M 次元 系 異常度 単一 指標 表
– 変数 多数 異常 捉え く
• 3 動的 系 適用 い
– 異常度 定義 一定 均値 基 く
– 値 動的 変化 系 適用 困
41
2. 正規 布 従う タ 異常検知 31/31
• 2.8 ン 理論 課題
– 一般的 方法 妥当 非常 く制
御 値 静的 一定値 う 状況
工程管理 プロセ 制御等
– 記 う 課題 念頭 次章 3章 以降
機械学習 観点 異常検知 手法
見 ゆく
42
参考 著者
• 本書 最大 目的 異常検知 基本技術 完全 理解
完全 いう タ 表 方 始 異常度 計算 方
曖昧 く理解 いう 一般 異常検知 行う対象
違う 前処理 機械学習的タ 使 流
作業的 行え 解析や画像解析 状況 違う 思い そ
う 場合 異常検知 基礎理論そ 自体 理解 避 通 い
思い そ 伝え 第1 目的
• 一方 現場 問題 解決 そ 実装 必要 あ
実 本書 主 想定 い 者 機械 電気 材料 制御 非計算
機系 学科 卒業 実務 携わ い エン そういう人
機械学習 群 通 い い 思わ 最初 一
歩 壁 取 除く 注力 そ 第2 目的
• 目的 最適 ン R 実行例 数行 書
実装 い 主
そ 同種 本 い現状 十 日本 エン
実践 思 い
• http://ide-research.net/book/support.html

More Related Content

What's hot

状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
 

What's hot (20)

ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
TalkingData AdTracking  Fraud Detection Challenge (1st place solution)TalkingData AdTracking  Fraud Detection Challenge (1st place solution)
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsSliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
スパースモデリング入門
スパースモデリング入門スパースモデリング入門
スパースモデリング入門
 
再現性問題は若手研究者の突破口
再現性問題は若手研究者の突破口再現性問題は若手研究者の突破口
再現性問題は若手研究者の突破口
 
情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム 情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
 

Similar to R実践 機械学習による異常検知 02

Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4key
youwatari
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
Yohei Sato
 

Similar to R実践 機械学習による異常検知 02 (20)

確率的自己位置推定
確率的自己位置推定確率的自己位置推定
確率的自己位置推定
 
Rm20150520 6key
Rm20150520 6keyRm20150520 6key
Rm20150520 6key
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
Survival analysis0702 2
Survival analysis0702 2Survival analysis0702 2
Survival analysis0702 2
 
Rゼミ 3
Rゼミ 3Rゼミ 3
Rゼミ 3
 
Survival analysis0702
Survival analysis0702Survival analysis0702
Survival analysis0702
 
Maeshori missing
Maeshori missingMaeshori missing
Maeshori missing
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4key
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
 
マルコフ連鎖モンテカルロ法入門-2
マルコフ連鎖モンテカルロ法入門-2マルコフ連鎖モンテカルロ法入門-2
マルコフ連鎖モンテカルロ法入門-2
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
Dbda chapter15
Dbda chapter15Dbda chapter15
Dbda chapter15
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
モンテカルロ法と情報量
モンテカルロ法と情報量モンテカルロ法と情報量
モンテカルロ法と情報量
 
20150329 tokyo r47
20150329 tokyo r4720150329 tokyo r47
20150329 tokyo r47
 

R実践 機械学習による異常検知 02

  • 1. 入門 機械学習 異常検知 - R 実践 - 2 大國
  • 2. 1 題材 • 井手 剛 2015 , 入門 機械学習 異常検知- R 実 践 - , コロ 社 – 著者 記書籍 訳者 一人 • タ ン認識 機械学習 第12章 巻 • 統計的学習 基礎 ― タマ ン 推論 予測― 第6章
  • 3. 2 本書 目次 • 1 異常検知 基本的 考え方 • 2 正規 布 従う タ 異常検知 • 3 非正規 タ 異常検知 • 4 性能評価 方法 • 5 要 次元 含 タ 異常検知 • 6 入力 出力 あ タ 異常検知 • 7 系列 タ 異常検知 • 8 くあ そ 対処法 本資料 内容
  • 4. 3 2 正規 布 従う タ 異常検知 内容 • 2章 内容 ★ 印部 本資料 掲載 – 2.1 異常検知手 流 – 2.2 1変数正規 布 基 く異常検知 – 2.3 1変数 ン 理論 詳細 – 2.4 多変量正規 布 基 く異常検知 – 2.5 多変数 ン 理論 詳細 – 2.6 マ ビ = タ チ法 – 2.7 t 布 異常 定 – 2.8 ン 理論 課題 ★ ★ ★ ★ ★
  • 5. 4 2章 前 1/2 • 2章 多く ン 理論 割 い – ン 理論 そ 応用 マ ビ タ チ法 MT法 日本 特 製造業 現場 広く使わ い いう現実 考慮 構成 • ン 理論 異常検知理論 エ セン 最重要部 いうわ い • 筆者 ン 理論 +MT法 限界 課題 明示 強調? い – 理論 く 実用 役 立 ばいい 実際 ン 理論 う く使 え 場面 限 いう 実感 p.57 – ン 理論 例えば半 体 プロセ 制御 実用化 い 一般的 方法 妥当 非常 く制御 値 静的 一定値 う 状 況 い p.58 – 本書 3章以降 考え い う • 幸い 2000 代半ば 統計的機械学習 実用的 異常検知 枠組 多 様 問題 適用 う ン 理論 位置 変わ あ p.57 • 次章以降 記 う 課題 ※2.8節 念頭 機械学習 観点 異 常検知 手法 見 ゆ p.58
  • 6. 5 2章 前 2/2 • 2章 方 – ン 理論 必要以 意識 – 3章以降 機械学習 的 部 あ 種 準備運動 ≠異常検知 エ セン く い 気持 ば い あく 私見
  • 7. 2 本書 目次 • 1 異常検知 基本的 考え方 • 2 正規 布 従う タ 異常検知 • 3 非正規 タ 異常検知 • 4 性能評価 方法 • 5 要 次元 含 タ 異常検知 • 6 入力 出力 あ タ 異常検知 • 7 系列 タ 異常検知 • 8 くあ そ 対処法 本資料 内容
  • 8. 7 2. 正規 布 従う タ 異常検知 1/31 • 2.1 異常検知手 流 1/4 – ン 理論 • 多変量解析 外 値検出手法 • いわば異常検知 典理論 – 外 値検出問題 念頭 置い 異常値検知 流 • 0 準備 • 1 プ1 布推定 • 2 プ2 異常度 定義 • 3 プ3 閾値 設定
  • 9. 8 2. 正規 布 従う タ 異常検知 2/31 • 2.1 異常検知手 流 2/4 – 0 準備 • タ 準備 M次元 観測値 N個 • タ 中 異常 観測値 含 い い 含 い そ 影響 無視 仮定 – 1 プ1 布推定 • タ 性質 応 適 確率 布 仮定 • タ θ • 典型的 布推定 問題 { })()2()1( ,,, N xxxD L= 決 問題タ未知)|( Dxp θθ
  • 10. 9 2. 正規 布 従う タ 異常検知 3/31 • 2.1 異常検知手 流 3/4 – 2 プ2 異常度 定義 • 観測値 x 対 予測 布 – D 変数 く タ 条件付 確率 表記 使う 本来 誤用 – タ D 情報 使 未知量 決 後 布 いう意味 く使わ • 新 観測値 x’ 対 異常度 – 異常度 定義 » 情報理論的 筋 通 » 正規 布 形 密接 関係 – ⇒付録 A.4.1 理論的 議論あ )|( Dxp )|'(ln)'( Dxpxa −=
  • 11. 10 2. 正規 布 従う タ 異常検知 4/31 • 2.1 異常検知手 流 4/4 – 3 プ3 閾値 設定 • 異常度 決定 閾値 設定 異常検知 可能 • 理想的 – 正常 異常度 確率 布 明示的 求 観測値 理論的 発生確率 異常 定 行う – 一般 異常度 確率 布 明示的 求 簡単 い • 経験的 – 正常 信 タ D 割合 位点 センタ 使う 普通 – 複雑 無関係 常 計算可能 実用 い 便利
  • 12. 3 2 正規 布 従う タ 異常検知 内容 • 2章 内容 ★ 印部 本資料 掲載 – 2.1 異常検知手 流 – 2.2 1変数正規 布 基 く異常検知 – 2.3 1変数 ン 理論 詳細 – 2.4 多変量正規 布 基 く異常検知 – 2.5 多変数 ン 理論 詳細 – 2.6 マ ビ = タ チ法 – 2.7 t 布 異常 定 – 2.8 ン 理論 課題 ★ ★ ★ ★ ★
  • 13. 12 2. 正規 布 従う タ 異常検知 5/31 • 2.2 1変数正規 布 基 く異常検知 1/6 – 2.2.1 プ1 布推定 – 2.2.2 プ2 異常度 定義 • 式 2.3 異常度 定義 – 対数 取 整え 表う値 確率得 うい任意 観測値予測 布 代入式最尤推定 タ 式 )ˆ,ˆ|((2.3)ˆ,ˆ )( 2 1 exp )2( 1 ),|((2.3) 22 2 22/12 2 x' xN xxN σµσµ µ σπσ σµ →       −−= 2 2 2 ˆ )ˆ'( 1 (2.6)       − =−≡ σ µ µ σ x xa(x')式 子 標本 均 母 ば 正規化
  • 14. 13 2. 正規 布 従う タ 異常検知 6/31 • 2.2 1変数正規 布 基 く異常検知 2/6 – 2.2.3 プ3 閾値 設定 • 正規 布 仮定 a(x’) 確率 布 明示的 出可能 • a(x’) ば 原因 – 観測値 x’ 自体 ば – 推定 タ D ば 標本 限性 必然 • 正規 布 仮定 基 い 異常度 確率 布 う く ? 統計学 外 値理論 詳細 2.3節 • ン 理論 ン 統計量 ン T2 次頁 • 基本的 統計的仮 検定 同 手 思 い
  • 15. 14 2. 正規 布 従う タ 異常検知 7/31 • 2.2 1変数正規 布 基 く異常検知 3/6 – 2.2.3 プ3 閾値 設定 { } ( ) )1,1(~)'((2.8) 11)'(1 )1,1(~)'( 1 1 (2.7) F)1,1( )'((2.6)' ,,,1 12.1 2 2)()1( χ σµ xa xaN NFxa N N N xax NxxD N 式 乗 布 従う因子そ 自由度特 式 布 従う わ自由度 定数倍式う同 布 独立 従新 観測値 従い布各観測値 独立 同次元 観測 タ 変数布ン 統計量定理 >> − + − − = K ン 統計量 or ン T2
  • 16. 15 2. 正規 布 従う タ 異常検知 8/31 • 2.2 1変数正規 布 基 く異常検知 4/6 – 2.2.4 R 実行例 • 使用 car Davis タ ※ car タ 使う 目的 • weight 体重 1変数 使 異常検知 – 後段 2.4 節 weight 体重 height 身長 2変数 即 多変数 場合 異常検知 行う
  • 17. 4 2章 前 1/2 • 2章 多く ン 理論 割 い – ン 理論 そ 応用 マ ビ タ チ法 MT法 日本 特 製造業 現場 広く使わ い いう現実 考慮 構成 • ン 理論 異常検知理論 エ セン 最重要部 いうわ い • 筆者 ン 理論 +MT法 限界 課題 明示 強調? い – 理論 く 実用 役 立 ばいい 実際 ン 理論 う く使 え 場面 限 いう 実感 p.57 – ン 理論 例えば半 体 プロセ 制御 実用化 い 一般的 方法 妥当 非常 く制御 値 静的 一定値 う 状 況 い p.58 – 本書 3章以降 考え い う • 幸い 2000 代半ば 統計的機械学習 実用的 異常検知 枠組 多 様 問題 適用 う ン 理論 位置 変わ あ p.57 • 次章以降 記 う 課題 ※2.8節 念頭 機械学習 観点 異 常検知 手法 見 ゆ p.58
  • 18. 17 2. 正規 布 従う タ 異常検知 10/31 • 2.2.4 R 実行例 6/6 プ – weight 体重 布 正規 布 タ 計算 – 各 異常度 算出 – 乗 布 ※近似 基 く閾値 設定 そ 閾値 超 い 確認 右
  • 19. 18 2.4 多変量正規 布 基 く異常検知
  • 20. 19 2. 正規 布 従う タ 異常検知 11/31 • 2.4 多変量正規 布 基 く異常検知 1/7 • 1変数 ン 理論 ⇒ 2変数以 張 • 独立同 布 従う M 次元 N 個 観測値 タ D 想定 • 多次元正規 布 式(2.30) 化 – ※式 複雑そう 見え » 基本的 形 1変数 正規 布 同 » ン 理論 枠組 最終的 使う 異常度 布 近似的 乗 布 – 正規 布 仮定 いう » タ 布 山 い い安定 い » 淡々 生産 続 工場 設備 異常 定 いう       −Σ′−− Σ =Σ − − )()( 2 1 exp )2( ),|((2.30) 1 2/ 2/1 µµ π µ xxxN M 式
  • 21. 20 2. 正規 布 従う タ 異常検知 12/31 • 2.4 多変量正規 布 基 く異常検知 2/7 – 2.4.1 プ1 多次元正規 布 最尤推定 – 2.4.2 プ2 異常度 定義 • 1変数 場合 同様 負 対数尤度 2倍 式 2.35 • ⇒ 観測 タ x’ 標本 均 μ い 表 • ⇒マ ビ 距 2乗 – ば 大 応 異常度 定義 » 正常 ば い 少 見逃 い » 正常 ば 大 い 多少 ば 大目 見 • M 次元 系全体 要約 一 値 計算 – 異常度 a(x’) 高い x’ 変数 ? – ン 理論 そ 問題 ン 理論 課題 2.8節 )ˆ'(ˆ)ˆ'()(2.35 1 µµ −Σ′−=′ − xxxa式 ∑ ∑ = = ′−−≡Σ=Σ = N n nn N n n xx N x N 1 )()( 1 )( )ˆ)(ˆ( 1ˆ(2.34) 1 ˆ(2.32) µµ µ 式 式
  • 22. 21 2. 正規 布 従う タ 異常検知 13/31 • 2.4 多変量正規 布 基 く異常検知 3/7 – 2.4.3 プ3 閾値 設定 ン T2 理論 ( ) { } ( ) 乗 布 従う因子近似的 自由度場合 布 従う自由度量く 統計式 従う次元ウ 布行列由度統計的 独立 自 次元正規 布 従う共 散均 以 成立新 観測独立標本 定義式標本共 散式標本 均 基個 独立標本次元正規 布 理論多変数 ン定理 1)(4. ),()( )1( 2.353. 1ˆ2. 1 01. , 2.34ˆ2.32ˆ ,,, T2.6 )()1( 2 MxaMN FMNMxa MN MN MNxN M N N x xN xxNNM N ′>> −′ + − Σ−−′Σ Σ + −′ ′Σ Σ Σ µ µ µ µ µ K )ˆ(ˆ)ˆ( )1( 2.36 12 µµ −′Σ−′ + − ≡ − xx MN MN T T 式 ン 統計量 ン T2
  • 23. 5 2章 前 2/2 • 2章 方 – ン 理論 必要以 意識 – 3章以降 機械学習 的 部 あ 種 準備運動 ≠異常検知 エ セン く い 気持 ば い あく 私見
  • 24. 23 2. 正規 布 従う タ 異常検知 15/31 • 2.4 多変量正規 布 基 く異常検知 5/7 – 2.4.4 R 実行例 • 使用 car Davis タ • weight 体重 height 身長 2変数 使う • 流 同 ※言葉 1変数 場合 微妙 変え あ – タ 準備 閾値 確率値 設定 – プ1 標本 均 標本 散 計算 – プ2 異常度 計算 – プ3 異常 定
  • 25. 24 2. 正規 布 従う タ 異常検知 16/31 • 2.4.4 R 実行例 6/7 #出力用P)Fファイルに関 設定 じmg.name <- paste("じmg_eで_「.4-5", ".p”f", sep="") p”f(fじle = じmg.name, famじlと = "Japan1Gotしじ“BBB") # ッ ー 読み込み #じnstall.pa“kages("“ar") #イン ール未済 場合 実行 lじbrarと(“ar) #================================================================ # ータ 確認 #================================================================ # てeじgしt しeじgしt 「変数 ータ行列 作成 で <- “bじn”()aづじs$てeじgしt, )aづじs$しeじgしt) str(で) # 散布図 plot(で[, 1], で[, 「], p“し = 16, maじn = "図「.5 )aづじs ータ 体重 身長に関 散布図", でlab = "てeじgしt", とlab = "しeじgしt" ) #================================================================ # 多変量正規分布に基 く異常検知 実行例 #================================================================ #------------------------------ # ップ0:閾値 設定 #------------------------------ # カイ二乗分布を基に た閾値 設定 (tし <- q“しじsq(0.99, 「)) #1%基準、自由度 「 #------------------------------ # ップ1:分布推定 #------------------------------ # 標本平均(ベ ル) (mつ <- applと(で, 「, mean)) # で - μ 算出(中心化) で“ <- で - matrじで(1, nroて(で), 1) %*% mつ # 標本分散(共分散行列) (“oづ <- t(で“) %*% で“ / nroて(で)) #------------------------------ # ップ「:異常度 計算 #------------------------------ # 式(「.」5)によ 異常度 定義 --> マ ラ 距離( 「乗) a <- applと((で“ %*% solづe(“oづ)) * で“, 1, sつm) str(a) #------------------------------ # ップ」:閾値 設定 #------------------------------ # 異常度判定 作図 plot(a, maじn = "図「.」 )aづじs ータ 体重 身長 「変数に関 異常度", でlab = "標本番号", とlab = "異常度" ) lじnes(0:「00, rep(tし, lengtし(0:「00)), “ol = "re”", ltと = 「) #閾値 #================================================================ # 出力 #================================================================ # イ を閉 ”eづ.off()
  • 26. 25 2. 正規 布 従う タ 異常検知 17/31 • 2.4.4 R 実行例 7/7
  • 27. 26 2.6 マ ビ タ チ法
  • 28. 27 2. 正規 布 従う タ 異常検知 18/31 • 2.6 マ ビ タ チ法 – 2.6.1 手法 概要 • ン 理論 多変量 – 全系 総合的 異常度 あ – 個 変数 異常度 い • マ ビ タ チ法 MT法 MT MTS – ン 統計量 or マ ビ 距 基 く 外 値検出手法 加え – 異常変数 選択手法 組 入
  • 30. 29 2. 正規 布 従う タ 異常検知 20/31 • 2.6 マ ビ タ チ法 – 手 2.3 マ ビ タ チ法 • 経験的 指標 SNq 入 – 変数集合 q 対 SN 比 – aq タ ン q 対応 Mq × Mq 次元 共 散行列 使 異常度 – SN 比 部 » 子 =1 正常状態 1変数当 異常度 期待値 » 母 異常状態 1変数当 異常度 • SNq 見方 – 1変数 見 場合 » q M 通 Mq = 1 » 第 q 変数 N’個 異常 例 大半 大 く寄 い 1変数当 異常度 大変大 く ⇒ SNq 大 く ⇒ SNq 見 ば 変数 q 異常 定 用性 – 複数変数 考え 場合 実験計画法 直交表 利用
  • 31. 30 2. 正規 布 従う タ 異常検知 21/31 • 2.6 マ ビ タ チ法 – 2.6.2 R 実行例 • MASS road タ • road タ 内容 – 26州 – deaths 交通死亡 故者数 – drivers 運転者数 – popden 人 密度 – rural 郊外地区 道路延長距 – temp 1 1日 最高気温 均値 – fuel 1 燃料消費量 • プロ や い – 26州 い 州 比 異常 ※あく 取 い タ 限 定 州 い そ 原因 い 考 え 変数 マ ビ タ チ法 MT法 特定 – temp drivers 割 奇異 計算
  • 32. 31 2. 正規 布 従う タ 異常検知 22/31 • 2.6.2 R 実行例 ※一部省略 ※前略 > #================================================================ > # ータ 確認 準備 > #================================================================ > #------------------------------ > # ータ 確認 > #------------------------------ > ”ata(roa”) > str(roa”) '”ata.frame': 「6 obs. of 6 づarじables: $ ”eatしs : じnt 968 4」 588 640 474」 566 」「5 118 115 1545 ... $ ”rじづers: じnt 158 11 91 9「 95「 109 167 」0 」5 「98 ... $ pop”en : nつm 64 0.4 1「 」4 100 ... $ rつral : nつm 66 5.9 」」 7」 118 7」 5.1 」.4 0 57 ... $ temp : じnt 6「 」0 64 51 65 4「 」7 41 44 67 ... $ fつel : nつm 119 6.「 65 74 105 78 95 「0 「」 「16 ... > しea”(roa”) ”eatしs ”rじづers pop”en rつral temp fつel Alabama 968 158 64.0 66.0 6「 119.0 Alaska 4」 11 0.4 5.9 」0 6.「 Arじzona 588 91 1「.0 」」.0 64 65.0 Arkanas 640 9「 」4.0 7」.0 51 74.0 (alじf 474」 95「 100.0 118.0 65 105.0 (olo 566 109 17.0 7」.0 4「 78.0
  • 33. 32 2. 正規 布 従う タ 異常検知 23/31 • 2.6.2 R 実行例 ※一部省略 > sつmmarと(roa”) ”eatしs ”rじづers pop”en rつral Mじn. : 4」.0 Mじn. : 11.0 Mじn. : 0.40 Mじn. : 0.00 1st Qつ.: 571.5 1st Qつ.: 86.5 1st Qつ.: 」1.75 1st Qつ.: 」0.00 Me”じan : 799.5 Me”じan :148.5 Me”じan : 66.00 Me”じan : 65.50 Mean :1000.7 Mean :191.「 Mean : 595.74 Mean : 60.71 」r” Qつ.:1「65.8 」r” Qつ.:「「6.「 」r” Qつ.: 1」5.00 」r” Qつ.: 9」.50 Maで. :474」.0 Maで. :95「.0 Maで. :1「5「4.00 Maで. :1「4.00 temp fつel Mじn. :「「.00 Mじn. : 6.「0 1st Qつ.:」」.75 1st Qつ.: 67.「5 Me”じan :41.50 Me”じan :104.50 Mean :4」.69 Mean :115.「4 」r” Qつ.:5」.「5 」r” Qつ.:154.50 Maで. :67.00 Maで. :」50.00 > plot(roa”) > plot 散布 出力
  • 34. 7 2. 正規 布 従う タ 異常検知 1/31 • 2.1 異常検知手 流 1/4 – ン 理論 • 多変量解析 外 値検出手法 • いわば異常検知 典理論 – 外 値検出問題 念頭 置い 異常値検知 流 • 0 準備 • 1 プ1 布推定 • 2 プ2 異常度 定義 • 3 プ3 閾値 設定
  • 35. 34 2. 正規 布 従う タ 異常検知 25/31 • 2.6.2 R 実行例 ※一部省略 > #================================================================ > # MT法によ 異常検知 実行例 > #================================================================ > #------------------------------ > # ップ1:標本平均、標本分散 計算 > #------------------------------ > # 標本平均(ベ ル) > (mつ <- applと(で, 「, mean)) [1] 1.8585916 0.668448」 0.」48965」 0.」671115 0.5「64756 > > # で - μ 算出(中心化) > で“ <- で - matrじで(1, nroて(で), 1) %*% mつ > > # 標本分散(共分散行列) > (“oづ <- t(で“) %*% で“ / nroて(で)) [,1] [,「] [,」] [,4] [,5] [1,] 0.14157「989 -0.147619580 0.0」4」1「5「8 0.00669「856 0.01「110」56 [「,] -0.147619580 1.」154」」86」 -0.1「9「75「78 0.10」6」」5「7 -0.004655647 [」,] 0.0」4」1「5「8 -0.1「9「75「78 0.054」4「「46 0.01「1「6「」6 0.008」17778 [4,] 0.00669「856 0.10」6」」5「7 0.01「1「6「」6 0.08「911「」6 0.00「」1685」 [5,] 0.01「110」56 -0.004655647 0.008」17778 0.00「」1685」 0.0089「776「 >
  • 36. 35 2. 正規 布 従う タ 異常検知 26/31 • 2.6.2 R 実行例 ※一部省略 > #------------------------------ > # ップ「:異常度 計算 > #------------------------------ > # マ ラ 距離( 「乗) 異常度 a1 を変数 数 割 > # -->1変数当た 異常度 算出 > a <- applと((で“ %*% solづe(“oづ)) * で“, 1, sつm) / n“ol(で) > > #------------------------------ > # ップ」:異常判定1 > #------------------------------ > # 異常度判定 作図(※閾値を1 い ) > plot(a, + maじn = "図「.7(a) roa” ータ 各標本 1変数当た 異常度", + でlab = "標本番号", とlab = "異常度" + ) > lじnes(0:」0, rep(1, lengtし(0:」0)), “ol = "re”", ltと = 「) > 5 異常標本 存 伺え 標本番号 2, 5, 9, 19, 26 5 最 異常
  • 37. 36 2. 正規 布 従う タ 異常検知 27/31 • 2.6.2 R 実行例 ※一部省略 > #------------------------------ > # ップ4:異常判定「 > #------------------------------ > # 行列に列名、行名を入 (復活させ ) > “olnames(で“) <- “("”eatしs", "pop”en", "rつral", "temp", "fつel") > roてnames(で“) <- “( + "Alabama", 中略 + "Mont" + ) > > #+++++++++++++++ > # 異常標本 > #+++++++++++++++ > # 5番目 標本("(alじf")におけ SN比 算出 作図 > samp.no = 5 > で“「 <- で“[samp.no, ] > sn <- 10 * log10(で“「^「 / ”じag(“oづ)) > str(sn) Name” nつm [1:5] -14.6」11 -6.0951 -0.0」7」 0.」87 1「.9957 - attr(*, "names")= “しr [1:5] "”eatしs" "pop”en" "rつral" "temp" ... > barplot(sn, maじn = paste(samp.no, "_", roてnames(で“)[samp.no], sep = "")) fuel 飛 抜 高い値 そ 0 近傍以 ※負 SN比 偏差 標準偏差 表 ⇒ 異常 fuel 帰 う 解釈
  • 38. 37 2. 正規 布 従う タ 異常検知 28/31 • 2.6.2 R 実行例 ※一部省略 – そ 州 SN比 フ抜粋 • 異常 正常 • いく 州 い 出力 出力PDF参照 異常 標本番号 9 正常 標本番号 1 標本番号 8
  • 39. 8 2. 正規 布 従う タ 異常検知 2/31 • 2.1 異常検知手 流 2/4 – 0 準備 • タ 準備 M次元 観測値 N個 • タ 中 異常 観測値 含 い い 含 い そ 影響 無視 仮定 – 1 プ1 布推定 • タ 性質 応 適 確率 布 仮定 • タ θ • 典型的 布推定 問題 { })()2()1( ,,, N xxxD L= 決 問題タ未知)|( Dxp θθ
  • 41. 40 2. 正規 布 従う タ 異常検知 30/31 • 2.8 ン 理論 課題 – 実用 課題 • 1 タ生成 単一 正規 布 従う いう仮定 限界 – いく あ う 場合 変化 追従 誤報 頻発 • 2 少数 変数 生 異常 捉え い – ン 統計量 M 次元 系 異常度 単一 指標 表 – 変数 多数 異常 捉え く • 3 動的 系 適用 い – 異常度 定義 一定 均値 基 く – 値 動的 変化 系 適用 困
  • 42. 41 2. 正規 布 従う タ 異常検知 31/31 • 2.8 ン 理論 課題 – 一般的 方法 妥当 非常 く制 御 値 静的 一定値 う 状況 工程管理 プロセ 制御等 – 記 う 課題 念頭 次章 3章 以降 機械学習 観点 異常検知 手法 見 ゆく
  • 43. 42 参考 著者 • 本書 最大 目的 異常検知 基本技術 完全 理解 完全 いう タ 表 方 始 異常度 計算 方 曖昧 く理解 いう 一般 異常検知 行う対象 違う 前処理 機械学習的タ 使 流 作業的 行え 解析や画像解析 状況 違う 思い そ う 場合 異常検知 基礎理論そ 自体 理解 避 通 い 思い そ 伝え 第1 目的 • 一方 現場 問題 解決 そ 実装 必要 あ 実 本書 主 想定 い 者 機械 電気 材料 制御 非計算 機系 学科 卒業 実務 携わ い エン そういう人 機械学習 群 通 い い 思わ 最初 一 歩 壁 取 除く 注力 そ 第2 目的 • 目的 最適 ン R 実行例 数行 書 実装 い 主 そ 同種 本 い現状 十 日本 エン 実践 思 い • http://ide-research.net/book/support.html