Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

異常検知入門~理論と実装~

378 Aufrufe

Veröffentlicht am

「第1回 人工知能の数理」勉強会で発表したスライドです。

Veröffentlicht in: Daten & Analysen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

異常検知入門~理論と実装~

  1. 1. 「第1回 人工知能の数理」勉強会 異常検知入門~理論と実装~ 李 康秀
  2. 2. 異常検知入門~理論と実装~|李 康秀 自己紹介 ・ 李 康秀 (り やすひで) Twitter:Yasuhide Lee (@yaleeeeeeeeee) ・ 業務内容 - データ分析 (センサーデータ) - クラウド構築 (Microsoft Azure) - ソフトウェア開発 ・ 趣味 - スポーツ観戦 (サッカー、野球) - 旅行 (乗り鉄) - 読書 (積読)
  3. 3. 異常検知入門~理論と実装~|李 康秀 Agenda ・異常検知とは ・異常検知の数学 ・異常検知の適用 ・異常検知のアルゴリズム
  4. 4. 異常検知入門~理論と実装~|李 康秀 はじめに @whisponchan やばい…
  5. 5. 異常検知入門~理論と実装~|李 康秀 異常検知とは ・期待されるパターンまたはデータセット中の他のアイテムと一致しないアイテム、 イベント,または観測を識別すること。 ・正常となるモデルをデータからつくり、そのモデルから外れるものを見つけること。 機械学習による異常検知 ・正常と異常を区別するための「知識」を、機械学習の手法を用いて データから計算機に見つけ出させる。
  6. 6. 異常検知入門~理論と実装~|李 康秀 異常検知とは ■異常検知モデル構築の3ステップ STEP1 分布推定 STEP2 異常度の定義 STEP3 閾値の設定
  7. 7. 異常検知入門~理論と実装~|李 康秀 異常検知の数学 ■正規分布に基づく異常検知 STEP1 分布推定 𝑝(𝑥|𝜽)における未知パラメータ𝜽を𝐷から決める。 𝐷:データ 𝜽:確率分布の未知パラメータ STEP2 異常度の定義 𝑎 𝒙′ = − ln 𝑝(𝒙′|𝐷) STEP3 閾値の設定 例えば、正常データ𝐷における割合
  8. 8. 異常検知入門~理論と実装~|李 康秀 問題1 ■正規分布に基づく異常検知 確率変数を𝑥 としたとき、平均μ 、分散𝜎2 をもつ正規分布𝑁 𝑥|𝜇, 𝜎2 は 𝑁 𝑥|𝜇, 𝜎2 ≡ 1 2𝜋𝜎2 1 2 𝑒𝑥𝑝 − 1 2𝜎2 𝑥 − 𝜇 2 これを𝑥の関数とみて 𝑥で微分することにより、極大点と変曲点を 求めてください。
  9. 9. 異常検知入門~理論と実装~|李 康秀 問題2 ■正規分布に基づく異常検知 確率変数を𝑥 としたとき、平均μ 、分散𝜎2 をもつ正規分布𝑁 𝑥|𝜇, 𝜎2 は 𝑁 𝑥|𝜇, 𝜎2 ≡ 1 2𝜋𝜎2 1 2 𝑒𝑥𝑝 − 1 2𝜎2 𝑥 − 𝜇 2 これが規格化条件を満たすことを、以下の式を用いて確かめてください。 𝑎 > 0のとき −∞ +∞ 𝑑𝑥 𝑒𝑥𝑝 −𝑎𝑥2 + 𝑏𝑥 + 𝑐 = 𝜋 𝑎 𝑒𝑥𝑝 𝑏2 4𝑎 + 𝑐 ※規格化条件は 𝑅 𝑑𝒙 𝑝 𝒙 = 1
  10. 10. 異常検知入門~理論と実装~|李 康秀 問題3 ■正規分布に基づく異常検知 確率変数を𝑥 としたとき、平均μ 、分散𝜎2 をもつ正規分布𝑁 𝑥|𝜇, 𝜎2 は 𝑁 𝑥|𝜇, 𝜎2 ≡ 1 2𝜋𝜎2 1 2 𝑒𝑥𝑝 − 1 2𝜎2 𝑥 − 𝜇 2 変数変換z = 𝑥 − 𝜇 𝜎により定義される変数zが標準正規分布に 従うことを証明してください。
  11. 11. 異常検知入門~理論と実装~|李 康秀 異常検知の数学 ■正規分布に基づく異常検知 STEP1 分布推定 正規分布𝑝(𝑥|𝜽)における未知パラメータ𝜽は 𝜇 = 1 𝑁 𝑛=1 𝑁 𝑥 𝑛 および 𝜎2 = 1 𝑁 𝑛=1 𝑁 𝑥 𝑛 − 𝜇 2 STEP2 異常度の定義 𝑎 𝒙′ = 𝑥′− 𝜇 𝜎 2 ~χ2 1,1 STEP3 閾値の設定 例えば、正常データ𝐷における割合
  12. 12. 異常検知入門~理論と実装~|李 康秀 異常検知の数学 ■ホテリング統計量の分布(1変数) 1次元の観測データDの各観測値が独立に同じ分布𝑁 𝑥|𝜇, 𝜎2 に従い、 新たな観測値𝑥′も同じ分布に独立に従うとする。このとき 𝑎 𝑥′ = 𝑥′− 𝜇 𝜎 2 の𝑎 𝑥′ の定数倍は、自由度 1, 𝑁 − 1 の𝐹分布に従う。 すなわち 𝑁−1 𝑁+1 𝑎 𝑥′ ~𝐹 1, 𝑁 − 1 特に、𝑁 ≫ 1のときは、 𝑎 𝑥′ そのものが自由度1、スケール因子1の カイ二乗分布に従う。 𝑎 𝑥′ ~χ2 1,1
  13. 13. 異常検知入門~理論と実装~|李 康秀 異常検知の適用 ■Jリーグ選手の体重、身長およびBMIの異常検知 STEP1 分布推定 正規分布𝑝(𝑥|𝜽)における未知パラメータ𝜽は 𝜇 = 1 𝑁 𝑛=1 𝑁 𝑥 𝑛 および 𝜎2 = 1 𝑁 𝑛=1 𝑁 𝑥 𝑛 − 𝜇 2 STEP2 異常度の定義 𝑎 𝒙′ = 𝑥′− 𝜇 𝜎 2 ~χ2 1,1 STEP3 閾値の設定 例えば、正常データ𝐷における割合
  14. 14. 異常検知入門~理論と実装~|李 康秀 異常検知のアルゴリズム 正規分布に基づく 異常検知 局所外れ値度 (LOF) カーネル密度推定 (KDE) 1クラスサポートベクトルマシン (OCSVM) 概要 確率分布を予測 Nearest Neighborの 拡張 確率分布を予測 SVMの拡張 メリット ホテリング理論は 異常検知の基礎 Nが大きくても 高速 計算方法が明快 デメリット 単一の正規分布 という制約 Nが大きいと低速 Nが大きいと低速
  15. 15. 異常検知入門~理論と実装~|李 康秀 参考文献 ・入門 機械学習による異常検知 井手 剛 著 ・データ解析のための統計モデリング入門 久保 拓弥 著 ・ベイズ推論による機械学習入門 須山 敦志 著 ・異常検知ナイト(エンジニア向け) https://dllab.connpass.com/event/77248/presentation/ ・J.LEAGUE Data Site https://data.j-league.or.jp/SFTP01/ ・Wikipedia https://ja.wikipedia.org/wiki/%E7%95%B0%E5%B8%B8%E6%A4%9C%E7%9F%A5
  16. 16. ご清聴ありがとうございました。

×