SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Downloaden Sie, um offline zu lesen
パターン認識
Rで学ぶデータサイエンス
第1章
2013/06/18
祝!
#はじパタ 開催!!
祝!
#はじパタ 開催!!
お詫び
Rのコードは出てきません
お詫び2
今日は詳しくは語りません
@kenchan0130_aki
自己紹介
@kenchan0130_aki
学生ニート
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
得意になりたい言語:Ruby
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
得意になりたい言語:Ruby 女の子と仲良くなれそう
自己紹介
パターン認識
第1章 判別能力の評価
第2章 k-平均法
第3章 階層的クラスタリング
第4章 混合正規分布モデル
第5章 判別分析
第6章 ロジスティック回帰
第7章 密度推定
第8章 k-近傍法
第9章 学習ベクトル量子化
第10章 決定木
第11章 サポートベクターマシン
第12章 正規化とパス追跡
アルゴリズム
第13章 ミニマックス確率マシン
第14章 集団学習
第15章 2値判別から多値判別へ
パターン認識
第1章 判別能力の評価
第2章 k-平均法
第3章 階層的クラスタリング
第4章 混合正規分布モデル
第5章 判別分析
第6章 ロジスティック回帰
第7章 密度推定
第8章 k-近傍法
第9章 学習ベクトル量子化
第10章 決定木
第11章 サポートベクターマシン
第12章 正規化とパス追跡
アルゴリズム
第13章 ミニマックス確率マシン
第14章 集団学習
第15章 2値判別から多値判別へ
• 入力された特徴量 からラベル を予測する
問題を「判別問題」といいます.
• ラベル を返す判別器   の予測精度を評価
したい!
判別能力の評価
何か評価する 指標が欲し い!
• 誤り率
• 損失行列による評価
• 交差検証法による予測精度の推定
• 陽性率, 偽陽性率, ROC曲線, AUC
• 適合率, 再現率, F値
各種指標
誤り率
誤り率
n個のデータに対する誤り率は
で計算できます.
I[R]は条件Rが真のときは1, それ以外は0となる定義関数
• 学習データに対する誤り率を
「訓練誤差」といいます.
• 未知のテストデータに対する誤り率を
「予測誤差」といいます.
誤り率
損失行列による評価
• 損失の値を  で表し,   成分とする行列を損
失行列とします.
• クラス と判別すべきデータをクラス と誤
ってしまったときの損失を表しています.
損失行列による評価
損失行列による評価
損失の平均は以下のように与えられます.
は真のクラスの不確実性を表す同時確率分布
これを最小とするような を割り当てるものとなります.
交互検証法による
予測精度の推定
• 学習データを2つに分け, 一方で判別器を推定
します.
• 他方でその精度を評価し, 予測誤差を推定しま
す.
• これをk分割して繰り返す方法を
「k-交差検証法」と呼びます.
交互検証法による予測精度の推定
陽性率, 偽陽性率,
ROC曲線, AUC
陽性率, 偽陽性率,
ROC曲線, AUC
• 陽性率は「第1種の過誤」と思ってもらっていいかもです.
• 偽陽性率は「第2種の過誤」と思ってもらっていいかもで
す. (こっちはヤバイやつ)
• 偽陽性率をある一定の値以下に抑えたとき, 陽性率を最大
化する判別器を採択します.
• 縦軸を真の陽性率, つまり敏感度, 横軸を偽陽性率, つまり
(1−特異度)を尺度としてプロットしたものです.
• AUCはROC曲線下の面積のことです.
分類器の性能の良さを表しています.
陽性率,偽陽性率, ROC曲線, AUC
http://oku.edu.mie-u.ac.jp/ okumura/stat/ROC.html
• 検索結果内に, 実際に目的の情報を含んでいる
ページの割合が「適合率」です.
• 目的の情報を含んでいるページ全体の中で正
しく検索結果の割合が「再現率」です.
適合率, 再現率, F値

Weitere ähnliche Inhalte

Mehr von Tadayuki Onishi

Mehr von Tadayuki Onishi (6)

はじパタLT2
はじパタLT2はじパタLT2
はじパタLT2
 
アド部6回発表
アド部6回発表アド部6回発表
アド部6回発表
 
アド部5回発表
アド部5回発表アド部5回発表
アド部5回発表
 
garchfit
garchfitgarchfit
garchfit
 
Data Mining with R algae bloom case
Data Mining with R algae bloom caseData Mining with R algae bloom case
Data Mining with R algae bloom case
 
Tokyo r 10_12
Tokyo r 10_12Tokyo r 10_12
Tokyo r 10_12
 

はじパタLT Section1