SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Downloaden Sie, um offline zu lesen
データマイニング
クラス分類(II) - ナイーブベイズ

          瀬々 潤
    sesejun@is.ocha.ac.jp
ベイズ分類器
           Bayes Classification / Bayesian


•   ベイズの定理を利用したクラス分類手法の総称
•   ここでは,最も単純で,全てのベイズ分類器の基礎となるNaive
    Bayesを紹介する
    • Spam filterなどに利用されている
•   発展版としてはベイジアンネットワーク(Bayesian network)がある
    • 利用例:遺伝子ネットワーク(遺伝子間の相互関係解析)や脳機
      能解析(脳のどの部位がどの部位に影響を与えているか)など
    • A Tutorial on Learning With Bayesian Networks. David
      Heckerman. 1995. http://research.microsoft.com/research/pubs/
        view.aspx?msr_tr_id=MSR-TR-95-06


                                                                2
Naive Bayesで利用するデータ
•       決定木同様の形式
•       Spamfilterの場合は,各サンプル=メール,各属性=特定の単語
        が含まれているか(無料,高収入,当選,etc...),クラス=Spam
        かどうか.

    ID    C:コンタクト   T1:30才未満   T2:近視   T3:乱視   T4:ドライアイ
    A       ○         YES       YES     YES       NO
    B       ○         YES       YES     NO        NO
    C       ○         NO        YES     YES       NO
    D       ○         NO        YES     NO        NO
    E                 YES       YES     YES      YES
    F                 YES       YES     NO       YES
    G                 NO        NO      NO       YES
    H                 NO        NO      NO        NO
    I                 NO        NO      NO       YES
    J                 NO        NO      NO        NO
                                                          3
があり,遺伝子間の制御関係を調査するために利用されて

               ベイズの定理
           5.5.1 ベ イ ズ の 定 理
   •   n個の属性(テスト) T1∼Tnを考える.
          ベイズ分類を説明するために,ベイズ分類で利用するベ
   •   n個の属性の結果を含むクラス不明のデータX(=テス
         Theorem) を導入する.n 個のテストの結果を含むクラス不
       トデータ)を次のように記述する
         X = (T1 = x1 )∧(T2 = x2 )∧· · ·∧(Tn = xn ) とする.予測
     H X がクラス C = {C1 , C2 , ...} のどれに属するかの予測とす
   •C をテストデータXから予測されるクラスとする
   • ベイズの定理は次式で表される
       ストデータ X が与えられた時クラスが CH になる確率であ
          を,条件 X の基での CH の事後確率と呼ぶ.表 5.3 の発
                 P (CH ∩ X)   P (X | CH )P (CH )
  P (CH   |う.C= を発病する事象 (C = ),今回テストするサン
            X) H            =
                    P (X)           P (X)
          P (CH |A) は,サンプル A が発病する確率である.
           この事後確率 P (CH |X) を計算するために,ベイズの定
           事後確率                事前確率
      定義 5.4 ベイズの定理は次式で表される.
上の式は以下の式から分かる
  P (CH ∩ X) = P (CH | X)P (X) = PP (C| CHX) (CH ) 4 H )
                                  (X H ∩ )P P (X|C
例のデータでは・・・
テストデータの属性集合Xが与えられた
時,コンタクトである確率                     一般にコンタクトをする
(事後確率, CHはコンタクトをする事象と              確率(事前確率)
する)


                 P (CH ∩ X)   P (X | CH )P (CH )
  P (CH   | X) =            =
                    P (X)           P (X)
    属性の値がCHの人に対して
    テストデータの属性が                  一般にテストデータの属性の
    Xになる確率                      値がXになる確率

    ID    コンタクト   30才未満   近視       乱視    ドライアイ
    K       ?      No      No      Yes    Yes
    L       ?      No     Yes      No     No
ナイーブベイズ分類器のアイディア
 •   事後確率が大きくなるクラスを選択する
     •属性の集合Xが与えられていると仮定すると,

     P (C =  | X)  P (C = × | X)

         •   属性の集合Xが与えられた場合に,クラスが である事後
             確率より,○である事後確率の方が大きいので,Xのサ
             ンプルのクラスは○と考える方が妥当

     P (C =  | X)  P (C = × | X)

         •   属性の集合Xが与えられた場合に,クラスが○である事
             後確率より, である事後確率の方が大きいので,Xのサ
             ンプルのクラスは と考える方が妥当
                                      6
事後確率の計算
ベイズの定理より
                    P (X | C )P (C )
  P (C | X) =
                          P (X)
      P (C ) = N /N

    ここで X      = (T1 = x1 ) ∧ (T2 = x2 ) ∧ · · · ∧ (Tn = xn )
               = x1 ∧ x2 ∧ · · · ∧ x3 と表記する.
各テストが互いに独立であると仮定をすると,次式が成立
  P (X | C ) = P (x1 ∧ x2 ∧ · · · ∧ xn | C )
              = P (x1 | C )P (x2 | C ) · · · P (xn | C )
                n
              =     P (xk | C )
                    k=1

P (X) は,仮定CHに因らないので,ここでは,計算の必要なし
具体例で計算してみる
     ID   C:コンタクト T1:30才未満   T2:近視   T3:乱視   T4:ドライアイ
     A       ○       YES      YES     YES       NO
     B       ○       YES      YES     NO        NO
     C       ○       NO       YES     YES       NO
     D       ○       NO       YES     NO        NO
     E               YES      YES     YES      YES
     F               YES      YES     NO       YES
     G               NO       NO      NO       YES
     H               NO       NO      NO        NO
     I               NO       NO      NO       YES
     J               NO       NO      NO        NO

     K       ?       NO       NO      YES      YES
     L       ?       NO       YES     NO        NO

•   例としてサンプルKのクラスを予測する
P (C ) = 4/10 = 0.4, P (C× ) = 6/10 = 0.6
X = (T1 = No) ∧ (T2 = No) ∧ (T3 = Yes) ∧ (T4 = Yes)
                                                        8
クラスが○の予測
  各テストが互いに独立であると仮定すると,
X = (T1 = No) ∧ (T2 = No) ∧ (T3 = Yes) ∧ (T4 = Yes) より
   P (X | C )   = P (T1 = No | C ) × P (T2 = No | C )
                   ×P (T3 = Yes) | C ) × P (T4 = Yes | C )
   訓練データより,各確率を計算すると,
      P (T1 = No | C )     =   2/4 = 0.5
      P (T2 = No | C )     =   0/4 = 0.0
      P (T3 = Yes | C )    =   2/4 = 0.5
      P (T4 = Yes | C )    =   0/4 = 0.0
   以上より,
      P (X|C ) = 0.5 × 0.0 × 0.5 × 0.0 = 0.0
      P (X | C ) · P (C ) = 0.0 × 0.4 = 0.0
クラスが の予測
  各テストが互いに独立であると仮定すると,
X = (T1 = No) ∧ (T2 = No) ∧ (T3 = Yes) ∧ (T4 = Yes) より
P (X | C× )   =   P (T1 = No | C× ) × P (T2 = No | C× )×
                  P (T3 = Yes | C× ) × P (T4 = Yes | C× )
   訓練データより,各確率を計算すると,
     P (T1 = No | C× )     =   4/6 = 0.667
     P (T2 = No | C× )     =   4/6 = 0.667
     P (T3 = Yes | C× )    =   1/6 = 0.167
     P (T4 = Yes | C× )    =   4/6 = 0.667
   以上より,

   P (X|C× ) = 0.667 × 0.667 × 0.167 × 0.667 = 0.0494
   P (X | C× ) · P (C× ) = 0.0494 × 0.4 = 0.0198
予測及び計算上の注意
       P (X | C ) · P (C ) = 0.0
       P (X | C× ) · P (C× ) = 0.0198
     なので
     P (X | C ) · P (C )  (X | C× ) · P (C× )
     よって,Xのクラスの予測はC= となる.




•   テストの数が増えると,P(X¦C)は非常に小さい数となる.
•   これを避けるため,Log P(X¦C)を計算することが多い



                                                   11
Naive Bayesのまとめ
•   Naive Bayesの予測は,テストが全て独立なら最適な回答と
    なっている.
    • でも,その仮定が満たされることは,まれ.

•   対象となるクラスが{A,B,AB,O}の様に3個以上のクラスの場
    合にも,同様にP(C=A¦X), P(C=B¦X), P(C=AB¦X), P(C=O¦
    X) をそれぞれ計算し,最も大きな確率のクラスを選択すれば
    良い

•   テスト間に独立性が無い場合には,テスト間の相関(遷移確
    率)を求める必要が有る

    •   ベイジアンネットワーク


                                               12

Weitere ähnliche Inhalte

Andere mochten auch

20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pubsesejun
 
20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pubsesejun
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pubsesejun
 
Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2ndsesejun
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1stsesejun
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knnsesejun
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svmsesejun
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboostsesejun
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習sesejun
 
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Reviewsesejun
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析sesejun
 

Andere mochten auch (11)

20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pub
 
20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pub
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pub
 
Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2nd
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1st
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svm
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboost
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析
 

Ähnlich wie Datamining 3rd naivebayes

データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習Hirotaka Hachiya
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へZansa
 
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知Ken'ichi Matsui
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
第5回Zansa勉強会
第5回Zansa勉強会第5回Zansa勉強会
第5回Zansa勉強会Zansa
 
第一回ぞくパタ
第一回ぞくパタ第一回ぞくパタ
第一回ぞくパタAkifumi Eguchi
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法Ken'ichi Matsui
 

Ähnlich wie Datamining 3rd naivebayes (7)

データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
第5回Zansa勉強会
第5回Zansa勉強会第5回Zansa勉強会
第5回Zansa勉強会
 
第一回ぞくパタ
第一回ぞくパタ第一回ぞくパタ
第一回ぞくパタ
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 

Mehr von sesejun

Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontreesesejun
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeanssesejun
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfrasesejun
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclusteringsesejun
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rulesesejun
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rulesesejun
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclusteringsesejun
 
Datamining 7th Kmeans
Datamining 7th KmeansDatamining 7th Kmeans
Datamining 7th Kmeanssesejun
 
Datamining R 4th
Datamining R 4thDatamining R 4th
Datamining R 4thsesejun
 
Datamining 6th Svm
Datamining 6th SvmDatamining 6th Svm
Datamining 6th Svmsesejun
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knnsesejun
 
Datamining 4th Adaboost
Datamining 4th AdaboostDatamining 4th Adaboost
Datamining 4th Adaboostsesejun
 
Datamining 3rd Naivebayes
Datamining 3rd NaivebayesDatamining 3rd Naivebayes
Datamining 3rd Naivebayessesejun
 
Datamining R 2nd
Datamining R 2ndDatamining R 2nd
Datamining R 2ndsesejun
 

Mehr von sesejun (14)

Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontree
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeans
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfra
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclustering
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rule
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rule
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclustering
 
Datamining 7th Kmeans
Datamining 7th KmeansDatamining 7th Kmeans
Datamining 7th Kmeans
 
Datamining R 4th
Datamining R 4thDatamining R 4th
Datamining R 4th
 
Datamining 6th Svm
Datamining 6th SvmDatamining 6th Svm
Datamining 6th Svm
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knn
 
Datamining 4th Adaboost
Datamining 4th AdaboostDatamining 4th Adaboost
Datamining 4th Adaboost
 
Datamining 3rd Naivebayes
Datamining 3rd NaivebayesDatamining 3rd Naivebayes
Datamining 3rd Naivebayes
 
Datamining R 2nd
Datamining R 2ndDatamining R 2nd
Datamining R 2nd
 

Kürzlich hochgeladen

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Kürzlich hochgeladen (10)

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

Datamining 3rd naivebayes

  • 2. ベイズ分類器 Bayes Classification / Bayesian • ベイズの定理を利用したクラス分類手法の総称 • ここでは,最も単純で,全てのベイズ分類器の基礎となるNaive Bayesを紹介する • Spam filterなどに利用されている • 発展版としてはベイジアンネットワーク(Bayesian network)がある • 利用例:遺伝子ネットワーク(遺伝子間の相互関係解析)や脳機 能解析(脳のどの部位がどの部位に影響を与えているか)など • A Tutorial on Learning With Bayesian Networks. David Heckerman. 1995. http://research.microsoft.com/research/pubs/ view.aspx?msr_tr_id=MSR-TR-95-06 2
  • 3. Naive Bayesで利用するデータ • 決定木同様の形式 • Spamfilterの場合は,各サンプル=メール,各属性=特定の単語 が含まれているか(無料,高収入,当選,etc...),クラス=Spam かどうか. ID C:コンタクト T1:30才未満 T2:近視 T3:乱視 T4:ドライアイ A ○ YES YES YES NO B ○ YES YES NO NO C ○ NO YES YES NO D ○ NO YES NO NO E YES YES YES YES F YES YES NO YES G NO NO NO YES H NO NO NO NO I NO NO NO YES J NO NO NO NO 3
  • 4. があり,遺伝子間の制御関係を調査するために利用されて ベイズの定理 5.5.1 ベ イ ズ の 定 理 • n個の属性(テスト) T1∼Tnを考える. ベイズ分類を説明するために,ベイズ分類で利用するベ • n個の属性の結果を含むクラス不明のデータX(=テス Theorem) を導入する.n 個のテストの結果を含むクラス不 トデータ)を次のように記述する X = (T1 = x1 )∧(T2 = x2 )∧· · ·∧(Tn = xn ) とする.予測 H X がクラス C = {C1 , C2 , ...} のどれに属するかの予測とす •C をテストデータXから予測されるクラスとする • ベイズの定理は次式で表される ストデータ X が与えられた時クラスが CH になる確率であ を,条件 X の基での CH の事後確率と呼ぶ.表 5.3 の発 P (CH ∩ X) P (X | CH )P (CH ) P (CH |う.C= を発病する事象 (C = ),今回テストするサン X) H = P (X) P (X) P (CH |A) は,サンプル A が発病する確率である. この事後確率 P (CH |X) を計算するために,ベイズの定 事後確率 事前確率 定義 5.4 ベイズの定理は次式で表される. 上の式は以下の式から分かる P (CH ∩ X) = P (CH | X)P (X) = PP (C| CHX) (CH ) 4 H ) (X H ∩ )P P (X|C
  • 5. 例のデータでは・・・ テストデータの属性集合Xが与えられた 時,コンタクトである確率 一般にコンタクトをする (事後確率, CHはコンタクトをする事象と 確率(事前確率) する) P (CH ∩ X) P (X | CH )P (CH ) P (CH | X) = = P (X) P (X) 属性の値がCHの人に対して テストデータの属性が 一般にテストデータの属性の Xになる確率 値がXになる確率 ID コンタクト 30才未満 近視 乱視 ドライアイ K ? No No Yes Yes L ? No Yes No No
  • 6. ナイーブベイズ分類器のアイディア • 事後確率が大きくなるクラスを選択する •属性の集合Xが与えられていると仮定すると, P (C = | X) P (C = × | X) • 属性の集合Xが与えられた場合に,クラスが である事後 確率より,○である事後確率の方が大きいので,Xのサ ンプルのクラスは○と考える方が妥当 P (C = | X) P (C = × | X) • 属性の集合Xが与えられた場合に,クラスが○である事 後確率より, である事後確率の方が大きいので,Xのサ ンプルのクラスは と考える方が妥当 6
  • 7. 事後確率の計算 ベイズの定理より P (X | C )P (C ) P (C | X) = P (X) P (C ) = N /N ここで X = (T1 = x1 ) ∧ (T2 = x2 ) ∧ · · · ∧ (Tn = xn ) = x1 ∧ x2 ∧ · · · ∧ x3 と表記する. 各テストが互いに独立であると仮定をすると,次式が成立 P (X | C ) = P (x1 ∧ x2 ∧ · · · ∧ xn | C ) = P (x1 | C )P (x2 | C ) · · · P (xn | C ) n = P (xk | C ) k=1 P (X) は,仮定CHに因らないので,ここでは,計算の必要なし
  • 8. 具体例で計算してみる ID C:コンタクト T1:30才未満 T2:近視 T3:乱視 T4:ドライアイ A ○ YES YES YES NO B ○ YES YES NO NO C ○ NO YES YES NO D ○ NO YES NO NO E YES YES YES YES F YES YES NO YES G NO NO NO YES H NO NO NO NO I NO NO NO YES J NO NO NO NO K ? NO NO YES YES L ? NO YES NO NO • 例としてサンプルKのクラスを予測する P (C ) = 4/10 = 0.4, P (C× ) = 6/10 = 0.6 X = (T1 = No) ∧ (T2 = No) ∧ (T3 = Yes) ∧ (T4 = Yes) 8
  • 9. クラスが○の予測 各テストが互いに独立であると仮定すると, X = (T1 = No) ∧ (T2 = No) ∧ (T3 = Yes) ∧ (T4 = Yes) より P (X | C ) = P (T1 = No | C ) × P (T2 = No | C ) ×P (T3 = Yes) | C ) × P (T4 = Yes | C ) 訓練データより,各確率を計算すると, P (T1 = No | C ) = 2/4 = 0.5 P (T2 = No | C ) = 0/4 = 0.0 P (T3 = Yes | C ) = 2/4 = 0.5 P (T4 = Yes | C ) = 0/4 = 0.0 以上より, P (X|C ) = 0.5 × 0.0 × 0.5 × 0.0 = 0.0 P (X | C ) · P (C ) = 0.0 × 0.4 = 0.0
  • 10. クラスが の予測 各テストが互いに独立であると仮定すると, X = (T1 = No) ∧ (T2 = No) ∧ (T3 = Yes) ∧ (T4 = Yes) より P (X | C× ) = P (T1 = No | C× ) × P (T2 = No | C× )× P (T3 = Yes | C× ) × P (T4 = Yes | C× ) 訓練データより,各確率を計算すると, P (T1 = No | C× ) = 4/6 = 0.667 P (T2 = No | C× ) = 4/6 = 0.667 P (T3 = Yes | C× ) = 1/6 = 0.167 P (T4 = Yes | C× ) = 4/6 = 0.667 以上より, P (X|C× ) = 0.667 × 0.667 × 0.167 × 0.667 = 0.0494 P (X | C× ) · P (C× ) = 0.0494 × 0.4 = 0.0198
  • 11. 予測及び計算上の注意 P (X | C ) · P (C ) = 0.0 P (X | C× ) · P (C× ) = 0.0198 なので P (X | C ) · P (C ) (X | C× ) · P (C× ) よって,Xのクラスの予測はC= となる. • テストの数が増えると,P(X¦C)は非常に小さい数となる. • これを避けるため,Log P(X¦C)を計算することが多い 11
  • 12. Naive Bayesのまとめ • Naive Bayesの予測は,テストが全て独立なら最適な回答と なっている. • でも,その仮定が満たされることは,まれ. • 対象となるクラスが{A,B,AB,O}の様に3個以上のクラスの場 合にも,同様にP(C=A¦X), P(C=B¦X), P(C=AB¦X), P(C=O¦ X) をそれぞれ計算し,最も大きな確率のクラスを選択すれば 良い • テスト間に独立性が無い場合には,テスト間の相関(遷移確 率)を求める必要が有る • ベイジアンネットワーク 12