SlideShare ist ein Scribd-Unternehmen logo
1 von 18
データマイニング
  クラス分類(IV) -
手書き文字データの説明
    k-NN

        瀬々 潤
  sesejun@is.ocha.ac.jp
・数字判別の問題
・k-最近点分類法
先週までの話
• クラス分類問題を扱ってきた
 • 例題として、コンタクトレンズを処方するか、し
     ないかのデータ
•   手法として扱ってきた物
    •決定木
    •NaiveBayes
    •AdaBoost
•   テスト(属性)が、離散値(例題では2値)で表さ
    れるもののみ扱った
数字判別の流れ
172                                                                                    ¨
                                                                  D. DECOSTE AND B. SCHOLKOPF




                                                                                                 画像



                                                                                                文字判別で利用する
                                                                                                形式に変換

                                                                                                  この授業ではこちらに注力

                                                                                                文字の判別
Figure 2. The first 100 USPS training images, with class labels.


(1993) used an enlarged training set of size 9709, containing some additional machine-
printed digits, and note that this improves the accuracy on the test set. Similarly, Bot-
tou and Vapnik (1992) used a training set of size 9840. Since there are no machine-
                                                                                                             4
数字画像をデータへ変換
      •   画像データを数値に変換します
          •今回利用するUSPSの画像データは,256階調(8bit)の
           白黒画像
              •
            ラスタ画像(ベクタ画像ではない)
              •
            各ドットが1つの値(輝度)を持つ
          •縦,横それぞれ16ドット=256ドット
              •
            256次元のデータ
      •   文字の書き順や,どちらの方向に向かって線を引いたか,
          と言った情報は,利用できないものとします.

                  黒っぽい                           比較的白っぽい


クラス       0,0     0,1   0,2   0,3   0,4   …   15,12   15,13   15,14   15,15

 2        46      0     22    0     46    …   106     188     138      0
                                                                           5
問題例(1/3): 名称
            クラス
                                属性(アトリビュート,カラム)
           (ラベル)

          ID    クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

          1      2    46    0     22    0     …   138      0

  サンプル    2      1    0     59    13    0     …    13      42
(トランザク    3      8    0     46    56    50    …    42      0
  ション、
 タップル、    …     …     …     …     …     …     …    …       …
 レコード)
          ID    クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

          100    ?    59    13    0     28    …    13      42

          …     …     …     …     …     …     …    …       …


    •    今回は属性の名称としてドットの位置が入っています                              6
問題例(2/3): 訓練とテスト
訓練データ(Training Data): 各サンプルのクラスが分かっている

      ID   クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

      1     2    46    0     22    0     …   138      0

      2     1    0     59    13    0     …    13      42

      3     8    0     46    56    50    …    42      0

      …    …     …     …     …     …     …    …       …

テストデータ(Test Data): 各サンプルのクラスが不明
      ID   クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

     100    ?    59    13    0     28    …    13      42

      …     …    …     …     …     …     …    …       …


                                                          7
問題例(3/3): 問題設定

• 訓練データとテストデータが与えられたとき、テスト
 データのクラスを予測せよ。
 •今回の文字の例では、予め数字の分かっている文字
  画像が与えられている(訓練データ)
 •新しい文字が与えられた時(テストデータ)、その
  文字に何の数字が書かれているかを予測する


• 画像の問題と言っても、結局クラス分類問題になる

                             8
この授業で用いるデータ
•   USPSの数字データ
    • http://www.cs.toronto.edu/ roweis/data.html
•   0から9の数字それぞれ1,100個
    • 1,000個を訓練データ,100個をテストデータとして扱う
•   全体で10,000個の訓練データ,1,000個のテストデータ
    • このままだと,データがとても大きいので,1,000個の訓練
      データと100個のテストデータのバージョンも配布します
•   画像はすでに,数値に変換をしたものを配布します


•   クラス分類問題だけでなく、クラスタリングでもこのデータを
    利用します
                                                9
クラス分類問題
•   データは訓練データとテストデータに分かれている
•   テストデータのクラスを予測をする問題
•   数字の例では、訓練データが256次元。

訓練データ
         モデル
         を作成


                        予測


テストデータ
               モデルの適用

                              10
多クラスのクラス分類
•   多くのクラス分類アルゴリズムは,2個のクラス(○ or  あ
    るいは,1 or -1 )を分類する用に作成されている
•   数字を当てる問題は,0∼9まで9つ種類があり,実際にはとても
    難しい問題
    •多クラスのクラス分類問題と呼ばれる
    •因に,数値を当てる問題は,回帰問題(regression)と呼ばれる
•   この授業では簡単のため,数値を当てる問題を「0か,それ以
    外」か「1か,それ以外か」といった問題に変更して解く
    •簡単に多クラスに拡張できるアルゴリズムは,本授業内でも,
     多クラスで話を進める



                                     11
画像の距離
       •   2つの画像の距離を測りたい。
           •どの画像が似ているのか、違っているのか。
       •   一例として、マンハッタン距離:
           •点と点を軸に添って測った距離の和
x2
       x

           |dx1 | + |dx2 |
 dx2                                 (A)        (C)
                    y
                              (A) 0001111001110010...100
           dx1
                              (C) 0001110000110010...100
                        x1
                              多次元ベクトル(上記の図は64次元)

       実数でも計算可能(値の差の絶対値を取れば良い)
       この後の例ではグレースケール(白,黒だけでなく,
       その中間色もある)で話を進める                                     12
様々な距離
•   実数値のデータの距離
    •それぞれのサンプルを多次元上の1点と見なす
        •
      ユークリッド距離
        •
      マンハッタン距離
    •様々な距離があり、状況によって適切なものを利用する

        x2                           x2
               x                             x

                         dx2 + dx2
                           1     2
                                                 |dx1 | + |dx2 |
         dx2                          dx2
                            y                             y

                   dx1                           dx1
                                x1                            x1
    (A) 直線距離(ユークリッド(ノルム)距離)               (B) マンハッタン距離
相関係数(correlation coefficient)
 •   点x=(x1, x2,...,xn)と点y=(y1,y2,...,yn)を考える.
 •   点x, y 間の相関係数(Pearson s R)は次式で与えられる
                    n
                    i=1 (xi   − x)(yi − y )
                                ¯       ¯
     r=       n                     n
              i=1 (xi   −   x)2
                            ¯       i=1 (yi   − y )2
                                                ¯
 •  2次元上のn点の配置を見ている
  y         y                            y




                x                    x                 x
        r≈1             r≈0                  r ≈ −1
       正の相関             相関なし                 負の相関

 •   距離関数ではない(三角不等式が満たされない)
k-最近点分類法
  (k-最近傍法、
k-Nearest Neighbor)
1-最近点分類
  •最も白と黒が一致する=マンハッタン距離が最も近い
  •最も距離が近い訓練データのクラスを予測とする手法を
  1-最近点分類と呼ぶ

点2の輝度                                          点2の輝度
      B                A                            B               A
                                                                            Eが○なので,
                                   Qに最も近い点はE                                Qを○と予測
           C                                            C
  D                E                            D               E
               Q               G                            Q               G
       F               I                            F               I

                   H                                            H
  K        J               L                    K       J               L
                                    点1の輝度                                       点1の輝度
      (A) 訓練データ                                (B) サンプルのクラス予測



                                                                                   16
K-最近点分類 (K-Nearest Neighbor)
•   属性が似ているサンプルは,クラスも似ている


1. クラスを予測したいテストデータのサンプルをQとする.
2. Qから訓練データ中で最も距離が近いk個のサンプルを選択.
   • 距離空間の選択は任意(後述)
3. そのk点のクラス(○, )を調べ,最も多いクラスをQの予測クラス
   とする.
点2の輝度
                                 点2の輝度                            A
                         A                        B
         B                                                C
                 C
                                             D                    E
    D                    E                            F
             F                        3-NN                    Q           G
                     Q           G           H            J
    H            J                                                    I
                             I
                                              K                   L
     K                   L
                                     点1の輝度                                    点1の輝度
     (A) 訓練データ                               (B) サンプルのクラス予測                      17
K-NNの距離関数やKの決め方
•   距離関数
    •近いピクセル同士の距離を重要視する
    •数字の認識に重要そうな場所を重要視する
    •「重要視」は距離関数としては「重み」をつけることに相
     当
        •
       端の点の輝度が50ずれるのより,中央付近の点の輝度が
       10ずれることを重要視するなど
•   Kの値
    •与えられたデータによって値が変化する
    •今のところ答えはない(なので、えいやっ!と決める)
    •いろいろ実験してみて決める
        •
       手動ではなく,自動で実験するには・・・
        •
       クロスバリデーション。統計的な手法、など。
                                 18

Weitere ähnliche Inhalte

Was ist angesagt?

Javaプログラミング入門【第4回】
Javaプログラミング入門【第4回】Javaプログラミング入門【第4回】
Javaプログラミング入門【第4回】Yukiko Kato
 
東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2hirokazutanaka
 
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2hirokazutanaka
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011Preferred Networks
 
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)Masaya Kaneko
 
パーセプトロン型学習規則
パーセプトロン型学習規則パーセプトロン型学習規則
パーセプトロン型学習規則Shuhei Sowa
 
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2hirokazutanaka
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1hirokazutanaka
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionShintaro Takemura
 
スプラトゥーン2 × 数学(訂正版)
スプラトゥーン2 × 数学(訂正版)スプラトゥーン2 × 数学(訂正版)
スプラトゥーン2 × 数学(訂正版)Takunology
 
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++sleepy_yoshi
 
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2hirokazutanaka
 
Javaプログラミング入門【第5回】
Javaプログラミング入門【第5回】Javaプログラミング入門【第5回】
Javaプログラミング入門【第5回】Yukiko Kato
 
シリーズML-03 ランダムフォレストによる自動識別
シリーズML-03 ランダムフォレストによる自動識別シリーズML-03 ランダムフォレストによる自動識別
シリーズML-03 ランダムフォレストによる自動識別Katsuhiro Morishita
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)Tatsuya Yokota
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)Yukara Ikemiya
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333Issei Kurahashi
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会Kenyu Uehara
 

Was ist angesagt? (20)

Javaプログラミング入門【第4回】
Javaプログラミング入門【第4回】Javaプログラミング入門【第4回】
Javaプログラミング入門【第4回】
 
東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2
 
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)
 
パーセプトロン型学習規則
パーセプトロン型学習規則パーセプトロン型学習規則
パーセプトロン型学習規則
 
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
 
20111107 cvim(shirasy)
20111107 cvim(shirasy)20111107 cvim(shirasy)
20111107 cvim(shirasy)
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
 
スプラトゥーン2 × 数学(訂正版)
スプラトゥーン2 × 数学(訂正版)スプラトゥーン2 × 数学(訂正版)
スプラトゥーン2 × 数学(訂正版)
 
CVIM mean shift-3
CVIM mean shift-3CVIM mean shift-3
CVIM mean shift-3
 
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
 
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
 
Javaプログラミング入門【第5回】
Javaプログラミング入門【第5回】Javaプログラミング入門【第5回】
Javaプログラミング入門【第5回】
 
シリーズML-03 ランダムフォレストによる自動識別
シリーズML-03 ランダムフォレストによる自動識別シリーズML-03 ランダムフォレストによる自動識別
シリーズML-03 ランダムフォレストによる自動識別
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
 

Andere mochten auch

Datamining 3rd Naivebayes
Datamining 3rd NaivebayesDatamining 3rd Naivebayes
Datamining 3rd Naivebayessesejun
 
bioinfolec_20070706 4th
bioinfolec_20070706 4thbioinfolec_20070706 4th
bioinfolec_20070706 4thsesejun
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rulesesejun
 
Ohp Seijoen H20 02 Hensu To Kata
Ohp Seijoen H20 02 Hensu To KataOhp Seijoen H20 02 Hensu To Kata
Ohp Seijoen H20 02 Hensu To Katasesejun
 
Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontreesesejun
 
Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2ndsesejun
 

Andere mochten auch (8)

Datamining 3rd Naivebayes
Datamining 3rd NaivebayesDatamining 3rd Naivebayes
Datamining 3rd Naivebayes
 
bioinfolec_20070706 4th
bioinfolec_20070706 4thbioinfolec_20070706 4th
bioinfolec_20070706 4th
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rule
 
Ohp Seijoen H20 02 Hensu To Kata
Ohp Seijoen H20 02 Hensu To KataOhp Seijoen H20 02 Hensu To Kata
Ohp Seijoen H20 02 Hensu To Kata
 
080806
080806080806
080806
 
Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontree
 
Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2nd
 
080806
080806080806
080806
 

Ähnlich wie Datamining 5th Knn

020 1変数の集計
020 1変数の集計020 1変数の集計
020 1変数の集計t2tarumi
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度Seiichi Uchida
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術Yoshihiro Mizoguchi
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010JAVA DM
 
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Ken Morishita
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data Yuki Nakayama
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルShohei Okada
 
Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会Shuyo Nakatani
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdfkeiodig
 
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model AdaptationACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptationsleepy_yoshi
 
Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会Shuyo Nakatani
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1hirokazutanaka
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)ryotat
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能Hiroshi Nakagawa
 

Ähnlich wie Datamining 5th Knn (20)

020 1変数の集計
020 1変数の集計020 1変数の集計
020 1変数の集計
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
 
NIPS 2010 読む会
NIPS 2010 読む会NIPS 2010 読む会
NIPS 2010 読む会
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010
 
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
 
Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会
 
6 Info Theory
6 Info Theory6 Info Theory
6 Info Theory
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model AdaptationACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptation
 
Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能
 
Prml 4
Prml 4Prml 4
Prml 4
 
Machine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEEMachine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEE
 

Mehr von sesejun

RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Reviewsesejun
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析sesejun
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習sesejun
 
20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pubsesejun
 
20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pubsesejun
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pubsesejun
 
20110214nips2010 read
20110214nips2010 read20110214nips2010 read
20110214nips2010 readsesejun
 
Datamining 9th association_rule.key
Datamining 9th association_rule.keyDatamining 9th association_rule.key
Datamining 9th association_rule.keysesejun
 
Datamining 8th hclustering
Datamining 8th hclusteringDatamining 8th hclustering
Datamining 8th hclusteringsesejun
 
Datamining r 4th
Datamining r 4thDatamining r 4th
Datamining r 4thsesejun
 
Datamining r 3rd
Datamining r 3rdDatamining r 3rd
Datamining r 3rdsesejun
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1stsesejun
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svmsesejun
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboostsesejun
 
Datamining 3rd naivebayes
Datamining 3rd naivebayesDatamining 3rd naivebayes
Datamining 3rd naivebayessesejun
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeanssesejun
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfrasesejun
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclusteringsesejun
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rulesesejun
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclusteringsesejun
 

Mehr von sesejun (20)

RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pub
 
20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pub
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pub
 
20110214nips2010 read
20110214nips2010 read20110214nips2010 read
20110214nips2010 read
 
Datamining 9th association_rule.key
Datamining 9th association_rule.keyDatamining 9th association_rule.key
Datamining 9th association_rule.key
 
Datamining 8th hclustering
Datamining 8th hclusteringDatamining 8th hclustering
Datamining 8th hclustering
 
Datamining r 4th
Datamining r 4thDatamining r 4th
Datamining r 4th
 
Datamining r 3rd
Datamining r 3rdDatamining r 3rd
Datamining r 3rd
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1st
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svm
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboost
 
Datamining 3rd naivebayes
Datamining 3rd naivebayesDatamining 3rd naivebayes
Datamining 3rd naivebayes
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeans
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfra
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclustering
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rule
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclustering
 

Kürzlich hochgeladen

Broadmedia Corporation. 240510fy2023_4q
Broadmedia Corporation.  240510fy2023_4qBroadmedia Corporation.  240510fy2023_4q
Broadmedia Corporation. 240510fy2023_4qbm_pr
 
共有用_aio基本保守プラン_WordPressサイト_20240509.pdf
共有用_aio基本保守プラン_WordPressサイト_20240509.pdf共有用_aio基本保守プラン_WordPressサイト_20240509.pdf
共有用_aio基本保守プラン_WordPressサイト_20240509.pdfkikuchi5
 
物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす
物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす
物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こすMichael Rada
 
セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』
セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』
セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』Jun Chiba
 
company profile.pdf
company profile.pdfcompany profile.pdf
company profile.pdfkeiibayashi
 
事例DBサービス紹介資料(Case Study DB service introduction)
事例DBサービス紹介資料(Case Study DB service introduction)事例DBサービス紹介資料(Case Study DB service introduction)
事例DBサービス紹介資料(Case Study DB service introduction)YujiSakurai3
 

Kürzlich hochgeladen (6)

Broadmedia Corporation. 240510fy2023_4q
Broadmedia Corporation.  240510fy2023_4qBroadmedia Corporation.  240510fy2023_4q
Broadmedia Corporation. 240510fy2023_4q
 
共有用_aio基本保守プラン_WordPressサイト_20240509.pdf
共有用_aio基本保守プラン_WordPressサイト_20240509.pdf共有用_aio基本保守プラン_WordPressサイト_20240509.pdf
共有用_aio基本保守プラン_WordPressサイト_20240509.pdf
 
物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす
物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす
物流は成長の準備ができていますか? 警告 1 日あたり 1 章を超えて消費しないでください コンテンツが覚醒と変化への意志を引き起こす
 
セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』
セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』
セルフケア研修で使えるカードゲーム『攻略!きみのストレスを発見せよ!: ゲームで身につくストレスマネジメント』
 
company profile.pdf
company profile.pdfcompany profile.pdf
company profile.pdf
 
事例DBサービス紹介資料(Case Study DB service introduction)
事例DBサービス紹介資料(Case Study DB service introduction)事例DBサービス紹介資料(Case Study DB service introduction)
事例DBサービス紹介資料(Case Study DB service introduction)
 

Datamining 5th Knn

  • 1. データマイニング クラス分類(IV) - 手書き文字データの説明 k-NN 瀬々 潤 sesejun@is.ocha.ac.jp
  • 3. 先週までの話 • クラス分類問題を扱ってきた • 例題として、コンタクトレンズを処方するか、し ないかのデータ • 手法として扱ってきた物 •決定木 •NaiveBayes •AdaBoost • テスト(属性)が、離散値(例題では2値)で表さ れるもののみ扱った
  • 4. 数字判別の流れ 172 ¨ D. DECOSTE AND B. SCHOLKOPF 画像 文字判別で利用する 形式に変換 この授業ではこちらに注力 文字の判別 Figure 2. The first 100 USPS training images, with class labels. (1993) used an enlarged training set of size 9709, containing some additional machine- printed digits, and note that this improves the accuracy on the test set. Similarly, Bot- tou and Vapnik (1992) used a training set of size 9840. Since there are no machine- 4
  • 5. 数字画像をデータへ変換 • 画像データを数値に変換します •今回利用するUSPSの画像データは,256階調(8bit)の 白黒画像 • ラスタ画像(ベクタ画像ではない) • 各ドットが1つの値(輝度)を持つ •縦,横それぞれ16ドット=256ドット • 256次元のデータ • 文字の書き順や,どちらの方向に向かって線を引いたか, と言った情報は,利用できないものとします. 黒っぽい 比較的白っぽい クラス 0,0 0,1 0,2 0,3 0,4 … 15,12 15,13 15,14 15,15 2 46 0 22 0 46 … 106 188 138 0 5
  • 6. 問題例(1/3): 名称 クラス 属性(アトリビュート,カラム) (ラベル) ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 1 2 46 0 22 0 … 138 0 サンプル 2 1 0 59 13 0 … 13 42 (トランザク 3 8 0 46 56 50 … 42 0 ション、 タップル、 … … … … … … … … … レコード) ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 100 ? 59 13 0 28 … 13 42 … … … … … … … … … • 今回は属性の名称としてドットの位置が入っています 6
  • 7. 問題例(2/3): 訓練とテスト 訓練データ(Training Data): 各サンプルのクラスが分かっている ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 1 2 46 0 22 0 … 138 0 2 1 0 59 13 0 … 13 42 3 8 0 46 56 50 … 42 0 … … … … … … … … … テストデータ(Test Data): 各サンプルのクラスが不明 ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 100 ? 59 13 0 28 … 13 42 … … … … … … … … … 7
  • 8. 問題例(3/3): 問題設定 • 訓練データとテストデータが与えられたとき、テスト データのクラスを予測せよ。 •今回の文字の例では、予め数字の分かっている文字 画像が与えられている(訓練データ) •新しい文字が与えられた時(テストデータ)、その 文字に何の数字が書かれているかを予測する • 画像の問題と言っても、結局クラス分類問題になる 8
  • 9. この授業で用いるデータ • USPSの数字データ • http://www.cs.toronto.edu/ roweis/data.html • 0から9の数字それぞれ1,100個 • 1,000個を訓練データ,100個をテストデータとして扱う • 全体で10,000個の訓練データ,1,000個のテストデータ • このままだと,データがとても大きいので,1,000個の訓練 データと100個のテストデータのバージョンも配布します • 画像はすでに,数値に変換をしたものを配布します • クラス分類問題だけでなく、クラスタリングでもこのデータを 利用します 9
  • 10. クラス分類問題 • データは訓練データとテストデータに分かれている • テストデータのクラスを予測をする問題 • 数字の例では、訓練データが256次元。 訓練データ モデル を作成 予測 テストデータ モデルの適用 10
  • 11. 多クラスのクラス分類 • 多くのクラス分類アルゴリズムは,2個のクラス(○ or  あ るいは,1 or -1 )を分類する用に作成されている • 数字を当てる問題は,0∼9まで9つ種類があり,実際にはとても 難しい問題 •多クラスのクラス分類問題と呼ばれる •因に,数値を当てる問題は,回帰問題(regression)と呼ばれる • この授業では簡単のため,数値を当てる問題を「0か,それ以 外」か「1か,それ以外か」といった問題に変更して解く •簡単に多クラスに拡張できるアルゴリズムは,本授業内でも, 多クラスで話を進める 11
  • 12. 画像の距離 • 2つの画像の距離を測りたい。 •どの画像が似ているのか、違っているのか。 • 一例として、マンハッタン距離: •点と点を軸に添って測った距離の和 x2 x |dx1 | + |dx2 | dx2 (A) (C) y (A) 0001111001110010...100 dx1 (C) 0001110000110010...100 x1 多次元ベクトル(上記の図は64次元) 実数でも計算可能(値の差の絶対値を取れば良い) この後の例ではグレースケール(白,黒だけでなく, その中間色もある)で話を進める 12
  • 13. 様々な距離 • 実数値のデータの距離 •それぞれのサンプルを多次元上の1点と見なす • ユークリッド距離 • マンハッタン距離 •様々な距離があり、状況によって適切なものを利用する x2 x2 x x dx2 + dx2 1 2 |dx1 | + |dx2 | dx2 dx2 y y dx1 dx1 x1 x1 (A) 直線距離(ユークリッド(ノルム)距離) (B) マンハッタン距離
  • 14. 相関係数(correlation coefficient) • 点x=(x1, x2,...,xn)と点y=(y1,y2,...,yn)を考える. • 点x, y 間の相関係数(Pearson s R)は次式で与えられる n i=1 (xi − x)(yi − y ) ¯ ¯ r= n n i=1 (xi − x)2 ¯ i=1 (yi − y )2 ¯ • 2次元上のn点の配置を見ている y y y x x x r≈1 r≈0 r ≈ −1 正の相関 相関なし 負の相関 • 距離関数ではない(三角不等式が満たされない)
  • 16. 1-最近点分類 •最も白と黒が一致する=マンハッタン距離が最も近い •最も距離が近い訓練データのクラスを予測とする手法を 1-最近点分類と呼ぶ 点2の輝度 点2の輝度 B A B A Eが○なので, Qに最も近い点はE Qを○と予測 C C D E D E Q G Q G F I F I H H K J L K J L 点1の輝度 点1の輝度 (A) 訓練データ (B) サンプルのクラス予測 16
  • 17. K-最近点分類 (K-Nearest Neighbor) • 属性が似ているサンプルは,クラスも似ている 1. クラスを予測したいテストデータのサンプルをQとする. 2. Qから訓練データ中で最も距離が近いk個のサンプルを選択. • 距離空間の選択は任意(後述) 3. そのk点のクラス(○, )を調べ,最も多いクラスをQの予測クラス とする. 点2の輝度 点2の輝度 A A B B C C D E D E F F 3-NN Q G Q G H J H J I I K L K L 点1の輝度 点1の輝度 (A) 訓練データ (B) サンプルのクラス予測 17
  • 18. K-NNの距離関数やKの決め方 • 距離関数 •近いピクセル同士の距離を重要視する •数字の認識に重要そうな場所を重要視する •「重要視」は距離関数としては「重み」をつけることに相 当 • 端の点の輝度が50ずれるのより,中央付近の点の輝度が 10ずれることを重要視するなど • Kの値 •与えられたデータによって値が変化する •今のところ答えはない(なので、えいやっ!と決める) •いろいろ実験してみて決める • 手動ではなく,自動で実験するには・・・ • クロスバリデーション。統計的な手法、など。 18