Datamining 5th Knn

データマイニング
クラス分類(IV) -
手書き文字データの説明
k-NN

瀬々潤
sesejun@is.ocha.ac.jp

・数字判別の問題
・k-最近点分類法

先週までの話
• クラス分類問題を扱ってきた
• 例題として、コンタクトレンズを処方するか、し
ないかのデータ
• 手法として扱ってきた物
•決定木
•NaiveBayes
•AdaBoost
• テスト（属性）が、離散値（例題では２値）で表さ
れるもののみ扱った

数字判別の流れ
172 ¨
D. DECOSTE AND B. SCHOLKOPF

画像

文字判別で利用する
形式に変換

この授業ではこちらに注力

文字の判別
Figure 2. The ﬁrst 100 USPS training images, with class labels.

(1993) used an enlarged training set of size 9709, containing some additional machine-
printed digits, and note that this improves the accuracy on the test set. Similarly, Bot-
tou and Vapnik (1992) used a training set of size 9840. Since there are no machine-
4

数字画像をデータへ変換
• 画像データを数値に変換します
•今回利用するUSPSの画像データは，256階調(8bit)の
白黒画像
•
ラスタ画像（ベクタ画像ではない）
•
各ドットが1つの値（輝度）を持つ
•縦，横それぞれ16ドット＝256ドット
•
256次元のデータ
• 文字の書き順や，どちらの方向に向かって線を引いたか，
と言った情報は，利用できないものとします．

黒っぽい比較的白っぽい

クラス 0,0 0,1 0,2 0,3 0,4 … 15,12 15,13 15,14 15,15

2 46 0 22 0 46 … 106 188 138 0
5

問題例(1/3): 名称
クラス
属性（アトリビュート，カラム）
（ラベル）

ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15

1 2 46 0 22 0 … 138 0

サンプル 2 1 0 59 13 0 … 13 42
(トランザク 3 8 0 46 56 50 … 42 0
ション、
タップル、 … … … … … … … … …
レコード）
ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15

100 ? 59 13 0 28 … 13 42

… … … … … … … … …

• 今回は属性の名称としてドットの位置が入っています 6

問題例(2/3): 訓練とテスト
訓練データ(Training Data): 各サンプルのクラスが分かっている

ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15

1 2 46 0 22 0 … 138 0

2 1 0 59 13 0 … 13 42

3 8 0 46 56 50 … 42 0

… … … … … … … … …

テストデータ(Test Data): 各サンプルのクラスが不明
ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15

100 ? 59 13 0 28 … 13 42

… … … … … … … … …

7

問題例(3/3): 問題設定

• 訓練データとテストデータが与えられたとき、テスト
データのクラスを予測せよ。
•今回の文字の例では、予め数字の分かっている文字
画像が与えられている（訓練データ）
•新しい文字が与えられた時（テストデータ）、その
文字に何の数字が書かれているかを予測する

• 画像の問題と言っても、結局クラス分類問題になる

8

この授業で用いるデータ
• USPSの数字データ
• http://www.cs.toronto.edu/ roweis/data.html
• 0から9の数字それぞれ1,100個
• 1,000個を訓練データ，100個をテストデータとして扱う
• 全体で10,000個の訓練データ，1,000個のテストデータ
• このままだと，データがとても大きいので，1,000個の訓練
データと100個のテストデータのバージョンも配布します
• 画像はすでに，数値に変換をしたものを配布します

• クラス分類問題だけでなく、クラスタリングでもこのデータを
利用します
9

クラス分類問題
• データは訓練データとテストデータに分かれている
• テストデータのクラスを予測をする問題
• 数字の例では、訓練データが256次元。

訓練データ
モデル
を作成

予測

テストデータ
モデルの適用

10

多クラスのクラス分類
• 多くのクラス分類アルゴリズムは，2個のクラス（○ or あ
るいは，1 or -1 ）を分類する用に作成されている
• 数字を当てる問題は，0∼9まで9つ種類があり，実際にはとても
難しい問題
•多クラスのクラス分類問題と呼ばれる
•因に，数値を当てる問題は，回帰問題(regression)と呼ばれる
• この授業では簡単のため，数値を当てる問題を「0か，それ以
外」か「1か，それ以外か」といった問題に変更して解く
•簡単に多クラスに拡張できるアルゴリズムは，本授業内でも，
多クラスで話を進める

11

画像の距離
• ２つの画像の距離を測りたい。
•どの画像が似ているのか、違っているのか。
• 一例として、マンハッタン距離：
•点と点を軸に添って測った距離の和
x2
x

|dx1 | + |dx2 |
dx2 (A) (C)
y
(A) 0001111001110010...100
dx1
(C) 0001110000110010...100
x1
多次元ベクトル(上記の図は64次元)

実数でも計算可能（値の差の絶対値を取れば良い）
この後の例ではグレースケール（白，黒だけでなく，
その中間色もある）で話を進める 12

様々な距離
• 実数値のデータの距離
•それぞれのサンプルを多次元上の1点と見なす
•
ユークリッド距離
•
マンハッタン距離
•様々な距離があり、状況によって適切なものを利用する

x2 x2
x x

dx2 + dx2
1 2
|dx1 | + |dx2 |
dx2 dx2
y y

dx1 dx1
x1 x1
(A) 直線距離（ユークリッド（ノルム）距離） (B) マンハッタン距離

相関係数(correlation coeﬃcient)
• 点x=(x1, x2,...,xn)と点y=(y1,y2,...,yn)を考える．
• 点x, y 間の相関係数(Pearson s R)は次式で与えられる
n
i=1 (xi − x)(yi − y )
¯ ¯
r= n n
i=1 (xi − x)2
¯ i=1 (yi − y )2
¯
• 2次元上のn点の配置を見ている
y y y

x x x
r≈1 r≈0 r ≈ −1
正の相関相関なし負の相関

• 距離関数ではない（三角不等式が満たされない）

k-最近点分類法
（k-最近傍法、
k-Nearest Neighbor）

1-最近点分類
•最も白と黒が一致する＝マンハッタン距離が最も近い
•最も距離が近い訓練データのクラスを予測とする手法を
1-最近点分類と呼ぶ

点2の輝度点2の輝度
B A B A
Eが○なので，
Qに最も近い点はE Qを○と予測
C C
D E D E
Q G Q G
F I F I

H H
K J L K J L
(A) 訓練データ (B) サンプルのクラス予測

16

K-最近点分類 (K-Nearest Neighbor)
• 属性が似ているサンプルは，クラスも似ている

1. クラスを予測したいテストデータのサンプルをQとする．
2. Qから訓練データ中で最も距離が近いk個のサンプルを選択．
• 距離空間の選択は任意（後述）
3. そのk点のクラス(○， )を調べ，最も多いクラスをQの予測クラス
とする．
点2の輝度
点2の輝度 A
A B
B C
C
Ｄ E
Ｄ E F
F 3-ＮＮ Q G
Q G H J
H J I
I
K L
K L
(A) 訓練データ (B) サンプルのクラス予測 17

K-NNの距離関数やKの決め方
• 距離関数
•近いピクセル同士の距離を重要視する
•数字の認識に重要そうな場所を重要視する
•「重要視」は距離関数としては「重み」をつけることに相
当
•
端の点の輝度が50ずれるのより，中央付近の点の輝度が
10ずれることを重要視するなど
• Kの値
•与えられたデータによって値が変化する
•今のところ答えはない（なので、えいやっ！と決める）
•いろいろ実験してみて決める
•
手動ではなく，自動で実験するには・・・
•
クロスバリデーション。統計的な手法、など。
18

Datamining 5th Knn

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (8)

Ähnlich wie Datamining 5th Knn

Ähnlich wie Datamining 5th Knn (20)

Mehr von sesejun

Mehr von sesejun (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (6)

Datamining 5th Knn