SlideShare ist ein Scribd-Unternehmen logo
1 von 35
1
九州大学大学院システム情報科学研究院
データサイエンス実践特別講座
データサイエンス概論第一
第2回 2データ間の距離とクラスタリング:
2-2 クラスタリング
システム情報科学研究院情報知能工学部門
内田誠一
2
データサイエンス概論第一の内容
 データとは
 データのベクトル表現と集合
 平均と分散
 データ間の距離
 データ間の類似度
 データのクラスタリング
(グルーピング)
 線形代数に基づくデータ解析の基礎
 主成分分析と因子分析
 回帰分析
 相関・頻度・ヒストグラム
 確率と確率分布
 信頼区間と統計的検定
 時系列データの解析
 異常検出
3
データのクラスタリング
データ分類の基本
4
データのクラスタリング①
クラスタリングの基本的考え方
クラスタリング=“clustering”
55
データ集合をグルーピングする
 我々は「距離」や「類似度」を手に入れた
 その結果,「与えられたデータ集合」を「それぞれ似たデータからなる
幾つかのグループに分ける」ことが可能に!
66
グルーピング(クラスタリング)すると
何がわかるか!?
いくつのクラスタに分かれたか?
• グループの分布の把握
各クラスタのメンバ数はどうなっているか?
• 各グループのメンバの多寡
• 微小クラスタ(マイノリティ)や,巨大クラスタ(マジョリティ)
各クラスタの代表パターンは?
• 主要例を理解
• 膨大なデータを高々数個で概観
各クラスタの広がりは?
• 各グループの変動傾向理解
77
クラスタ(cluster)とは?
 「房(ふさ)」,「集団」,「群」
http://www.ims.cs.uec.ac.jp/~naoki
PCクラスタ
プラズマクラスタ(Sharp社)
クラスタ水
www.nariwa.jp
星団(star cluster)
88
クラスタリング(clustering)=
データの集合をいくつかの部分集合に分割する(グルーピング)
 各部分集合=「クラスタ」と呼ばれる
9
各クラスタから代表的なデータを選ぶと...
9
これらの代表データを見
るだけで,データ集合
全体の概略が見える
1010
どういう分割がよいのか?
 𝑁個のデータを𝐾個に分割する方法はおよそ𝐾 𝑁通り
 100個のデータを10分割→およそ10100
通り
 近くにあるデータが,なるべく同じ部分集合になるように
11
データのクラスタリング②
k-means法
Mean = 平均
12
いきなりですがk-meansの挙動(1/5)
初期代表データを与える
12
例えばランダム
に与える
13
いきなりですがk-meansの挙動(2/5)
各データを最も近い代表データに割当て=データ分割
13
代表データの
ファンクラブ
(支持者集合)
割り当ての結果
できる境界
14
いきなりですがk-meansの挙動(3/5)
代表データ更新
14
この中のデータの
平均に移動
15
いきなりですがk-meansの挙動(4/5)
各データを最も近い代表データに割当て=データ分割
15
16
いきなりですがk-meansの挙動(5/5)
代表データ更新
16
以後,代表データが
動かなくなるまで反復
17
K-means法実例:学習データセット
17
18
K-means法実例:結果(K=3)
18
初期代表
パターン
19
K-means法実例:結果(K=5)
19
そのまま残ってしまった!
2020
初期値の決め方
 学習パターンからランダムに選ぶ
 存在範囲に均等に置く
普通こんなところには
置かない
同じ𝐾であっても
初期値により結果は
変わります
2121
いずれにせよ初期値が違うと結果がちがうので
 「マルチスタート戦略」をやってみてもよい
 異なる初期値で𝑃回k-meansを実施
 𝑃個の結果のなかで,最もよかった結果を選ぶ
 「最もよかった」とする基準
 誤差総和が一番小さい
 メンバが極端に少ないクラスタが少ない
 「最も平均から遠いデータ」(=最悪)までの距離が小さい
(最悪が,そう最悪でもない)
2222
𝐾をどうやって決めるか?①
徐々に𝐾を増やすアルゴリズム
 LBG法とか,ISODATA法と呼ばれます
2323
𝐾をどうやって決めるか?②
とにかく𝐾を変えながら,誤差を評価
 あまり減らなくなったところで決める
𝐾
誤差
これぐらい?
2424
K-meansの目指すところ:
誤差総和が最小になるように
 「近くにあるデータが,なるべく同じ部分集合になるように」
 =みんなの近くに代表データが来るように
2
4
各部分集合の代表
代表データとの距離
全部の→の長さの総和が一番
小さくなるように,分割境界を
設定
データ 𝒙𝑖
25
𝐸 = 𝑘=1
𝐾
𝐸 𝑘を
分割𝑆 𝑘 (𝑘 = 1, … , 𝐾)
に関して最小化.
ただし 𝐸 𝑘 = 𝑥 𝑖∈𝑆 𝑘
𝑑 𝒎 𝑘 − 𝒙𝑖
参考:誤差総和基準をキチッと式で書くと...
25
矢印の長さの総和= 𝐸 𝑘
矢印の長さ
𝒎 𝑘
𝒙𝑖
𝑆 𝑘
26
参考:K-means法のアルゴリズム
26
0t
 000
1 ,,,,: Kk mmm 代表データ初期値
  を決定を用いて分割 t
K
t
k
tt
k SSSm ,,,,1 
   ?1
 t
k
t
k mm
  1
, 

  t
k
Sx
ik mmxmdE
t
ki
を最小化する
代表データ更新:
終了
yes
no
tt 1 現時点の分割で
誤差総和が最小になるように
現時点の代表データで
誤差総和が最小になるように
2727
参考:誤差総和基準はベストか?
 必ずしも,そうとは言えず
 例: the problem of splitting large cluster
誤差小 誤差大
28
データのクラスタリング③
その他のクラスタリング法
まだ色々あります
2929
K-means,もう一つの問題(?)
 代表データは「平均」なので,原データの一つではない
 原データにあるものを「代表」としたい場合には...!?
3030
K-medoid法
 Medoid = 「クラスタ内のデータの中で他のデータとの距離を最も小
さくできるもの」
 「平均」ではない.
𝒙𝑖
𝑆 𝑘
𝒎 𝑘
𝒙𝑖
𝑆 𝑘
ならば
31
K-medoid法とk-meansの違いは
一か所だけ!
31
この中のデータの
medoidに移動
3232
K-means vs k-medoids
 Wikipediaに載っていた例
 上段がk-means, 中下段がk-medoids
 まぁ「たまたま」ぐらいで,もちろん,k-meansのほうがよいケースもあり得ます
33
もう一つの代表的クラスタリング法:
階層的クラスタリング
wikipedia の図を一部引用
3434
超参考:もっと凝ったクラスタリング:
スペクトラル・クラスタリング
 グラフ表現されたパターン集合のクラスタリング
 近いパターン間をつないでグラフ構築
 その近接性を極力保存したまま低次元空間に写像
 低次元空間でk-means
http://d.hatena.ne.jp/mr_r_i_c_e/20121214/1355499195
「近さ」には
任意性あり
35
スペクトラル・クラスタリングK-means
超参考:もっと凝ったクラスタリング:
スペクトラル・クラスタリング
35
http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/clustering.html

Weitere ähnliche Inhalte

Was ist angesagt?

データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出Seiichi Uchida
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践Yasuyuki Okumura
 
13 分類とパターン認識
13 分類とパターン認識13 分類とパターン認識
13 分類とパターン認識Seiichi Uchida
 
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとはデータサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとはSeiichi Uchida
 
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析Seiichi Uchida
 
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習Seiichi Uchida
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心takehikoihayashi
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度Seiichi Uchida
 
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎Seiichi Uchida
 
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがきデータサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがきSeiichi Uchida
 
1 データとデータ分析
1 データとデータ分析1 データとデータ分析
1 データとデータ分析Seiichi Uchida
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)Yoshitake Takebayashi
 
5 クラスタリングと異常検出
5 クラスタリングと異常検出5 クラスタリングと異常検出
5 クラスタリングと異常検出Seiichi Uchida
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
変数同士の関連_MIC
変数同士の関連_MIC変数同士の関連_MIC
変数同士の関連_MICShushi Namba
 
3 平均・分散・相関
3 平均・分散・相関3 平均・分散・相関
3 平均・分散・相関Seiichi Uchida
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析Yohei Sato
 
自己対照研究デザインの概要
自己対照研究デザインの概要自己対照研究デザインの概要
自己対照研究デザインの概要Hideaki Miyachi
 

Was ist angesagt? (20)

データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
13 分類とパターン認識
13 分類とパターン認識13 分類とパターン認識
13 分類とパターン認識
 
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとはデータサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
 
統計分析
統計分析統計分析
統計分析
 
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
 
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
 
主成分分析
主成分分析主成分分析
主成分分析
 
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがきデータサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
 
1 データとデータ分析
1 データとデータ分析1 データとデータ分析
1 データとデータ分析
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
5 クラスタリングと異常検出
5 クラスタリングと異常検出5 クラスタリングと異常検出
5 クラスタリングと異常検出
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
変数同士の関連_MIC
変数同士の関連_MIC変数同士の関連_MIC
変数同士の関連_MIC
 
3 平均・分散・相関
3 平均・分散・相関3 平均・分散・相関
3 平均・分散・相関
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
 
自己対照研究デザインの概要
自己対照研究デザインの概要自己対照研究デザインの概要
自己対照研究デザインの概要
 

Ähnlich wie データサイエンス概論第一=2-2 クラスタリング

データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析Seiichi Uchida
 
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリングRyomaBise1
 
ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断kunihikokaneko1
 
マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)博行 門眞
 
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...Ryohei Suzuki
 
Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noselfPaper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noselfYusuke Fujimoto
 
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdfJPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdfJun Kashihara
 

Ähnlich wie データサイエンス概論第一=2-2 クラスタリング (8)

データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
 
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
 
ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断ae-11. 実データの分析,意味の抽出,外れ値の判断
ae-11. 実データの分析,意味の抽出,外れ値の判断
 
データ解析
データ解析データ解析
データ解析
 
マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)マトリックス・データ解析法(主成分分析)
マトリックス・データ解析法(主成分分析)
 
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
Wolf et al. "Graph abstraction reconciles clustering with trajectory inferen...
 
Paper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noselfPaper: clinically accuratechestx-rayreport generation_noself
Paper: clinically accuratechestx-rayreport generation_noself
 
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdfJPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdf
 

Mehr von Seiichi Uchida

12 非構造化データ解析
12 非構造化データ解析12 非構造化データ解析
12 非構造化データ解析Seiichi Uchida
 
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき0 データサイエンス概論まえがき
0 データサイエンス概論まえがきSeiichi Uchida
 
14 データ収集とバイアス
14 データ収集とバイアス14 データ収集とバイアス
14 データ収集とバイアスSeiichi Uchida
 
10 確率と確率分布
10 確率と確率分布10 確率と確率分布
10 確率と確率分布Seiichi Uchida
 
8 予測と回帰分析
8 予測と回帰分析8 予測と回帰分析
8 予測と回帰分析Seiichi Uchida
 
2 データのベクトル表現と集合
2 データのベクトル表現と集合2 データのベクトル表現と集合
2 データのベクトル表現と集合Seiichi Uchida
 
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれからSeiichi Uchida
 
Machine learning for document analysis and understanding
Machine learning for document analysis and understandingMachine learning for document analysis and understanding
Machine learning for document analysis and understandingSeiichi Uchida
 
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理Seiichi Uchida
 
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%Seiichi Uchida
 

Mehr von Seiichi Uchida (13)

9 可視化
9 可視化9 可視化
9 可視化
 
12 非構造化データ解析
12 非構造化データ解析12 非構造化データ解析
12 非構造化データ解析
 
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
 
15 人工知能入門
15 人工知能入門15 人工知能入門
15 人工知能入門
 
14 データ収集とバイアス
14 データ収集とバイアス14 データ収集とバイアス
14 データ収集とバイアス
 
10 確率と確率分布
10 確率と確率分布10 確率と確率分布
10 確率と確率分布
 
8 予測と回帰分析
8 予測と回帰分析8 予測と回帰分析
8 予測と回帰分析
 
7 主成分分析
7 主成分分析7 主成分分析
7 主成分分析
 
2 データのベクトル表現と集合
2 データのベクトル表現と集合2 データのベクトル表現と集合
2 データのベクトル表現と集合
 
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
 
Machine learning for document analysis and understanding
Machine learning for document analysis and understandingMachine learning for document analysis and understanding
Machine learning for document analysis and understanding
 
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
 
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
 

データサイエンス概論第一=2-2 クラスタリング