SlideShare a Scribd company logo
1 of 27
Download to read offline
集合知プログラミング 
第三回勉強会 
2014.9.11 
安中哲也
担当範囲 
 
n 3.1 教師あり学習 v.s. 教師なし学習 
n 3.2 単語ベクトル 
n 3.2.1 ブロガーを分類する 
n 3.2.2 フィードの中の単語を数える 
n 3.3 階層的クラスタリング 
n 3.4 デンドログラムを描く 
n 3.5 列列のクラスタリング 
n 3.6 K平均法によるクラスタリング 
 
2
3章 
3 
 
n 機械学習の全体図(簡略略図) 
 
機械学習 
教師なし学習教師あり学習 
データクラスタリング 
階層的 
クラスタリング 
⾮非階層的 
クラスタリング 
重⼼心法 
⾳音声認識識, 
⼀一般物体認識識, etc… 
最近傍法 
k最近傍法 
k平均法⾮非負値⾏行行列列 
因⼦子分解 
ニューラル 
ネットワーク 
ベイジアン 
フィルタ 
決定⽊木サポート 
ベクトルマシン
3章 
4 
 
n 今⽇日の勉強会で学ぶ範囲 
 
機械学習 
教師なし学習教師あり学習 
データクラスタリング 
階層的 
クラスタリング 
⾮非階層的 
クラスタリング 
重⼼心法 
⾳音声認識識, 
⼀一般物体認識識, etc… 
最近傍法 
k最近傍法 
k平均法⾮非負値⾏行行列列 
因⼦子分解 
ニューラル 
ネットワーク 
ベイジアン 
フィルタ 
決定⽊木サポート 
ベクトルマシン
今⽇日の発表で持ち帰って欲しいこと 
5 
n グループ分けを⾏行行う主要アルゴリズムの概要と、その特徴の理理解 
n 「K平均法」「NN近傍法」のアルゴリズムの詳細理理解 
n シチュエーションに応じた学習アルゴリズム選択
3章 
6 
 
n 機械学習の全体図(簡略略図) 
 
機械学習 
教師なし学習教師あり学習 
データクラスタリング 
階層的 
クラスタリング 
⾮非階層的 
クラスタリング 
重⼼心法 
⾳音声認識識, 
⼀一般物体認識識, etc… 
最近傍法 
k最近傍法 
k平均法⾮非負値⾏行行列列 
因⼦子分解 
ニューラル 
ネットワーク 
ベイジアン 
フィルタ 
決定⽊木サポート 
ベクトルマシン
3章 グループを⾒見見つけ出す 
7 
n この章では何を学ぶか? 
前回までは、近い関係のものを探し出す⼿手法について⾒見見てきた。 
この章では、これを⼀一般化し、お互いに関連しているもの同⼠士、⼈人々の集団な 
どを発⾒見見する⼿手法を学ぶ。 
これをデータクラスタリングと呼ぶ。 
n どんな応⽤用例例があるか?? 
ü 顧客の購買履履歴を分析し「何と何が同時に購⼊入されるか」「客の購買パター 
ン」を理理解。商品の配置や、クーポン配布に利利⽤用。 
ü ゲームの課⾦金金ユーザをグループ分け。売上が最も上昇するようなイベントを 
開催 
ü 株の銘柄についてグループ分け。投資先の決定の参考にする
3章 
8 
 
n 機械学習の全体図(簡略略図) 
 
機械学習 
教師なし学習教師あり学習 
データクラスタリング 
階層的 
クラスタリング 
⾮非階層的 
クラスタリング 
重⼼心法 
⾳音声認識識, 
⼀一般物体認識識, etc… 
最近傍法 
k最近傍法 
k平均法⾮非負値⾏行行列列 
因⼦子分解 
ニューラル 
ネットワーク 
ベイジアン 
フィルタ 
決定⽊木サポート 
ベクトルマシン
3.1 教師あり学習 v.s. 教師なし学習 
9 
データクラスタリングには、学習が必要 
学習アルゴリズムは、学習時に正解データを使うか否かで2種類に分けられる。 
n 教師あり学習(正解データを使う学習) 
予測のあり⽅方を学習する際に、正答となる⼊入⼒力力・出⼒力力を使⽤用する⼿手法。 
出⼒力力が正解か否かが、明瞭に分かる(≒学習可能)場合に⽤用いられる。 
「学習フェーズ」と「認識識フェーズ」に分かれる(図)。 
 
n 教師あり学習の使⽤用シチュエーション 
正解か否かをプログラムに学習して欲しいとき。 
e.g. ⾳音声認識識 
e.g. ⼀一般物体認識識(画像認識識) 
 
n 教師あり学習の⼿手法例例 
ニューラルネットワーク(NN) 
決定⽊木 
サポートベクトルマシン(SVM) 
ベイジアンフィルタ 
学習フェーズ認識識フェーズ
3.1 教師あり学習 v.s. 教師なし学習 
10 
n 教師なし学習 
教師なし学習とは、「望ましい状態」を使⽤用者が設定し、その「望ましい状態」 
を満たすようにデータセットを分類する⽅方法。 
 
n 教師なし学習の使⽤用シチュエーション 
クラスタリング 
 
n 教師なし学習の⼿手法例例 
K平均法(後述) 
⾮非負値⾏行行列列因⼦子分解(因数分解を⾏行行い、因数を読み取ることで特徴を捉える) 
⾃自⼰己組織化マップ(単純ルールでクラスタリングを⾏行行う、脳を参考にしたモデル。クソ⾯面⽩白い)
3章 
11 
 
n 機械学習の全体図(簡略略図) 
 
機械学習 
教師なし学習教師あり学習 
データクラスタリング 
階層的 
クラスタリング 
⾮非階層的 
クラスタリング 
重⼼心法 
⾳音声認識識, 
⼀一般物体認識識, etc… 
最近傍法 
k最近傍法 
k平均法⾮非負値⾏行行列列 
因⼦子分解 
ニューラル 
ネットワーク 
ベイジアン 
フィルタ 
決定⽊木サポート 
ベクトルマシン
3.3 階層的クラスタリング 
12 
クラスタリングは「階層的」「⾮非階層的」の2種類がある。 
 
n 階層的クラスタリングとは 
最も似ているグループをまとめる(※1)、もしくは最も離離れているグループを分 
ける(※2)ことを繰り返す⼿手法。 
 
 
n メリット 
ü 「デンドログラム」を描くことで、直感的な理理解が可能 
ü ⼀一回クラスタリングをすれば、様々な粒粒度度(⼤大きさ)のクラスタが得られる 
(再計算なしでクラスタ数の変化が可能) 
n デメリット 
ü 「グループ間の全てのペアに関して計算」を繰り返すため、計算コストが⼤大 
(そのため膨⼤大なデータセットは扱えない) 
 
※1 似ているグループをまとめていく⼿手法※2 最も離離れているグループを分割していく⼿手法
3.3 階層的クラスタリングの例例 
13
3.3 階層的クラスタリング 
14
3章 
15 
 
n 機械学習の全体図(簡略略図) 
 
機械学習 
教師なし学習教師あり学習 
データクラスタリング 
階層的 
クラスタリング 
⾮非階層的 
クラスタリング 
重⼼心法 
⾳音声認識識, 
⼀一般物体認識識, etc… 
最近傍法 
k最近傍法 
k平均法⾮非負値⾏行行列列 
因⼦子分解 
ニューラル 
ネットワーク 
ベイジアン 
フィルタ 
決定⽊木サポート 
ベクトルマシン
3.3 階層的クラスタリング 
16 
 
n 最近傍法 アルゴリズムの説明 
 
STEP1 n次元上にプロット 
A B 
D 
C 
E 
D 
Aʼ’ 
C 
E 
A B 
D 
C 
E 
D 
C 
E 
A B 
D 
C 
E 
STEP2 全てのペアに関して 
「距離離」を計算 
STEP3 最も近いグループ同⼠士を 
まとめる 
STEP4 全てのペアに関して 
「距離離」を再計算 
STEP5 最も近いグループ 
同⼠士をまとめる 
Aʼ’ 
(希望のクラスタ数に減るまで 
繰り返す) 
1.0 
0.1 
1.2 
0.5 
0.4 
0.8 
0.6 
0.3 
0.2 
・・・
3.3 階層的クラスタリング 
17 
 
n 階層的クラスタリングのメリット(再掲) 
ü ⼀一回クラスタリングをすれば、様々な粒粒度度(⼤大きさ)のクラスタが得られる 
(再計算なしでクラスタ数の変化が可能) 
1 2 3 4 5 
1 
2 
3 
5 
5 
5 
4 
1 
2 
3 
4 
1 
2 
3 
4 
4つのクラスタに分けたい 
3つのクラスタに分けたい 
2つのクラスタに分けたい 
n メリットの解説 
 
デンドログラム
3章 
18 
 
n 機械学習の全体図(簡略略図) 
 
機械学習 
教師なし学習教師あり学習 
データクラスタリング 
階層的 
クラスタリング 
⾮非階層的 
クラスタリング 
重⼼心法 
⾳音声認識識, 
⼀一般物体認識識, etc… 
最近傍法 
k最近傍法 
k平均法⾮非負値⾏行行列列 
因⼦子分解 
ニューラル 
ネットワーク 
ベイジアン 
フィルタ 
決定⽊木サポート 
ベクトルマシン
3.3 ⾮非階層的クラスタリング 
19 
 
n ⾮非階層的クラスタリングとは 
階層的でないクラスタリング全て。 
事前にクラス数を決め、全体をその数に分割する。 
 
n メリット 
ü 計算量量が少ない。サイズが⼤大きなデータにも利利⽤用可能 
n デメリット 
ü データの性質や直感に反したクラスタリングをしてしまう場合がある 
ü 初期値の選び⽅方によって、結果が変わってしまう(局所解に陥る) 
ü 予め、得たいクラス数を決めておく必要がある
3章 
20 
 
n 機械学習の全体図(簡略略図) 
 
機械学習 
教師なし学習教師あり学習 
データクラスタリング 
階層的 
クラスタリング 
⾮非階層的 
クラスタリング 
重⼼心法 
⾳音声認識識, 
⼀一般物体認識識, etc… 
最近傍法 
k最近傍法 
k平均法⾮非負値⾏行行列列 
因⼦子分解 
ニューラル 
ネットワーク 
ベイジアン 
フィルタ 
決定⽊木サポート 
ベクトルマシン
3.3 階層的クラスタリング 
21 
 
n k平均法 アルゴリズムの説明 
 
http://tech.nitoyon.com/ja/blog/2009/04/09/ 
kmeans-visualise/
今⽇日の発表まとめ 
正解・不不正解データを学習させ、 
それを元に推定して欲しいとき 
22 
 
n まとめ 
機械学習 
教師なし学習教師あり学習 
データクラスタリング 
階層的 
クラスタリング 
⾮非階層的 
クラスタリング 
重⼼心法 
⾳音声認識識, 
⼀一般物体認識識, etc… 
最近傍法 
k最近傍法 
k平均法⾮非負値⾏行行列列 
因⼦子分解 
ニューラル 
ネットワーク 
ベイジアン 
フィルタ 
決定⽊木サポート 
ベクトルマシン 
「満たして欲しい条件」を 
⾃自分で決める
3章 
23 
 
n 機械学習の全体図(簡略略図) 
 
機械学習 
教師なし学習教師あり学習 
データクラスタリング 
階層的 
クラスタリング 
⾮非階層的 
クラスタリング 
重⼼心法 
⾳音声認識識, 
⼀一般物体認識識, etc… 
最近傍法 
k最近傍法 
k平均法⾮非負値⾏行行列列 
因⼦子分解 
ニューラル 
ネットワーク 
ベイジアン 
フィルタ 
決定⽊木サポート 
ベクトルマシン
付録A クラスタ間の「距離離」の定義 
最短距離法(single link) 
最長距離法(complete link) 
重心法(centroid) 群平均法(group-average)
n サブグラフをみつける⼿手法 
n NODE-‐‑‒CENTRIC 密結合(クリーク)のサブグラフの発⾒見見 
n GROUP-‐‑‒CENTRIC グループ全体のエッジ密度度が⾼高いサブグラフの発⾒見見 
n グループに分割する⼿手法(⾮非トポロジー) 
n LATENT-‐‑‒SPACE MODELS ネットワーク情報を低次元にマッピングしてk-‐‑‒meansを使う 
n BLOCK MODEL APPRIXIMATION 「ブロック」に分ける 
n SPECTRAL CLUSTERING 最⼩小カットとなるエッジから切切ってく 
n MODULARITY MAXIMIZATION 「モジュール性」を上げるものからつなげてく 
n グループに分割する⼿手法(トポロジー) 
n DIVISIVE HIERARCHICAL CLUSTERING つながりの弱いエッジを切切っていく 
n AGGROMERATIVE CLUSTERING モジュール性を元にまとめていく 
25 
付録B グループを⾒見見つけ出す⼿手法⾊色々
26
27

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

第四回 集合知プログラミング勉強会資料

  • 2. 担当範囲 n 3.1 教師あり学習 v.s. 教師なし学習 n 3.2 単語ベクトル n 3.2.1 ブロガーを分類する n 3.2.2 フィードの中の単語を数える n 3.3 階層的クラスタリング n 3.4 デンドログラムを描く n 3.5 列列のクラスタリング n 3.6 K平均法によるクラスタリング 2
  • 3. 3章 3 n 機械学習の全体図(簡略略図) 機械学習 教師なし学習教師あり学習 データクラスタリング 階層的 クラスタリング ⾮非階層的 クラスタリング 重⼼心法 ⾳音声認識識, ⼀一般物体認識識, etc… 最近傍法 k最近傍法 k平均法⾮非負値⾏行行列列 因⼦子分解 ニューラル ネットワーク ベイジアン フィルタ 決定⽊木サポート ベクトルマシン
  • 4. 3章 4 n 今⽇日の勉強会で学ぶ範囲 機械学習 教師なし学習教師あり学習 データクラスタリング 階層的 クラスタリング ⾮非階層的 クラスタリング 重⼼心法 ⾳音声認識識, ⼀一般物体認識識, etc… 最近傍法 k最近傍法 k平均法⾮非負値⾏行行列列 因⼦子分解 ニューラル ネットワーク ベイジアン フィルタ 決定⽊木サポート ベクトルマシン
  • 5. 今⽇日の発表で持ち帰って欲しいこと 5 n グループ分けを⾏行行う主要アルゴリズムの概要と、その特徴の理理解 n 「K平均法」「NN近傍法」のアルゴリズムの詳細理理解 n シチュエーションに応じた学習アルゴリズム選択
  • 6. 3章 6 n 機械学習の全体図(簡略略図) 機械学習 教師なし学習教師あり学習 データクラスタリング 階層的 クラスタリング ⾮非階層的 クラスタリング 重⼼心法 ⾳音声認識識, ⼀一般物体認識識, etc… 最近傍法 k最近傍法 k平均法⾮非負値⾏行行列列 因⼦子分解 ニューラル ネットワーク ベイジアン フィルタ 決定⽊木サポート ベクトルマシン
  • 7. 3章 グループを⾒見見つけ出す 7 n この章では何を学ぶか? 前回までは、近い関係のものを探し出す⼿手法について⾒見見てきた。 この章では、これを⼀一般化し、お互いに関連しているもの同⼠士、⼈人々の集団な どを発⾒見見する⼿手法を学ぶ。 これをデータクラスタリングと呼ぶ。 n どんな応⽤用例例があるか?? ü 顧客の購買履履歴を分析し「何と何が同時に購⼊入されるか」「客の購買パター ン」を理理解。商品の配置や、クーポン配布に利利⽤用。 ü ゲームの課⾦金金ユーザをグループ分け。売上が最も上昇するようなイベントを 開催 ü 株の銘柄についてグループ分け。投資先の決定の参考にする
  • 8. 3章 8 n 機械学習の全体図(簡略略図) 機械学習 教師なし学習教師あり学習 データクラスタリング 階層的 クラスタリング ⾮非階層的 クラスタリング 重⼼心法 ⾳音声認識識, ⼀一般物体認識識, etc… 最近傍法 k最近傍法 k平均法⾮非負値⾏行行列列 因⼦子分解 ニューラル ネットワーク ベイジアン フィルタ 決定⽊木サポート ベクトルマシン
  • 9. 3.1 教師あり学習 v.s. 教師なし学習 9 データクラスタリングには、学習が必要 学習アルゴリズムは、学習時に正解データを使うか否かで2種類に分けられる。 n 教師あり学習(正解データを使う学習) 予測のあり⽅方を学習する際に、正答となる⼊入⼒力力・出⼒力力を使⽤用する⼿手法。 出⼒力力が正解か否かが、明瞭に分かる(≒学習可能)場合に⽤用いられる。 「学習フェーズ」と「認識識フェーズ」に分かれる(図)。 n 教師あり学習の使⽤用シチュエーション 正解か否かをプログラムに学習して欲しいとき。 e.g. ⾳音声認識識 e.g. ⼀一般物体認識識(画像認識識) n 教師あり学習の⼿手法例例 ニューラルネットワーク(NN) 決定⽊木 サポートベクトルマシン(SVM) ベイジアンフィルタ 学習フェーズ認識識フェーズ
  • 10. 3.1 教師あり学習 v.s. 教師なし学習 10 n 教師なし学習 教師なし学習とは、「望ましい状態」を使⽤用者が設定し、その「望ましい状態」 を満たすようにデータセットを分類する⽅方法。 n 教師なし学習の使⽤用シチュエーション クラスタリング n 教師なし学習の⼿手法例例 K平均法(後述) ⾮非負値⾏行行列列因⼦子分解(因数分解を⾏行行い、因数を読み取ることで特徴を捉える) ⾃自⼰己組織化マップ(単純ルールでクラスタリングを⾏行行う、脳を参考にしたモデル。クソ⾯面⽩白い)
  • 11. 3章 11 n 機械学習の全体図(簡略略図) 機械学習 教師なし学習教師あり学習 データクラスタリング 階層的 クラスタリング ⾮非階層的 クラスタリング 重⼼心法 ⾳音声認識識, ⼀一般物体認識識, etc… 最近傍法 k最近傍法 k平均法⾮非負値⾏行行列列 因⼦子分解 ニューラル ネットワーク ベイジアン フィルタ 決定⽊木サポート ベクトルマシン
  • 12. 3.3 階層的クラスタリング 12 クラスタリングは「階層的」「⾮非階層的」の2種類がある。 n 階層的クラスタリングとは 最も似ているグループをまとめる(※1)、もしくは最も離離れているグループを分 ける(※2)ことを繰り返す⼿手法。 n メリット ü 「デンドログラム」を描くことで、直感的な理理解が可能 ü ⼀一回クラスタリングをすれば、様々な粒粒度度(⼤大きさ)のクラスタが得られる (再計算なしでクラスタ数の変化が可能) n デメリット ü 「グループ間の全てのペアに関して計算」を繰り返すため、計算コストが⼤大 (そのため膨⼤大なデータセットは扱えない) ※1 似ているグループをまとめていく⼿手法※2 最も離離れているグループを分割していく⼿手法
  • 15. 3章 15 n 機械学習の全体図(簡略略図) 機械学習 教師なし学習教師あり学習 データクラスタリング 階層的 クラスタリング ⾮非階層的 クラスタリング 重⼼心法 ⾳音声認識識, ⼀一般物体認識識, etc… 最近傍法 k最近傍法 k平均法⾮非負値⾏行行列列 因⼦子分解 ニューラル ネットワーク ベイジアン フィルタ 決定⽊木サポート ベクトルマシン
  • 16. 3.3 階層的クラスタリング 16 n 最近傍法 アルゴリズムの説明 STEP1 n次元上にプロット A B D C E D Aʼ’ C E A B D C E D C E A B D C E STEP2 全てのペアに関して 「距離離」を計算 STEP3 最も近いグループ同⼠士を まとめる STEP4 全てのペアに関して 「距離離」を再計算 STEP5 最も近いグループ 同⼠士をまとめる Aʼ’ (希望のクラスタ数に減るまで 繰り返す) 1.0 0.1 1.2 0.5 0.4 0.8 0.6 0.3 0.2 ・・・
  • 17. 3.3 階層的クラスタリング 17 n 階層的クラスタリングのメリット(再掲) ü ⼀一回クラスタリングをすれば、様々な粒粒度度(⼤大きさ)のクラスタが得られる (再計算なしでクラスタ数の変化が可能) 1 2 3 4 5 1 2 3 5 5 5 4 1 2 3 4 1 2 3 4 4つのクラスタに分けたい 3つのクラスタに分けたい 2つのクラスタに分けたい n メリットの解説 デンドログラム
  • 18. 3章 18 n 機械学習の全体図(簡略略図) 機械学習 教師なし学習教師あり学習 データクラスタリング 階層的 クラスタリング ⾮非階層的 クラスタリング 重⼼心法 ⾳音声認識識, ⼀一般物体認識識, etc… 最近傍法 k最近傍法 k平均法⾮非負値⾏行行列列 因⼦子分解 ニューラル ネットワーク ベイジアン フィルタ 決定⽊木サポート ベクトルマシン
  • 19. 3.3 ⾮非階層的クラスタリング 19 n ⾮非階層的クラスタリングとは 階層的でないクラスタリング全て。 事前にクラス数を決め、全体をその数に分割する。 n メリット ü 計算量量が少ない。サイズが⼤大きなデータにも利利⽤用可能 n デメリット ü データの性質や直感に反したクラスタリングをしてしまう場合がある ü 初期値の選び⽅方によって、結果が変わってしまう(局所解に陥る) ü 予め、得たいクラス数を決めておく必要がある
  • 20. 3章 20 n 機械学習の全体図(簡略略図) 機械学習 教師なし学習教師あり学習 データクラスタリング 階層的 クラスタリング ⾮非階層的 クラスタリング 重⼼心法 ⾳音声認識識, ⼀一般物体認識識, etc… 最近傍法 k最近傍法 k平均法⾮非負値⾏行行列列 因⼦子分解 ニューラル ネットワーク ベイジアン フィルタ 決定⽊木サポート ベクトルマシン
  • 21. 3.3 階層的クラスタリング 21 n k平均法 アルゴリズムの説明 http://tech.nitoyon.com/ja/blog/2009/04/09/ kmeans-visualise/
  • 22. 今⽇日の発表まとめ 正解・不不正解データを学習させ、 それを元に推定して欲しいとき 22 n まとめ 機械学習 教師なし学習教師あり学習 データクラスタリング 階層的 クラスタリング ⾮非階層的 クラスタリング 重⼼心法 ⾳音声認識識, ⼀一般物体認識識, etc… 最近傍法 k最近傍法 k平均法⾮非負値⾏行行列列 因⼦子分解 ニューラル ネットワーク ベイジアン フィルタ 決定⽊木サポート ベクトルマシン 「満たして欲しい条件」を ⾃自分で決める
  • 23. 3章 23 n 機械学習の全体図(簡略略図) 機械学習 教師なし学習教師あり学習 データクラスタリング 階層的 クラスタリング ⾮非階層的 クラスタリング 重⼼心法 ⾳音声認識識, ⼀一般物体認識識, etc… 最近傍法 k最近傍法 k平均法⾮非負値⾏行行列列 因⼦子分解 ニューラル ネットワーク ベイジアン フィルタ 決定⽊木サポート ベクトルマシン
  • 24. 付録A クラスタ間の「距離離」の定義 最短距離法(single link) 最長距離法(complete link) 重心法(centroid) 群平均法(group-average)
  • 25. n サブグラフをみつける⼿手法 n NODE-‐‑‒CENTRIC 密結合(クリーク)のサブグラフの発⾒見見 n GROUP-‐‑‒CENTRIC グループ全体のエッジ密度度が⾼高いサブグラフの発⾒見見 n グループに分割する⼿手法(⾮非トポロジー) n LATENT-‐‑‒SPACE MODELS ネットワーク情報を低次元にマッピングしてk-‐‑‒meansを使う n BLOCK MODEL APPRIXIMATION 「ブロック」に分ける n SPECTRAL CLUSTERING 最⼩小カットとなるエッジから切切ってく n MODULARITY MAXIMIZATION 「モジュール性」を上げるものからつなげてく n グループに分割する⼿手法(トポロジー) n DIVISIVE HIERARCHICAL CLUSTERING つながりの弱いエッジを切切っていく n AGGROMERATIVE CLUSTERING モジュール性を元にまとめていく 25 付録B グループを⾒見見つけ出す⼿手法⾊色々
  • 26. 26
  • 27. 27