SlideShare ist ein Scribd-Unternehmen logo
1 von 9
Downloaden Sie, um offline zu lesen
Cluster (2)
유 은
목차
0
1. K-means clustering
2. K-means clustering: 클러스터의 개수 결정
3. K-means clustering: 장단점
4. Further techniques for clustering
K-means clustering
1
피터 브루스, 앤드류 브루스 (2018). 데이터 과학을 위한 통계. 이준용 옮김. 한빛미디어
http://www.mit.edu/~9.54/fall14/slides/Class13.pdf
• 데이터를 클러스터(cluster)라는 그룹으로 나누며, 어떤 클러스터로 나뉠지는
정해져 있지 않다.
• 한 클러스터 안의 데이터끼리는 비슷하고 다른 클러스터의 데이터끼리는 서로
구분이 되어야 한다.
• K-means clustering은 최초로 개발된 클러스터링 기법으로, 알고리즘이 상대
적으로 간단하고 큰 데이터에도 손쉽게 사용할 수 있어 널리 사용된다.
① 클러스터 중심을 무작위로 할당한다.
② 각 데이터 포인트(관측치)를 가장 가까운 클러스터 중심에 할당한다.
③ 각 클러스터의 데이터 포인트와 클러스터 중심의 거리 제곱합 및 벡터 평균을 계산한다.
④ 계산을 바탕으로 클러스터 중심을 갱신한다.
K-means clustering
1
http://www.mit.edu/~9.54/fall14/slides/Class13.pdf
1 2 3
4 5 6
K-means clustering: 클러스터의 개수 결정
2
피터 브루스, 앤드류 브루스 (2018). 데이터 과학을 위한 통계. 이준용 옮김. 한빛미디어
http://www.mit.edu/~9.54/fall14/slides/Class13.pdf
• 클러스터링은 데이터로부터 유의미한 그룹들을 구하는 것을 목적으로 한다.
✓각 클러스터의 크기는 어떠한가?
✓각 클러스터를 구분할 수 있는 특징은 무엇인가?
• 최적의 클러스터 개수를 찾는 표준화된 방법은 없다.
✓통계적인 결과보다 실무적인 문제/필요에 따라 결정하는 경우가 일반적이다.
✓팔꿈치 방법 (elbow method): K-means clustering 에서 주로 사용
✓실루엣 계수 (silhouette coefficient): 여러 클러스터링 알고리즘에서 사용
K-means clustering: 클러스터의 개수 결정
2
팔꿈치 방법 (elbow method)
• 클러스터가 데이터의 분산을 얼마나 설명하는가?
• 클러스터를 추가할수록 각 클러스터의 데이터 포인트(관측치)와 클러스터 중심의 거리 제곱
합(오차제곱합; sum of squared error)가 점점 감소한다.
• 클러스터를 더 추가할수록 감소폭이 줄어들기 때문에 그래프상에서 평평하게 되는 지점이
있으며, 이러한 성질 때문에 팔꿈치로 부른다.
• 팔꿈치가 꺾이는 지점을 참고한다.
K-means clustering: 장단점
3
안드레아스 뮐러, 세라 가이도 (2019) 파이썬 라이브러리를 활용한 머신러닝, 박해선 옮김, 한빛미디어
장점
• 알고리즘이 간단하고 큰 데이터에도 손쉽게 사용 가능
단점
• 연속형 변수에 가장 최적
• 결과가 초기에 지정한 클러스터 중심의 위치에 따라 달라질 수 있어 반복 필요
• 클러스터의 개수를 지정해야 함
• 클러스터의 모양을 가정하기 때문에(원형) 다양한 분포를 가지는 데이터에 적용 한계
Further techniques for clustering
4
피터 브루스, 앤드류 브루스 (2018). 데이터 과학을 위한 통계. 이준용 옮김. 한빛미디어
안드레아스 뮐러, 세라 가이도 (2019) 파이썬 라이브러리를 활용한 머신러닝, 박해선 옮김, 한빛미디어
• 데이터의 단위/범위가 다른 경우
✓스케일링(scaling): 데이터의 범위를 늘이거나 줄이는 방식으로 여러 변수들이 같은 스케일
에 오도록 하는 것 (예: 모든 데이터를 0에서 1 사이의 분포로 만드는 min-max scaling, 원
래 변수 값에서 평균을 뺀 후 표준편차로 나누는 정규화 normalization)
✓이상치(outlier) 제거: 95%까지의 데이터만 남기고 클러스터링
• 2개 이상의 변수로 군집화 진행
✓시각화로 차이를 보기는 어려우나 결과 클러스터를 비교하여 해석이 가능하면 문제 없음
✓또는 PCA를 비롯한 차원축소 기법을 활용하여 2개 변수(2차원)으로 축소
• 다양한 데이터 분포 파악(유연성)
✓계층적 군집(hierarchical clustering), 병합 군집(agglomerative clustering) 등
• 통계적으로 최적인 클러스터 수를 찾는 기준 제시
✓모델 기반 클러스터링 (model-based clustering)
End of document
유 은
eunyu1031@gmail.com

Weitere ähnliche Inhalte

Ähnlich wie Week13 cluster(2)

News clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingNews clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingJunyoung Park
 
K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링Edward Yoon
 
Campus Network Analysis
Campus Network AnalysisCampus Network Analysis
Campus Network AnalysisEugine Kang
 
Rumor detection on social media
Rumor detection on social mediaRumor detection on social media
Rumor detection on social mediasegwangkim
 
Clustering, k means algorithm
Clustering, k means algorithmClustering, k means algorithm
Clustering, k means algorithmJunyoung Park
 
Cop 2주차발표 복사본
Cop 2주차발표   복사본Cop 2주차발표   복사본
Cop 2주차발표 복사본jungyounjung1
 
(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)MYEONGGYU LEE
 
데이터과학 입문 8장
데이터과학 입문 8장데이터과학 입문 8장
데이터과학 입문 8장Jinpil Chung
 
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
[Pgday.Seoul 2018]  Greenplum의 노드 분산 설계[Pgday.Seoul 2018]  Greenplum의 노드 분산 설계
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계PgDay.Seoul
 
5일차.map reduce 활용
5일차.map reduce 활용5일차.map reduce 활용
5일차.map reduce 활용주영 송
 

Ähnlich wie Week13 cluster(2) (10)

News clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingNews clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word Embedding
 
K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링
 
Campus Network Analysis
Campus Network AnalysisCampus Network Analysis
Campus Network Analysis
 
Rumor detection on social media
Rumor detection on social mediaRumor detection on social media
Rumor detection on social media
 
Clustering, k means algorithm
Clustering, k means algorithmClustering, k means algorithm
Clustering, k means algorithm
 
Cop 2주차발표 복사본
Cop 2주차발표   복사본Cop 2주차발표   복사본
Cop 2주차발표 복사본
 
(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)(Book Summary) Classification and ensemble(book review)
(Book Summary) Classification and ensemble(book review)
 
데이터과학 입문 8장
데이터과학 입문 8장데이터과학 입문 8장
데이터과학 입문 8장
 
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
[Pgday.Seoul 2018]  Greenplum의 노드 분산 설계[Pgday.Seoul 2018]  Greenplum의 노드 분산 설계
[Pgday.Seoul 2018] Greenplum의 노드 분산 설계
 
5일차.map reduce 활용
5일차.map reduce 활용5일차.map reduce 활용
5일차.map reduce 활용
 

Mehr von Eun Yu

Week9 data vis(5)
Week9 data vis(5)Week9 data vis(5)
Week9 data vis(5)Eun Yu
 
Week7 data vis(4)
Week7 data vis(4)Week7 data vis(4)
Week7 data vis(4)Eun Yu
 
Week6 data vis(3)
Week6 data vis(3)Week6 data vis(3)
Week6 data vis(3)Eun Yu
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)Eun Yu
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapupEun Yu
 
Week11 map
Week11 mapWeek11 map
Week11 mapEun Yu
 
Week4 data visualization
Week4 data visualization Week4 data visualization
Week4 data visualization Eun Yu
 
Week2-3 review
Week2-3 reviewWeek2-3 review
Week2-3 reviewEun Yu
 
Week1 ot
Week1 otWeek1 ot
Week1 otEun Yu
 

Mehr von Eun Yu (9)

Week9 data vis(5)
Week9 data vis(5)Week9 data vis(5)
Week9 data vis(5)
 
Week7 data vis(4)
Week7 data vis(4)Week7 data vis(4)
Week7 data vis(4)
 
Week6 data vis(3)
Week6 data vis(3)Week6 data vis(3)
Week6 data vis(3)
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapup
 
Week11 map
Week11 mapWeek11 map
Week11 map
 
Week4 data visualization
Week4 data visualization Week4 data visualization
Week4 data visualization
 
Week2-3 review
Week2-3 reviewWeek2-3 review
Week2-3 review
 
Week1 ot
Week1 otWeek1 ot
Week1 ot
 

Week13 cluster(2)

  • 2. 목차 0 1. K-means clustering 2. K-means clustering: 클러스터의 개수 결정 3. K-means clustering: 장단점 4. Further techniques for clustering
  • 3. K-means clustering 1 피터 브루스, 앤드류 브루스 (2018). 데이터 과학을 위한 통계. 이준용 옮김. 한빛미디어 http://www.mit.edu/~9.54/fall14/slides/Class13.pdf • 데이터를 클러스터(cluster)라는 그룹으로 나누며, 어떤 클러스터로 나뉠지는 정해져 있지 않다. • 한 클러스터 안의 데이터끼리는 비슷하고 다른 클러스터의 데이터끼리는 서로 구분이 되어야 한다. • K-means clustering은 최초로 개발된 클러스터링 기법으로, 알고리즘이 상대 적으로 간단하고 큰 데이터에도 손쉽게 사용할 수 있어 널리 사용된다. ① 클러스터 중심을 무작위로 할당한다. ② 각 데이터 포인트(관측치)를 가장 가까운 클러스터 중심에 할당한다. ③ 각 클러스터의 데이터 포인트와 클러스터 중심의 거리 제곱합 및 벡터 평균을 계산한다. ④ 계산을 바탕으로 클러스터 중심을 갱신한다.
  • 5. K-means clustering: 클러스터의 개수 결정 2 피터 브루스, 앤드류 브루스 (2018). 데이터 과학을 위한 통계. 이준용 옮김. 한빛미디어 http://www.mit.edu/~9.54/fall14/slides/Class13.pdf • 클러스터링은 데이터로부터 유의미한 그룹들을 구하는 것을 목적으로 한다. ✓각 클러스터의 크기는 어떠한가? ✓각 클러스터를 구분할 수 있는 특징은 무엇인가? • 최적의 클러스터 개수를 찾는 표준화된 방법은 없다. ✓통계적인 결과보다 실무적인 문제/필요에 따라 결정하는 경우가 일반적이다. ✓팔꿈치 방법 (elbow method): K-means clustering 에서 주로 사용 ✓실루엣 계수 (silhouette coefficient): 여러 클러스터링 알고리즘에서 사용
  • 6. K-means clustering: 클러스터의 개수 결정 2 팔꿈치 방법 (elbow method) • 클러스터가 데이터의 분산을 얼마나 설명하는가? • 클러스터를 추가할수록 각 클러스터의 데이터 포인트(관측치)와 클러스터 중심의 거리 제곱 합(오차제곱합; sum of squared error)가 점점 감소한다. • 클러스터를 더 추가할수록 감소폭이 줄어들기 때문에 그래프상에서 평평하게 되는 지점이 있으며, 이러한 성질 때문에 팔꿈치로 부른다. • 팔꿈치가 꺾이는 지점을 참고한다.
  • 7. K-means clustering: 장단점 3 안드레아스 뮐러, 세라 가이도 (2019) 파이썬 라이브러리를 활용한 머신러닝, 박해선 옮김, 한빛미디어 장점 • 알고리즘이 간단하고 큰 데이터에도 손쉽게 사용 가능 단점 • 연속형 변수에 가장 최적 • 결과가 초기에 지정한 클러스터 중심의 위치에 따라 달라질 수 있어 반복 필요 • 클러스터의 개수를 지정해야 함 • 클러스터의 모양을 가정하기 때문에(원형) 다양한 분포를 가지는 데이터에 적용 한계
  • 8. Further techniques for clustering 4 피터 브루스, 앤드류 브루스 (2018). 데이터 과학을 위한 통계. 이준용 옮김. 한빛미디어 안드레아스 뮐러, 세라 가이도 (2019) 파이썬 라이브러리를 활용한 머신러닝, 박해선 옮김, 한빛미디어 • 데이터의 단위/범위가 다른 경우 ✓스케일링(scaling): 데이터의 범위를 늘이거나 줄이는 방식으로 여러 변수들이 같은 스케일 에 오도록 하는 것 (예: 모든 데이터를 0에서 1 사이의 분포로 만드는 min-max scaling, 원 래 변수 값에서 평균을 뺀 후 표준편차로 나누는 정규화 normalization) ✓이상치(outlier) 제거: 95%까지의 데이터만 남기고 클러스터링 • 2개 이상의 변수로 군집화 진행 ✓시각화로 차이를 보기는 어려우나 결과 클러스터를 비교하여 해석이 가능하면 문제 없음 ✓또는 PCA를 비롯한 차원축소 기법을 활용하여 2개 변수(2차원)으로 축소 • 다양한 데이터 분포 파악(유연성) ✓계층적 군집(hierarchical clustering), 병합 군집(agglomerative clustering) 등 • 통계적으로 최적인 클러스터 수를 찾는 기준 제시 ✓모델 기반 클러스터링 (model-based clustering)
  • 9. End of document 유 은 eunyu1031@gmail.com