2. 목차
0
1. K-means clustering
2. K-means clustering: 클러스터의 개수 결정
3. K-means clustering: 장단점
4. Further techniques for clustering
3. K-means clustering
1
피터 브루스, 앤드류 브루스 (2018). 데이터 과학을 위한 통계. 이준용 옮김. 한빛미디어
http://www.mit.edu/~9.54/fall14/slides/Class13.pdf
• 데이터를 클러스터(cluster)라는 그룹으로 나누며, 어떤 클러스터로 나뉠지는
정해져 있지 않다.
• 한 클러스터 안의 데이터끼리는 비슷하고 다른 클러스터의 데이터끼리는 서로
구분이 되어야 한다.
• K-means clustering은 최초로 개발된 클러스터링 기법으로, 알고리즘이 상대
적으로 간단하고 큰 데이터에도 손쉽게 사용할 수 있어 널리 사용된다.
① 클러스터 중심을 무작위로 할당한다.
② 각 데이터 포인트(관측치)를 가장 가까운 클러스터 중심에 할당한다.
③ 각 클러스터의 데이터 포인트와 클러스터 중심의 거리 제곱합 및 벡터 평균을 계산한다.
④ 계산을 바탕으로 클러스터 중심을 갱신한다.
5. K-means clustering: 클러스터의 개수 결정
2
피터 브루스, 앤드류 브루스 (2018). 데이터 과학을 위한 통계. 이준용 옮김. 한빛미디어
http://www.mit.edu/~9.54/fall14/slides/Class13.pdf
• 클러스터링은 데이터로부터 유의미한 그룹들을 구하는 것을 목적으로 한다.
✓각 클러스터의 크기는 어떠한가?
✓각 클러스터를 구분할 수 있는 특징은 무엇인가?
• 최적의 클러스터 개수를 찾는 표준화된 방법은 없다.
✓통계적인 결과보다 실무적인 문제/필요에 따라 결정하는 경우가 일반적이다.
✓팔꿈치 방법 (elbow method): K-means clustering 에서 주로 사용
✓실루엣 계수 (silhouette coefficient): 여러 클러스터링 알고리즘에서 사용
6. K-means clustering: 클러스터의 개수 결정
2
팔꿈치 방법 (elbow method)
• 클러스터가 데이터의 분산을 얼마나 설명하는가?
• 클러스터를 추가할수록 각 클러스터의 데이터 포인트(관측치)와 클러스터 중심의 거리 제곱
합(오차제곱합; sum of squared error)가 점점 감소한다.
• 클러스터를 더 추가할수록 감소폭이 줄어들기 때문에 그래프상에서 평평하게 되는 지점이
있으며, 이러한 성질 때문에 팔꿈치로 부른다.
• 팔꿈치가 꺾이는 지점을 참고한다.
7. K-means clustering: 장단점
3
안드레아스 뮐러, 세라 가이도 (2019) 파이썬 라이브러리를 활용한 머신러닝, 박해선 옮김, 한빛미디어
장점
• 알고리즘이 간단하고 큰 데이터에도 손쉽게 사용 가능
단점
• 연속형 변수에 가장 최적
• 결과가 초기에 지정한 클러스터 중심의 위치에 따라 달라질 수 있어 반복 필요
• 클러스터의 개수를 지정해야 함
• 클러스터의 모양을 가정하기 때문에(원형) 다양한 분포를 가지는 데이터에 적용 한계
8. Further techniques for clustering
4
피터 브루스, 앤드류 브루스 (2018). 데이터 과학을 위한 통계. 이준용 옮김. 한빛미디어
안드레아스 뮐러, 세라 가이도 (2019) 파이썬 라이브러리를 활용한 머신러닝, 박해선 옮김, 한빛미디어
• 데이터의 단위/범위가 다른 경우
✓스케일링(scaling): 데이터의 범위를 늘이거나 줄이는 방식으로 여러 변수들이 같은 스케일
에 오도록 하는 것 (예: 모든 데이터를 0에서 1 사이의 분포로 만드는 min-max scaling, 원
래 변수 값에서 평균을 뺀 후 표준편차로 나누는 정규화 normalization)
✓이상치(outlier) 제거: 95%까지의 데이터만 남기고 클러스터링
• 2개 이상의 변수로 군집화 진행
✓시각화로 차이를 보기는 어려우나 결과 클러스터를 비교하여 해석이 가능하면 문제 없음
✓또는 PCA를 비롯한 차원축소 기법을 활용하여 2개 변수(2차원)으로 축소
• 다양한 데이터 분포 파악(유연성)
✓계층적 군집(hierarchical clustering), 병합 군집(agglomerative clustering) 등
• 통계적으로 최적인 클러스터 수를 찾는 기준 제시
✓모델 기반 클러스터링 (model-based clustering)