001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0
1. Ubiquitous Computing Technology Research Institute
SungKyunKwan University
K-means Clustering 알고리즘을 활용한 가정 전기
사용량 분석
2017. 02. 13
성균관대학교 정보통신대학
최현웅*, 이병준*, 김경태*, 윤희용**
({pooh0216, byungjun}@skku.edu, kyungtaekim76@gmail.com , youn7147@skku.edu)
2. Ubiquitous Computing Technology Research Institute
SungKyunKwan University
서 론
머신러닝 (Machine Learning)
머신러닝의 응용분야 (이메일 스팸여부, 데이터 분류, 연관 규칙 파악,
문자인식 )
컴퓨터각 스스로 패턴을 찾아내고 새로운 분류체계를 만들어가며
의미있는 결과물을 내놓는 일련의 과정
핵심은 표현(Representation) 과 일반화(Generalization)
본 논문에서는 K-means 알고리즘을 활용하여 Calinski-Harabasz
Index와 Silhouette_score 기반으로 최적의 클러스터 개수를 측정한
후, 이를 바탕으로 가정에서의 전기 사용량 분석에 적용해 본다.
1
3. Ubiquitous Computing Technology Research Institute
SungKyunKwan University
관련연구
• 클러스터링
주어진 데이터들의 특성을 고려해 데이터 집단(Cluster)을 정
의하고 데이터 집단을 대표할 수 있는 대표점을 찾는 것으로 데
이터 마이닝의 한 방법. 클러스터란 비슷한 특성을 가진 데이터
들의 집단으로, 데이터의 특성이 다르면 다른 클러스터에 속해야
한다
• Scikit-learn
Python 모듈로서 광범위한 머신러닝 알고리즘에 대해서 중간
범위의 Supervised, Unsupervised 문제를 해결하는데 사용
되는 모듈이다.
2
4. Ubiquitous Computing Technology Research Institute
SungKyunKwan University
본 론
K-means Clustering 알고리즘
3
[수식1] K-means algorithm의 정의 [그림1] K=8일 때 Clustering 한 결과
5. Ubiquitous Computing Technology Research Institute
SungKyunKwan University
본 론
K-means Clustering 알고리즘 (1) - Calinski-Harabasz Index
4
- Clustering이 얼마나 잘 되었는가 측정하는 방법으로 여러
측정 방법이 있는데, 그 중 내부 평가 방법으로 Calinski-
Harabasz Index, Davies-Bouldin index, Dunn index,
실루엣 기법등 이 있다.
- 클러스터의 Calinski-Harabasz Index에서 는 클러스터
분산 평균값과 클러스터 분산의 비율로서 주어진다
- 𝑠 𝑘 =
𝑇𝑟 𝐵 𝑘
𝑇𝑟 𝑊 𝑘
×
𝑁−𝑘
k−1
- 여기서 𝐵 𝑘는 그룹간의 분산 행렬이고 𝑊𝑘는 클러스터 분산 행
렬에 의해 정의된다.
6. Ubiquitous Computing Technology Research Institute
SungKyunKwan University
본 론
K-means Clustering 알고리즘 (2) - Silhouette_score,
5
[수식2] 실루엣 스코어 [그림2] 클러스터수의 변화에 따른 실루엣
스코어
7. Ubiquitous Computing Technology Research Institute
SungKyunKwan University
본 론
K-means Clustering 알고리즘 (2) - Silhouette_score,
6
[그림3] K=7 일 때 Clustering 한 결과[그림1] K=8일 때 Clustering한 결과
• K 가 7일때 Silhouette_score 는 0.799 로 최적의 값을 나타냄.
• Calinski-Harabaz Index도 결과 560.3999로 최적의 값을 나타냄.
8. Ubiquitous Computing Technology Research Institute
SungKyunKwan University
7
결 론
• Scikit-learn, Anaconda2 오픈 소스를 가지고 일반인도 쉽게 따라 할수
있으며, BSD 라이센스를 사용하기 때문에 실제 업무에 이용하기에 어려움이
없음을 확인.
• K-means알고리즘 뿐만 아니라 PCA 알고리즘, SVM 알고리즘 등 다른 머
신러닝 알고리즘을 이용한 클러스터링 분석도 가능함.
• 가정 전력의 요금 부과에 대한 다각도적인 분석과 함께 변압기, 송전탑 등의
사용량에 따른 관리 주기 등을 확인.
• 구간별 데이터를 이용하여 전력 사용량에 따른 누진세 부과와 지역, 구간 별
수요 예측, 발전소 및 시설의 유지 보수에 이용가능.
9. Ubiquitous Computing Technology Research Institute
SungKyunKwan University
ANACONDA2, Scikit-learn
8
참고 문헌
[1] https://ko.wikipedia.org/wiki/%EA%B8%B0%EA%B3%84_%ED%95%99%EC%8A%B5
[2] http://it.chosun.com/news/article.html?no=2794932
[3] https://ko.wikipedia.org/wiki/K-
%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98
[4]
https://ko.wikipedia.org/wiki/%ED%81%B4%EB%9F%AC%EC%8A%A4%ED%84%B0_%EB%B6%84%EC%84%9D
[5] https://ko.wikipedia.org/wiki/K-
%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98
[6] https://en.wikipedia.org/wiki/Silhouette_(clustering)
[7] https://github.com/sarguido
[8] http://archive.ics.uci.edu/ml/datasets.html
[9] http://scikit-learn.org/stable/modules/clustering.html#calinski-harabaz-index
[10] http://scikit-learn.org/stable/
[10]http://scikit-learn.org/stable/
[11] Kanungo, Tapas et al. “An Efficient k-Means Clustering Algorithm: Analysis and Implementation.” IEEE Trans. Pattern Anal. Mach. Intell. 24
(2002):881-892.
[12]David,andSergeiVassilvitskii,“k-means++:Theadvantagesof carefulseeding”ProceedingsoftheeighteenthannualACM-SIAMsymposium
onDiscretealgorithms,SocietyforIndustrialandAppliedMathematics(2007):1027-1035
Hinweis der Redaktion
클러스터링
주어진 데이터들의 특성을 고려해 데이터 집단(Cluster)을 정의하고 데이터 집단을 대표할 수 있는 대표점을 찾는 것으로 데이터 마이닝의 한 방법. 클러스터란 비슷한 특성을 가진 데이터들의 집단으로, 데이터의 특성이 다르면 다른 클러스터에 속해야 한다
Scikit-learn
Python 모듈로서 광범위한 머신러닝 알고리즘에 대해서 중간 범위의 Supervised, Unsupervised 문제를 해결하는데 사용되는 모듈이다.
실루엣 기법은 간단한 방법으로 하나의 데이터 에 대해, 해당 데이터가 속한 클러스터 내부의 데이터들과의 부동성을 라 하고, 해당 데이터가 속하지 않은 클러스터들의 내부의 데이터들과의 부동성을 라 할 때, 실루엣 가 다음과 같이 계산된다.
이때 계산된 는 다음의 값을 가진다.
가 1에 가까울수록 데이터 는 올바른 클러스터에 분류된 것이며, -1에 가까울수록 잘못된 클러스터에 분류되었음을 나타낸다