SlideShare ist ein Scribd-Unternehmen logo
1 von 9
Ubiquitous Computing Technology Research Institute
SungKyunKwan University
K-means Clustering 알고리즘을 활용한 가정 전기
사용량 분석
2017. 02. 13
성균관대학교 정보통신대학
최현웅*, 이병준*, 김경태*, 윤희용**
({pooh0216, byungjun}@skku.edu, kyungtaekim76@gmail.com , youn7147@skku.edu)
Ubiquitous Computing Technology Research Institute
SungKyunKwan University
서 론
머신러닝 (Machine Learning)
머신러닝의 응용분야 (이메일 스팸여부, 데이터 분류, 연관 규칙 파악,
문자인식 )
컴퓨터각 스스로 패턴을 찾아내고 새로운 분류체계를 만들어가며
의미있는 결과물을 내놓는 일련의 과정
핵심은 표현(Representation) 과 일반화(Generalization)
본 논문에서는 K-means 알고리즘을 활용하여 Calinski-Harabasz
Index와 Silhouette_score 기반으로 최적의 클러스터 개수를 측정한
후, 이를 바탕으로 가정에서의 전기 사용량 분석에 적용해 본다.
1
Ubiquitous Computing Technology Research Institute
SungKyunKwan University
관련연구
• 클러스터링
주어진 데이터들의 특성을 고려해 데이터 집단(Cluster)을 정
의하고 데이터 집단을 대표할 수 있는 대표점을 찾는 것으로 데
이터 마이닝의 한 방법. 클러스터란 비슷한 특성을 가진 데이터
들의 집단으로, 데이터의 특성이 다르면 다른 클러스터에 속해야
한다
• Scikit-learn
Python 모듈로서 광범위한 머신러닝 알고리즘에 대해서 중간
범위의 Supervised, Unsupervised 문제를 해결하는데 사용
되는 모듈이다.
2
Ubiquitous Computing Technology Research Institute
SungKyunKwan University
본 론
K-means Clustering 알고리즘
3
[수식1] K-means algorithm의 정의 [그림1] K=8일 때 Clustering 한 결과
Ubiquitous Computing Technology Research Institute
SungKyunKwan University
본 론
K-means Clustering 알고리즘 (1) - Calinski-Harabasz Index
4
- Clustering이 얼마나 잘 되었는가 측정하는 방법으로 여러
측정 방법이 있는데, 그 중 내부 평가 방법으로 Calinski-
Harabasz Index, Davies-Bouldin index, Dunn index,
실루엣 기법등 이 있다.
- 클러스터의 Calinski-Harabasz Index에서 는 클러스터
분산 평균값과 클러스터 분산의 비율로서 주어진다
- 𝑠 𝑘 =
𝑇𝑟 𝐵 𝑘
𝑇𝑟 𝑊 𝑘
×
𝑁−𝑘
k−1
- 여기서 𝐵 𝑘는 그룹간의 분산 행렬이고 𝑊𝑘는 클러스터 분산 행
렬에 의해 정의된다.
Ubiquitous Computing Technology Research Institute
SungKyunKwan University
본 론
K-means Clustering 알고리즘 (2) - Silhouette_score,
5
[수식2] 실루엣 스코어 [그림2] 클러스터수의 변화에 따른 실루엣
스코어
Ubiquitous Computing Technology Research Institute
SungKyunKwan University
본 론
K-means Clustering 알고리즘 (2) - Silhouette_score,
6
[그림3] K=7 일 때 Clustering 한 결과[그림1] K=8일 때 Clustering한 결과
• K 가 7일때 Silhouette_score 는 0.799 로 최적의 값을 나타냄.
• Calinski-Harabaz Index도 결과 560.3999로 최적의 값을 나타냄.
Ubiquitous Computing Technology Research Institute
SungKyunKwan University
7
결 론
• Scikit-learn, Anaconda2 오픈 소스를 가지고 일반인도 쉽게 따라 할수
있으며, BSD 라이센스를 사용하기 때문에 실제 업무에 이용하기에 어려움이
없음을 확인.
• K-means알고리즘 뿐만 아니라 PCA 알고리즘, SVM 알고리즘 등 다른 머
신러닝 알고리즘을 이용한 클러스터링 분석도 가능함.
• 가정 전력의 요금 부과에 대한 다각도적인 분석과 함께 변압기, 송전탑 등의
사용량에 따른 관리 주기 등을 확인.
• 구간별 데이터를 이용하여 전력 사용량에 따른 누진세 부과와 지역, 구간 별
수요 예측, 발전소 및 시설의 유지 보수에 이용가능.
Ubiquitous Computing Technology Research Institute
SungKyunKwan University
ANACONDA2, Scikit-learn
8
참고 문헌
[1] https://ko.wikipedia.org/wiki/%EA%B8%B0%EA%B3%84_%ED%95%99%EC%8A%B5
[2] http://it.chosun.com/news/article.html?no=2794932
[3] https://ko.wikipedia.org/wiki/K-
%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98
[4]
https://ko.wikipedia.org/wiki/%ED%81%B4%EB%9F%AC%EC%8A%A4%ED%84%B0_%EB%B6%84%EC%84%9D
[5] https://ko.wikipedia.org/wiki/K-
%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98
[6] https://en.wikipedia.org/wiki/Silhouette_(clustering)
[7] https://github.com/sarguido
[8] http://archive.ics.uci.edu/ml/datasets.html
[9] http://scikit-learn.org/stable/modules/clustering.html#calinski-harabaz-index
[10] http://scikit-learn.org/stable/
[10]http://scikit-learn.org/stable/
[11] Kanungo, Tapas et al. “An Efficient k-Means Clustering Algorithm: Analysis and Implementation.” IEEE Trans. Pattern Anal. Mach. Intell. 24
(2002):881-892.
[12]David,andSergeiVassilvitskii,“k-means++:Theadvantagesof carefulseeding”ProceedingsoftheeighteenthannualACM-SIAMsymposium
onDiscretealgorithms,SocietyforIndustrialandAppliedMathematics(2007):1027-1035

Weitere ähnliche Inhalte

Ähnlich wie 001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0

K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링Edward Yoon
 
Paper Reading : Learning to compose neural networks for question answering
Paper Reading : Learning to compose neural networks for question answeringPaper Reading : Learning to compose neural networks for question answering
Paper Reading : Learning to compose neural networks for question answeringSean Park
 
Introduction toDQN
Introduction toDQNIntroduction toDQN
Introduction toDQNCurt Park
 
머신러닝의 개념과 실습
머신러닝의 개념과 실습머신러닝의 개념과 실습
머신러닝의 개념과 실습Byoung-Hee Kim
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLDKim Junghoon
 
순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요Byoung-Hee Kim
 
[20150829, PyCon2015] NetworkX를 이용한 네트워크 링크 예측
[20150829, PyCon2015] NetworkX를 이용한 네트워크 링크 예측[20150829, PyCon2015] NetworkX를 이용한 네트워크 링크 예측
[20150829, PyCon2015] NetworkX를 이용한 네트워크 링크 예측Kyunghoon Kim
 

Ähnlich wie 001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0 (7)

K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링
 
Paper Reading : Learning to compose neural networks for question answering
Paper Reading : Learning to compose neural networks for question answeringPaper Reading : Learning to compose neural networks for question answering
Paper Reading : Learning to compose neural networks for question answering
 
Introduction toDQN
Introduction toDQNIntroduction toDQN
Introduction toDQN
 
머신러닝의 개념과 실습
머신러닝의 개념과 실습머신러닝의 개념과 실습
머신러닝의 개념과 실습
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD
 
순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요
 
[20150829, PyCon2015] NetworkX를 이용한 네트워크 링크 예측
[20150829, PyCon2015] NetworkX를 이용한 네트워크 링크 예측[20150829, PyCon2015] NetworkX를 이용한 네트워크 링크 예측
[20150829, PyCon2015] NetworkX를 이용한 네트워크 링크 예측
 

Mehr von Hyun Wong Choi

Chapter8 touch 6 10 group11
Chapter8 touch 6 10 group11Chapter8 touch 6 10 group11
Chapter8 touch 6 10 group11Hyun Wong Choi
 
Chapter6 power management ic group11
Chapter6 power management ic group11Chapter6 power management ic group11
Chapter6 power management ic group11Hyun Wong Choi
 
Chapter5 embedded storage
Chapter5 embedded storage Chapter5 embedded storage
Chapter5 embedded storage Hyun Wong Choi
 
Chapter5 embedded storage
Chapter5 embedded storage Chapter5 embedded storage
Chapter5 embedded storage Hyun Wong Choi
 
Chapter4 wireless connectivity group11
Chapter4 wireless connectivity group11Chapter4 wireless connectivity group11
Chapter4 wireless connectivity group11Hyun Wong Choi
 
Hyun wong thesis 2019 06_22_rev40_final_grammerly
Hyun wong thesis 2019 06_22_rev40_final_grammerlyHyun wong thesis 2019 06_22_rev40_final_grammerly
Hyun wong thesis 2019 06_22_rev40_final_grammerlyHyun Wong Choi
 
Hyun wong thesis 2019 06_22_rev40_final_Submitted_online
Hyun wong thesis 2019 06_22_rev40_final_Submitted_onlineHyun wong thesis 2019 06_22_rev40_final_Submitted_online
Hyun wong thesis 2019 06_22_rev40_final_Submitted_onlineHyun Wong Choi
 
Hyun wong thesis 2019 06_22_rev40_final_printed
Hyun wong thesis 2019 06_22_rev40_final_printedHyun wong thesis 2019 06_22_rev40_final_printed
Hyun wong thesis 2019 06_22_rev40_final_printedHyun Wong Choi
 
Hyun wong thesis 2019 06_22_rev40_final
Hyun wong thesis 2019 06_22_rev40_finalHyun wong thesis 2019 06_22_rev40_final
Hyun wong thesis 2019 06_22_rev40_finalHyun Wong Choi
 
Hyun wong thesis 2019 06_22_rev39_final
Hyun wong thesis 2019 06_22_rev39_finalHyun wong thesis 2019 06_22_rev39_final
Hyun wong thesis 2019 06_22_rev39_finalHyun Wong Choi
 
Hyun wong thesis 2019 06_22_rev41_final
Hyun wong thesis 2019 06_22_rev41_finalHyun wong thesis 2019 06_22_rev41_final
Hyun wong thesis 2019 06_22_rev41_finalHyun Wong Choi
 
Hyun wong thesis 2019 06_22_rev40_final
Hyun wong thesis 2019 06_22_rev40_finalHyun wong thesis 2019 06_22_rev40_final
Hyun wong thesis 2019 06_22_rev40_finalHyun Wong Choi
 
Hyun wong thesis 2019 06_22_rev39_final
Hyun wong thesis 2019 06_22_rev39_finalHyun wong thesis 2019 06_22_rev39_final
Hyun wong thesis 2019 06_22_rev39_finalHyun Wong Choi
 

Mehr von Hyun Wong Choi (20)

Airport security ver1
Airport security ver1Airport security ver1
Airport security ver1
 
Final
FinalFinal
Final
 
Chapter8 touch 6 10 group11
Chapter8 touch 6 10 group11Chapter8 touch 6 10 group11
Chapter8 touch 6 10 group11
 
Chapter6 power management ic group11
Chapter6 power management ic group11Chapter6 power management ic group11
Chapter6 power management ic group11
 
Chapter5 embedded storage
Chapter5 embedded storage Chapter5 embedded storage
Chapter5 embedded storage
 
Chapter5 embedded storage
Chapter5 embedded storage Chapter5 embedded storage
Chapter5 embedded storage
 
Chapter4 wireless connectivity group11
Chapter4 wireless connectivity group11Chapter4 wireless connectivity group11
Chapter4 wireless connectivity group11
 
Chapter2 ap group11
Chapter2 ap group11Chapter2 ap group11
Chapter2 ap group11
 
Chapter1
Chapter1Chapter1
Chapter1
 
003
003003
003
 
002
002002
002
 
001
001001
001
 
Hyun wong thesis 2019 06_22_rev40_final_grammerly
Hyun wong thesis 2019 06_22_rev40_final_grammerlyHyun wong thesis 2019 06_22_rev40_final_grammerly
Hyun wong thesis 2019 06_22_rev40_final_grammerly
 
Hyun wong thesis 2019 06_22_rev40_final_Submitted_online
Hyun wong thesis 2019 06_22_rev40_final_Submitted_onlineHyun wong thesis 2019 06_22_rev40_final_Submitted_online
Hyun wong thesis 2019 06_22_rev40_final_Submitted_online
 
Hyun wong thesis 2019 06_22_rev40_final_printed
Hyun wong thesis 2019 06_22_rev40_final_printedHyun wong thesis 2019 06_22_rev40_final_printed
Hyun wong thesis 2019 06_22_rev40_final_printed
 
Hyun wong thesis 2019 06_22_rev40_final
Hyun wong thesis 2019 06_22_rev40_finalHyun wong thesis 2019 06_22_rev40_final
Hyun wong thesis 2019 06_22_rev40_final
 
Hyun wong thesis 2019 06_22_rev39_final
Hyun wong thesis 2019 06_22_rev39_finalHyun wong thesis 2019 06_22_rev39_final
Hyun wong thesis 2019 06_22_rev39_final
 
Hyun wong thesis 2019 06_22_rev41_final
Hyun wong thesis 2019 06_22_rev41_finalHyun wong thesis 2019 06_22_rev41_final
Hyun wong thesis 2019 06_22_rev41_final
 
Hyun wong thesis 2019 06_22_rev40_final
Hyun wong thesis 2019 06_22_rev40_finalHyun wong thesis 2019 06_22_rev40_final
Hyun wong thesis 2019 06_22_rev40_final
 
Hyun wong thesis 2019 06_22_rev39_final
Hyun wong thesis 2019 06_22_rev39_finalHyun wong thesis 2019 06_22_rev39_final
Hyun wong thesis 2019 06_22_rev39_final
 

001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0

  • 1. Ubiquitous Computing Technology Research Institute SungKyunKwan University K-means Clustering 알고리즘을 활용한 가정 전기 사용량 분석 2017. 02. 13 성균관대학교 정보통신대학 최현웅*, 이병준*, 김경태*, 윤희용** ({pooh0216, byungjun}@skku.edu, kyungtaekim76@gmail.com , youn7147@skku.edu)
  • 2. Ubiquitous Computing Technology Research Institute SungKyunKwan University 서 론 머신러닝 (Machine Learning) 머신러닝의 응용분야 (이메일 스팸여부, 데이터 분류, 연관 규칙 파악, 문자인식 ) 컴퓨터각 스스로 패턴을 찾아내고 새로운 분류체계를 만들어가며 의미있는 결과물을 내놓는 일련의 과정 핵심은 표현(Representation) 과 일반화(Generalization) 본 논문에서는 K-means 알고리즘을 활용하여 Calinski-Harabasz Index와 Silhouette_score 기반으로 최적의 클러스터 개수를 측정한 후, 이를 바탕으로 가정에서의 전기 사용량 분석에 적용해 본다. 1
  • 3. Ubiquitous Computing Technology Research Institute SungKyunKwan University 관련연구 • 클러스터링 주어진 데이터들의 특성을 고려해 데이터 집단(Cluster)을 정 의하고 데이터 집단을 대표할 수 있는 대표점을 찾는 것으로 데 이터 마이닝의 한 방법. 클러스터란 비슷한 특성을 가진 데이터 들의 집단으로, 데이터의 특성이 다르면 다른 클러스터에 속해야 한다 • Scikit-learn Python 모듈로서 광범위한 머신러닝 알고리즘에 대해서 중간 범위의 Supervised, Unsupervised 문제를 해결하는데 사용 되는 모듈이다. 2
  • 4. Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 3 [수식1] K-means algorithm의 정의 [그림1] K=8일 때 Clustering 한 결과
  • 5. Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 (1) - Calinski-Harabasz Index 4 - Clustering이 얼마나 잘 되었는가 측정하는 방법으로 여러 측정 방법이 있는데, 그 중 내부 평가 방법으로 Calinski- Harabasz Index, Davies-Bouldin index, Dunn index, 실루엣 기법등 이 있다. - 클러스터의 Calinski-Harabasz Index에서 는 클러스터 분산 평균값과 클러스터 분산의 비율로서 주어진다 - 𝑠 𝑘 = 𝑇𝑟 𝐵 𝑘 𝑇𝑟 𝑊 𝑘 × 𝑁−𝑘 k−1 - 여기서 𝐵 𝑘는 그룹간의 분산 행렬이고 𝑊𝑘는 클러스터 분산 행 렬에 의해 정의된다.
  • 6. Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 (2) - Silhouette_score, 5 [수식2] 실루엣 스코어 [그림2] 클러스터수의 변화에 따른 실루엣 스코어
  • 7. Ubiquitous Computing Technology Research Institute SungKyunKwan University 본 론 K-means Clustering 알고리즘 (2) - Silhouette_score, 6 [그림3] K=7 일 때 Clustering 한 결과[그림1] K=8일 때 Clustering한 결과 • K 가 7일때 Silhouette_score 는 0.799 로 최적의 값을 나타냄. • Calinski-Harabaz Index도 결과 560.3999로 최적의 값을 나타냄.
  • 8. Ubiquitous Computing Technology Research Institute SungKyunKwan University 7 결 론 • Scikit-learn, Anaconda2 오픈 소스를 가지고 일반인도 쉽게 따라 할수 있으며, BSD 라이센스를 사용하기 때문에 실제 업무에 이용하기에 어려움이 없음을 확인. • K-means알고리즘 뿐만 아니라 PCA 알고리즘, SVM 알고리즘 등 다른 머 신러닝 알고리즘을 이용한 클러스터링 분석도 가능함. • 가정 전력의 요금 부과에 대한 다각도적인 분석과 함께 변압기, 송전탑 등의 사용량에 따른 관리 주기 등을 확인. • 구간별 데이터를 이용하여 전력 사용량에 따른 누진세 부과와 지역, 구간 별 수요 예측, 발전소 및 시설의 유지 보수에 이용가능.
  • 9. Ubiquitous Computing Technology Research Institute SungKyunKwan University ANACONDA2, Scikit-learn 8 참고 문헌 [1] https://ko.wikipedia.org/wiki/%EA%B8%B0%EA%B3%84_%ED%95%99%EC%8A%B5 [2] http://it.chosun.com/news/article.html?no=2794932 [3] https://ko.wikipedia.org/wiki/K- %ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 [4] https://ko.wikipedia.org/wiki/%ED%81%B4%EB%9F%AC%EC%8A%A4%ED%84%B0_%EB%B6%84%EC%84%9D [5] https://ko.wikipedia.org/wiki/K- %ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 [6] https://en.wikipedia.org/wiki/Silhouette_(clustering) [7] https://github.com/sarguido [8] http://archive.ics.uci.edu/ml/datasets.html [9] http://scikit-learn.org/stable/modules/clustering.html#calinski-harabaz-index [10] http://scikit-learn.org/stable/ [10]http://scikit-learn.org/stable/ [11] Kanungo, Tapas et al. “An Efficient k-Means Clustering Algorithm: Analysis and Implementation.” IEEE Trans. Pattern Anal. Mach. Intell. 24 (2002):881-892. [12]David,andSergeiVassilvitskii,“k-means++:Theadvantagesof carefulseeding”ProceedingsoftheeighteenthannualACM-SIAMsymposium onDiscretealgorithms,SocietyforIndustrialandAppliedMathematics(2007):1027-1035

Hinweis der Redaktion

  1. 클러스터링 주어진 데이터들의 특성을 고려해 데이터 집단(Cluster)을 정의하고 데이터 집단을 대표할 수 있는 대표점을 찾는 것으로 데이터 마이닝의 한 방법. 클러스터란 비슷한 특성을 가진 데이터들의 집단으로, 데이터의 특성이 다르면 다른 클러스터에 속해야 한다 Scikit-learn Python 모듈로서 광범위한 머신러닝 알고리즘에 대해서 중간 범위의 Supervised, Unsupervised 문제를 해결하는데 사용되는 모듈이다.
  2. 실루엣 기법은 간단한 방법으로 하나의 데이터 에 대해, 해당 데이터가 속한 클러스터 내부의 데이터들과의 부동성을 라 하고, 해당 데이터가 속하지 않은 클러스터들의 내부의 데이터들과의 부동성을 라 할 때, 실루엣 가 다음과 같이 계산된다. 이때 계산된 는 다음의 값을 가진다. 가 1에 가까울수록 데이터 는 올바른 클러스터에 분류된 것이며, -1에 가까울수록 잘못된 클러스터에 분류되었음을 나타낸다