SlideShare ist ein Scribd-Unternehmen logo
1 von 25
빅데이터 분석을 위한
통계 이해와 해석
2013. 11. 14
㈜ 세이프티아 선임연구원
공학박사 김은주
목차
 통계학이란
 생각보다 중요한 자료형
 기술 통계량과 해석
 참고문헌
통계학이란
빅데이터 분석을 위한 통계 이해와 해석
통계학(Statistics)
 기술통계학
 관측을 통하여 얻은 데이터에서 그 데이터의 특성을 뽑아내기
위한 기술
 도수분포표, 히스토그램, 평균, 표준편차 등

 추리통계학
 ‘전체를 파악할 수 없을 정도로 큰 대상’이나 ‘아직 일어나지 않
은, 미래에 일어날일’에 관해 추측하는 것
 선거 결과 예측 시스템 등

출처: 세상에서 가장 쉬운 통계학 입문
우리 주변에 통계 활용 예(1/2)
 한국의 주요지표(통계청, 2013년 11월 11일 기준)
기준

값

비고

추계인구

2013

50,219,669명

월평균소득

2013 2/4

4,040,630원

기준: 가구

실업률

2013.09

2.7%

경제활동인구대상
(만 15세이상 )

1인당 국민 총소득

2012

2,559만원

기대수명

2011

81.2년

고용률

2013.09

60.4%

만 15세이상 인구 중 취업자
가 차지하는 비율
우리 주변에 통계 활용 예(2/2)
 프로야구 심판 오심 삼진아웃제, 찬성 62.4%(리얼미터,
2014.06.18)
 최근 프로야구 심판들의 오심이 문제가 되고 있는 가운데 오심이 잦
은 심판들에게 삼진아웃제를 도입해야 한다는 의견에 대해 찬성한
다는 의견이 더 높은 것으로 나타났다. 여론조사 전문기관 리얼미터
(대표: 이택수)가 심판 오심에 대한 삼진아웃제에 대한 긴급 여론조
사를 실시한 결과, ‘찬성한다’는 의견이 62.4%, ‘반대한다’는 의견이
11.6%로, 찬성 의견이 압도적으로 높게 나타났다.
 조사 개요
 조사기간: 2013년 6월 17일(월)
 조사대상: 전국 19세 이상 성인남녀 500명
 조사방법: 유무선 RDD 자동응답방식
 표본오차: 95% 신뢰수준 ±4.4%p
자료형
빅데이터 분석을 위한 통계 이해와 해석
생각보다 중요한 자료형

비율척도
등간척도

양적 척도

서열척도

질적 척도
명목척도
비계량적 변수 질적변수
(Non-metric) (qualitative)
계량적 변수
(metric)

양적변수
(qualitative)

출처: http://socialplanner.tistory.com/123 (이영훈의 연구방법론 p189 재인용)
생각보다 중요한 자료형
 척도의 종류
설명

예제

명목척도
(nominal scale)

•
•

둘 이상의 범주로 구분되는 변수를 측정하는 척도
서열이 없음

직업, 종교

서열척도
(ordinal scale)

•
•
•

정도에 따라 범주화하여 순서대로 배열 한 것
상대적인 서열이므로 크기의 정도를 알 수 없음
2등은 1등의 2배 의미가 없음

계층, IQ 등

등간척도
(interval scale)

•
•
•

범주간의 간격이 일정함
연속적 척도
200원은 100원에 비하여 2배의 의미가 있음

온도,

비율척도
(ratio scale)

•
•

연속적 척도
0의 의미가 있음

인구수, 소득,
무게, 연령
생각보다 중요한 자료형
 자료의 종류

분류
질적 자료
(qualitative data)

양적 자료
(quanitive data)

설명

예제

전화번호
수치로 측정이 불가능한 자료
성별,
범주형 자료(Categorical data)
순위 등급
라고도 함
종교구분
수치로 측정이 가능한 자료

출처: 위키백과, 자료(http://ko.wikipedia.org/wiki/%EC%9E%90%EB%A3%8C)

온도, 가격,
매출액
생각보다 중요한 자료형
양적자료
자료
질적자료

이산형
연속형
이분형
다분형

분류

질적자료

예제

이산형
(discrete data)

셀 수 있는 숫자

사람수, 나이

연속형
(continuous data)

양적자료

설명

특정 단위를 이용하여
측정하는 숫자

무게, 온도

이분형
(Dichotomous data)

범주가 두 개인 자료

성별, Yes/No

다분형
(nondichotomous data)

범주가 셋 이상인 자료

종교, 지역
생각보다 중요한 자료형
 측도 별 분석 방법
통계분석방법

기계학습 분석 시 고려할 것

명목척도
(nominal scale)

최빈값, 빈도

-

서열척도
(ordinal scale)

중앙값,
사분위값, Spearman
상관계수 등

-

등간척도
(interval scale)

평균,
표준편차, Pearson
상관계수 등

-

비율척도
(ratio scale)

평균,
표준편차 등

-

-

회귀분석사용 및 거리를 구하는 알고리즘
(예: K-means, k-NN 등 ) 사용할 수 없음
일부의 경우 코드화 하여 사용하지만, 올바
른 방법이 아님
연관규칙, 의사결정트리, 신경망 등과 빈도
수를 이용하는 군집화 기법은 이용가능
연관규칙 기법 등을 이용하기 위하여 범주
화 등을 선행하여야 함
회귀분석, 신경망, K-means 등은 사용가
능
기술 통계량과 해석
빅데이터 분석을 위한 통계 이해와 해석
통계량
 데이터로 나열되어 있는 많은 숫자를 어떤 기준으로
정리 정돈해서 의미 있는 정보만 추출 하는 것
 그래프로 만들어서 그 특징을 파악할 수 있도록 함
 숫자 하나로 특징을 대표하도록 함

 예제
2710

2755

2850

2880

2880

2890

2920

2940

2950

3050

3130

3325
기술 통계량과 해석
 위치의 척도
기술통계량

설명

예제

중앙값
(median)

최빈값 (mode)

•
•
•

자료의 중심 위치를 측정함
데이터 합계를 데이터 총 개수로 나눈 값
데이터들은 평균값 주변에 분포되어 있음

•

2940

•
•

자료의 중심 위치를 나타내는 또 다른 척도
최소값부터 최대값으로 순서대로 정렬할 때, 순서 상 가장 중
앙에 있는 값
•
자료가 홀수개이면 가장 중간에 위치한 값
•
자료가 짝수개이면 중앙에 있는 두 값의 평균

•

자료가 짝수개
이므로 2890,
2920의 평균값
인 2905

•

가장 도수가 많은 값

•

2880

•

평균
(average, mean)

자료를 4등분 하여 분포를 보여줌
•
𝑄1 = 1사분위수, (25분위수)
•
𝑄2 = 2사분위수, (50분위수, 중앙값)
•
𝑄3 = 3사분위수, (75분위수)

•
•
•

사분위수(quartile)

2710

2755

2850

2880

𝑄1

2880

2890

2920

𝑄2
중앙값

2940

2950

3050

𝑄3

3130

3325

𝑄1 =2865
𝑄2 =2905
𝑄3 =3000
기술 통계량과 해석
 변동성의 척도
기술통계량

설명

편차(deviation)

•
•

예제

각 데이터가 평균값으로부터 얼마나 떨어져 있는지를
측정하는 측도
편차의 산술평균은 언제나 0임

분산(variance)

•
•

데이터가 퍼져있는 상태를 평가함
제곱평균을 이용하므로 값의 단위가 바뀌고 수치가 커
짐(다른 통계량과 비교가 힘듦)

•

27440.91

표준편차
(standard deviation)

•
•

분산에 루트를 씌어서 사용함
편차의 평균을 구할 수 있고, 단위도 바뀌지 않음

•

165.65

범위
(range)

•
•

최대값 – 최소값
극단적인 값의 영향을 많이 받기 때문에 잘 사용하지 않
음

•

615

사분위범위
(interquartile range: IQR)

•
•

범위의 극단적인 영향을 줄이기 위한 변동성 척도
𝑄3 − 𝑄1

•

135

변이계수
(coefficient of variation)

•
•

평균보다 표준편차가 얼마나 큰지를 나타냄
표준편차 / 평균

•

165.65/2940*1
00 = 5.6%

2710

2755

2850

2880

2880

2890

2920

2940

2950

3050

3130

3325
평균의 맹점(1/2)
 분기별 가계동향 자료에 나오는 충격적인 기사
 도시 근로자 가구 월평균 소득(2013년 2분기) 444만 7000원
으로
서울의 아파트(국토부 자료 7월 현재 4억 9068만원)를
매입하려면, 한 푼 안쓰고 110개월(9년 2개월) 동안
저축을 해야 한다.

‘평균’
이렇게
높아?

출처: 시사인 321호, 통계청 발표에 통곡이 나네
평균의 맹점(2/2)
 기사의 문제점
 ‘우리나라 전체 가구’가 아닌 ‘도시 근로자 가구’의 평균 소득임
 통계청의 도시 근로자 가구의 기준은 “가장이 근로자인 가구의
총 수입”임

 ‘가구’는 2인 이상의 집단을 의미하므로 ‘1인 가구’는 제외됨
 전국의 8,700개 표본 가구를 조사한 결과이므로 오차가 존재함

 데이터가 그 주변에 얼마나 퍼져있는지를 아는 것이 중요
기술 통계량과 해석
 평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸
것에 불과함
 데이터가 평균값 주변에 분포되어 있지만 평균값 역시 데이
터의 분포 중 하나의 수일뿐

 평균값으로는 데이터가 그 주변에 어느 정도 퍼져있는지, 또
는 흩어져 있는지를 알 수 없음
국회의원의 평균재산
 국회의원 평균 재산 94억원, 2명 제외 시 23억(머니투데이,
2013.3.29)
 2012년 기준 국회의원 평균 재산은 94억 9천만원
 그러나 1,000억 이상 재산가인 정몽준(1조 9,249만원), 고희선
(1,984억원)을 제외한 평균은 23억 3천만원
 또한, 500억 이상 재산가(총 4명) 제외 18억 3천만원

19대 국회의원
전체 평균(299명)
297명 평균
295명 평균
18.3

고희선

94.9

23.3

1,984

정몽준

19,294
단위:억원
기술 통계량과 해석
 Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여
평가
𝑥𝑖 − 𝑥
𝑧=
𝑠
 정규분포를 따르지 않는 경우(체비세프의 정리)
 평균에서 +- 2 표준편차 사이의 자료 비율은 적어도 75%
 평범한 데이터
 평균에서 +- 3 표준편차 사이의 자료 비율은 89%
 특수한 데이터
 평균에서 +- 4 표준편차 사이의 자료 비율은 94%
기술 통계량과 해석
 Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여
평가
𝑥𝑖 − 𝑥
𝑧=
𝑠

 정규분포를 따르는 경우
 평균에서 +- 1 표준편차 사이의 자료 비율은 68.3%
 평범한 데이터
 평균에서 +- 2 표준편차 사이의 자료 비율은 95.4%
 특수한 데이터

 평균에서 +- 3 표준편차 사이의 자료 비율은 99.7%
 아주 특수한 데이터
 이상치(outlier) 검토 기준이 됨
기술 통계량과 해석
 표준정규분포
 평균은 0, 표준편차가 1인 정규분포
 +- 1 범위의 자료 비율은 68.3%, +- 2 범위의 자료 비율은
95.4%, +- 3 범위의 자료 비율은 99.7%

 일반 정규분포를 표준정규분포로 바꾸는 법

𝑥𝑖 − 𝑥
𝑧=
𝑠
고맙습니다.
참고문헌
 서적
 Head first statistic
 앤더슨의 통계학
 벌거벋은 통계학, 찰스 월런저, 김명철역, 책읽는수요일

 Web Site
 http://blog.naver.com/junesj/140073919296

Weitere ähnliche Inhalte

Andere mochten auch

자바8 스트림 API 소개
자바8 스트림 API 소개자바8 스트림 API 소개
자바8 스트림 API 소개beom kyun choi
 
하둡2 YARN 짧게 보기
하둡2 YARN 짧게 보기하둡2 YARN 짧게 보기
하둡2 YARN 짧게 보기beom kyun choi
 
하둡 HDFS 훑어보기
하둡 HDFS 훑어보기하둡 HDFS 훑어보기
하둡 HDFS 훑어보기beom kyun choi
 
하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기beom kyun choi
 
Tensorflow regression 텐서플로우 회귀
Tensorflow regression 텐서플로우 회귀Tensorflow regression 텐서플로우 회귀
Tensorflow regression 텐서플로우 회귀beom kyun choi
 
20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제Tae Young Lee
 
자바8 람다식 소개
자바8 람다식 소개자바8 람다식 소개
자바8 람다식 소개beom kyun choi
 

Andere mochten auch (9)

Zookeeper 소개
Zookeeper 소개Zookeeper 소개
Zookeeper 소개
 
자바8 스트림 API 소개
자바8 스트림 API 소개자바8 스트림 API 소개
자바8 스트림 API 소개
 
하둡2 YARN 짧게 보기
하둡2 YARN 짧게 보기하둡2 YARN 짧게 보기
하둡2 YARN 짧게 보기
 
하둡 HDFS 훑어보기
하둡 HDFS 훑어보기하둡 HDFS 훑어보기
하둡 HDFS 훑어보기
 
하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기
 
Tensorflow regression 텐서플로우 회귀
Tensorflow regression 텐서플로우 회귀Tensorflow regression 텐서플로우 회귀
Tensorflow regression 텐서플로우 회귀
 
20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제20141029 하둡2.5와 hive설치 및 예제
20141029 하둡2.5와 hive설치 및 예제
 
자바8 람다식 소개
자바8 람다식 소개자바8 람다식 소개
자바8 람다식 소개
 
DDD 준비 서문래
DDD 준비 서문래DDD 준비 서문래
DDD 준비 서문래
 

Ähnlich wie [Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석

연구학교 데이터분석
연구학교 데이터분석 연구학교 데이터분석
연구학교 데이터분석 성훈 김
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)Eun Yu
 
Head first statistics_summary_ch02
Head first statistics_summary_ch02Head first statistics_summary_ch02
Head first statistics_summary_ch02SungMin OH
 
제자리통계 0913
제자리통계 0913제자리통계 0913
제자리통계 0913Yunhwan Kwon
 
03.기술통계 자료의 중심과 퍼진정도
03.기술통계 자료의 중심과 퍼진정도03.기술통계 자료의 중심과 퍼진정도
03.기술통계 자료의 중심과 퍼진정도Yoonwhan Lee
 
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdfJong-Ki Lee
 
02.자료다루기
02.자료다루기02.자료다루기
02.자료다루기Yoonwhan Lee
 
기술통계 - 자료의 중심과 퍼진정도
기술통계 - 자료의 중심과 퍼진정도기술통계 - 자료의 중심과 퍼진정도
기술통계 - 자료의 중심과 퍼진정도Yoonwhan Lee
 
Head first statistics_summary_ch03
Head first statistics_summary_ch03Head first statistics_summary_ch03
Head first statistics_summary_ch03SungMin OH
 
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지Han Woo PARK
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptxDonghwan Lee
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께백승민 Baek Seung Min
 
Statistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis TestingStatistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis TestingMinyeong Seo
 

Ähnlich wie [Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석 (13)

연구학교 데이터분석
연구학교 데이터분석 연구학교 데이터분석
연구학교 데이터분석
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)
 
Head first statistics_summary_ch02
Head first statistics_summary_ch02Head first statistics_summary_ch02
Head first statistics_summary_ch02
 
제자리통계 0913
제자리통계 0913제자리통계 0913
제자리통계 0913
 
03.기술통계 자료의 중심과 퍼진정도
03.기술통계 자료의 중심과 퍼진정도03.기술통계 자료의 중심과 퍼진정도
03.기술통계 자료의 중심과 퍼진정도
 
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
 
02.자료다루기
02.자료다루기02.자료다루기
02.자료다루기
 
기술통계 - 자료의 중심과 퍼진정도
기술통계 - 자료의 중심과 퍼진정도기술통계 - 자료의 중심과 퍼진정도
기술통계 - 자료의 중심과 퍼진정도
 
Head first statistics_summary_ch03
Head first statistics_summary_ch03Head first statistics_summary_ch03
Head first statistics_summary_ch03
 
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께
 
Statistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis TestingStatistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis Testing
 

[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석

  • 1. 빅데이터 분석을 위한 통계 이해와 해석 2013. 11. 14 ㈜ 세이프티아 선임연구원 공학박사 김은주
  • 2. 목차  통계학이란  생각보다 중요한 자료형  기술 통계량과 해석  참고문헌
  • 4. 통계학(Statistics)  기술통계학  관측을 통하여 얻은 데이터에서 그 데이터의 특성을 뽑아내기 위한 기술  도수분포표, 히스토그램, 평균, 표준편차 등  추리통계학  ‘전체를 파악할 수 없을 정도로 큰 대상’이나 ‘아직 일어나지 않 은, 미래에 일어날일’에 관해 추측하는 것  선거 결과 예측 시스템 등 출처: 세상에서 가장 쉬운 통계학 입문
  • 5. 우리 주변에 통계 활용 예(1/2)  한국의 주요지표(통계청, 2013년 11월 11일 기준) 기준 값 비고 추계인구 2013 50,219,669명 월평균소득 2013 2/4 4,040,630원 기준: 가구 실업률 2013.09 2.7% 경제활동인구대상 (만 15세이상 ) 1인당 국민 총소득 2012 2,559만원 기대수명 2011 81.2년 고용률 2013.09 60.4% 만 15세이상 인구 중 취업자 가 차지하는 비율
  • 6. 우리 주변에 통계 활용 예(2/2)  프로야구 심판 오심 삼진아웃제, 찬성 62.4%(리얼미터, 2014.06.18)  최근 프로야구 심판들의 오심이 문제가 되고 있는 가운데 오심이 잦 은 심판들에게 삼진아웃제를 도입해야 한다는 의견에 대해 찬성한 다는 의견이 더 높은 것으로 나타났다. 여론조사 전문기관 리얼미터 (대표: 이택수)가 심판 오심에 대한 삼진아웃제에 대한 긴급 여론조 사를 실시한 결과, ‘찬성한다’는 의견이 62.4%, ‘반대한다’는 의견이 11.6%로, 찬성 의견이 압도적으로 높게 나타났다.  조사 개요  조사기간: 2013년 6월 17일(월)  조사대상: 전국 19세 이상 성인남녀 500명  조사방법: 유무선 RDD 자동응답방식  표본오차: 95% 신뢰수준 ±4.4%p
  • 7. 자료형 빅데이터 분석을 위한 통계 이해와 해석
  • 8. 생각보다 중요한 자료형 비율척도 등간척도 양적 척도 서열척도 질적 척도 명목척도 비계량적 변수 질적변수 (Non-metric) (qualitative) 계량적 변수 (metric) 양적변수 (qualitative) 출처: http://socialplanner.tistory.com/123 (이영훈의 연구방법론 p189 재인용)
  • 9. 생각보다 중요한 자료형  척도의 종류 설명 예제 명목척도 (nominal scale) • • 둘 이상의 범주로 구분되는 변수를 측정하는 척도 서열이 없음 직업, 종교 서열척도 (ordinal scale) • • • 정도에 따라 범주화하여 순서대로 배열 한 것 상대적인 서열이므로 크기의 정도를 알 수 없음 2등은 1등의 2배 의미가 없음 계층, IQ 등 등간척도 (interval scale) • • • 범주간의 간격이 일정함 연속적 척도 200원은 100원에 비하여 2배의 의미가 있음 온도, 비율척도 (ratio scale) • • 연속적 척도 0의 의미가 있음 인구수, 소득, 무게, 연령
  • 10. 생각보다 중요한 자료형  자료의 종류 분류 질적 자료 (qualitative data) 양적 자료 (quanitive data) 설명 예제 전화번호 수치로 측정이 불가능한 자료 성별, 범주형 자료(Categorical data) 순위 등급 라고도 함 종교구분 수치로 측정이 가능한 자료 출처: 위키백과, 자료(http://ko.wikipedia.org/wiki/%EC%9E%90%EB%A3%8C) 온도, 가격, 매출액
  • 11. 생각보다 중요한 자료형 양적자료 자료 질적자료 이산형 연속형 이분형 다분형 분류 질적자료 예제 이산형 (discrete data) 셀 수 있는 숫자 사람수, 나이 연속형 (continuous data) 양적자료 설명 특정 단위를 이용하여 측정하는 숫자 무게, 온도 이분형 (Dichotomous data) 범주가 두 개인 자료 성별, Yes/No 다분형 (nondichotomous data) 범주가 셋 이상인 자료 종교, 지역
  • 12. 생각보다 중요한 자료형  측도 별 분석 방법 통계분석방법 기계학습 분석 시 고려할 것 명목척도 (nominal scale) 최빈값, 빈도 - 서열척도 (ordinal scale) 중앙값, 사분위값, Spearman 상관계수 등 - 등간척도 (interval scale) 평균, 표준편차, Pearson 상관계수 등 - 비율척도 (ratio scale) 평균, 표준편차 등 - - 회귀분석사용 및 거리를 구하는 알고리즘 (예: K-means, k-NN 등 ) 사용할 수 없음 일부의 경우 코드화 하여 사용하지만, 올바 른 방법이 아님 연관규칙, 의사결정트리, 신경망 등과 빈도 수를 이용하는 군집화 기법은 이용가능 연관규칙 기법 등을 이용하기 위하여 범주 화 등을 선행하여야 함 회귀분석, 신경망, K-means 등은 사용가 능
  • 13. 기술 통계량과 해석 빅데이터 분석을 위한 통계 이해와 해석
  • 14. 통계량  데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리 정돈해서 의미 있는 정보만 추출 하는 것  그래프로 만들어서 그 특징을 파악할 수 있도록 함  숫자 하나로 특징을 대표하도록 함  예제 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
  • 15. 기술 통계량과 해석  위치의 척도 기술통계량 설명 예제 중앙값 (median) 최빈값 (mode) • • • 자료의 중심 위치를 측정함 데이터 합계를 데이터 총 개수로 나눈 값 데이터들은 평균값 주변에 분포되어 있음 • 2940 • • 자료의 중심 위치를 나타내는 또 다른 척도 최소값부터 최대값으로 순서대로 정렬할 때, 순서 상 가장 중 앙에 있는 값 • 자료가 홀수개이면 가장 중간에 위치한 값 • 자료가 짝수개이면 중앙에 있는 두 값의 평균 • 자료가 짝수개 이므로 2890, 2920의 평균값 인 2905 • 가장 도수가 많은 값 • 2880 • 평균 (average, mean) 자료를 4등분 하여 분포를 보여줌 • 𝑄1 = 1사분위수, (25분위수) • 𝑄2 = 2사분위수, (50분위수, 중앙값) • 𝑄3 = 3사분위수, (75분위수) • • • 사분위수(quartile) 2710 2755 2850 2880 𝑄1 2880 2890 2920 𝑄2 중앙값 2940 2950 3050 𝑄3 3130 3325 𝑄1 =2865 𝑄2 =2905 𝑄3 =3000
  • 16. 기술 통계량과 해석  변동성의 척도 기술통계량 설명 편차(deviation) • • 예제 각 데이터가 평균값으로부터 얼마나 떨어져 있는지를 측정하는 측도 편차의 산술평균은 언제나 0임 분산(variance) • • 데이터가 퍼져있는 상태를 평가함 제곱평균을 이용하므로 값의 단위가 바뀌고 수치가 커 짐(다른 통계량과 비교가 힘듦) • 27440.91 표준편차 (standard deviation) • • 분산에 루트를 씌어서 사용함 편차의 평균을 구할 수 있고, 단위도 바뀌지 않음 • 165.65 범위 (range) • • 최대값 – 최소값 극단적인 값의 영향을 많이 받기 때문에 잘 사용하지 않 음 • 615 사분위범위 (interquartile range: IQR) • • 범위의 극단적인 영향을 줄이기 위한 변동성 척도 𝑄3 − 𝑄1 • 135 변이계수 (coefficient of variation) • • 평균보다 표준편차가 얼마나 큰지를 나타냄 표준편차 / 평균 • 165.65/2940*1 00 = 5.6% 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
  • 17. 평균의 맹점(1/2)  분기별 가계동향 자료에 나오는 충격적인 기사  도시 근로자 가구 월평균 소득(2013년 2분기) 444만 7000원 으로 서울의 아파트(국토부 자료 7월 현재 4억 9068만원)를 매입하려면, 한 푼 안쓰고 110개월(9년 2개월) 동안 저축을 해야 한다. ‘평균’ 이렇게 높아? 출처: 시사인 321호, 통계청 발표에 통곡이 나네
  • 18. 평균의 맹점(2/2)  기사의 문제점  ‘우리나라 전체 가구’가 아닌 ‘도시 근로자 가구’의 평균 소득임  통계청의 도시 근로자 가구의 기준은 “가장이 근로자인 가구의 총 수입”임  ‘가구’는 2인 이상의 집단을 의미하므로 ‘1인 가구’는 제외됨  전국의 8,700개 표본 가구를 조사한 결과이므로 오차가 존재함  데이터가 그 주변에 얼마나 퍼져있는지를 아는 것이 중요
  • 19. 기술 통계량과 해석  평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸 것에 불과함  데이터가 평균값 주변에 분포되어 있지만 평균값 역시 데이 터의 분포 중 하나의 수일뿐  평균값으로는 데이터가 그 주변에 어느 정도 퍼져있는지, 또 는 흩어져 있는지를 알 수 없음
  • 20. 국회의원의 평균재산  국회의원 평균 재산 94억원, 2명 제외 시 23억(머니투데이, 2013.3.29)  2012년 기준 국회의원 평균 재산은 94억 9천만원  그러나 1,000억 이상 재산가인 정몽준(1조 9,249만원), 고희선 (1,984억원)을 제외한 평균은 23억 3천만원  또한, 500억 이상 재산가(총 4명) 제외 18억 3천만원 19대 국회의원 전체 평균(299명) 297명 평균 295명 평균 18.3 고희선 94.9 23.3 1,984 정몽준 19,294 단위:억원
  • 21. 기술 통계량과 해석  Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여 평가 𝑥𝑖 − 𝑥 𝑧= 𝑠  정규분포를 따르지 않는 경우(체비세프의 정리)  평균에서 +- 2 표준편차 사이의 자료 비율은 적어도 75%  평범한 데이터  평균에서 +- 3 표준편차 사이의 자료 비율은 89%  특수한 데이터  평균에서 +- 4 표준편차 사이의 자료 비율은 94%
  • 22. 기술 통계량과 해석  Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여 평가 𝑥𝑖 − 𝑥 𝑧= 𝑠  정규분포를 따르는 경우  평균에서 +- 1 표준편차 사이의 자료 비율은 68.3%  평범한 데이터  평균에서 +- 2 표준편차 사이의 자료 비율은 95.4%  특수한 데이터  평균에서 +- 3 표준편차 사이의 자료 비율은 99.7%  아주 특수한 데이터  이상치(outlier) 검토 기준이 됨
  • 23. 기술 통계량과 해석  표준정규분포  평균은 0, 표준편차가 1인 정규분포  +- 1 범위의 자료 비율은 68.3%, +- 2 범위의 자료 비율은 95.4%, +- 3 범위의 자료 비율은 99.7%  일반 정규분포를 표준정규분포로 바꾸는 법 𝑥𝑖 − 𝑥 𝑧= 𝑠
  • 25. 참고문헌  서적  Head first statistic  앤더슨의 통계학  벌거벋은 통계학, 찰스 월런저, 김명철역, 책읽는수요일  Web Site  http://blog.naver.com/junesj/140073919296