[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석

빅데이터 분석을 위한
통계 이해와 해석
2013. 11. 14
㈜ 세이프티아 선임연구원
공학박사 김은주

목차
 통계학이란
 생각보다 중요한 자료형
 기술 통계량과 해석
 참고문헌

통계학이란
빅데이터 분석을 위한 통계 이해와 해석

통계학(Statistics)
 기술통계학
 관측을 통하여 얻은 데이터에서 그 데이터의 특성을 뽑아내기
위한 기술
 도수분포표, 히스토그램, 평균, 표준편차 등

 추리통계학
 ‘전체를 파악할 수 없을 정도로 큰 대상’이나 ‘아직 일어나지 않
은, 미래에 일어날일’에 관해 추측하는 것
 선거 결과 예측 시스템 등

출처: 세상에서 가장 쉬운 통계학 입문

우리 주변에 통계 활용 예(1/2)
 한국의 주요지표(통계청, 2013년 11월 11일 기준)
기준

값

비고

추계인구

2013

50,219,669명

월평균소득

2013 2/4

4,040,630원

기준: 가구

실업률

2013.09

2.7%

경제활동인구대상
(만 15세이상 )

1인당 국민 총소득

2012

2,559만원

기대수명

2011

81.2년

고용률

2013.09

60.4%

만 15세이상 인구 중 취업자
가 차지하는 비율

우리 주변에 통계 활용 예(2/2)
 프로야구 심판 오심 삼진아웃제, 찬성 62.4%(리얼미터,
2014.06.18)
 최근 프로야구 심판들의 오심이 문제가 되고 있는 가운데 오심이 잦
은 심판들에게 삼진아웃제를 도입해야 한다는 의견에 대해 찬성한
다는 의견이 더 높은 것으로 나타났다. 여론조사 전문기관 리얼미터
(대표: 이택수)가 심판 오심에 대한 삼진아웃제에 대한 긴급 여론조
사를 실시한 결과, ‘찬성한다’는 의견이 62.4%, ‘반대한다’는 의견이
11.6%로, 찬성 의견이 압도적으로 높게 나타났다.
 조사 개요
 조사기간: 2013년 6월 17일(월)
 조사대상: 전국 19세 이상 성인남녀 500명
 조사방법: 유무선 RDD 자동응답방식
 표본오차: 95% 신뢰수준 ±4.4%p

자료형

생각보다 중요한 자료형

비율척도
등간척도

양적 척도

서열척도

질적 척도
명목척도
비계량적 변수 질적변수
(Non-metric) (qualitative)
계량적 변수
(metric)

양적변수
(qualitative)

출처: http://socialplanner.tistory.com/123 (이영훈의 연구방법론 p189 재인용)

 척도의 종류
설명

예제

명목척도
(nominal scale)

•
•

둘 이상의 범주로 구분되는 변수를 측정하는 척도
서열이 없음

직업, 종교

서열척도
(ordinal scale)

•
•
•

정도에 따라 범주화하여 순서대로 배열 한 것
상대적인 서열이므로 크기의 정도를 알 수 없음
2등은 1등의 2배 의미가 없음

계층, IQ 등

등간척도
(interval scale)

•
•
•

범주간의 간격이 일정함
연속적 척도
200원은 100원에 비하여 2배의 의미가 있음

온도,

비율척도
(ratio scale)

•
•

연속적 척도
0의 의미가 있음

인구수, 소득,
무게, 연령

 자료의 종류

분류
질적 자료
(qualitative data)

양적 자료
(quanitive data)

설명

예제

전화번호
수치로 측정이 불가능한 자료
성별,
범주형 자료(Categorical data)
순위 등급
라고도 함
종교구분
수치로 측정이 가능한 자료

출처: 위키백과, 자료(http://ko.wikipedia.org/wiki/%EC%9E%90%EB%A3%8C)

온도, 가격,
매출액

양적자료
자료
질적자료

이산형
연속형
이분형
다분형

분류

질적자료

예제

이산형
(discrete data)

셀 수 있는 숫자

사람수, 나이

연속형
(continuous data)

양적자료

설명

특정 단위를 이용하여
측정하는 숫자

무게, 온도

이분형
(Dichotomous data)

범주가 두 개인 자료

성별, Yes/No

다분형
(nondichotomous data)

범주가 셋 이상인 자료

종교, 지역

 측도 별 분석 방법
통계분석방법

기계학습 분석 시 고려할 것

명목척도
(nominal scale)

최빈값, 빈도

-

서열척도
(ordinal scale)

중앙값,
사분위값, Spearman
상관계수 등

-

등간척도
(interval scale)

평균,
표준편차, Pearson
상관계수 등

-

비율척도
(ratio scale)

평균,
표준편차 등

-

-

회귀분석사용 및 거리를 구하는 알고리즘
(예: K-means, k-NN 등 ) 사용할 수 없음
일부의 경우 코드화 하여 사용하지만, 올바
른 방법이 아님
연관규칙, 의사결정트리, 신경망 등과 빈도
수를 이용하는 군집화 기법은 이용가능
연관규칙 기법 등을 이용하기 위하여 범주
화 등을 선행하여야 함
회귀분석, 신경망, K-means 등은 사용가
능

기술 통계량과 해석

통계량
 데이터로 나열되어 있는 많은 숫자를 어떤 기준으로
정리 정돈해서 의미 있는 정보만 추출 하는 것
 그래프로 만들어서 그 특징을 파악할 수 있도록 함
 숫자 하나로 특징을 대표하도록 함

 예제
2710

2755

2850

2880

2880

2890

2920

2940

2950

3050

3130

3325

 위치의 척도
기술통계량

설명

예제

중앙값
(median)

최빈값 (mode)

•
•
•

자료의 중심 위치를 측정함
데이터 합계를 데이터 총 개수로 나눈 값
데이터들은 평균값 주변에 분포되어 있음

•

2940

•
•

자료의 중심 위치를 나타내는 또 다른 척도
최소값부터 최대값으로 순서대로 정렬할 때, 순서 상 가장 중
앙에 있는 값
•
자료가 홀수개이면 가장 중간에 위치한 값
•
자료가 짝수개이면 중앙에 있는 두 값의 평균

•

자료가 짝수개
이므로 2890,
2920의 평균값
인 2905

•

가장 도수가 많은 값

•

2880

•

평균
(average, mean)

자료를 4등분 하여 분포를 보여줌
•
𝑄1 = 1사분위수, (25분위수)
•
𝑄2 = 2사분위수, (50분위수, 중앙값)
•
𝑄3 = 3사분위수, (75분위수)

•
•
•

사분위수(quartile)

2710

2755

2850

2880

𝑄1

2880

2890

2920

𝑄2
중앙값

2940

2950

3050

𝑄3

3130

3325

𝑄1 =2865
𝑄2 =2905
𝑄3 =3000

 변동성의 척도
기술통계량

설명

편차(deviation)

•
•

예제

각 데이터가 평균값으로부터 얼마나 떨어져 있는지를
측정하는 측도
편차의 산술평균은 언제나 0임

분산(variance)

•
•

데이터가 퍼져있는 상태를 평가함
제곱평균을 이용하므로 값의 단위가 바뀌고 수치가 커
짐(다른 통계량과 비교가 힘듦)

•

27440.91

표준편차
(standard deviation)

•
•

분산에 루트를 씌어서 사용함
편차의 평균을 구할 수 있고, 단위도 바뀌지 않음

•

165.65

범위
(range)

•
•

최대값 – 최소값
극단적인 값의 영향을 많이 받기 때문에 잘 사용하지 않
음

•

615

사분위범위
(interquartile range: IQR)

•
•

범위의 극단적인 영향을 줄이기 위한 변동성 척도
𝑄3 − 𝑄1

•

135

변이계수
(coefficient of variation)

•
•

평균보다 표준편차가 얼마나 큰지를 나타냄
표준편차 / 평균

•

165.65/2940*1
00 = 5.6%

2710

2755

2850

2880

2880

2890

2920

2940

2950

3050

3130

3325

평균의 맹점(1/2)
 분기별 가계동향 자료에 나오는 충격적인 기사
 도시 근로자 가구 월평균 소득(2013년 2분기) 444만 7000원
으로
서울의 아파트(국토부 자료 7월 현재 4억 9068만원)를
매입하려면, 한 푼 안쓰고 110개월(9년 2개월) 동안
저축을 해야 한다.

‘평균’
이렇게
높아?

출처: 시사인 321호, 통계청 발표에 통곡이 나네

평균의 맹점(2/2)
 기사의 문제점
 ‘우리나라 전체 가구’가 아닌 ‘도시 근로자 가구’의 평균 소득임
 통계청의 도시 근로자 가구의 기준은 “가장이 근로자인 가구의
총 수입”임

 ‘가구’는 2인 이상의 집단을 의미하므로 ‘1인 가구’는 제외됨
 전국의 8,700개 표본 가구를 조사한 결과이므로 오차가 존재함

 데이터가 그 주변에 얼마나 퍼져있는지를 아는 것이 중요

 평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸
것에 불과함
 데이터가 평균값 주변에 분포되어 있지만 평균값 역시 데이
터의 분포 중 하나의 수일뿐

 평균값으로는 데이터가 그 주변에 어느 정도 퍼져있는지, 또
는 흩어져 있는지를 알 수 없음

국회의원의 평균재산
 국회의원 평균 재산 94억원, 2명 제외 시 23억(머니투데이,
2013.3.29)
 2012년 기준 국회의원 평균 재산은 94억 9천만원
 그러나 1,000억 이상 재산가인 정몽준(1조 9,249만원), 고희선
(1,984억원)을 제외한 평균은 23억 3천만원
 또한, 500억 이상 재산가(총 4명) 제외 18억 3천만원

19대 국회의원
전체 평균(299명)
297명 평균
295명 평균
18.3

고희선

94.9

23.3

1,984

정몽준

19,294
단위:억원

 Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여
평가
𝑥𝑖 − 𝑥
𝑧=
𝑠
 정규분포를 따르지 않는 경우(체비세프의 정리)
 평균에서 +- 2 표준편차 사이의 자료 비율은 적어도 75%
 평범한 데이터
 평균에서 +- 3 표준편차 사이의 자료 비율은 89%
 특수한 데이터
 평균에서 +- 4 표준편차 사이의 자료 비율은 94%

 Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여
평가
𝑥𝑖 − 𝑥
𝑧=
𝑠

 정규분포를 따르는 경우
 평균에서 +- 1 표준편차 사이의 자료 비율은 68.3%
 평범한 데이터
 특수한 데이터

 아주 특수한 데이터
 이상치(outlier) 검토 기준이 됨

 표준정규분포
 평균은 0, 표준편차가 1인 정규분포
 +- 1 범위의 자료 비율은 68.3%, +- 2 범위의 자료 비율은
95.4%, +- 3 범위의 자료 비율은 99.7%

 일반 정규분포를 표준정규분포로 바꾸는 법

𝑥𝑖 − 𝑥
𝑧=
𝑠

참고문헌
 서적
 Head first statistic
 앤더슨의 통계학
 벌거벋은 통계학, 찰스 월런저, 김명철역, 책읽는수요일

 Web Site
 http://blog.naver.com/junesj/140073919296

[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (9)

Ähnlich wie [Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석

Ähnlich wie [Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석 (13)

[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석