4. 통계학(Statistics)
기술통계학
관측을 통하여 얻은 데이터에서 그 데이터의 특성을 뽑아내기
위한 기술
도수분포표, 히스토그램, 평균, 표준편차 등
추리통계학
‘전체를 파악할 수 없을 정도로 큰 대상’이나 ‘아직 일어나지 않
은, 미래에 일어날일’에 관해 추측하는 것
선거 결과 예측 시스템 등
출처: 세상에서 가장 쉬운 통계학 입문
5. 우리 주변에 통계 활용 예(1/2)
한국의 주요지표(통계청, 2013년 11월 11일 기준)
기준
값
비고
추계인구
2013
50,219,669명
월평균소득
2013 2/4
4,040,630원
기준: 가구
실업률
2013.09
2.7%
경제활동인구대상
(만 15세이상 )
1인당 국민 총소득
2012
2,559만원
기대수명
2011
81.2년
고용률
2013.09
60.4%
만 15세이상 인구 중 취업자
가 차지하는 비율
6. 우리 주변에 통계 활용 예(2/2)
프로야구 심판 오심 삼진아웃제, 찬성 62.4%(리얼미터,
2014.06.18)
최근 프로야구 심판들의 오심이 문제가 되고 있는 가운데 오심이 잦
은 심판들에게 삼진아웃제를 도입해야 한다는 의견에 대해 찬성한
다는 의견이 더 높은 것으로 나타났다. 여론조사 전문기관 리얼미터
(대표: 이택수)가 심판 오심에 대한 삼진아웃제에 대한 긴급 여론조
사를 실시한 결과, ‘찬성한다’는 의견이 62.4%, ‘반대한다’는 의견이
11.6%로, 찬성 의견이 압도적으로 높게 나타났다.
조사 개요
조사기간: 2013년 6월 17일(월)
조사대상: 전국 19세 이상 성인남녀 500명
조사방법: 유무선 RDD 자동응답방식
표본오차: 95% 신뢰수준 ±4.4%p
8. 생각보다 중요한 자료형
비율척도
등간척도
양적 척도
서열척도
질적 척도
명목척도
비계량적 변수 질적변수
(Non-metric) (qualitative)
계량적 변수
(metric)
양적변수
(qualitative)
출처: http://socialplanner.tistory.com/123 (이영훈의 연구방법론 p189 재인용)
9. 생각보다 중요한 자료형
척도의 종류
설명
예제
명목척도
(nominal scale)
•
•
둘 이상의 범주로 구분되는 변수를 측정하는 척도
서열이 없음
직업, 종교
서열척도
(ordinal scale)
•
•
•
정도에 따라 범주화하여 순서대로 배열 한 것
상대적인 서열이므로 크기의 정도를 알 수 없음
2등은 1등의 2배 의미가 없음
계층, IQ 등
등간척도
(interval scale)
•
•
•
범주간의 간격이 일정함
연속적 척도
200원은 100원에 비하여 2배의 의미가 있음
온도,
비율척도
(ratio scale)
•
•
연속적 척도
0의 의미가 있음
인구수, 소득,
무게, 연령
10. 생각보다 중요한 자료형
자료의 종류
분류
질적 자료
(qualitative data)
양적 자료
(quanitive data)
설명
예제
전화번호
수치로 측정이 불가능한 자료
성별,
범주형 자료(Categorical data)
순위 등급
라고도 함
종교구분
수치로 측정이 가능한 자료
출처: 위키백과, 자료(http://ko.wikipedia.org/wiki/%EC%9E%90%EB%A3%8C)
온도, 가격,
매출액
12. 생각보다 중요한 자료형
측도 별 분석 방법
통계분석방법
기계학습 분석 시 고려할 것
명목척도
(nominal scale)
최빈값, 빈도
-
서열척도
(ordinal scale)
중앙값,
사분위값, Spearman
상관계수 등
-
등간척도
(interval scale)
평균,
표준편차, Pearson
상관계수 등
-
비율척도
(ratio scale)
평균,
표준편차 등
-
-
회귀분석사용 및 거리를 구하는 알고리즘
(예: K-means, k-NN 등 ) 사용할 수 없음
일부의 경우 코드화 하여 사용하지만, 올바
른 방법이 아님
연관규칙, 의사결정트리, 신경망 등과 빈도
수를 이용하는 군집화 기법은 이용가능
연관규칙 기법 등을 이용하기 위하여 범주
화 등을 선행하여야 함
회귀분석, 신경망, K-means 등은 사용가
능
14. 통계량
데이터로 나열되어 있는 많은 숫자를 어떤 기준으로
정리 정돈해서 의미 있는 정보만 추출 하는 것
그래프로 만들어서 그 특징을 파악할 수 있도록 함
숫자 하나로 특징을 대표하도록 함
예제
2710
2755
2850
2880
2880
2890
2920
2940
2950
3050
3130
3325
15. 기술 통계량과 해석
위치의 척도
기술통계량
설명
예제
중앙값
(median)
최빈값 (mode)
•
•
•
자료의 중심 위치를 측정함
데이터 합계를 데이터 총 개수로 나눈 값
데이터들은 평균값 주변에 분포되어 있음
•
2940
•
•
자료의 중심 위치를 나타내는 또 다른 척도
최소값부터 최대값으로 순서대로 정렬할 때, 순서 상 가장 중
앙에 있는 값
•
자료가 홀수개이면 가장 중간에 위치한 값
•
자료가 짝수개이면 중앙에 있는 두 값의 평균
•
자료가 짝수개
이므로 2890,
2920의 평균값
인 2905
•
가장 도수가 많은 값
•
2880
•
평균
(average, mean)
자료를 4등분 하여 분포를 보여줌
•
𝑄1 = 1사분위수, (25분위수)
•
𝑄2 = 2사분위수, (50분위수, 중앙값)
•
𝑄3 = 3사분위수, (75분위수)
•
•
•
사분위수(quartile)
2710
2755
2850
2880
𝑄1
2880
2890
2920
𝑄2
중앙값
2940
2950
3050
𝑄3
3130
3325
𝑄1 =2865
𝑄2 =2905
𝑄3 =3000
16. 기술 통계량과 해석
변동성의 척도
기술통계량
설명
편차(deviation)
•
•
예제
각 데이터가 평균값으로부터 얼마나 떨어져 있는지를
측정하는 측도
편차의 산술평균은 언제나 0임
분산(variance)
•
•
데이터가 퍼져있는 상태를 평가함
제곱평균을 이용하므로 값의 단위가 바뀌고 수치가 커
짐(다른 통계량과 비교가 힘듦)
•
27440.91
표준편차
(standard deviation)
•
•
분산에 루트를 씌어서 사용함
편차의 평균을 구할 수 있고, 단위도 바뀌지 않음
•
165.65
범위
(range)
•
•
최대값 – 최소값
극단적인 값의 영향을 많이 받기 때문에 잘 사용하지 않
음
•
615
사분위범위
(interquartile range: IQR)
•
•
범위의 극단적인 영향을 줄이기 위한 변동성 척도
𝑄3 − 𝑄1
•
135
변이계수
(coefficient of variation)
•
•
평균보다 표준편차가 얼마나 큰지를 나타냄
표준편차 / 평균
•
165.65/2940*1
00 = 5.6%
2710
2755
2850
2880
2880
2890
2920
2940
2950
3050
3130
3325
17. 평균의 맹점(1/2)
분기별 가계동향 자료에 나오는 충격적인 기사
도시 근로자 가구 월평균 소득(2013년 2분기) 444만 7000원
으로
서울의 아파트(국토부 자료 7월 현재 4억 9068만원)를
매입하려면, 한 푼 안쓰고 110개월(9년 2개월) 동안
저축을 해야 한다.
‘평균’
이렇게
높아?
출처: 시사인 321호, 통계청 발표에 통곡이 나네
18. 평균의 맹점(2/2)
기사의 문제점
‘우리나라 전체 가구’가 아닌 ‘도시 근로자 가구’의 평균 소득임
통계청의 도시 근로자 가구의 기준은 “가장이 근로자인 가구의
총 수입”임
‘가구’는 2인 이상의 집단을 의미하므로 ‘1인 가구’는 제외됨
전국의 8,700개 표본 가구를 조사한 결과이므로 오차가 존재함
데이터가 그 주변에 얼마나 퍼져있는지를 아는 것이 중요
19. 기술 통계량과 해석
평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸
것에 불과함
데이터가 평균값 주변에 분포되어 있지만 평균값 역시 데이
터의 분포 중 하나의 수일뿐
평균값으로는 데이터가 그 주변에 어느 정도 퍼져있는지, 또
는 흩어져 있는지를 알 수 없음
20. 국회의원의 평균재산
국회의원 평균 재산 94억원, 2명 제외 시 23억(머니투데이,
2013.3.29)
2012년 기준 국회의원 평균 재산은 94억 9천만원
그러나 1,000억 이상 재산가인 정몽준(1조 9,249만원), 고희선
(1,984억원)을 제외한 평균은 23억 3천만원
또한, 500억 이상 재산가(총 4명) 제외 18억 3천만원
19대 국회의원
전체 평균(299명)
297명 평균
295명 평균
18.3
고희선
94.9
23.3
1,984
정몽준
19,294
단위:억원
21. 기술 통계량과 해석
Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여
평가
𝑥𝑖 − 𝑥
𝑧=
𝑠
정규분포를 따르지 않는 경우(체비세프의 정리)
평균에서 +- 2 표준편차 사이의 자료 비율은 적어도 75%
평범한 데이터
평균에서 +- 3 표준편차 사이의 자료 비율은 89%
특수한 데이터
평균에서 +- 4 표준편차 사이의 자료 비율은 94%
22. 기술 통계량과 해석
Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여
평가
𝑥𝑖 − 𝑥
𝑧=
𝑠
정규분포를 따르는 경우
평균에서 +- 1 표준편차 사이의 자료 비율은 68.3%
평범한 데이터
평균에서 +- 2 표준편차 사이의 자료 비율은 95.4%
특수한 데이터
평균에서 +- 3 표준편차 사이의 자료 비율은 99.7%
아주 특수한 데이터
이상치(outlier) 검토 기준이 됨
23. 기술 통계량과 해석
표준정규분포
평균은 0, 표준편차가 1인 정규분포
+- 1 범위의 자료 비율은 68.3%, +- 2 범위의 자료 비율은
95.4%, +- 3 범위의 자료 비율은 99.7%
일반 정규분포를 표준정규분포로 바꾸는 법
𝑥𝑖 − 𝑥
𝑧=
𝑠