16. 평균값(mean, average) 중앙값(median) 최빈값(mode)
의미 • 데이터의 크기 합을 데이터
개수로 나눈 값
• 변량의 값을 크기 순으로
늘어놓았을 때 꼭 중앙에
오는 값
• 도수(빈도)가 가장 많은 값
특징 • 일부 이상치에 크게 영향
받음
• 수학적인 연산에 의해
계산되므로 수학적 조작
가능
• 서열자료의 경우 중앙값
사용
• 이상치 영향 없음
• 명목자료에서는 최빈값이
대표값
• 이상치 영향 없음
예 • 연간 평균 강우량
• 기말고사 평균점수
• 학교 석차 100명 중 50등 • 유행하는 가방
• 인기투표
33. 확률
사건
표본공간
확률변수
리스크
사람(의 경험, 지식, 태도, 성격 등)에 따라 다르게 일어날 확률
경우의 수
확률분포
성
공
실
패
독
립
사
건
종
속
사
건
배
타
적
사
건
주관적
확률
객관적
확률
논리적
확률
경험적
확률
대수의
법칙
상대도수
어떤 상황이
발생할 가능성
기대값 분산
유형
유형
조사
전수조사 표본조사
모집단 표본
시행
곱
의
법
칙
합
의
법
칙 순열
조합
모수 통계량
표본추출 표본오차
<확률>
55. 표본의 크기가 클 때 정규분포 형태에 가까워짐
그림통계학 73p 주사위 던지기 추가
57. 1. 기획 모집단/모수, 표본크기, 통계량
2. 조사(실험)
3. 자료 처리
4. 자료 분석
5. 집단(현상) 설명, 정책집행
평가
6. 예측, 정책 도출
표본, 조사방법
개체, 변수, 자료, 이상치, MDIS 활용…
요약, 그래프, 관계
표본점수, 확률분포 모형, 표집분포, 표본오차, 신뢰구간, 가설검정
58. Paired
T-test
연속형 종속변
수
독립변수
의 갯수
독립변수
종속변수독립변수독립변수
범주형 연속형
연속형 or
변수 2개 이상1개 2개 이상
범주형
범주형 연속
형
수준
짝
2 3이상
Covariat
e
혼합
Yes N
o
이분
명목,서열
(2수준)
명목
(3수준
이상)
Yes
No
2-sample
T-test
단순회귀분
석
One-way
ANOVA
ANOVA
(GLM)
다중회귀분
석
이분형
Logistic회
귀
카이제곱분
석
다중명목
Logistic회
귀
순서형
Logistic회
귀
정규성 정규성 정규성
Yes No Yes No Yes
No
GLM
(Covariate)
회귀분석
(dummy)
Wilcoxon
Mann-
Whitney
Kruskal-
Wallis
서열
(3수준
이상)
범주형
59. 추정
대립가설 검정
표본
대상
모비율 추정
모평균 추정
P값
모집단
방법
단측검정
양측검정
귀무가설
검정통계량
유의수준
비교
<추정과 검정>
실험, 관찰,
시행…
대상
모비율 검정
모평균 검정
표본추출
기각역
68. 검정결과
𝐻0의 실제 상태
𝐻0 = 참 𝐻0 = 거짓
𝐻0 채택 ○ 제2종 오류( 𝛽)
𝐻0 기각 제1종 오류( 𝛼) ○
𝛽𝛼
𝐻0 𝐻1
69. 추정
점 구간
표본
불편성
최소 분산 효율성
추정량모집단
신뢰구간
상충관계
추정구간의
크기
추정정보의
효과
모수
허용오차
90%
95%
99%
표본분포
평균 분산
확률변수
중심극한
정리
정규분포
모집단의 분포모양과는
상관없이 일정한 모양
71. 예) 4명의 학생들에게 자신이 좋아하는 학생 1명을 선택하라고 할 때, 자유롭게 선택할 수 있는 대상은 나를
제외한 3명
df = 4 - 1
= 3
자유도 = n -1
72. 번호
그룹
A B C
1 49 56 51
2 47 54 55
3 46 61 57
4 50 57 53
그룹 평균 48 57 54
번호
그룹
A B C
1 1 -1 -3
2 -1 -3 1
3 -2 4 3
4 2 0 -1
합 0 0 0
제약조건 k = 3 (3개 그룹)
df = 12 – 3 = 9
X − 𝑋 2
= 12
+ (−1)2
+
(−2)2
+ 22
+ (−1)2
+ (−3)2
+ 42
+
02
+ (−3)2
+ 12
32
+ (−1)2
= 56
불편분산 𝒔 𝟐
= 56/9
조건1
<표본> <그룹내 편차>
조건2 조건3
75. 귀무가설을 세운다1
‘내용량은 500ml이다’
• 모평균 𝜇 = 500
대립가설을 세운다2
‘내용량은 500ml가 아니다’
• 모평균 𝜇 ≠ 500
유의수준을 정한다3
• 유의수준 = 0.05 (5%)
검정통계랑이 따르는
분포를 확인한다
4
모집단분포가 정규분포이므로 검정통계량 T는
자유도 8의 t분포에 따른다.(앞의 t분포 참조)
• T =
561−500
1.80
9
= 1.67
기각역을 설정한다5
대립가설이 모평균 𝜇 ≠ 500이므로
양측검정시 기각역 ±5%부분은
‘기대값( 𝜇) ± 1.94 x 표본오차’이므로
• 기각역 = -2.31 > T, 2.31 < T
검정통계량의 값이
기각역에 있는지 확인한다
6
관측한 T값은 1.67은 기각역에 들어있지
않다.
• 관측값 T = 1.67
• 귀무가설은 기각할 수 없다.
• 즉, ‘내용량은 500ml이다’고 볼 수 있다.
76. 귀무가설을 세운다1
‘신제품을 먹어본 사람의 비율은 21%다’
• 모비율 R = 0.21
대립가설을 세운다2
‘신제품을 먹어본 사람의 비율은
21%보다 늘었다’
• 모비율 R > 0.21
유의수준을 정한다3
• 유의수준 = 0.05 (5%)
검정통계랑이 따르는
분포를 확인한다
4
검정통계량인 ‘먹어보았다‘는 인원수 X는 다음
정규분포를 따른다.
• 기대값 nR = 100 x 0.21 = 21
• 분산 nR(1-R) = 100 x 0.21(1-0.21) =
16.59
• 표본오차 = 16.59 = 4.07
기각역을 설정한다5
대립가설이 R>0.21이므로 단측검정시
기각역 5%부분은 ‘기대값( 𝜇) + 1.64 x
표본오차’이므로
• 기각역 = 27.7 < X
검정통계량의 값이
기각역에 있는지 확인한다
6
관측값 X는 29이므로 기각역에 들어있지
않다.
• 관측값 X = 29
• 귀무가설은 기각된다.
• 즉, ‘제품을 먹어본 사람의 비율은 21%보다 늘었다’고 볼 수
있다.
79. 구획 비료A 비료B 비료C
1 49 56 51
2 47 54 55
3 46 61 57
4 50 57 53
그룹평균 48 57 54
구획 A B C
1 -5 4 1
2 -5 4 1
3 -5 4 1
4 -5 4 1
<그룹간 편차
= 그룹평균 - 전체평균>
구획 A B C
1 1 -1 -3
2 -1 -3 1
3 -2 4 3
4 2 0 -1
<그룹 내 편차
= 개별 데이터 값 - 그룹평균>
Hinweis der Redaktion
확률변수 : 일정한 확률을 가지고 발생하는 사건에 수치를 부여한 것
확률변수 : 일정한 확률을 가지고 발생하는 사건에 수치를 부여한 것
확률변수 : 일정한 확률을 가지고 발생하는 사건에 수치를 부여한 것
확률변수 : 일정한 확률을 가지고 발생하는 사건에 수치를 부여한 것
확률변수 : 일정한 확률을 가지고 발생하는 사건에 수치를 부여한 것
확률변수 X의 사례 : 동전의 앞면이 나오는 경우, A의 키 등
상대도수(relative frequency)
a/n = 우리가 관심을 갖는 사건의 확률
어떤 사건이 나타날 확률은 실험을 무한에 가깝게 계속적으로 반복했을 때, 전체 시행횟수에서 그 사건이 나타나는 빈도수를 상대적으로 나타낸 것 (=대수의 법칙)
대수의 법칙
표본크기가 커질수록 표본평균의 분산은 작아짐. 즉, 확률밀도가 모평균으로 높아짐
모집단의 특성을 잘 알려면 가능한 큰 표본 추출
동전의 앞뒤면이 각각 나올 이론적인 확률 = 1:1
그러나 몇 번 던져서는 1:1이 안나옴 하지만 많이 던지면 던질수록 1:1로 수렴
확률변수 : 일정한 확률을 가지고 발생하는 사건에 수치를 부여한 것
신뢰구간 : P(점 추정치-허용오차=<모수=>점 추정치+허용오차) = 1-𝛼
점 추정(point estimation)
하나의 값으로 모수를 추정하는 과정
미지의 모수 𝜃를 추정하기 위한 추정량 T함수
구간 추정(interval estimation)
모수를 추정하기 위해 사용하는 값의 범위 또는 구간
신뢰구간(L, U) : L은 하한, U는 상한
확률변수 : 일정한 확률을 가지고 발생하는 사건에 수치를 부여한 것
신뢰구간 : P(점 추정치-허용오차=<모수=>점 추정치+허용오차) = 1-𝛼