SlideShare ist ein Scribd-Unternehmen logo
1 von 18
Downloaden Sie, um offline zu lesen
통계적 의사결정

                                                                신뢰구간(Confidence Interval)
                                                                   모평균을 포함할 것으로 기대되는 구간
        임상연구에 필요한 통계 분석                                            표본평균과 그 표준오차를 이용해 계산

                                                                검정(testing)
                                                                   표본평균이 모평균이라고 생각되는 값과 얼마나 일치하는지를 판단
                                                                   주장에 대한 가설(hypothesis)을 세우고 검정을 실시하기 때문에 가설검
                          고려대 의과대학 의학통계학교실                          정(hypothesis testing)이라 부름
                                                                   의견이 유의(有意)한지의 여부를 판단하기 때문에 유의성 검정
                           고려대 안암병원 임상시험센터                          (significance testing)이라 부름
                                            이지성                    유의하다(significant) vs. 유의하지 않다(non-significant)
                                totoro96@korea.ac.kr




                 가설(Hypothesis)                                                        오류 (error)
                                                                                                           Truth
   가설                                                                    Decision            H0 true                  H0 false
     모집단, 분포, 모수 등에 관한 어떤 주장이나 설명                                       Retain H0     Correct retention            Type II error
                                                                          Reject H0      Type I error              Correct rejection
   귀무가설(歸無假設, 영(零)가설, null hypothesis), H0
       현재 믿어지고 있는 상태                                           의사결정시 오류가 발생할 것임.
       원래의 상태
       아님(틀렸음)을 보이고자 하는 것                                      Type I error
       내가 보이고자 하는 주장(대립가설)을 증명할 수 없을 때 돌아가는 곳                     귀무가설이 사실인데도 불구하고 귀무가설을 기각하게 되는 오류
                                                                   제 1종 오류를 범하게 될 확률을 유의수준(significance level) 라 함.
                                                                   주로 로 표기 (0<  <1)
   대립가설(對立假設, 연구(硏究)가설, alternative hypothesis), H1 or Ha
                                                                Type II error
     연구를 통해 보이고자 하는 상황이나 새로운 주장
                                                                   귀무가설이 거짓인데도 불구하고 귀무가설을 채택하게 되는 오류
                                                                   주로 로 표기 (0<  <1)
                                                                Power (검정력)
                                                                   거짓인 귀무가설을 기각하게 되는 확률 (1-  )
                                                                                                                                       4
P‐value                                             가설검정의 절차
   귀무가설이 사실이라는 가정한 상황에서, 해당관찰결과를 또는 그보
                                                        검정절차
    다 더 극단적인 결과를 얻게 될 가능성을 의미함.                                                                (accept H0)
                                                                                               귀무가설 채택
                                                     가설설정            실험      가설검정       의사결정
   P-value가 크면?
                                                                                               대립가설 채택
     귀무가설이 사실이라는 가정하에서 이러한 현상이 발생할 가능성이 많                                                     (reject H0,
      다는 의미임.                                                     검정통계량과 기각역 이용     표본 이용      즉, accept H1)
     따라서 P-value >  이면 귀무가설 채택
                                                     ※ 순서:
   P-value가 작으면?                                        1.   가설 설정              상황파악
     귀무가설이 사실이라는 가정하에서 이러한 현상이 발생할 가능성이 낮               2.   검정통계량 계산
      다는 의미임.                                                                    도구준비
                                                         3.   기각역 설정             기준설정
     따라서 P-value <  이면 귀무가설 기각
                                                         4.   의사결정 및 해석          결론도출
   유의수준( )을 얼마로 할 것인가는 연구자가 분석 전에 미리 결정
                                                 5                                                         6




       통계적 검정 (statistical testing)                                          검정의 종류

   가설 설정                                               단일표본(one-sample)
     단측 검정(one-sided test)                               모집단의 10년 전 평균체중은 55kg이다. 10년이 지난 지금은 체중이 증가
     - 10년 전보다 평균체중이 증가했는가? (      : 10년 전 체중)                했는가?


                                                        짝진 표본(paired sample)
                                                          새로 개발된 수면제는 효과가 있는가? 수면제를 주기 전과 후의 수면시간
     양측 검정(two-sided test)                                   비교
     - 현재 평균체중과 10년 전 평균체중이 같은가? 아님 다른가?
                                                        두 표본(two samples)
                                                          새로 개발된 수면제는 효과가 있는가? 수면제 군과 위약 군의 수면시간 비
                                                              교


                                                        여러 집단(several groups)
                                                          연령대별로 수면시간이 차이가 있는가?

                                                 7                                                         8
‘개략적인’통계분석 방법의 구분
                                                                      결과                             원인
                                                            종속변수, 반응변수, Y                   독립변수, 설명변수, X

                                                                                                  하나: 단변량 - (univariate -)
                                                    하 나 : 단변수 분석(univariable analysis)
                                                                                                  여러 개: 다변량 - (multivariate -)
       연속형 자료에 대한 분석                                      단순 - (simple -)
                                                    여러 개: 다변수 분석(multivariable analysis)            종속(반응)변수, y
                                                          다중 - (multiple -)                    범주형           연속형
                                                                                           2 – 검정 (행 vs 열)      t-test
                                                                                           명목형 vs. 명목형        분산분석(ANOVA)
                                                                 독립(설명)변수, x      범주형      명목형 vs. 순서형        반복측정 분산분석
                                                                                           순서형 vs. 순서형
                                                      기타 특수한 경우의 분석방법들:                    로지스틱 회귀분석             회귀분석
                                                      상관분석, 생존분석, 시계열분석,          연속형 (logistic regression)    (Regression)
                                                      로그선형 분석, 비모수 분석,
                                                                                           로지스틱 회귀분석             회귀분석
                                                      다변량분석 방법들, 메타분석,              혼합     일반선형모형(GLM)          공분산분석
                                                      생동성 검정 등등………                                              (ANCOVA)

                                               9




               One‐sample T‐test                                 Example : one‐sample T‐test

   한 집단의 평균과 다른 기준값을 비교                                 삶의질-123.sav 자료를 가지고 평균 연령이 45세라는 가설을 검정해보
   다른 기준값 - 다른 연구결과에서 나온 값 또는 지금까지 알려져 온 값               자.

                                                         가설은 다음과 같이 쓸 수 있다.




     이 검정통계량은 귀무가설(모집단의 평균이 μ0이다)이 옳을 때, 자유
      도 n-1인 t 분포를 따른다.




                                               11                                                                             12
SPSS: one‐sample T‐test




                                                          Click




                          13




                                                   평균비교

                               Two‐sample t‐test          Paired t‐test




                                                                          16
Paired t‐test                                                      Paired t‐test
                                                                 예 1) 10쌍의 쌍둥이를 대상으로 A 약과 B 약의 효과를 비교
                                                                                 첫 번째 쌍 (A, B)
                                                                                 두 번째 쌍 (A, B)
                                                                                      ⋮
                                                                 예 2) 동일한 사람을 대상으로 특정 약의 효과 발견

                                                                                    약 투여
                                                                             전          ↓        후
                                                                          ------------------------------
                                                                             ●                   ●
                                                                             ●                   ●
                                                                              ⋮                   ⋮

                                                                 예 3) 동일한 사람의 신체 두 부위 비교

                                                                             좌                 우
                                                                         ---------------------------
                                                                            ●                  ●
                                                                            ●                  ●
                                                                             ⋮                  ⋮

                                                      17                                                   18




                    Paired t‐test                                              SPSS: Paired t‐test
   필요한 가정                                                    짝진 자료(paired data)의 경우, 자료입력 및 분석
     모집단에서 해당 변수는 특정 분산을 가진 정규분포에 따른다
                                                           자료: hgb.sav
     표본 수는 이 정규성 가정을 검토할 수 있을 정도로 충분히 크다
   이론적 배경
     만일 두 측정값들이 평균적으로 서로 동일하다면 해당 모집단에서 측정
        값들 짝의 차이에 대한 평균(d)은 0이 될 것
       따라서 짝진 t-검정은 차이에 대한 단일표본 t-검정 문제로 단순화
         모집단의 평균 차이에 대한 예상값은 0
       검정통계량: 차이값들의 표본평균( d )과 d(=0)간 차이에 근거한 표준화
        값
   기호
     자료가 짝이 지어져야 하는 특성 때문에 두 집단의 표본 수는 같아야 함
         n=각 집단의 표본 수
     d = n개 차이값들의 평균(즉, 평균 차이) / sd=차이값들의 표본표준편차


                                                      19                                                   20
SPSS: Paired t‐test                                       SPSS: Paired t‐test
                                                                 짝진 자료(paired data)의 경우, 분석결과




                                                                                                                      P‐value




                                                                               value 0 is not contained !
                                                                                                            significant
    Click

                                                         21                                                               22




               Paired t‐test의 비모수 방법                                          Two‐Sample t‐test 
   비모수적 방법(nonparametric method):
      t-test는 모집단이 정규분포에 따른다는 가정이 필요.
      sample size가 크거나 sample의 histogram이 대칭적이면 ok
      sample size가 작고 sample의 histogram이 비대칭이면, 비모수적인 방법(
            모집단의 분포를 가정하지 않음) 사용이 타당.


   Paired T-Test에 대응하는 비모수적인 방법:
      Wilcoxon의 부호순위 검정(signed-rank test)

   SPSS: 분석  비모수 검정  레거시 대화 상자  대응 2 - 표본 
    Wilcoxon(W) 선택

   비모수적 검정에서의 분석결과는???



                                                         23                                                               24
Sample Table                                                          Two‐Sample t test 
                                                                                                with Equal Variances
                                                                                  Ex) 당뇨병 환자와 정상인의 혈압(Systolic blood pressure) 비교
                                                                                     당뇨병환자(case)       114 120 120 128 130 135 138 140 141
                                                                                     정상인 (control)     110 112 112 118 120 122 125 130

                                                                                    가정
                                                                                      두 모집단은 정규분포를 따른다.
                                                                                      두 모집단은 서로 독립이다.
                                                                                      각 집단의 분산은 같다.
                                                                                    가설
                                                                                      귀무가설: 두 모집단의 평균은 같다. H 0 :  1   2
             P-value by Student’s t-test                                              대립가설: 두 모집단의 평균은 다르다. H 1 :  1   2
             P-value by two sample t-test                                           검정통계량
             P-value by two independent sample t-test                                                x1  x2             (n1  1) s12  (n2  1) s2
                                                                                                                                                  2

             etc.
                                                                                              t             , where s 
                                                                                                      1 1                      n1  n2  2
                                                                                                   s     
                                                                                                      n1 n2
                                                                           25                                                                         26




                   Two‐Sample t test                                                            SPSS : Normality test
                with Unequal Variances                                           자료탐색 (정규성)
                                                                                 자료: SBP.sav                                                           Click
   두 집단의 분산이 다를 경우, 검정통계량 (Satterthwaite’s
    Approximation)    x x
                   t 1 2
                      s12 s2
                           2
                         
                      n1 n2

   Strategy for testing for the equality of means in two independent
    normally distributed samples
             Significant Perform F test for the         Not significant
                         equality of two variances


    Perform t test assuming                      Perform t test assuming
    unequal variances                            equal variances

                                                                           27                                                                         28
SPSS : Normality test                               SPSS: Two sample t‐test




                                      29                                                                                                           30




Two sample t‐test: 분석방법

    


                                           p-값(유의확률) 0.356은
                                           유의수준()으로 설정된 H0 : 1   2       H0 : 1  2
                                                                  2   2
                                                                                                   p-값(유의확률) 0.013 (위의
                                           0.05보다 크므로, 따라서                                         것임)은 유의수준()으로 설
                                           귀무가설 채택. 즉, 두 집
                                                            H1 :1  2
                                                                 2    2
                                                                             H1 : 1  2 
                              번 결과                                                                정된 0.05보다 작으므로, 따라
                                           단의 분산은 같다고 볼 수                                          서 대립가설 채택. 즉, 두 집단
                                           있다. (등분산이 가정됨)                                          의 평균 SBP는 다르다고 볼
                                           따라서 결과의 두 줄 중                                           수 있다.
                                           위의 줄을 가지고 평균을
                                           비교하게 된다.                   Diabetes group       Control group
           
                                                                            n      Mean          SD     n   Mean        SD      P-value†
                                                                   SBP       8    130.75         9.75   8   118.63     7.03       0.013
                      Click                                    †   P-value by Student’s t-test
                                                                                                        P‐value by Student’s t‐test
                                                                                                        P‐value by two sample t‐test
                                                                                                        P‐value by two independent sample t‐test
                                                                                                        etc.
                                      31                                                                                                           32
Two sample t‐test의 비모수검정                                         일원분산분석(One‐way ANOVA)
   표본이 정규분포인 모집단에서 얻어졌다고 가정하기 힘든 경우:
     표본 수가 작은 경우 (30 이하?)
     표본 수가 크지만 히스토그램으로 살펴본 결과 대칭적이지 않은 경우

   비모수적 방법(nonparametric method) 사용 추천:
     비모수적 방법: 모집단의 분포가 정규분포라는 가정 대신, 단지 모집
      단의 자료가 연속형이고, 분포는 대칭적이라는 최소한의 가정만을 요
      구하는 통계적 방법. (자료 값 자체 대신 자료의 sign 이나 rank 를 사
      용한다.)
     분포가정이 약화되어 활용범위가 넓어지는 대신 효율성은 떨어짐

   두 독립표본 T-검정에 대응하는 비모수적인 방법:
     Mann-Whitney 의 U-검정(Wilcoxon의 순위합 검정, rank-sum test)

   SPSS: 분석  비모수 검정  레거시 대화 상자  독립 2-표본  검정
    변수와 집단변수 정의  집단 정의  Mann-Whitney U 선택

                                                             33                                                34




                     Sample Table                                       일원분산분석(One‐way ANOVA)
                                                                     연구목적
                                                                       관심이 있는 변수의 모평균이 독립적인 셋 이상의 집단 간에 서로 차이가
                                                                       있는가?
                                                                                H0: A=B =C vs. H1: not H0
                                                                     가정
                                                                       해당 변수는 각 집단 별로 정규분포를 따른다 (정규성).
                                                                       셋 이상의 집단의 분산은 서로 동일하다 (등분산성).
                                                                       표본의 수는 정규성 가정 및 등분산성 가정을 검토할 수 있을 정도로 충분
                                                                       히 크다.




                                                             35                                                36
분산분석의 이론적 배경                                                분산분석의 이론적 배경
   전체변동 (Total Variation)                                       이론적 배경 (계속)
     개별 반응값이 전체 평균으로부터 얼마나 퍼져 있나?                                  집단간 변동 ↑ & 집단내 변동 ↓
     전체변동 = 집단간 변동 + 집단내 변동                                        집단 간에 평균차이가 존재할 것이다.

   집단간 변동 (Between-group Variation)                                집단간 변동 ↓ & 집단내 변동 ↑
     전체 변동 중 모형에 의해 설명되어지는 변동                                      집단 간에 평균차이가 존재하지 않을 것이다.
     각 수준의 평균이 전체평균으로부터 얼마나 퍼져 있나?
                                                                    검정통계량 = 집단간 평균변동 / 집단내 평균변동
   집단내 변동 (Within-group Variation)                                 검정통계량 ↑ ⇔ 집단 간 평균차이가 유의할 가능성 ↑
     전체 변동 중 모형에 의해서 설명되어지지 않는 변동
     개별 반응값이 각 수준의 평균으로부터 얼마나 퍼져 있나?




                                                         37                                                    38




           분산분석표 (ANOVA table)                                           사후검정 혹은 다중비교

   귀무가설: 모든 집단의 모평균은 동일하다.                                   세 집단의 평균을 비교 - 분산분석 결과
   대립가설: 적어도 한 집단의 모평균은 다른 집단들과 다르다.
                                                                             H0: A=B =C vs. H1: not H0
          분산의 요인       제곱합    자유도 평균제곱         분산비
                                                              P>0.05라면 “처리간의 차이가 없다”고 결론, 분석 끝.
       처리(Treatment)    SST    k-1     MST   F=MST/MSE        P<0.05일 때에는?
       오차(Error)        SSE    N-k     MSE                    → “세 집단의 평균이 모두 다 같지는 않다”
       전체(Total)        TSS    N-1                              “세 집단 중 다른 집단이 적어도 하나는 있다”
                                                              → “구체적으로 어떤 집단들간에 차이가 있는지”?

F-검정: k개 집단들 간 반응변수의 모평균 값들이 차이가 있는지를 검정
                                                                  세 집단 중 서로 다른 집단들을 찾는 방법 : 두 집단씩 세 번의 t 검정?
                                                                  분산분석과정을 거칠 필요없이, 처음부터 t 검정




                                                         39                                                    40
세 번의 검정을 하지 않고 분산분석을 하는 이유
                                                   상호독립이 아닌 k 번의 t 검정이 반복
                                                 → 각 검정의 실제 유의수준은 ´ = 1-(1- )k
“한 가지 실험에서 얻은 자료들은 한 가지 가설을 위해 존재한다”
“한 집단의 자료들은 한 번의 검정에만 사용되어야 한다”
                                                 예. 유의수준 0.05로 세 번의 t 검정이 반복
                                                   → 실제 유의수준이 약 0.14(=1-(1-0.05)3)
동일한 자료가 여러 번의 검정에 반복적으로 사용되면 그 검정들은 서로             → 가설을 잘못 기각하게 될 가능성이 훨씬 높아진다
독립이 되지 않는다.
                                                   → 세 번의 t 검정에서의 얻은 P 값을, 약 3배(≒0.14/0.05)해준 값이 정확한 P 값

검정들이 서로 독립이 아닐 때의 문제점
                                                  실제 유의수준 ´ 를 사용하여 구체적인 각 집단간의 차이를 검정하는
                                                  방법: 다중비교 (multiple comparison)
유의수준이 처음 정했던 값()보다 커진다

                                                              LSD, Duncan, Tukey, Scheffe, …

                                                           Liberal                     Conservative




                                            41                                                        42




              SPSS: 분산분석                                             SPSS: 분산분석
   예) 24명의 환자를 대상으로 네 가지 종류의 물리치료기구의 성능을
    비교한 자료




                                            43                                                        44
1. 기술통계
                                                                                                           4. 다중비교




2. 분산 동질성검정                                   3. 분산분석결과




                                                                                                                                                               46




   ANOVA 결과 및 다중비교 결과의 표현방법 예                                                                                분산분석에 대응하는 비모수적 방법
• 방법 1
                                                                                                             Kruskal-Wallis 검정

  Group                     A1               A2              A3               A4          P-value**           SPSS: 분석  비모수 검정  레거시 대화 상자  독립 K-표본  검정변수와 집단
                                                                                                              변수 정의  범위 지정  Kruskal-Wallis의 H 선택
  Effect*               75.7ab±8.4      78.8ab±6.9       69.2a±9.4       87.5b±5.0          0.004
 * mean±SD
 ** P-value   is for one-way analysis of variance (or ANOVA).
 a, b Same   letters indicate no statistical significance based on Tukey’s multiple comparison.

• 방법 2
  Group                     A1               A2              A3               A4          P-value**
  Effect*                75.7±8.4        78.8±6.9        69.2a±9.4       87.5a±5.0          0.004
 * mean±SD
 ** P-value  is for one-way analysis of variance (or ANOVA).
 a Same   letters indicate statistical significance based on Tukey’s multiple comparison.




                                                                                                      47                                                       48
Kruskal‐Wallis test에 대한 다중비교




                                                이 변수를 이용해서
                                                ANOVA분석실시



                                                             49




                   공분산분석
        (Analysis of covariance: ANCOVA)
                                                                  SPSS dataset

   공분산분석: 실험의 정밀도를 높이기 위해, 비교집단들 간에 존재하는
    차이 중, 공변량(연속형 변수)에 기인하는 근본적인 차이의 효과를 제
    거한 뒤 집단들을 비교하는 방법

     EX) 도시사립초등학교와 시골공립초등학교 학생들의 키에 대한 비교연
      구를 통해 환경에 따른 영양상태의 차이를 파악하고자 한다.
       키와 나이(개월) 간에는 강한 상관관계가 존재하므로 나이라는 공변
        량을 모형에 포함시킨다.

     유사실험연구에서 3그룹(New treatment/Active control/Placebo)간의
      심리점수를 비교하고자 한다.




                                                             51                  52
분산분석을 한 경우                                         SPSS: 공분산분석




                                                     귀무가설을 기각할 수 있다.

                                                                          53                                54




                                                                                             (Crude Mean)




                                                                                         (Adjusted Mean)




Group                 Placebo       Treatment=A   Treatment=B   P-value
Score*                12.3±5.3          5.3±4.6     6.1±6.2     0.030†
Score**               10.2±1.3          6.7±1.3     6.8±1.3     0.138‡
* mean±SD
† P‐value by ANOVA

** Adjusted mean±SE
‡ P‐value by ANCOVA adjusted baseline score




                                                                          55                                56
‘개략적인’통계분석 방법의 구분
                                                                         결과                             원인
                                                               종속변수, 반응변수, Y                   독립변수, 설명변수, X

                                                                                                     하나: 단변량 - (univariate -)
                                                       하 나 : 단변수 분석(univariable analysis)
                                                                                                     여러 개: 다변량 - (multivariate -)
        범주형 자료에 대한 분석                                        단순 - (simple -)
                                                       여러 개: 다변수 분석(multivariable analysis)            종속(반응)변수, y
                                                             다중 - (multiple -)                    범주형           연속형
                                                                                              2 – 검정 (행 vs 열)      t-test
                                                                                              명목형 vs. 명목형        분산분석(ANOVA)
                                                                    독립(설명)변수, x      범주형      명목형 vs. 순서형        반복측정 분산분석
                                                                                              순서형 vs. 순서형
                                                         기타 특수한 경우의 분석방법들:                    로지스틱 회귀분석             회귀분석
                                                         상관분석, 생존분석, 시계열분석,          연속형 (logistic regression)    (Regression)
                                                         로그선형 분석, 비모수 분석,
                                                                                              로지스틱 회귀분석             회귀분석
                                                         다변량분석 방법들, 메타분석,              혼합     일반선형모형(GLM)          공분산분석
                                                         생동성 검정 등등………                                              (ANCOVA)

                                                  57




      두 범주형 변수들간 연관성 검정                                         두 범주형 변수들간 연관성 검정
   동질성 검정(Homogeneity test)                                독립성 검정(Independence test)
     표본 수가 한 변수의 각 수준에 대해 미리 정해지는 경우                         전체 표본수가 정해지는 경우
     이 때 보고자 하는 것은 다른 변수에 대한 위 변수의 각 수준별 반응 분포               이때 보고자 하는 것은 두 변수가 서로 관련이 없는가(즉, 서로 독립인가?)
      가 동일한가?
                                                             (예) 교육수준과 소득수준은 서로 관련이 없는가, 즉, 서로 독립인가?
    (예) 각 병원별 외과수술환자들의 사망률은 모두 동일한가?
                                                                                   소득수준
              외과수술 결과
                                                               교육수준        상          중         하
        병원    사망    생존     Total
                                                                 대졸        255        105       81
         A    130   1970   2100
                                                                 고졸        110        92        66
         B     90   710    800
                                                                 중졸        90         113       88
         C    120   1380   1500

                                                             동질성 검정이든 독립성 검정이든 상관없이 모두 카이제곱 검정이라는 것을
                                                             사용함.

                                                             귀무가설: 두 범주형 변수간에 관련성이 없다(즉, 두 변수는 서로 독립이다).

                                                  59                                                                             60
예방접종                        인플루엔자
                         Chi‐Square Test                                                                                  (exposure)       Case(=걸림)     Control(안 걸림)        Total

   A 22 Contingency table : a table composed of two rows cross-                                                         맞지 않음                   80           140             220
                                                                                                                             맞음                   20           220             240
    classified by two columns
                                                                                                                             Total            100              360             460
   예:      예방접종                  인플루엔자
           (exposure)   Case(=걸림)    Control(안 걸림)                  Total                                     H0: 예방접종 유무와 인플루엔자에 걸리게 될 사건은 독립이다.
           맞지 않음            n11               n12                       n1+                                   H1: 두 사건은 서로 관련이 있다.
             맞음             n21               n22                       n2+
                                                                                                               (귀무가설이 사실이라는 가정하에서) 기대빈도 계산
             Total          n+1               n+2                       n
                                                                                                                                                       인플루엔자
                                                                                                                 예방접종
                                                                                                                (exposure)              Case(=걸림)             Control(안 걸림)             Total
      예방접종여부와 인플루엔자 감염여부는 서로 독립적인가 아니면 서로 관련이 있는가?
      만일 관련이 있다면, 예방접종을 받지 않으면 인플루엔자에 걸릴 위험이 증가하는가?                                                            맞지 않음                100×220/460=47.83      360×220/460=172.17           220
      그렇다면 그 위험의 크기는 얼마나 되는가?                                                                                    맞음                 100×240/460=52.17      360×240/460=187.83           240

   Pearson’s chi-square statistic  2   O  E 
                                          2    2              2     2
                                                                   
                                                                         2     n
                                                                                ij    Eij 
                                                                                           2

                                                                                               ~ 12
                                                                                                                  Total                     100                      360                 460
                                         i 1 j 1    E            i 1 j 1         Eij                        카이제곱 검정통계량
                                                     ni   n j
                                     where Eij                                                                        (80  47.83) 2 (140  172.17) 2 (20  52.17) 2 (220  187.83) 2
                                                          n                                                     2                                                                  53.01 ~ 12
                                                                                                                           47.83          172.17           52.17          187.83
      위의 검정통계량은 모든 칸에 대해서 기대빈도(mij)가 모두 5이상이어야 타당함.
      각 칸의 관찰빈도(O)와 이에 해당하는 기대빈도 간의 차이가 크면 클수록 두 집                                                            기각역: Reject H0 if χ2 > 3.84 (p-value=<.001)
         단의 비율은 다르다는 것을 의미.                                                                                    결론: p-value = <.001 <  = 0.05  reject H0 두 사건은 독립이 아니다.
                                                                                                       61                                                                                              62




                                                                                                            행에는 ‘예방접종’을, 열에는 ‘인플루엔자’를 선택한다.
                     SPSS: Chi‐Square Test                                                                  통계량 버튼을 눌러서 카이제곱을 선택하고, 셀 버튼을 눌러서 퍼센트들을 선택한다.




                                                                                                       63                                                                                              64
관찰빈도(observed frequency)=80                                  카이제곱 검정의 타당성
                                                         ‐ 예방접종의 % = 36.4% = 80/220
                                                         ‐ 인플루엔자의 % = 80.0% = 80/100
                                                         ‐ 전체 % = 17.4% = 80/460를 각각 의미함                  카이제곱검정의 타당성
                                                                                                              2×2 분할표의 경우 (n은 Total number of observation)
                                                                                                                 n > 40 또는
                                                         P‐value    p‐값(유의확률) <.001은 유의
                                                                                                                 20 < n < 40이면서, 각 칸의 기대빈도(expected frequency)가 모두 5 이
                                                                    수준()으로 설정된 0.05보다                             상일 때
                                                                    작으므로, 따라서 귀무가설                            r×c 분할표의 경우:
                                                                    기각. 즉, 예방접종 여부와 인                            기대빈도가 5이하인 칸이 전체 칸의 20%이하이고, 1보다 작은 기대빈
                                                                    플루엔자 여부는 관련이 있                                 도를 가지는 칸이 없을 때
                                                                    다고 볼 수 있다.
                                                                                                          자료가 위의 타당성 조건을 만족시키지 못할 때:
                                                                                                              해당 행이나 열을 합하여 위의 조건들을 만족시키도록 함.
                                      인플루엔자 걸림             인플루엔자 안 걸림
                                                                                                              다음과 같은 경우에는 Fisher의 정확검정(Fisher’s exact test)을 사용함.
                                                                                                                n < 20 또는
         예방접종                          n     (%)             n           (%)             P‐value†
                                                                                                                20 < n < 40이면서, 각 칸의 기대빈도 중 제일 작은 것이 5 이하일 때
           맞지않음                        80   (36.4)          140         (63.6)            <.001
           맞음                          20    (8.3)          220         (91.7)
     †   P-value by Chi-square test

                                                                                                    65                                                                66




                               Fisher’s Exact Test                                                                    SPSS : Fisher’s exact test
                                                                                                         자료: FatComp.sav
   Data concerning the possible association between high fat diet and the 
    risk of coronary heart disease
                                                   Heart Disease
                    Exposure                    Yes                No            Total
                    High Cholesterol Diet          11              4              15
                    Low Cholesterol Diet             2             6              8
                              Total                13              10             23


      기대빈도 E11=13(8)/23=4.52,  E21=10(8)/23=3.48
      Two of the four cells have expected values less than 5. 즉, Data가 small 또는
           zero cell count를 포함하고 있는 경우, 카이제곱 검정은 타당하지 않음.

      Fisher의 정확검정(Fisher’s exact test)을 사용


                                                                                                    67                                                                68
Chi-square test


                                                                                                Thank you for your attention
Fisher’s exact test




                                              CHD=Yes           CHD=No

         Diet                             n         (%)     n        (%)       P‐value†
                High                      11       (73.3)   4       (26.7)       0.039
                Low                       2        (25.0)   6       (75.0)
     †   P‐value by Fisher’s exact test
                                                                                           69                                  70

Weitere ähnliche Inhalte

Was ist angesagt?

Logistic regression (blyth 2006) (simplified)
Logistic regression (blyth 2006) (simplified)Logistic regression (blyth 2006) (simplified)
Logistic regression (blyth 2006) (simplified)MikeBlyth
 
Mathematical Expectation And Variance
Mathematical Expectation And VarianceMathematical Expectation And Variance
Mathematical Expectation And VarianceDataminingTools Inc
 
Chapter 6 part2-Introduction to Inference-Tests of Significance, Stating Hyp...
Chapter 6 part2-Introduction to Inference-Tests of Significance,  Stating Hyp...Chapter 6 part2-Introduction to Inference-Tests of Significance,  Stating Hyp...
Chapter 6 part2-Introduction to Inference-Tests of Significance, Stating Hyp...nszakir
 
Application of ordinal logistic regression in the study of students’ performance
Application of ordinal logistic regression in the study of students’ performanceApplication of ordinal logistic regression in the study of students’ performance
Application of ordinal logistic regression in the study of students’ performanceAlexander Decker
 
Lecture2 hypothesis testing
Lecture2 hypothesis testingLecture2 hypothesis testing
Lecture2 hypothesis testingo_devinyak
 
Inferential statictis ready go
Inferential statictis ready goInferential statictis ready go
Inferential statictis ready goMmedsc Hahm
 
Multiple Linear Regression
Multiple Linear RegressionMultiple Linear Regression
Multiple Linear RegressionIndus University
 
Logistic regression with SPSS
Logistic regression with SPSSLogistic regression with SPSS
Logistic regression with SPSSLNIPE
 
Introduction to Bayesian Methods
Introduction to Bayesian MethodsIntroduction to Bayesian Methods
Introduction to Bayesian MethodsCorey Chivers
 
Simple Linier Regression
Simple Linier RegressionSimple Linier Regression
Simple Linier Regressiondessybudiyanti
 
The Wishart and inverse-wishart distribution
 The Wishart and inverse-wishart distribution The Wishart and inverse-wishart distribution
The Wishart and inverse-wishart distributionPankaj Das
 
Logistic Regression.ppt
Logistic Regression.pptLogistic Regression.ppt
Logistic Regression.ppthabtamu biazin
 
Basics of Regression analysis
 Basics of Regression analysis Basics of Regression analysis
Basics of Regression analysisMahak Vijayvargiya
 
Basic of Statistical Inference Part-III: The Theory of Estimation from Dexlab...
Basic of Statistical Inference Part-III: The Theory of Estimation from Dexlab...Basic of Statistical Inference Part-III: The Theory of Estimation from Dexlab...
Basic of Statistical Inference Part-III: The Theory of Estimation from Dexlab...Dexlab Analytics
 
Mean Squared Error (MSE) of an Estimator
Mean Squared Error (MSE) of an EstimatorMean Squared Error (MSE) of an Estimator
Mean Squared Error (MSE) of an EstimatorSuruchi Somwanshi
 
Maximum likelihood estimation
Maximum likelihood estimationMaximum likelihood estimation
Maximum likelihood estimationzihad164
 

Was ist angesagt? (20)

Logistic regression (blyth 2006) (simplified)
Logistic regression (blyth 2006) (simplified)Logistic regression (blyth 2006) (simplified)
Logistic regression (blyth 2006) (simplified)
 
Normal Distribution
Normal DistributionNormal Distribution
Normal Distribution
 
Mathematical Expectation And Variance
Mathematical Expectation And VarianceMathematical Expectation And Variance
Mathematical Expectation And Variance
 
Chapter 6 part2-Introduction to Inference-Tests of Significance, Stating Hyp...
Chapter 6 part2-Introduction to Inference-Tests of Significance,  Stating Hyp...Chapter 6 part2-Introduction to Inference-Tests of Significance,  Stating Hyp...
Chapter 6 part2-Introduction to Inference-Tests of Significance, Stating Hyp...
 
Application of ordinal logistic regression in the study of students’ performance
Application of ordinal logistic regression in the study of students’ performanceApplication of ordinal logistic regression in the study of students’ performance
Application of ordinal logistic regression in the study of students’ performance
 
Lecture2 hypothesis testing
Lecture2 hypothesis testingLecture2 hypothesis testing
Lecture2 hypothesis testing
 
Inferential statictis ready go
Inferential statictis ready goInferential statictis ready go
Inferential statictis ready go
 
Multiple Linear Regression
Multiple Linear RegressionMultiple Linear Regression
Multiple Linear Regression
 
On p-values
On p-valuesOn p-values
On p-values
 
Logistic regression with SPSS
Logistic regression with SPSSLogistic regression with SPSS
Logistic regression with SPSS
 
Mixed models
Mixed modelsMixed models
Mixed models
 
Introduction to Bayesian Methods
Introduction to Bayesian MethodsIntroduction to Bayesian Methods
Introduction to Bayesian Methods
 
Simple Linier Regression
Simple Linier RegressionSimple Linier Regression
Simple Linier Regression
 
The Wishart and inverse-wishart distribution
 The Wishart and inverse-wishart distribution The Wishart and inverse-wishart distribution
The Wishart and inverse-wishart distribution
 
Logistic Regression.ppt
Logistic Regression.pptLogistic Regression.ppt
Logistic Regression.ppt
 
Logistic regression
Logistic regressionLogistic regression
Logistic regression
 
Basics of Regression analysis
 Basics of Regression analysis Basics of Regression analysis
Basics of Regression analysis
 
Basic of Statistical Inference Part-III: The Theory of Estimation from Dexlab...
Basic of Statistical Inference Part-III: The Theory of Estimation from Dexlab...Basic of Statistical Inference Part-III: The Theory of Estimation from Dexlab...
Basic of Statistical Inference Part-III: The Theory of Estimation from Dexlab...
 
Mean Squared Error (MSE) of an Estimator
Mean Squared Error (MSE) of an EstimatorMean Squared Error (MSE) of an Estimator
Mean Squared Error (MSE) of an Estimator
 
Maximum likelihood estimation
Maximum likelihood estimationMaximum likelihood estimation
Maximum likelihood estimation
 

Andere mochten auch

체계적 문헌고찰과 메타분석
체계적 문헌고찰과 메타분석체계적 문헌고찰과 메타분석
체계적 문헌고찰과 메타분석mothersafe
 
통계적방법론발표Ppt Kmlikejy
통계적방법론발표Ppt Kmlikejy통계적방법론발표Ppt Kmlikejy
통계적방법론발표Ppt Kmlikejyhyun
 
(마더세이프라운드) 임상연구에 필요한 기초 통계
(마더세이프라운드) 임상연구에 필요한 기초 통계 (마더세이프라운드) 임상연구에 필요한 기초 통계
(마더세이프라운드) 임상연구에 필요한 기초 통계 mothersafe
 
12.세표본 이상의 평균비교
12.세표본 이상의 평균비교12.세표본 이상의 평균비교
12.세표본 이상의 평균비교Yoonwhan Lee
 
The two sample t-test
The two sample t-testThe two sample t-test
The two sample t-testChristina K J
 
11.두표본의 평균비교
11.두표본의 평균비교11.두표본의 평균비교
11.두표본의 평균비교Yoonwhan Lee
 
Factorial design
Factorial designFactorial design
Factorial designGaurav Kr
 
R 기초 : R Basics
R 기초 : R BasicsR 기초 : R Basics
R 기초 : R BasicsYoonwhan Lee
 
00.통계학입문
00.통계학입문00.통계학입문
00.통계학입문Yoonwhan Lee
 
통계자료 분석을 위한 R
통계자료 분석을 위한 R통계자료 분석을 위한 R
통계자료 분석을 위한 RYoonwhan Lee
 
Two-Way ANOVA Overview & SPSS interpretation
Two-Way ANOVA Overview & SPSS interpretationTwo-Way ANOVA Overview & SPSS interpretation
Two-Way ANOVA Overview & SPSS interpretationSr Edith Bogue
 
What is a Factorial ANOVA?
What is a Factorial ANOVA?What is a Factorial ANOVA?
What is a Factorial ANOVA?Ken Plummer
 
Analysis of variance (ANOVA)
Analysis of variance (ANOVA)Analysis of variance (ANOVA)
Analysis of variance (ANOVA)Sneh Kumari
 
Shlideshare
ShlideshareShlideshare
Shlidesharehyun
 

Andere mochten auch (16)

체계적 문헌고찰과 메타분석
체계적 문헌고찰과 메타분석체계적 문헌고찰과 메타분석
체계적 문헌고찰과 메타분석
 
통계적방법론발표Ppt Kmlikejy
통계적방법론발표Ppt Kmlikejy통계적방법론발표Ppt Kmlikejy
통계적방법론발표Ppt Kmlikejy
 
(마더세이프라운드) 임상연구에 필요한 기초 통계
(마더세이프라운드) 임상연구에 필요한 기초 통계 (마더세이프라운드) 임상연구에 필요한 기초 통계
(마더세이프라운드) 임상연구에 필요한 기초 통계
 
Factorial anova
Factorial anovaFactorial anova
Factorial anova
 
12.세표본 이상의 평균비교
12.세표본 이상의 평균비교12.세표본 이상의 평균비교
12.세표본 이상의 평균비교
 
The two sample t-test
The two sample t-testThe two sample t-test
The two sample t-test
 
11.두표본의 평균비교
11.두표본의 평균비교11.두표본의 평균비교
11.두표본의 평균비교
 
Factorial design
Factorial designFactorial design
Factorial design
 
R 기초 : R Basics
R 기초 : R BasicsR 기초 : R Basics
R 기초 : R Basics
 
00.통계학입문
00.통계학입문00.통계학입문
00.통계학입문
 
통계자료 분석을 위한 R
통계자료 분석을 위한 R통계자료 분석을 위한 R
통계자료 분석을 위한 R
 
Two-Way ANOVA Overview & SPSS interpretation
Two-Way ANOVA Overview & SPSS interpretationTwo-Way ANOVA Overview & SPSS interpretation
Two-Way ANOVA Overview & SPSS interpretation
 
What is a Factorial ANOVA?
What is a Factorial ANOVA?What is a Factorial ANOVA?
What is a Factorial ANOVA?
 
Analysis of Variance (ANOVA)
Analysis of Variance (ANOVA)Analysis of Variance (ANOVA)
Analysis of Variance (ANOVA)
 
Analysis of variance (ANOVA)
Analysis of variance (ANOVA)Analysis of variance (ANOVA)
Analysis of variance (ANOVA)
 
Shlideshare
ShlideshareShlideshare
Shlideshare
 

Mehr von mothersafe

장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주
장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주
장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주mothersafe
 
Safety of Mebendazole Use During Lactation
Safety of Mebendazole Use During LactationSafety of Mebendazole Use During Lactation
Safety of Mebendazole Use During Lactationmothersafe
 
Breastfeeding domeperiodne
Breastfeeding domeperiodneBreastfeeding domeperiodne
Breastfeeding domeperiodnemothersafe
 
(마더리스크라운드) Breastfeeding
(마더리스크라운드) Breastfeeding (마더리스크라운드) Breastfeeding
(마더리스크라운드) Breastfeeding mothersafe
 
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수mothersafe
 
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선mothersafe
 
Antiepileptics in pregnancy
Antiepileptics in pregnancyAntiepileptics in pregnancy
Antiepileptics in pregnancymothersafe
 
(마더리스크라운드) Diclectin in NVP / 한정열 교수
(마더리스크라운드) Diclectin in NVP / 한정열 교수(마더리스크라운드) Diclectin in NVP / 한정열 교수
(마더리스크라운드) Diclectin in NVP / 한정열 교수mothersafe
 
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수mothersafe
 
(마더리스크라운드) Developmental programming
(마더리스크라운드) Developmental programming (마더리스크라운드) Developmental programming
(마더리스크라운드) Developmental programming mothersafe
 
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancymothersafe
 
(마더리스크 라운드) 임신 중 운동 exercise in pregnancy
(마더리스크 라운드) 임신 중 운동 exercise in pregnancy(마더리스크 라운드) 임신 중 운동 exercise in pregnancy
(마더리스크 라운드) 임신 중 운동 exercise in pregnancymothersafe
 
Smoking in pregnancy
Smoking in pregnancySmoking in pregnancy
Smoking in pregnancymothersafe
 
(마더리스크라운드) Thyroid Disease in Pregnancy
(마더리스크라운드) Thyroid Disease in Pregnancy(마더리스크라운드) Thyroid Disease in Pregnancy
(마더리스크라운드) Thyroid Disease in Pregnancymothersafe
 
ECV 역아회전술- 한정열 단국대 의대 교수
ECV 역아회전술- 한정열 단국대 의대 교수ECV 역아회전술- 한정열 단국대 의대 교수
ECV 역아회전술- 한정열 단국대 의대 교수mothersafe
 
2016 마더세이프 사업미팅
2016 마더세이프 사업미팅2016 마더세이프 사업미팅
2016 마더세이프 사업미팅mothersafe
 
임산부 영양상담
임산부 영양상담임산부 영양상담
임산부 영양상담mothersafe
 
(마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수
 (마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수 (마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수
(마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수mothersafe
 
(마더리스크라운드) 임신 중 천식
(마더리스크라운드) 임신 중 천식(마더리스크라운드) 임신 중 천식
(마더리스크라운드) 임신 중 천식mothersafe
 
(마더리스크라운드) 임신 중 알콜 - fasd
(마더리스크라운드) 임신 중 알콜 - fasd(마더리스크라운드) 임신 중 알콜 - fasd
(마더리스크라운드) 임신 중 알콜 - fasdmothersafe
 

Mehr von mothersafe (20)

장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주
장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주
장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주
 
Safety of Mebendazole Use During Lactation
Safety of Mebendazole Use During LactationSafety of Mebendazole Use During Lactation
Safety of Mebendazole Use During Lactation
 
Breastfeeding domeperiodne
Breastfeeding domeperiodneBreastfeeding domeperiodne
Breastfeeding domeperiodne
 
(마더리스크라운드) Breastfeeding
(마더리스크라운드) Breastfeeding (마더리스크라운드) Breastfeeding
(마더리스크라운드) Breastfeeding
 
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수
 
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선
 
Antiepileptics in pregnancy
Antiepileptics in pregnancyAntiepileptics in pregnancy
Antiepileptics in pregnancy
 
(마더리스크라운드) Diclectin in NVP / 한정열 교수
(마더리스크라운드) Diclectin in NVP / 한정열 교수(마더리스크라운드) Diclectin in NVP / 한정열 교수
(마더리스크라운드) Diclectin in NVP / 한정열 교수
 
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수
 
(마더리스크라운드) Developmental programming
(마더리스크라운드) Developmental programming (마더리스크라운드) Developmental programming
(마더리스크라운드) Developmental programming
 
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy
 
(마더리스크 라운드) 임신 중 운동 exercise in pregnancy
(마더리스크 라운드) 임신 중 운동 exercise in pregnancy(마더리스크 라운드) 임신 중 운동 exercise in pregnancy
(마더리스크 라운드) 임신 중 운동 exercise in pregnancy
 
Smoking in pregnancy
Smoking in pregnancySmoking in pregnancy
Smoking in pregnancy
 
(마더리스크라운드) Thyroid Disease in Pregnancy
(마더리스크라운드) Thyroid Disease in Pregnancy(마더리스크라운드) Thyroid Disease in Pregnancy
(마더리스크라운드) Thyroid Disease in Pregnancy
 
ECV 역아회전술- 한정열 단국대 의대 교수
ECV 역아회전술- 한정열 단국대 의대 교수ECV 역아회전술- 한정열 단국대 의대 교수
ECV 역아회전술- 한정열 단국대 의대 교수
 
2016 마더세이프 사업미팅
2016 마더세이프 사업미팅2016 마더세이프 사업미팅
2016 마더세이프 사업미팅
 
임산부 영양상담
임산부 영양상담임산부 영양상담
임산부 영양상담
 
(마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수
 (마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수 (마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수
(마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수
 
(마더리스크라운드) 임신 중 천식
(마더리스크라운드) 임신 중 천식(마더리스크라운드) 임신 중 천식
(마더리스크라운드) 임신 중 천식
 
(마더리스크라운드) 임신 중 알콜 - fasd
(마더리스크라운드) 임신 중 알콜 - fasd(마더리스크라운드) 임신 중 알콜 - fasd
(마더리스크라운드) 임신 중 알콜 - fasd
 

(마더세이프라운드)임상연구에 필요한 통계 분석

  • 1. 통계적 의사결정  신뢰구간(Confidence Interval)  모평균을 포함할 것으로 기대되는 구간 임상연구에 필요한 통계 분석  표본평균과 그 표준오차를 이용해 계산  검정(testing)  표본평균이 모평균이라고 생각되는 값과 얼마나 일치하는지를 판단  주장에 대한 가설(hypothesis)을 세우고 검정을 실시하기 때문에 가설검 고려대 의과대학 의학통계학교실 정(hypothesis testing)이라 부름  의견이 유의(有意)한지의 여부를 판단하기 때문에 유의성 검정 고려대 안암병원 임상시험센터 (significance testing)이라 부름 이지성  유의하다(significant) vs. 유의하지 않다(non-significant) totoro96@korea.ac.kr 가설(Hypothesis) 오류 (error) Truth  가설 Decision H0 true H0 false  모집단, 분포, 모수 등에 관한 어떤 주장이나 설명 Retain H0 Correct retention Type II error Reject H0 Type I error Correct rejection  귀무가설(歸無假設, 영(零)가설, null hypothesis), H0  현재 믿어지고 있는 상태  의사결정시 오류가 발생할 것임.  원래의 상태  아님(틀렸음)을 보이고자 하는 것  Type I error  내가 보이고자 하는 주장(대립가설)을 증명할 수 없을 때 돌아가는 곳  귀무가설이 사실인데도 불구하고 귀무가설을 기각하게 되는 오류  제 1종 오류를 범하게 될 확률을 유의수준(significance level) 라 함.  주로 로 표기 (0<  <1)  대립가설(對立假設, 연구(硏究)가설, alternative hypothesis), H1 or Ha  Type II error  연구를 통해 보이고자 하는 상황이나 새로운 주장  귀무가설이 거짓인데도 불구하고 귀무가설을 채택하게 되는 오류  주로 로 표기 (0<  <1)  Power (검정력)  거짓인 귀무가설을 기각하게 되는 확률 (1-  ) 4
  • 2. P‐value 가설검정의 절차  귀무가설이 사실이라는 가정한 상황에서, 해당관찰결과를 또는 그보  검정절차 다 더 극단적인 결과를 얻게 될 가능성을 의미함. (accept H0) 귀무가설 채택 가설설정 실험 가설검정 의사결정  P-value가 크면? 대립가설 채택  귀무가설이 사실이라는 가정하에서 이러한 현상이 발생할 가능성이 많 (reject H0, 다는 의미임. 검정통계량과 기각역 이용 표본 이용 즉, accept H1)  따라서 P-value >  이면 귀무가설 채택 ※ 순서:  P-value가 작으면? 1. 가설 설정 상황파악  귀무가설이 사실이라는 가정하에서 이러한 현상이 발생할 가능성이 낮 2. 검정통계량 계산 다는 의미임. 도구준비 3. 기각역 설정 기준설정  따라서 P-value <  이면 귀무가설 기각 4. 의사결정 및 해석 결론도출  유의수준( )을 얼마로 할 것인가는 연구자가 분석 전에 미리 결정 5 6 통계적 검정 (statistical testing) 검정의 종류  가설 설정  단일표본(one-sample)  단측 검정(one-sided test)  모집단의 10년 전 평균체중은 55kg이다. 10년이 지난 지금은 체중이 증가 - 10년 전보다 평균체중이 증가했는가? ( : 10년 전 체중) 했는가?  짝진 표본(paired sample)  새로 개발된 수면제는 효과가 있는가? 수면제를 주기 전과 후의 수면시간  양측 검정(two-sided test) 비교 - 현재 평균체중과 10년 전 평균체중이 같은가? 아님 다른가?  두 표본(two samples)  새로 개발된 수면제는 효과가 있는가? 수면제 군과 위약 군의 수면시간 비 교  여러 집단(several groups)  연령대별로 수면시간이 차이가 있는가? 7 8
  • 3. ‘개략적인’통계분석 방법의 구분 결과 원인 종속변수, 반응변수, Y 독립변수, 설명변수, X 하나: 단변량 - (univariate -) 하 나 : 단변수 분석(univariable analysis) 여러 개: 다변량 - (multivariate -) 연속형 자료에 대한 분석 단순 - (simple -) 여러 개: 다변수 분석(multivariable analysis) 종속(반응)변수, y 다중 - (multiple -) 범주형 연속형 2 – 검정 (행 vs 열) t-test 명목형 vs. 명목형 분산분석(ANOVA) 독립(설명)변수, x 범주형 명목형 vs. 순서형 반복측정 분산분석 순서형 vs. 순서형 기타 특수한 경우의 분석방법들: 로지스틱 회귀분석 회귀분석 상관분석, 생존분석, 시계열분석, 연속형 (logistic regression) (Regression) 로그선형 분석, 비모수 분석, 로지스틱 회귀분석 회귀분석 다변량분석 방법들, 메타분석, 혼합 일반선형모형(GLM) 공분산분석 생동성 검정 등등……… (ANCOVA) 9 One‐sample T‐test Example : one‐sample T‐test  한 집단의 평균과 다른 기준값을 비교  삶의질-123.sav 자료를 가지고 평균 연령이 45세라는 가설을 검정해보  다른 기준값 - 다른 연구결과에서 나온 값 또는 지금까지 알려져 온 값 자.  가설은 다음과 같이 쓸 수 있다.  이 검정통계량은 귀무가설(모집단의 평균이 μ0이다)이 옳을 때, 자유 도 n-1인 t 분포를 따른다. 11 12
  • 4. SPSS: one‐sample T‐test Click 13 평균비교 Two‐sample t‐test Paired t‐test 16
  • 5. Paired t‐test Paired t‐test 예 1) 10쌍의 쌍둥이를 대상으로 A 약과 B 약의 효과를 비교 첫 번째 쌍 (A, B) 두 번째 쌍 (A, B) ⋮ 예 2) 동일한 사람을 대상으로 특정 약의 효과 발견 약 투여 전 ↓ 후 ------------------------------ ● ● ● ● ⋮ ⋮ 예 3) 동일한 사람의 신체 두 부위 비교 좌 우 --------------------------- ● ● ● ● ⋮ ⋮ 17 18 Paired t‐test SPSS: Paired t‐test  필요한 가정  짝진 자료(paired data)의 경우, 자료입력 및 분석  모집단에서 해당 변수는 특정 분산을 가진 정규분포에 따른다 자료: hgb.sav  표본 수는 이 정규성 가정을 검토할 수 있을 정도로 충분히 크다  이론적 배경  만일 두 측정값들이 평균적으로 서로 동일하다면 해당 모집단에서 측정 값들 짝의 차이에 대한 평균(d)은 0이 될 것  따라서 짝진 t-검정은 차이에 대한 단일표본 t-검정 문제로 단순화  모집단의 평균 차이에 대한 예상값은 0  검정통계량: 차이값들의 표본평균( d )과 d(=0)간 차이에 근거한 표준화 값  기호  자료가 짝이 지어져야 하는 특성 때문에 두 집단의 표본 수는 같아야 함  n=각 집단의 표본 수  d = n개 차이값들의 평균(즉, 평균 차이) / sd=차이값들의 표본표준편차 19 20
  • 6. SPSS: Paired t‐test SPSS: Paired t‐test  짝진 자료(paired data)의 경우, 분석결과 P‐value value 0 is not contained ! significant Click 21 22 Paired t‐test의 비모수 방법 Two‐Sample t‐test   비모수적 방법(nonparametric method):  t-test는 모집단이 정규분포에 따른다는 가정이 필요.  sample size가 크거나 sample의 histogram이 대칭적이면 ok  sample size가 작고 sample의 histogram이 비대칭이면, 비모수적인 방법( 모집단의 분포를 가정하지 않음) 사용이 타당.  Paired T-Test에 대응하는 비모수적인 방법:  Wilcoxon의 부호순위 검정(signed-rank test)  SPSS: 분석  비모수 검정  레거시 대화 상자  대응 2 - 표본  Wilcoxon(W) 선택  비모수적 검정에서의 분석결과는??? 23 24
  • 7. Sample Table Two‐Sample t test  with Equal Variances Ex) 당뇨병 환자와 정상인의 혈압(Systolic blood pressure) 비교 당뇨병환자(case) 114 120 120 128 130 135 138 140 141 정상인 (control) 110 112 112 118 120 122 125 130  가정  두 모집단은 정규분포를 따른다.  두 모집단은 서로 독립이다.  각 집단의 분산은 같다.  가설  귀무가설: 두 모집단의 평균은 같다. H 0 :  1   2 P-value by Student’s t-test  대립가설: 두 모집단의 평균은 다르다. H 1 :  1   2 P-value by two sample t-test  검정통계량 P-value by two independent sample t-test x1  x2 (n1  1) s12  (n2  1) s2 2 etc. t , where s  1 1 n1  n2  2 s  n1 n2 25 26 Two‐Sample t test  SPSS : Normality test with Unequal Variances  자료탐색 (정규성) 자료: SBP.sav Click  두 집단의 분산이 다를 경우, 검정통계량 (Satterthwaite’s Approximation) x x t 1 2 s12 s2 2  n1 n2  Strategy for testing for the equality of means in two independent normally distributed samples Significant Perform F test for the Not significant equality of two variances Perform t test assuming Perform t test assuming unequal variances equal variances 27 28
  • 8. SPSS : Normality test SPSS: Two sample t‐test 29 30 Two sample t‐test: 분석방법   p-값(유의확률) 0.356은 유의수준()으로 설정된 H0 : 1   2  H0 : 1  2 2 2 p-값(유의확률) 0.013 (위의 0.05보다 크므로, 따라서 것임)은 유의수준()으로 설 귀무가설 채택. 즉, 두 집 H1 :1  2 2 2 H1 : 1  2  번 결과 정된 0.05보다 작으므로, 따라 단의 분산은 같다고 볼 수 서 대립가설 채택. 즉, 두 집단 있다. (등분산이 가정됨) 의 평균 SBP는 다르다고 볼 따라서 결과의 두 줄 중 수 있다. 위의 줄을 가지고 평균을 비교하게 된다. Diabetes group Control group  n Mean SD n Mean SD P-value† SBP 8 130.75 9.75 8 118.63 7.03 0.013 Click † P-value by Student’s t-test P‐value by Student’s t‐test P‐value by two sample t‐test P‐value by two independent sample t‐test etc. 31 32
  • 9. Two sample t‐test의 비모수검정 일원분산분석(One‐way ANOVA)  표본이 정규분포인 모집단에서 얻어졌다고 가정하기 힘든 경우:  표본 수가 작은 경우 (30 이하?)  표본 수가 크지만 히스토그램으로 살펴본 결과 대칭적이지 않은 경우  비모수적 방법(nonparametric method) 사용 추천:  비모수적 방법: 모집단의 분포가 정규분포라는 가정 대신, 단지 모집 단의 자료가 연속형이고, 분포는 대칭적이라는 최소한의 가정만을 요 구하는 통계적 방법. (자료 값 자체 대신 자료의 sign 이나 rank 를 사 용한다.)  분포가정이 약화되어 활용범위가 넓어지는 대신 효율성은 떨어짐  두 독립표본 T-검정에 대응하는 비모수적인 방법:  Mann-Whitney 의 U-검정(Wilcoxon의 순위합 검정, rank-sum test)  SPSS: 분석  비모수 검정  레거시 대화 상자  독립 2-표본  검정 변수와 집단변수 정의  집단 정의  Mann-Whitney U 선택 33 34 Sample Table 일원분산분석(One‐way ANOVA)  연구목적  관심이 있는 변수의 모평균이 독립적인 셋 이상의 집단 간에 서로 차이가 있는가? H0: A=B =C vs. H1: not H0  가정  해당 변수는 각 집단 별로 정규분포를 따른다 (정규성).  셋 이상의 집단의 분산은 서로 동일하다 (등분산성).  표본의 수는 정규성 가정 및 등분산성 가정을 검토할 수 있을 정도로 충분 히 크다. 35 36
  • 10. 분산분석의 이론적 배경 분산분석의 이론적 배경  전체변동 (Total Variation)  이론적 배경 (계속)  개별 반응값이 전체 평균으로부터 얼마나 퍼져 있나?  집단간 변동 ↑ & 집단내 변동 ↓  전체변동 = 집단간 변동 + 집단내 변동  집단 간에 평균차이가 존재할 것이다.  집단간 변동 (Between-group Variation)  집단간 변동 ↓ & 집단내 변동 ↑  전체 변동 중 모형에 의해 설명되어지는 변동  집단 간에 평균차이가 존재하지 않을 것이다.  각 수준의 평균이 전체평균으로부터 얼마나 퍼져 있나?  검정통계량 = 집단간 평균변동 / 집단내 평균변동  집단내 변동 (Within-group Variation)  검정통계량 ↑ ⇔ 집단 간 평균차이가 유의할 가능성 ↑  전체 변동 중 모형에 의해서 설명되어지지 않는 변동  개별 반응값이 각 수준의 평균으로부터 얼마나 퍼져 있나? 37 38 분산분석표 (ANOVA table) 사후검정 혹은 다중비교  귀무가설: 모든 집단의 모평균은 동일하다. 세 집단의 평균을 비교 - 분산분석 결과  대립가설: 적어도 한 집단의 모평균은 다른 집단들과 다르다. H0: A=B =C vs. H1: not H0 분산의 요인 제곱합 자유도 평균제곱 분산비 P>0.05라면 “처리간의 차이가 없다”고 결론, 분석 끝. 처리(Treatment) SST k-1 MST F=MST/MSE P<0.05일 때에는? 오차(Error) SSE N-k MSE → “세 집단의 평균이 모두 다 같지는 않다” 전체(Total) TSS N-1 “세 집단 중 다른 집단이 적어도 하나는 있다” → “구체적으로 어떤 집단들간에 차이가 있는지”? F-검정: k개 집단들 간 반응변수의 모평균 값들이 차이가 있는지를 검정 세 집단 중 서로 다른 집단들을 찾는 방법 : 두 집단씩 세 번의 t 검정? 분산분석과정을 거칠 필요없이, 처음부터 t 검정 39 40
  • 11. 세 번의 검정을 하지 않고 분산분석을 하는 이유 상호독립이 아닌 k 번의 t 검정이 반복 → 각 검정의 실제 유의수준은 ´ = 1-(1- )k “한 가지 실험에서 얻은 자료들은 한 가지 가설을 위해 존재한다” “한 집단의 자료들은 한 번의 검정에만 사용되어야 한다” 예. 유의수준 0.05로 세 번의 t 검정이 반복 → 실제 유의수준이 약 0.14(=1-(1-0.05)3) 동일한 자료가 여러 번의 검정에 반복적으로 사용되면 그 검정들은 서로 → 가설을 잘못 기각하게 될 가능성이 훨씬 높아진다 독립이 되지 않는다. → 세 번의 t 검정에서의 얻은 P 값을, 약 3배(≒0.14/0.05)해준 값이 정확한 P 값 검정들이 서로 독립이 아닐 때의 문제점 실제 유의수준 ´ 를 사용하여 구체적인 각 집단간의 차이를 검정하는 방법: 다중비교 (multiple comparison) 유의수준이 처음 정했던 값()보다 커진다 LSD, Duncan, Tukey, Scheffe, … Liberal Conservative 41 42 SPSS: 분산분석 SPSS: 분산분석  예) 24명의 환자를 대상으로 네 가지 종류의 물리치료기구의 성능을 비교한 자료 43 44
  • 12. 1. 기술통계 4. 다중비교 2. 분산 동질성검정 3. 분산분석결과 46 ANOVA 결과 및 다중비교 결과의 표현방법 예 분산분석에 대응하는 비모수적 방법 • 방법 1  Kruskal-Wallis 검정 Group A1 A2 A3 A4 P-value** SPSS: 분석  비모수 검정  레거시 대화 상자  독립 K-표본  검정변수와 집단 변수 정의  범위 지정  Kruskal-Wallis의 H 선택 Effect* 75.7ab±8.4 78.8ab±6.9 69.2a±9.4 87.5b±5.0 0.004 * mean±SD ** P-value is for one-way analysis of variance (or ANOVA). a, b Same letters indicate no statistical significance based on Tukey’s multiple comparison. • 방법 2 Group A1 A2 A3 A4 P-value** Effect* 75.7±8.4 78.8±6.9 69.2a±9.4 87.5a±5.0 0.004 * mean±SD ** P-value is for one-way analysis of variance (or ANOVA). a Same letters indicate statistical significance based on Tukey’s multiple comparison. 47 48
  • 13. Kruskal‐Wallis test에 대한 다중비교 이 변수를 이용해서 ANOVA분석실시 49 공분산분석 (Analysis of covariance: ANCOVA) SPSS dataset  공분산분석: 실험의 정밀도를 높이기 위해, 비교집단들 간에 존재하는 차이 중, 공변량(연속형 변수)에 기인하는 근본적인 차이의 효과를 제 거한 뒤 집단들을 비교하는 방법  EX) 도시사립초등학교와 시골공립초등학교 학생들의 키에 대한 비교연 구를 통해 환경에 따른 영양상태의 차이를 파악하고자 한다.  키와 나이(개월) 간에는 강한 상관관계가 존재하므로 나이라는 공변 량을 모형에 포함시킨다.  유사실험연구에서 3그룹(New treatment/Active control/Placebo)간의 심리점수를 비교하고자 한다. 51 52
  • 14. 분산분석을 한 경우 SPSS: 공분산분석 귀무가설을 기각할 수 있다. 53 54 (Crude Mean) (Adjusted Mean) Group Placebo Treatment=A Treatment=B P-value Score* 12.3±5.3 5.3±4.6 6.1±6.2 0.030† Score** 10.2±1.3 6.7±1.3 6.8±1.3 0.138‡ * mean±SD † P‐value by ANOVA ** Adjusted mean±SE ‡ P‐value by ANCOVA adjusted baseline score 55 56
  • 15. ‘개략적인’통계분석 방법의 구분 결과 원인 종속변수, 반응변수, Y 독립변수, 설명변수, X 하나: 단변량 - (univariate -) 하 나 : 단변수 분석(univariable analysis) 여러 개: 다변량 - (multivariate -) 범주형 자료에 대한 분석 단순 - (simple -) 여러 개: 다변수 분석(multivariable analysis) 종속(반응)변수, y 다중 - (multiple -) 범주형 연속형 2 – 검정 (행 vs 열) t-test 명목형 vs. 명목형 분산분석(ANOVA) 독립(설명)변수, x 범주형 명목형 vs. 순서형 반복측정 분산분석 순서형 vs. 순서형 기타 특수한 경우의 분석방법들: 로지스틱 회귀분석 회귀분석 상관분석, 생존분석, 시계열분석, 연속형 (logistic regression) (Regression) 로그선형 분석, 비모수 분석, 로지스틱 회귀분석 회귀분석 다변량분석 방법들, 메타분석, 혼합 일반선형모형(GLM) 공분산분석 생동성 검정 등등……… (ANCOVA) 57 두 범주형 변수들간 연관성 검정 두 범주형 변수들간 연관성 검정  동질성 검정(Homogeneity test)  독립성 검정(Independence test)  표본 수가 한 변수의 각 수준에 대해 미리 정해지는 경우  전체 표본수가 정해지는 경우  이 때 보고자 하는 것은 다른 변수에 대한 위 변수의 각 수준별 반응 분포  이때 보고자 하는 것은 두 변수가 서로 관련이 없는가(즉, 서로 독립인가?) 가 동일한가? (예) 교육수준과 소득수준은 서로 관련이 없는가, 즉, 서로 독립인가? (예) 각 병원별 외과수술환자들의 사망률은 모두 동일한가? 소득수준 외과수술 결과 교육수준 상 중 하 병원 사망 생존 Total 대졸 255 105 81 A 130 1970 2100 고졸 110 92 66 B 90 710 800 중졸 90 113 88 C 120 1380 1500 동질성 검정이든 독립성 검정이든 상관없이 모두 카이제곱 검정이라는 것을 사용함. 귀무가설: 두 범주형 변수간에 관련성이 없다(즉, 두 변수는 서로 독립이다). 59 60
  • 16. 예방접종 인플루엔자 Chi‐Square Test (exposure) Case(=걸림) Control(안 걸림) Total  A 22 Contingency table : a table composed of two rows cross- 맞지 않음 80 140 220 맞음 20 220 240 classified by two columns Total 100 360 460  예: 예방접종 인플루엔자 (exposure) Case(=걸림) Control(안 걸림) Total H0: 예방접종 유무와 인플루엔자에 걸리게 될 사건은 독립이다. 맞지 않음 n11 n12 n1+ H1: 두 사건은 서로 관련이 있다. 맞음 n21 n22 n2+ (귀무가설이 사실이라는 가정하에서) 기대빈도 계산 Total n+1 n+2 n 인플루엔자 예방접종 (exposure) Case(=걸림) Control(안 걸림) Total  예방접종여부와 인플루엔자 감염여부는 서로 독립적인가 아니면 서로 관련이 있는가?  만일 관련이 있다면, 예방접종을 받지 않으면 인플루엔자에 걸릴 위험이 증가하는가? 맞지 않음 100×220/460=47.83 360×220/460=172.17 220  그렇다면 그 위험의 크기는 얼마나 되는가? 맞음 100×240/460=52.17 360×240/460=187.83 240  Pearson’s chi-square statistic  2   O  E  2 2 2 2   2 n ij  Eij  2 ~ 12 Total 100 360 460 i 1 j 1 E i 1 j 1 Eij 카이제곱 검정통계량 ni   n j where Eij  (80  47.83) 2 (140  172.17) 2 (20  52.17) 2 (220  187.83) 2 n 2      53.01 ~ 12 47.83 172.17 52.17 187.83  위의 검정통계량은 모든 칸에 대해서 기대빈도(mij)가 모두 5이상이어야 타당함.  각 칸의 관찰빈도(O)와 이에 해당하는 기대빈도 간의 차이가 크면 클수록 두 집 기각역: Reject H0 if χ2 > 3.84 (p-value=<.001) 단의 비율은 다르다는 것을 의미. 결론: p-value = <.001 <  = 0.05  reject H0 두 사건은 독립이 아니다. 61 62 행에는 ‘예방접종’을, 열에는 ‘인플루엔자’를 선택한다. SPSS: Chi‐Square Test 통계량 버튼을 눌러서 카이제곱을 선택하고, 셀 버튼을 눌러서 퍼센트들을 선택한다. 63 64
  • 17. 관찰빈도(observed frequency)=80 카이제곱 검정의 타당성 ‐ 예방접종의 % = 36.4% = 80/220 ‐ 인플루엔자의 % = 80.0% = 80/100 ‐ 전체 % = 17.4% = 80/460를 각각 의미함  카이제곱검정의 타당성  2×2 분할표의 경우 (n은 Total number of observation)  n > 40 또는 P‐value p‐값(유의확률) <.001은 유의  20 < n < 40이면서, 각 칸의 기대빈도(expected frequency)가 모두 5 이 수준()으로 설정된 0.05보다 상일 때 작으므로, 따라서 귀무가설  r×c 분할표의 경우: 기각. 즉, 예방접종 여부와 인  기대빈도가 5이하인 칸이 전체 칸의 20%이하이고, 1보다 작은 기대빈 플루엔자 여부는 관련이 있 도를 가지는 칸이 없을 때 다고 볼 수 있다.  자료가 위의 타당성 조건을 만족시키지 못할 때:  해당 행이나 열을 합하여 위의 조건들을 만족시키도록 함. 인플루엔자 걸림 인플루엔자 안 걸림  다음과 같은 경우에는 Fisher의 정확검정(Fisher’s exact test)을 사용함.  n < 20 또는 예방접종 n (%) n (%) P‐value†  20 < n < 40이면서, 각 칸의 기대빈도 중 제일 작은 것이 5 이하일 때 맞지않음 80 (36.4) 140 (63.6) <.001 맞음 20 (8.3) 220 (91.7) † P-value by Chi-square test 65 66 Fisher’s Exact Test SPSS : Fisher’s exact test 자료: FatComp.sav  Data concerning the possible association between high fat diet and the  risk of coronary heart disease Heart Disease Exposure Yes No Total High Cholesterol Diet 11 4 15 Low Cholesterol Diet 2 6 8 Total 13 10 23  기대빈도 E11=13(8)/23=4.52,  E21=10(8)/23=3.48  Two of the four cells have expected values less than 5. 즉, Data가 small 또는 zero cell count를 포함하고 있는 경우, 카이제곱 검정은 타당하지 않음.  Fisher의 정확검정(Fisher’s exact test)을 사용 67 68
  • 18. Chi-square test Thank you for your attention Fisher’s exact test CHD=Yes CHD=No Diet n (%) n (%) P‐value† High 11 (73.3) 4 (26.7) 0.039 Low 2 (25.0) 6 (75.0) † P‐value by Fisher’s exact test 69 70