1. 목차
1. 통계학의 기본개념 (Basic statistical concept)
임상연구에 필요한 기초 통계 2. 자료 관리 (Data management)
3. 단변수 분석 (Univariable analysis)
4. 이변수 분석 (Bivariable analysis)
5. 다변수 분석 (Multivariable analysis)
고려대 의과대학 의학통계학교실 6. 결론
고려대 안암병원 임상시험센터
이지성
totoro96@korea.ac.kr
통계학(Statistics), 의학통계학(Biostatistics)
통계적 추론(Statistical Inference)
통계학(統計學, Statistics)
예: 모평균, 모표준편차
표본 자료(sample data)를 수집(collect)/정리(organize)/요약(summary) 특성(characteristic)
모집단(population) 모수(parameter)
하고(기술통계학: descriptive statistics)
이 요약된 자료를 분석(analysis)하여 모집단(population)에 관한 정보
를 추정(estimation) 또는 검정(testing)한 뒤 (추론통계학: inferential
statistics) 추론
무작위 표본추출
(inference)
그 결과를 해석(interpret)하고 제시(reporting)하는 학문 (random sampling)
의학통계학(醫學統計學, Biostatistics, 生統計學) 특성(characteristic)
표본(sample) 통계량(statistic)
통계학 이론을 근간으로 아래의 목적을 추구 예: 표본평균, 표본표준편차
이론적 개념 구축 및 연구 방법론 개발
의학자료의 특성 탐구
의학연구를 위한 통계적 방법론의 기틀 제공
2. 예: Two‐sample t‐test (두 표본 t‐검정) 전수조사
Question: 60대 type 2 DM 환자들의 경우, 남녀 간 수축기혈압은 서로 다른가?
전수조사(예: census, population data 이용)를 하는 경우에도
가설 (hypotheses) 통계분석이 필요한가?
귀무가설 H 0 : M F Basically no!
variable of interest : SBP 대립가설 H1 : M F 통계분석을 실시하는 이유
특성(characteristic)
모집단(population) 모수(parameter) Inferential statistics : 표본(sample)을 사용해 모집단(population)에
자료요약 M F 대한 추론(inference)을 하기 위한 것
(차원 축소)
male female 만일 모집단을 전수 조사했다면?
남/여 간 표본평균은 차이를 보이게 됨. 이
러한 차이가 귀무가설이 사실이라는 가정 통계분석은 필요하지 않음
하에서 나타날 확률 : P‐value 추론
무작위 표본추출
(inference)
예) SF Health Department가 운영하는 AIDS registry
(random sampling) 따라서 p‐value가 작으면(보통의 경우는
0.05와 비교) 자료는 대립가설을 support 전수 조사로 97% 이상의 환자를 capture
해주고 있다고 본다.
나이에 따른 비교, 혹은 homeless와 stably housed 간의 비교 시 p‐
표본(sample) 특성(characteristic) value를 제시하지 않음
통계량(statistic)
male female 단, US population 전체로 projection하고 싶으면 p‐value를 계산
자료요약(차원 축소) nM , x M , s M
nF , x F , s F
추론: 모집단에서의 관련성 여부 평가 Sound Research Question
예
1. 주제에 대한 답을 하고자 하는 모집단(population)이 명확
연구가설 설정
귀무가설 (null hypothesis, H0) 2. 해당 모집단의 health와 well being에 영향을 미칠 수 있는 주제
No association between two or more variables (in the population) 3. 효과가 없다는 연구결과(“a null result”)가 의미가 있을 수 있을 만큼의 충
No difference between two or more groups (in the population) 분한 표본 수 등록이 가능
대립가설 (alternative hypo., H1)
Variables are associated (in the population) 4. 해당 질병(의 유병율)과 관련해 본인이 연구주제에 대한 답을 하기 위해
Groups are different(in the population) 특별히 가지고 있는 강점이 무엇인지 고려
자료 수집 5. Make sure it has not answered
P‐value
• 예) PubMed
귀무가설이 사실인데 (즉, 실제로 모집단에서는 군 간 차이가 없는데), 표본 자
료에서는 현재와 같은 군 간 차이가 나타날 가능성
P‐value가 ‘생각보다’ 크면?
• 있을 수 있는 일 임을 반영. 표본에서 보여진 차이는 우연한 차이. 표
본자료는 H0가 맞을 가능성을 시사.
P‐value가 ‘생각보다’ 작으면?
3. Data management process
Data Management
자료 수집 자료의 종류(Types of data)
자료 및 변수
자료의 종류: 자료의 형태에 따라 통계분석 방법이 결정됨
자료(data)
하나 이상의 변수(variable)들에 대한 관찰값(observation)들로 구성 범주형 (질적) 자료[categorical (qualitative) data]
명목형 자료(nominal data)
변수(variable) 변수(variable)란 subject(개체: 주로 사람) 두 범주: 이진수 자료(binary data), 이분형 자료(dichotomous data)
id name age sex BMI WHR
에 대해 관찰한 특성(characteristics)들
(즉, 이름, 연령, 성별 등)을 의미한다.
예: 혈액형(A/B/O/AB), 성별(남/여)
1 ㅇㅅㄱ 71 1 24.7 0.95 [세로 줄] 순서형 자료(ordinal data)
2 ㅎㅇㄷ 66 1 20.1 0.89 케이스(case)란 각 subject(개체: 사람)를 예: 통증강도(severe/moderate/mild/none)
관찰값 3 ㄱㄴㅇ 73 1 19.3 0.81 의미한다. [가로 줄]
(observation)
또는
4 ㅈㅎㅁ 69 0 25.7 0.91 ← 변수 6개, 관찰값 10개로 이루어진 자료 수치형 (양적) 자료[numerical (quantitative) data]
ㄴㅂㅍ
케이스(case) 5
6 ㅌㅇㅎ
78
72
0
1
25.0
22.8
0.93
0.88
이와 같이 해당 칸에 자료가 없는 이산형 자료(discrete data)
7 ㅊㅁㅎ 71 0 24.6 0.91
경우를 결측값(missing value)이라 함.
계수 자료(count data)
8 ㄱㅎㅈ 67 1 999.0 .
숫자형 변수인 경우에는 점(.)을,
예: 동반질환의 수, 재원일수
문자형 변수인 경우에는 공란( )을
9 ㅇㄹ 69 0 26.5 0.93 사용해 입력하는 것이 일반적임. 연속형 자료(continuous data)
10 64 1 22.1 0.81 (자료입력 시 enter를 치면 자동 생성) 예: 혈압, 콜레스테롤 수치, 연령
4. 변수의 종류(Types of variables) 변수의 종류(Types of variables)
변수의 종류 - 1 변수의 종류 - 2
독립변수(independent variable), 설명변수(explanatory variable)
질적 변수(qualitative variable) 인과관계의 틀 안에서 원인(cause)에 해당하는 변수
명목형 변수(nominal variable): 구분이 목적이며 순서/간격의 의미가 없음 종속변수(dependent variable), 반응변수(response variable)
• 이진수 변수(binary variable): 두 개의 값만 취하는 명목형 변수 (예: 성별) 인과관계의 틀 안에서 결과(outcome)에 해당하는 변수
양적 변수(quantitative variable)
결과(종속변수) 원인(독립변수)
순서형 변수(ordinal variable): 구분/순서의 의미 있음, 간격의 의미 없음 단변수 분석
• 범주형 변수에 해당하나 연속형 변수로 취급하는 경우도 있음 (예: 중증도) y x y x (univariable analysis)
• Likert’s 5‐point scale (라이커트의 5점 척도)
구간형 변수(interval variable): 구분/순서/간격의 의미 있음. 절대 0 개념 없음 결과(종속변수) 원인들(독립변수들)
다변수 분석
비형 변수(ratio variable): 구분/순서/간격/절대 0의 개념 있음
y x1 x2 … xk (multivariable analysis)
• 굳이 구간형 변수(예: 온도)와 비형 변수(예: 체중)를 구분할 필요는 없음
Note: 다변량 분석?
연속형 변수(continuous variable) y 0 1 x1 k xk (multivariate analysis)
‘개략적인’통계분석 방법의 구분 Data entry screen (DES)
[coding guide] example
결과 원인
종속변수, 반응변수, Y 독립변수, 설명변수, X
하나: 단변량 - (univariate -)
하 나 : 단변수 분석(univariable analysis)
여러 개: 다변량 - (multivariate -)
단순 - (simple -)
여러 개: 다변수 분석(multivariable analysis) 종속(반응)변수, y
다중 - (multiple -) 범주형 연속형
2 – 검정 (행 vs 열) t-test
명목형 vs. 명목형 분산분석(ANOVA)
독립(설명)변수, x 범주형 명목형 vs. 순서형 반복측정 분산분석
순서형 vs. 순서형 GEE
기타 특수한 경우의 분석방법들: 로지스틱 회귀분석 회귀분석
상관분석, 생존분석, 시계열분석, 연속형 (logistic regression) (Regression)
로그선형 분석, 비모수 분석,
로지스틱 회귀분석 회귀분석
다변량분석 방법들, 메타분석, 혼합 일반선형모형(GLM) 공분산분석
생동성 검정 등등……… 일반화 추정방정식(GEE)
(ANCOVA)
5. 변수명(variable name)의 결정 자료 입력(Data entry)
대부분의 software program들 자료 입력 시 유의사항
8 letters 까지 허용 범주형 자료 □ 예 □ 아니오 → □1 예 □0 아니오
Use the full name or a common abbreviation 적절한 형태의 숫자 코드 할당 (조사지 위에 함께 적어 놓는 것 추천)
That are descriptive and easy to remember 이진수 자료의 경우 0/1을 사용 추천 (주로 ‘예’=1 / ‘아니오’=0)
만일 1/2로 코딩하는 경우: 자료분석 시 (1/2)→(1/0)으로 recoding 해서 분석 (중요!)
같은 내용을 반복적으로 측정하는 경우
수치형 자료
변수명의 연속성이 유지되도록
측정한 그대로 기록 (줄여서 입력하지 말 것)
예) CD4_1, CD4_2, CD4_3
측정 단위의 일관성 문제에 항상 주의
띄어쓰기 금지, under bar( _ )를 효율적으로 사용 동일 집단에 대한 자료 입력 시 여러 개의 worksheet를 사용하는 경우
변수명에 대한 설명 Unique ID 부여 (자료의 결합을 위해) – 매우 중요!
Range를 specify, 소수점 아래 자리 수를 specify 날짜와 시간의 문제: 조사/입력 형식의 통일
가능한 한 variable labels도 함께 명시 결측치(missing value)의 입력: 가능한 한 default value(. 또는 공백) 사용
자료의 가로 한 줄은 한 사람(개체)에 대한 정보를, 세로 각 줄은 서로 다
른 변수를 나타내도록 입력 (recommended, not mandatory)
Examples of data entry: sorry Examples of data entry: good
20
6. Examples of data entry: good 명목형 or 순서형 변수의 입력
입력 시, 정수로 입력
분석 시, multiple dichotomous variables를 생성
가변수(dummy variables) / 지시변수(indicator variables)
예
변수: TOAST (SVO, LAA, CE and UD)
입력: TOAST=1, 2, 3 and 4, respectively, and use it?
Other undetermined etiology group has 4 times larger effect than small
vessel occlusion group in its size ???
분석: 3개의 두범주 변수(D1, D2, D3)를 생성해서 분석
TOAST D1 D2 D3 Meaning of dummy coding
SVO 1 0 0 If (D1, D2, D3) = (1, 0, 0), then TOAST = 1 (SVO)
LAA 0 1 0 If (D1, D2, D3) = (0, 1, 0), then TOAST = 2 (LAA)
CE 0 0 1 If (D1, D2, D3) = (0, 0, 1), then TOAST = 3 (CE)
UD 0 0 0 If (D1, D2, D3) = (0, 0, 0), then TOAST = 4 (UD)
22
Data cleaning Data cleaning
입력오류 (오타; typing error) 확인
Cleaning data is like house cleaning
First step First option: 원본 대조 / Second option: double entry
각 변수의 반응값들 분포(distribution)에 대한 review 둘 다 완벽한 것은 아니나 오류를 최소화 해 줄 수는 있음
Implausible value 들의 빈도(frequency)에 대한 review 오류 검토
결측 자료(missing data)의 발생 정도를 평가 범주형 자료
검토가 비교적 쉬움.
예) follow‐up question의 응답 수를 검토 나타나서는 안 되는 값이 입력되어 있다면 분명히 오타
빈도표(frequency table)의 활용이 효과적
“흡연하십니까?”라는 질문에 100명이 No라고 대답했다면 “하루에 담배를
수치형 자료
몇 대나 피십니까?”라는 질문에도 역시 100명이 N/A 이어야! 오타발생 가능성 높음.
Sparse data(희박 자료)를 가지는 변수들에 주의
찾기 어려움 (예: 자료위치 바뀌는 경우, 소수점 문제 등)
범위 검토(range check)가 효과적
이 변수들은 일반적으로 recode 할 필요가 있게 됨 날짜 자료
Documentation!! 쉬운 문제는 아님
이상값 확인(예: 070230) / 논리적 검토(예: 생년과 나이의 불일치, 연구개시일 검토 등)
오류 검토 후 자료의 수정
해당 자료가 잘못 입력된 자료라는 명백한 증거가 있는 경우에만 정정
단지 이상한 값이 있다는 이유만으로 자료 수정은 곤란
7. Data cleaning Data cleaning
결측치(missing value) 이상치(outlier)
자료 내 결측치의 비율이 높으면 연구결과의 신뢰성 저하 자료의 전반적인 값들과 구별되는 값 / 다른 값들과 병립될 수 없는 값
결측치 발생 이유에 대한 고찰 필요 실제 관찰값일 수도, 잘못 입력된 값일 수도 있음
특정 변수에 대해 많이 나타나고 있는 경우: 해당 변수는 사용 부적절 예: 키가 210인 여성
만일 연구 대상이 일반인/초등학생이면? 만일 체중과 함께 검토한다면?
어떤 변수가 특정 subgroup에 대해 모두 결측치: 특별한 의미, 분석 시 고려
통계분석방법의 종류에 따라 결과에 심각한 영향을 미칠 수도
결측치가 분석에 미치는 영향 예: Student’s t‐test vs. Wilcoxon’s test
주 관심변수와 관련이 있는 것이면 biased result가 얻어질 가능성 따라서 분석 전에 자료 내에 이상치가 있는지를 검토하는 것은 매우 중요한 작업
통계적인 방법론의 사용에 영향을 미침 이상치에 대한 검토
결측치에 덜 민감한 분석방법의 선택(예: repeated measures ANOVA / GEE) Range check이 효과적 / Graphical method (histogram, scatter plot 등) 사용도 효과적
결측치를 추정해서 삽입(imputation) 특정 통계모형 내에서도 통계적 방법을 사용한 검토 가능(예: 회귀분석, 분산분석 등)
해당 변수에 대한 자료값들의 average value를 imputing하는 것은 부적절 이상치의 처리
통계적 방법들: single imputation (부적절), multiple imputation (MI) (추천!!) 무분별한 삭제는 곤란
최선의 방법: with/without analysis (sensitivity analysis)
최선의 방법 분석결과가 서로 비슷하면 ok
연구의 시작단계에서부터 결측치 발생가능성을 최소화하려는 노력 결과가 서로 상이하면 이상치에 영향을 많이 받지 않는 분석법(예: 비모수적 방법)을 선택
25 26
Variable recoding
Variable recoding
변수 재 정의의 주 목적
More comments
Sparse data의 문제를 해결하기 위해서 (To avoid sparse distribution) 새로 recode 된 변수에 대해서는 반드시 frequency를 check할 것
변수의 방향을 바꾸기 위해서 (To reverse the direction of a variable) 기존 변수와 새로운 변수 간의 cross table도 역시 검토할 것
결과에 ‘우연’이 개입되지 않도록 해야 함
Sparse data
결과(outcome)에 근거해서 변수를 범주화하지 말 것
Open hard to see trends in data 범주들을 combine하는 데 있어서 a priori reason이 없다면 통계적으로 유
의한 결과를 얻기 위해 범주들을 묶지 말 것 (do not group them together to
연속형 변수 obtain a statistically significant results)
자료입력 시, 가능한 한 변수의 interval nature가 유지되도록 입력
자료가 매우 sparse 하면 이를 break 해야 할 수도
(예) 혈압: “<90, 90‐139, 140‐159, 160 or more” 등으로 분류하여 범주화하
는 방법은 research question에서만 정당화 될 수 있음
Such change may perfectly reasonable if it fits the study goals
Interval variables를 ordered categories로 recoding
(1) research question에 기초한 임상적 판단에 근거, 범주화
(2) By an equal or near equal number of subjects (ex. tertile, quartile)
• 변수의 분포 특성 유지, power maximize 및 자의적 분류 위험 최소화
• 그러나 변수의 interval nature에는 심각한 손상 야기
8. A. 연속형 변수, 순서형 변수의 기술
첫 단계는 histogram을 사용해 자료의 분포(distribution)를
visual 하게 파악!
단변수 분석
(Univariable analysis)
The width of the intervals of a
DB locking histogram is chosen based on the
density or sparseness of the data
• Either before or after performing this analysis GFR (glomerular filtration rate)
정규분포 (Normal Distribution) 자료의 기술: 자료의 분포를 요약
정규분포 모집단 자료의 분포
(표본수와는 관계없음) 기본적으로 두 종류의 척도를 이용
1. 종 모양(bell shape)
자료의 중심 위치 (예: 평균)
2. 평균()을 중심으로 좌우 대칭(symmetric) 자료의 흩어진 정도 (예: 표준편차)
3. 수평축은 실선, 수직축은 확률. 따라서 곡선 아래 면적은 자료가 해당
구간에 속할 확률. 곡선 아래의 전체 면적은 확률=1 예:
P ( x i ) 1 자료가 정규분포를 한다면…
P ( x ) 0.683 자료의 95%는 평균±2(표준편차) 내에 존재하게 된다.
P ( 1.282 x 1.282 ) 0.90
P ( 1.96 x 1.96 ) 0.95
P ( 2.575 x 2.575 ) 0.99
9. 자료의 기술: “중심 위치” 자료의 기술: “중심 위치”
자료의 위치 척도 (Measures of central tendency)
자료의 위치(location)에 관한 일반적인 척도: an average
산술평균(arithmetic mean; mean)
중앙값(중위수, median)
n이 홀수? 크기 순으로 나열된 자료의 (n+1)/2 번째 값
n이 짝수? 크기 순으로 나열된 자료의 n/2번째 값과 (n/2 +1)번째 값의 산술평균
최빈값(최빈수, mode)
가장 높은 빈도를 보이는 값
기하평균(geometric mean; GM)
로그변환된 값들의 산술평균을 역변환한 값
y log e ( x) l n ( x) 자연로그를 사용하면 역변환으로 지수변환(exponentiate)을 사용 GM e x
y log10 ( x) 상용로그를 사용하면 역변환으로 십진수(10의 몇 승)를 사용
GM 10 x
가중평균(weighted mean)
자료의 기술: “흩어진 정도” 자료의 기술: “흩어진 정도”
자료의 변동 척도 (Measures of variability) 분산 (variance, Var, S2)
흩어진 정도(spreadness), 산포(dispersion), 변동(variability)
범위(range): R=max‐min or (min, max)
백분위수(percentile)
아래쪽 기준으로 명명
예) 제5백분위수, 5th percentile
십분위수(deciles) / 오분위수(quintiles) / 사분위수(quartiles) / 삼분위수(tertiles)
사분위수: Q1(=min), Q2(=25th), Q3(=50th, median), Q4(=75th percentile)
사분위 범위(interquartile range, IQR): IQR=Q3‐Q1
십분위 범위(interdecile range, IDR): IDR=P90‐P10
기준구간, 기준범위, 정상범위(reference interval, reference range,
normal range)
자료의 가운데 95%, 즉, 97.5th percentile ‐ 2.5th percentile, 또는 Q3‐Q1
10. 자료의 기술: “흩어진 정도” 표준오차 (standard error)
자료의 흩어짐 평균의 표준오차
흩어진 정도(spreadness), 산포(dispersion), 변동(variability) 표본평균들의 표준편차(Standard deviation of means)
분산(variance, Var) 얻어진 평균의 표준오차(Standard error of the mean; SEM)라고 함
(평균의) 표준오차(SE, Std.Err., SEM)
표준편차(standard deviation; Std, SD) SE ( X )
SD (여기서 SD는 표본에서 얻어진 관찰값들의 표준편차)
n
기하표준편차(geometric standard deviation; GSD) 즉, (모든 가능한, 가상의) 표본평균들의 표준편차
(얻어진) 표본평균의 정밀성(precision)에 관한 척도
로그변환된 값들의 표준편차를 역변환한 값
GM e x SE가 크면 얻어진 추정치(즉, 표본평균)가 정밀하지 않다는 것을 의미
SE가 작으면 얻어진 추정치가 정밀하다는 것을 의미
변동계수, 변이계수(coefficient of variation, CV) 표준오차를 줄이는 방법
SD 표본의 크기를 증가 시키거나, 변동량이 적은 관찰값들을 얻는 것
CV 100(%)
x
신뢰구간 (confidence interval) 모평균에 대한 신뢰구간
신뢰구간(Confidence Interval, CI) 모평균에 대한 95% 신뢰구간
점 추정값(예: 평균)을 중심으로 좌우로 (평균의) 표준오차의 몇 배수만
분산(σ2)이 알려져 있지 않지만 표본 수가 충분히 클 때
큼 떨어진 값을 계산하여 이를 구간 형태로 표현한 것 = (표본평균 ‐ z0.025ⅹSE, 표본평균 + z0.025ⅹSE)
알고자 하는 모수(예: 모평균)가 포함되는 확률적 구간 = 즉, X 1.96 SD
X 1.96 SE ( X )
95% 신뢰구간(95% C.I.)의 의미 n
예를 들어, (가상적으로) 같은 크기의 표본을
동일한 조건하에서 100회 추출해서 100개의
분산 (σ2)이 알려져 있지 않고 표본 수도 작을 때
신뢰구간들을 구했을 때, 이들 중 95개 정도는 = (표본평균 ‐ t0.025ⅹSE, 표본평균 + t0.025ⅹSE)
모수를 포함하고 있을 것이며, 현재 표본에서 SD
= 즉, X t0.025 (df )
X t0.025 (df ) SE ( X )
얻어진 신뢰구간은 바로 이들 중 하나라는 의미 n
여기서 1.96은 표준정규분포의 양쪽 꼬리 확률값이 0.05인 경우에 해당하는 값
t0.025 는 자유도 n‐1인 t‐분포의 양쪽 꼬리확률 값이 0.05인 경우에 해당하는 백분율 값
11. B. (범주형) 두 범주 변수의 기술 모비율에 대한 신뢰구간
이진수 변수(binary variable, dichotomous variable) 표본비율(p)
Frequency table(빈도 표) 이용 p = r/n (r=성공회수, n=전체 관찰 회수)
표본비율(p)의 표준오차 (표본비율들의 표준편차)
p(1 p)
n
모비율에 대한 95% 신뢰구간
(표본비율 ‐ z0.025ⅹSE, 표본비율 + z0.025ⅹSE)
= p(1 p )
p 1.96
n
C. 명목형 / 순서형 변수의 기술 Researchers like tables, while People likes graphs
Nominal or ordinal variables
Bar graphs (막대 그림) 및 frequency table (빈도표) 사용
Histograms과는 달리, 막대는 서로 붙어있지 않고, 등간격으로 떨어
져 있음. 막대 순서의 의미는 명목형 (없음) / 순서형 (있음)
411 patients, medical provider 만족도 조사
Ann intern Med, 2001;135:344-351