2. “역학(epidemiology)”
사람 집단 건강상황에 변화 증후가 나타날 때
유전적 배경을 포함한 생물학적 요인과
물리, 화학, 사회경제 등인 환경 요인을
포괄적으로 검토하고, 그 변화원인을 규명하여
예방을 시도하려는 의학의 한 분야
- 네이버 생명과학대사전
3. 우리는 8천만 명에 관한 상세하고 경시적인longitudinal
의료 데이터를 가지고 있다.
더 나은 의료 서비스를 제공하는데
이 데이터를 활용할 수 있을까?
4. 현대 의학 통계학
• 이전의 통계학자들은 데이터 없이 통찰력에 의존
• 오늘날 저명한 통계 학술지들은 응용 분야를 더 깊이 다루고
전문가들과 공동으로 연구
• 도메인 전문성이 요구 됨
“뛰어난 해킹 스킬과 같은 능력을 갖지 못한 통계학자들은
대학 밖에서 설 자리가 없다.” - David Madigan
5. 의학 문헌과 관찰 연구
• 의학 저널의 상당수는 관찰 연구observational studies
“관찰 연구는 통제적 실험이 가능하지 않은 상황에서 인과관계를 발견하
기 위한 목적으로 수행하는 경험적 연구다.” -p307
• 관찰 연구에서는 교란 문제confounding problem의 위험 발생
6. • 교란 변수confounder : 인과 관계를 교란시킬 수 있는 변수
• 아이스크림 판매가 많을 수록 수영복 판매가 많은 것을 발견
“아이스크림 판매량과 수영복 판매량은 인과 관계가 있는가?”
• 실제로는 기온이 높을 수록 아이스크림 판매량도 많고 수영
복 판매량도 많음
7. 교란 변수 문제를 해결하기 위한 노력
• 가장 널리 사용되는 방법 : 층화stratification
• 사례를 하위 사례들로 분해하여 분석
• 층화는 인과 효과 추정을 더 나쁘게 만들 수 있다.
• 표본 수가 작거나 모집단이 비슷하지 않을 경우 더욱 심화
8. 약물 복용으로 인한 부작용 효과 분석 사례
0.3 - 0.2 = 0.1, 10%의 부작용 효과 확인
9. • 성별에 따라 층화
남성은 0.3 - 0.25 = 0.05, 여성은 0.3 - 0.1875 = 0.1125
남성에 비해 여성에 두 배 강한 부작용을 일으키는 것으로 결론
실제와 다르다!
10. 층화는 교란변수 문제를 해결하지 않는다
• 층화를 통해 추정값이 나아진다는 보장이 없다.
• 층화를 결정하기 전에 층화가 도움이 된다는 보장이 있어야
한다.
11. 더 나은 방법은 없을까?
• 의약품과 그 효과에 대한 50쌍의 연
구를 검토
• 각 쌍에 대한 5000개의 분석 실시
- 상상할 수 있는 모든 역학 연구
• 9개의 데이터베이스 활용
- 각각 4백만 ~ 8천만의 환자 정보
거의 모든 연구는 선택에 따라 어느
쪽의 효과도 얻을 수 있다는 결론
• 경구 골흡수억제제 사례
12. 문제 해결을 위한 노력
• 미국 의회는 대규모 건강 데이터세트의 증가가 새로운 학습
기회를 가져다 주고 있음을 인식
• 적극적으로 잠재적인 안전 쟁점들을 파악하는 프로그램을
만들도록 지시
• OMOPObservational Medical Outcomes Partnership 설립
• 이질적인 데이터베이스에서 추출한 엄청난 양의 데이터를
분석하는 방법들을 연구, 개발
13. OMOP 연구
• 예측 모델 구현
• 2억명의 기록
• 14개의 역학 설계
• 5,000개의 설정
• 상대적 위험성Relative Risk과
오차 도출
• ROC 곡선을 생성함
14. ROC 곡선
• Receiver Operation Characteristic Curve
• 민감도(TPR)와 거짓긍정률(FPR)을 곡선으로 표현한 그래프
• 민감도TPR: 질병이 있는 사람을 질병이 있다고 판단하는 능력
• 특이도FNR: 질병이 없는 사람을 질병이 없다고 판한다는 능력
• 거짓긍정률FPR: 1 - 특이도
• 곡선 아래 면적AUC으로
적합도 측정
실제
TRUE FALSE
예측
Positive TP FP
Negative TN FN
15. AUC
• Area Under the Curve
• ROC 곡선의 밑면적을 계산한 값
• AUC = 1.0 이면 가장 완벽한 검사.
민감도와 특이도가 모두 100%
• AUC = 0.5 이면 무작위 추측과 동일
• AUC 가 0.5 보다 작으면 모형이 왜곡된 것
16. 데이터베이스와 그 효과에 특화
데이터베이스 각각에 적합한 최적 방법이 존재
0.92의 AUC 도출