SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Downloaden Sie, um offline zu lesen
Doing Data Science

chapter 12
Epidemiology
2015.07.18
이남영(onlywis@gmail.com)
“역학(epidemiology)”
사람 집단 건강상황에 변화 증후가 나타날 때
유전적 배경을 포함한 생물학적 요인과
물리, 화학, 사회경제 등인 환경 요인을
포괄적으로 검토하고, 그 변화원인을 규명하여
예방을 시도하려는 의학의 한 분야
- 네이버 생명과학대사전
우리는 8천만 명에 관한 상세하고 경시적인longitudinal
의료 데이터를 가지고 있다.
더 나은 의료 서비스를 제공하는데
이 데이터를 활용할 수 있을까?
현대 의학 통계학
• 이전의 통계학자들은 데이터 없이 통찰력에 의존
• 오늘날 저명한 통계 학술지들은 응용 분야를 더 깊이 다루고

전문가들과 공동으로 연구
• 도메인 전문성이 요구 됨

“뛰어난 해킹 스킬과 같은 능력을 갖지 못한 통계학자들은
대학 밖에서 설 자리가 없다.” - David Madigan
의학 문헌과 관찰 연구
• 의학 저널의 상당수는 관찰 연구observational studies
“관찰 연구는 통제적 실험이 가능하지 않은 상황에서 인과관계를 발견하
기 위한 목적으로 수행하는 경험적 연구다.” -p307
• 관찰 연구에서는 교란 문제confounding problem의 위험 발생
• 교란 변수confounder : 인과 관계를 교란시킬 수 있는 변수
• 아이스크림 판매가 많을 수록 수영복 판매가 많은 것을 발견 

“아이스크림 판매량과 수영복 판매량은 인과 관계가 있는가?”
• 실제로는 기온이 높을 수록 아이스크림 판매량도 많고 수영
복 판매량도 많음
교란 변수 문제를 해결하기 위한 노력
• 가장 널리 사용되는 방법 : 층화stratification
• 사례를 하위 사례들로 분해하여 분석
• 층화는 인과 효과 추정을 더 나쁘게 만들 수 있다.
• 표본 수가 작거나 모집단이 비슷하지 않을 경우 더욱 심화
약물 복용으로 인한 부작용 효과 분석 사례
0.3 - 0.2 = 0.1, 10%의 부작용 효과 확인
• 성별에 따라 층화
남성은 0.3 - 0.25 = 0.05, 여성은 0.3 - 0.1875 = 0.1125
남성에 비해 여성에 두 배 강한 부작용을 일으키는 것으로 결론
실제와 다르다!
층화는 교란변수 문제를 해결하지 않는다
• 층화를 통해 추정값이 나아진다는 보장이 없다.
• 층화를 결정하기 전에 층화가 도움이 된다는 보장이 있어야
한다.
더 나은 방법은 없을까?
• 의약품과 그 효과에 대한 50쌍의 연
구를 검토
• 각 쌍에 대한 5000개의 분석 실시
- 상상할 수 있는 모든 역학 연구
• 9개의 데이터베이스 활용
- 각각 4백만 ~ 8천만의 환자 정보
거의 모든 연구는 선택에 따라 어느
쪽의 효과도 얻을 수 있다는 결론
• 경구 골흡수억제제 사례
문제 해결을 위한 노력
• 미국 의회는 대규모 건강 데이터세트의 증가가 새로운 학습
기회를 가져다 주고 있음을 인식
• 적극적으로 잠재적인 안전 쟁점들을 파악하는 프로그램을
만들도록 지시
• OMOPObservational Medical Outcomes Partnership 설립
• 이질적인 데이터베이스에서 추출한 엄청난 양의 데이터를
분석하는 방법들을 연구, 개발
OMOP 연구
• 예측 모델 구현
• 2억명의 기록
• 14개의 역학 설계
• 5,000개의 설정
• 상대적 위험성Relative Risk과

오차 도출
• ROC 곡선을 생성함
ROC 곡선
• Receiver Operation Characteristic Curve
• 민감도(TPR)와 거짓긍정률(FPR)을 곡선으로 표현한 그래프
• 민감도TPR: 질병이 있는 사람을 질병이 있다고 판단하는 능력
• 특이도FNR: 질병이 없는 사람을 질병이 없다고 판한다는 능력
• 거짓긍정률FPR: 1 - 특이도
• 곡선 아래 면적AUC으로

적합도 측정
실제
TRUE FALSE
예측
Positive TP FP
Negative TN FN
AUC
• Area Under the Curve
• ROC 곡선의 밑면적을 계산한 값
• AUC = 1.0 이면 가장 완벽한 검사. 

민감도와 특이도가 모두 100%
• AUC = 0.5 이면 무작위 추측과 동일
• AUC 가 0.5 보다 작으면 모형이 왜곡된 것
데이터베이스와 그 효과에 특화
데이터베이스 각각에 적합한 최적 방법이 존재
0.92의 AUC 도출

Weitere ähnliche Inhalte

Ähnlich wie 12 역학

[브로셔] 의료산업의 미래는 코그너티브
[브로셔] 의료산업의 미래는 코그너티브[브로셔] 의료산업의 미래는 코그너티브
[브로셔] 의료산업의 미래는 코그너티브은옥 조
 
Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Hyunjeong Lee
 
미국의대체의학아유르베다
미국의대체의학아유르베다미국의대체의학아유르베다
미국의대체의학아유르베다chunbyunghoon
 
The concept of translational research and the role of hospital 2013-09-12 b...
The concept of translational research and the role of hospital   2013-09-12 b...The concept of translational research and the role of hospital   2013-09-12 b...
The concept of translational research and the role of hospital 2013-09-12 b...석관 김
 
웨어러블 디바이스 Zeo의 실패에서 배우는: 성공적인 헬스케어 서비스의 조건
웨어러블 디바이스 Zeo의 실패에서 배우는: 성공적인 헬스케어 서비스의 조건웨어러블 디바이스 Zeo의 실패에서 배우는: 성공적인 헬스케어 서비스의 조건
웨어러블 디바이스 Zeo의 실패에서 배우는: 성공적인 헬스케어 서비스의 조건Yoon Sup Choi
 
Src슬라이드(3총괄2세부) 유경상
Src슬라이드(3총괄2세부) 유경상Src슬라이드(3총괄2세부) 유경상
Src슬라이드(3총괄2세부) 유경상SRCDSC
 
20190521_생리대 유해성 논란 3년, 안전성 확보를 위한 민,관의 노력 어디까지 왔나?
20190521_생리대 유해성 논란 3년, 안전성 확보를 위한 민,관의 노력 어디까지 왔나?20190521_생리대 유해성 논란 3년, 안전성 확보를 위한 민,관의 노력 어디까지 왔나?
20190521_생리대 유해성 논란 3년, 안전성 확보를 위한 민,관의 노력 어디까지 왔나?여성환경연대
 
Know Your Patient through Data!
Know Your Patient through Data!Know Your Patient through Data!
Know Your Patient through Data!Yoojung Kim
 
20171108 생리대 국회-정당 공동포럼 자료집
20171108 생리대 국회-정당 공동포럼 자료집20171108 생리대 국회-정당 공동포럼 자료집
20171108 생리대 국회-정당 공동포럼 자료집여성환경연대
 
통계의 힘 (도서정리)
통계의 힘 (도서정리)통계의 힘 (도서정리)
통계의 힘 (도서정리)TIMEGATE
 
통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)Seung-Woo Kang
 
Data for project text mining
Data for project text miningData for project text mining
Data for project text mining호준 김
 
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향K data
 
20151117 디지털 헬스케어 의사모임 11월 전체 자료 v4
20151117 디지털 헬스케어 의사모임 11월 전체 자료 v420151117 디지털 헬스케어 의사모임 11월 전체 자료 v4
20151117 디지털 헬스케어 의사모임 11월 전체 자료 v4Chiweon Kim
 
The Shifting Landscape of Healthcare in Asia-Pacific: Korean Version 아태 지역 보건...
The Shifting Landscape of Healthcare in Asia-Pacific: Korean Version 아태 지역 보건...The Shifting Landscape of Healthcare in Asia-Pacific: Korean Version 아태 지역 보건...
The Shifting Landscape of Healthcare in Asia-Pacific: Korean Version 아태 지역 보건...The Economist Media Businesses
 
20130409 오제세입법토론회 발제문(1)_환자안전법의주요내용(이상일교수)
20130409 오제세입법토론회 발제문(1)_환자안전법의주요내용(이상일교수)20130409 오제세입법토론회 발제문(1)_환자안전법의주요내용(이상일교수)
20130409 오제세입법토론회 발제문(1)_환자안전법의주요내용(이상일교수)a7309dcb
 
Healthcare bigdata value_hyojinkim
Healthcare bigdata value_hyojinkimHealthcare bigdata value_hyojinkim
Healthcare bigdata value_hyojinkimhyojin kim
 
성공하는 디지털 헬스케어 스타트업을 위한 조언
성공하는 디지털 헬스케어 스타트업을 위한 조언성공하는 디지털 헬스케어 스타트업을 위한 조언
성공하는 디지털 헬스케어 스타트업을 위한 조언Yoon Sup Choi
 

Ähnlich wie 12 역학 (20)

[브로셔] 의료산업의 미래는 코그너티브
[브로셔] 의료산업의 미래는 코그너티브[브로셔] 의료산업의 미래는 코그너티브
[브로셔] 의료산업의 미래는 코그너티브
 
Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...
 
Epidemiology
EpidemiologyEpidemiology
Epidemiology
 
미국의대체의학아유르베다
미국의대체의학아유르베다미국의대체의학아유르베다
미국의대체의학아유르베다
 
The concept of translational research and the role of hospital 2013-09-12 b...
The concept of translational research and the role of hospital   2013-09-12 b...The concept of translational research and the role of hospital   2013-09-12 b...
The concept of translational research and the role of hospital 2013-09-12 b...
 
웨어러블 디바이스 Zeo의 실패에서 배우는: 성공적인 헬스케어 서비스의 조건
웨어러블 디바이스 Zeo의 실패에서 배우는: 성공적인 헬스케어 서비스의 조건웨어러블 디바이스 Zeo의 실패에서 배우는: 성공적인 헬스케어 서비스의 조건
웨어러블 디바이스 Zeo의 실패에서 배우는: 성공적인 헬스케어 서비스의 조건
 
Src슬라이드(3총괄2세부) 유경상
Src슬라이드(3총괄2세부) 유경상Src슬라이드(3총괄2세부) 유경상
Src슬라이드(3총괄2세부) 유경상
 
20190521_생리대 유해성 논란 3년, 안전성 확보를 위한 민,관의 노력 어디까지 왔나?
20190521_생리대 유해성 논란 3년, 안전성 확보를 위한 민,관의 노력 어디까지 왔나?20190521_생리대 유해성 논란 3년, 안전성 확보를 위한 민,관의 노력 어디까지 왔나?
20190521_생리대 유해성 논란 3년, 안전성 확보를 위한 민,관의 노력 어디까지 왔나?
 
Big data2
Big data2Big data2
Big data2
 
Know Your Patient through Data!
Know Your Patient through Data!Know Your Patient through Data!
Know Your Patient through Data!
 
20171108 생리대 국회-정당 공동포럼 자료집
20171108 생리대 국회-정당 공동포럼 자료집20171108 생리대 국회-정당 공동포럼 자료집
20171108 생리대 국회-정당 공동포럼 자료집
 
통계의 힘 (도서정리)
통계의 힘 (도서정리)통계의 힘 (도서정리)
통계의 힘 (도서정리)
 
통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)
 
Data for project text mining
Data for project text miningData for project text mining
Data for project text mining
 
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
 
20151117 디지털 헬스케어 의사모임 11월 전체 자료 v4
20151117 디지털 헬스케어 의사모임 11월 전체 자료 v420151117 디지털 헬스케어 의사모임 11월 전체 자료 v4
20151117 디지털 헬스케어 의사모임 11월 전체 자료 v4
 
The Shifting Landscape of Healthcare in Asia-Pacific: Korean Version 아태 지역 보건...
The Shifting Landscape of Healthcare in Asia-Pacific: Korean Version 아태 지역 보건...The Shifting Landscape of Healthcare in Asia-Pacific: Korean Version 아태 지역 보건...
The Shifting Landscape of Healthcare in Asia-Pacific: Korean Version 아태 지역 보건...
 
20130409 오제세입법토론회 발제문(1)_환자안전법의주요내용(이상일교수)
20130409 오제세입법토론회 발제문(1)_환자안전법의주요내용(이상일교수)20130409 오제세입법토론회 발제문(1)_환자안전법의주요내용(이상일교수)
20130409 오제세입법토론회 발제문(1)_환자안전법의주요내용(이상일교수)
 
Healthcare bigdata value_hyojinkim
Healthcare bigdata value_hyojinkimHealthcare bigdata value_hyojinkim
Healthcare bigdata value_hyojinkim
 
성공하는 디지털 헬스케어 스타트업을 위한 조언
성공하는 디지털 헬스케어 스타트업을 위한 조언성공하는 디지털 헬스케어 스타트업을 위한 조언
성공하는 디지털 헬스케어 스타트업을 위한 조언
 

12 역학

  • 1. Doing Data Science
 chapter 12 Epidemiology 2015.07.18 이남영(onlywis@gmail.com)
  • 2. “역학(epidemiology)” 사람 집단 건강상황에 변화 증후가 나타날 때 유전적 배경을 포함한 생물학적 요인과 물리, 화학, 사회경제 등인 환경 요인을 포괄적으로 검토하고, 그 변화원인을 규명하여 예방을 시도하려는 의학의 한 분야 - 네이버 생명과학대사전
  • 3. 우리는 8천만 명에 관한 상세하고 경시적인longitudinal 의료 데이터를 가지고 있다. 더 나은 의료 서비스를 제공하는데 이 데이터를 활용할 수 있을까?
  • 4. 현대 의학 통계학 • 이전의 통계학자들은 데이터 없이 통찰력에 의존 • 오늘날 저명한 통계 학술지들은 응용 분야를 더 깊이 다루고
 전문가들과 공동으로 연구 • 도메인 전문성이 요구 됨
 “뛰어난 해킹 스킬과 같은 능력을 갖지 못한 통계학자들은 대학 밖에서 설 자리가 없다.” - David Madigan
  • 5. 의학 문헌과 관찰 연구 • 의학 저널의 상당수는 관찰 연구observational studies “관찰 연구는 통제적 실험이 가능하지 않은 상황에서 인과관계를 발견하 기 위한 목적으로 수행하는 경험적 연구다.” -p307 • 관찰 연구에서는 교란 문제confounding problem의 위험 발생
  • 6. • 교란 변수confounder : 인과 관계를 교란시킬 수 있는 변수 • 아이스크림 판매가 많을 수록 수영복 판매가 많은 것을 발견 
 “아이스크림 판매량과 수영복 판매량은 인과 관계가 있는가?” • 실제로는 기온이 높을 수록 아이스크림 판매량도 많고 수영 복 판매량도 많음
  • 7. 교란 변수 문제를 해결하기 위한 노력 • 가장 널리 사용되는 방법 : 층화stratification • 사례를 하위 사례들로 분해하여 분석 • 층화는 인과 효과 추정을 더 나쁘게 만들 수 있다. • 표본 수가 작거나 모집단이 비슷하지 않을 경우 더욱 심화
  • 8. 약물 복용으로 인한 부작용 효과 분석 사례 0.3 - 0.2 = 0.1, 10%의 부작용 효과 확인
  • 9. • 성별에 따라 층화 남성은 0.3 - 0.25 = 0.05, 여성은 0.3 - 0.1875 = 0.1125 남성에 비해 여성에 두 배 강한 부작용을 일으키는 것으로 결론 실제와 다르다!
  • 10. 층화는 교란변수 문제를 해결하지 않는다 • 층화를 통해 추정값이 나아진다는 보장이 없다. • 층화를 결정하기 전에 층화가 도움이 된다는 보장이 있어야 한다.
  • 11. 더 나은 방법은 없을까? • 의약품과 그 효과에 대한 50쌍의 연 구를 검토 • 각 쌍에 대한 5000개의 분석 실시 - 상상할 수 있는 모든 역학 연구 • 9개의 데이터베이스 활용 - 각각 4백만 ~ 8천만의 환자 정보 거의 모든 연구는 선택에 따라 어느 쪽의 효과도 얻을 수 있다는 결론 • 경구 골흡수억제제 사례
  • 12. 문제 해결을 위한 노력 • 미국 의회는 대규모 건강 데이터세트의 증가가 새로운 학습 기회를 가져다 주고 있음을 인식 • 적극적으로 잠재적인 안전 쟁점들을 파악하는 프로그램을 만들도록 지시 • OMOPObservational Medical Outcomes Partnership 설립 • 이질적인 데이터베이스에서 추출한 엄청난 양의 데이터를 분석하는 방법들을 연구, 개발
  • 13. OMOP 연구 • 예측 모델 구현 • 2억명의 기록 • 14개의 역학 설계 • 5,000개의 설정 • 상대적 위험성Relative Risk과
 오차 도출 • ROC 곡선을 생성함
  • 14. ROC 곡선 • Receiver Operation Characteristic Curve • 민감도(TPR)와 거짓긍정률(FPR)을 곡선으로 표현한 그래프 • 민감도TPR: 질병이 있는 사람을 질병이 있다고 판단하는 능력 • 특이도FNR: 질병이 없는 사람을 질병이 없다고 판한다는 능력 • 거짓긍정률FPR: 1 - 특이도 • 곡선 아래 면적AUC으로
 적합도 측정 실제 TRUE FALSE 예측 Positive TP FP Negative TN FN
  • 15. AUC • Area Under the Curve • ROC 곡선의 밑면적을 계산한 값 • AUC = 1.0 이면 가장 완벽한 검사. 
 민감도와 특이도가 모두 100% • AUC = 0.5 이면 무작위 추측과 동일 • AUC 가 0.5 보다 작으면 모형이 왜곡된 것
  • 16. 데이터베이스와 그 효과에 특화 데이터베이스 각각에 적합한 최적 방법이 존재 0.92의 AUC 도출