3개월 전 지인의 요청으로 금일 진행하게 된
15회 공감세미나 자료 공유 드립니다
대전제는 모든 것은 변한다는 것을 토대로 우리는 어떻게 데이터 전처리를 해야할까 하는 관점에서 작성 되었습니다
참고 문헌 링크 공유 드립니다.
의료기관 골든타임(CVR,Critical Value Report)을 위한 딥러닝의 가치
https://www.slideshare.net/jentshin/cvrcritical-value-report?qid=0ceca30e-f6ca-4fdb-8b89-e447e76cc852&v=&b=&from_search=1
임상의사 관점의 의료빅데이터 연구와 임상적용
https://www.slideshare.net/HyungJinChoi/20141028-40797212?qid=68241c11-9880-4d4d-922b-07b17b74a456&v=&b=&from_search=1
의료에서의 인공지능 정리 파일 김치원 V5
https://www.slideshare.net/ChiKim1/v5-73291156?from_m_app=android
상기 3가지 파일에서 필요한 부분을 참고 하였습니다.
감사합니다.
2. 2014 2015 20172016
[제88회 Open
Technet]
오픈소스 딥러닝
프레임워크
제작하기
[SK Planet]
TensorFlow 기본
AutoML & AutoD
raw
[SK T academy]
딥러닝을 위한
TensorFlow
Sequence Model
and the RNN API
Machine Learning
In SPAM
Python Network
Programming
Neural Network의
변천사를 통해 바라
본 R에서 Deep Ne
ural Net활용
Change the world
in IOT (Falinux)
Game based on t
he IOT (KGC)
7. 이집트에서 가장 오래된 묘사는 기원전
3000 년경으로 거슬러 올라갑니다. 그것은
에드윈 스미스 파피루스 (Edwin Smith
Papyrus)라고 불리우며 외상 수술에 관한
고대 이집트 교과서의 사본입니다. Fire
Drill이라고 불리는 도구를 사용하여 소작
술 한 8 개의 종양이나 유방 궤양에 대해
설명함
Hippocrates (460-370 처음으로 불렸습니
다 암에게. 그는 여겨집니다 Hippocrates는
기간 carcinos 및 비 궤양 형성 및 궤양 형
성 종양을 기술하기 위하여 암을 이용했습
니다. 그리스어에서 이것은 crab을 의미
19 세기
Rudolf Virchow는 종종 세포 병리학의
창시자라고 불리며, 현미경으로 암의 병
리학 적 연구를위한 기초를 마련했습니
다. Virchow는 병에 현미경 병리를 연관
시켰다.
1860 년대에 독일의 외과의사인 Karl
Thiersch는 암은 액체가 아닌 악성 세포
의 전이를 통해 전이한다는 것을 보여주
었습니다.
암 검진은 조기 발견에 도움이됩니다. 암
으로 널리 사용되는 첫 번째 선별 검사는
팹 테스트 (Pap test)였습니다. 그것은 생
리주기를 이해하는 연구 방법으로
George Papanicolaou가 개발했습니다.
그는이 검사가 자궁 경부암을 조기 발견
하는 데 도움이 될 수 있으며 1923 년에
발견 한 사실을 지적했다.
스코틀랜드의 외과 의사 John Hunter
(1728-1793)는 수술로 일부 암이 완치 될
수 있다고 제안했습니다.
마취의 발달로 다른 장기로 전이되지 않
은 "움직일 수있는"암에 대한 정기적 인
수술이 시작된 것은 거의 1 세기 후였다.
진단
20. The Perspective of Data Flow
Data Selection Data CleaningStreaming Data Data Augmentation
Data Pre-Processing
Feature Engineering
Model Generation Model Selection
Hyper parameter optimization
Model Tuning
Prediction
23. • Viewpoint variation(시점 변화). 객체의 단일 인스턴스는 카메라에 의해 시점이 달라질
수 있다.
• Scale variation(크기 변화). 비주얼 클래스는 대부분 그것들의 크기의 변화를
나타낸다(이미지의 크기뿐만 아니라 실제 세계에서의 크기까지 포함함).
• Deformation(변형). 많은 객체들은 고정된 형태가 없고, 극단적인 형태로 변형될 수 있다.
• Occlusion(폐색). 객체들은 전체가 보이지 않을 수 있다. 때로는 물체의 매우 적은
부분(매우 적은 픽셀)만이 보인다.
• Illumination conditions(조명 상태). 조명의 영향으로 픽셀 값이 변형된다.
• Background clutter(배경 분규류). 객체가 주변 환경에 섞여(blend) 알아보기 힘들게 된다.
• Intra-class variation(내부클래스의 다양성). 분류해야할 클래스는 범위가 큰 것들이 많다.
예를 들어 의자 의 경우, 매우 다양한 형태의 객체가 있다.
좋은 이미지 분류기는 각 클래스간의 감도를 유지하면서 동시에 이런 다양한 문제들에 대해
변함 없이 분류할 수 있는 성능을 유지해야 한다.
Data Pre-Processing (Image)
24. Lack of Training Data
• Deep learning은 feature learning을 포함
– 기존 domain에서 사용하던 feature engineering을
일부 대체할 수 있음
• 의료 영상에서에서 보인 성과보다 더 큰 성과를 만들
수 있음
– Signal, text에서의 feature engineering은 영상보
다 더 어려움
• EHR 데이터 증가
– 오바마케어의 핵심 정책 중 하나가 의료정보의 디지털화
– 300억 달러 투입
– 인센티브와 패털티 부여를 통해 EHR 보급 확대
– 국내에서도 EHR/EMR 정비를 통해 데이터 수집
• Deep learning은 data-driven approach
– 데이터가 쌓일수록 성능이 높아짐
EHR에서 deep learning은 주로 RNNs가 사용
– EHR 데이터는 환자마다 길이가 다름
– 환자를 진료할 때, 특정 시간만의 상태만 보는 것이
아니라 이전 상태도 함께 고려
: 주로 Recurrent Neural Networks (RNNs) 이용
25. • Missing rate가 높은 variable은 mortality, diagnoses와 상관관계가 높음
• Rich information
– Missing value 예측해 input에 채움
– Missing value를 정확히 예측할수록 event 예측의 정확도가 높아짐
Missing Value의 중요성 (정형)
중증 패혈증 및 패혈성 쇼크 환자에서 예측
패혈증은 감염에 따른 전신적 염증반응으로 산소공급 과 소모에 불균형이 초
래하여 저관류와 저산소증을 유발하 며, 이러한 세포의 저관류와 저산소증 상
태가 지속되면, 세 포내의 사립체 산화적 인산화(mitochondrial oxidative
phosphorylation) 과정이 적절히 이루어지지 않게 되고 결국 혐기 성 해당작용
(anaerobic glycolysis)을 통하여 세포에 필요한 에너지가 공급된다.
26. Data Cleansing (Null값 처리 방법)
- Delete(삭제)
. 가장 간단한 방법
. 누락된 데이터가 10%이상이 될 경우 고려가 필요
. 누락된 데이터 자체가 의미가 있을 경우 고려가 필요함
예: 설문지에서 나이가 필수가 아닌 경우 누락된 나이는 개인정보를 민감하게
반응하는 사람을 대표할 수도 있음
-Filling(채우기)
.data를 채우는 방법
.범주형(Categorical)데이터는 Unknown 혹은 특정 값으로 변환
.연속형 데이터는 0 혹은 평균 등을 사용가능
Data Pre-Processing(정형)
27. Feature Engineering
. Category Data 변환
. Continuous Data를 범주형으로 변환
. Feature를 더해서 새로운 Feature를 만듦
. Feature의 중요도를 찾아서 필요 없는 Feature 제거
. 연속형을 범주형 데이터로 변환
Feature Engineering을 하기 위한 필수 라이브러리
. PANDAS : 데이터를 보고 간단한 연산을 수행
. Scikit-Learn : 각종 머신러닝 모델
. Xgboost : Gradient Boosting 라이브러리
. Matplotlib : 데이터 시각화
Data Pre-Processing(정형)
30. Data Building in Medical Environment
Cleansing of Clinical Data
Raw Data
연구 목적에 맞는 데이터 획득 (ChestPA X ray image)
Data 수집
31. Data Building in Medical Environment
Anonymization of Clinical Data
개인정보보호법 – 환자 개인정보 보호를 위한 법규
주민등록법 – 주민등록번호 수집 및 활용에 대한 제한
개인정보 보호 방법
익명화
암호화
Data 수집
32. Practical Examples in Medical Environment
• Classification
- ChestPA X-ray data cleansing
• Detection & Localization
- ChestPA X-ray lesion detection
ChestPA X-ray Data Cleansing
• Classification
- Development environment
- Pre-Processing
- Network architecture
- Result
1
33. ChestPA X-ray Data Cleansing
Pre-processing
ChestPA X-Ray image Read
100 X 100 resize for network
Low resolution : 정상보단 비정상 데이터의 variation이 더 큼
Data Cleansing
Classification
1
34. ChestPA X-ray Data Cleansing
Network Architecture
Customized - VGG-16
Sigmoid layer 이전에 Batch Normalization (BN)을 추가하여 성능을
획기적으로 개선
Data Cleansing
Classification
1
35. batch normalization으로도 풀 수 없는 문제
서로 다른 Scale의 Data를 Normalization하여 하나의 데이터 셋을 만든다고
가정하자
Artifact를 추가하지 않기 위해서는 더 낮은 해상도의 데이터 셋으로 scale하는
것이 일반적이다.
그렇다면 기존의 데이터의 기준이 각자 다른 경우 batch normalization을 사용
한다고 하여 성능 보장을 장담할 수 있을까?
기계 학습 과정에서 데이터 정규화 과정이 끼치는 영향을 항상 고려해야 한다.