SlideShare ist ein Scribd-Unternehmen logo
1 von 28
선도연구센터(SRC)
데이터 과학의 정의와
대표과제 도출
2 / 11
데이터의 양이 2년마다 2배 이상 증가
2010년2020년 데이터의 양 75배 증가
The future belongs to the one
who rules the data
3 / 11
데이터 과학의 정의와 대표과제 도출
과학혁명의 패러다임: 기본모형
새로운
과학적
현상
새로운
사회적
문제
새로운
경제적
과제
수수께끼(Enigma)
새로운 패러다임: 문제해결과정
정상과학(Normal science)
새로운 이론기반 새로운 기술기반
과학혁명의 과정
Thomas Kuhn, The Structure of Scientific Revolutions, 1962
4 / 11
데이터 과학의 정의와 대표과제 도출
과학혁명의 패러다임: 데이터 과학의 출현
새로운
과학적
현상
새로운
사회적
문제
새로운
경제적
과제
수수께끼(Enigma)
문제해결과정
정상과학(Normal science)
새로운 이론기반 새로운 기술기반
데이터 과학은 새롭게 출현하는 사회적, 경제적,
자연적 이슈들에 대응하여,
방대하고 복잡한 데이터를 다학제적 융합(muti-
disciplinary convergence)과
시스템적 접근(systems approach)을 반영하여
창의적 지식(creative knowledge)으로 전환하는
활동으로 정의함
5 / 11
데이터 과학의 정의와 대표과제 도출
데이터 과학의 정의와 학문
기술
이슈
이론
Data
Mining
Explorative
Technology
Applied
Statistics
Data
Science
6 / 11
데이터 과학의 정의와 대표과제 도출
데이터 과학의 정의와 구조
데이터 과학 가치
Knowledge
Creation
확장성
Modeling
& Analysis
속도
Huge Data
Various Data
 데이터 기반
 새로운 지식 탐색 및 창출
 의료, 기술, 기후 분야: 예측력이 경쟁력
 대용량의 다양한 데이터를 EMR등으로
체계적으로 관리
 하둡/맵리듀스 등을 이용
 실시간적 (속도)으로 제공함
 대용량의 데이터를 분석하는 두뇌
 통계처리분석/모델링/예측,
 새로운 국산 패키지 개발
 확장성이 매우 중요
이슈: 생명의료, 기술관리, 기후변화
기술 : 대용량, 다차원, 성능
이론 : 모형화, 분석
7 / 11
데이터 과학의 정의와 대표과제 도출
과제 영역 도출의 단계
이슈 대응 과제
기술 기반 과제
이론 기반 과제
단계 1
단계 2
단계 3
새로운 과학 패러다임의 출현을 견인하는
사회적/경제적/과학적 이슈
새로운 과학 패러다임의 이슈들에 대응하는
기술 기반의 구축
새로운 과학 패러다임의 이슈들에 대응하는
이론 기반의 구축
단계별 과제 도출
8 / 11
데이터 과학의 정의와 대표과제 도출
과제 영역 도출
새로운
과학적
현상
새로운
사회적
문제
새로운
경제적
과제
수수께끼(Enigma)
새로운 패러다임: 데이터 과학
정상과학(Normal science)
새로운 이론 기반 새로운 기술 기반
과제 도출 영역 I – 이슈 대응
과제
과제 도출 영역 II –
이론 기반 과제
과제 도출 영역 III –
기술 기반 과제
9 / 11
데이터 과학의 정의와 대표과제 도출
연구과제의 구성도 – 대표과제 도출 (I)
사회적 문제이슈
“새롭게 출현하는 사회적, 경제적, 과학적 이슈” 가운데 데이터와 분석의 중요성이 지대한
영역을 대표과제로 도출
과제
경제적 과제 과학적 현상
생명의료
(Bio-Medical)
기술관리
(Techno-Managerial)
기후변화
(Climatological)
10 / 11
데이터 과학의 정의와 대표과제 도출
연구과제의 구성도 – 대표과제 도출 (II)
통계분석 Tool이슈
“방대하고 복잡한 데이터”의 수집-처리-가공을 위한 분석 tool과 데이터 infra, 구현
algorithm에 관한 새로운 기술 기반의 대표과제 도출
과제
통합 Database 시각화 Algorithm
한국형
통계패키지 개발
이질적 데이터
통합 구축
시각화 패키지
11 / 11
데이터 과학의 정의와 대표과제 도출
연구과제의 구성도 – 대표과제 도출 (III)
불확실성이슈
비구조적 데이터를 “창의적 지식”으로 전환할 수 있는 breakthrough 이론 개발에 관한
대표과제 도출
과제
고차원성 지식공간
불확실성 측도
이론
분산처리 기법
이론
지식공간 확장
이론
12 / 11
데이터 과학의 정의와 대표과제 도출
연구과제의 내용
과제 기반에 따라 도출된 영역에 맞춰 새로운 지식을 창출하고, 분석 이론을 구체화 하고,
이론 체계를 확립할 대표과제를 수행
과제기반 과제영역 과제주제
이론 기반 불확실성 측도 불확실성 측도 연구 – h-likelihood 측도 기법
지식공간 확장 통계모형 지식공간의 확장 –HGLM 확장
미분방정식에 기반한 동적 모형 연구
기술 기반 패키지 SRC-STAT 국산 통계 패키지 개발
통계적 데이터 분석의 시각화 분석 융합
플랫폼 이질적 데이터 통합 및 분석 기반 구축
구조화 희소특징학습의 분산처리와 응용
이슈 기반 생명의료 영상 데이터로부터의 지식발견 기법
전자의무기록 정보를 이용한 질병 극복
의료정보의 시각적 분석
기술관리 신성장 동력 기술의 발굴
생산성 혁신을 위한 순간 최적화 엔진
빅데이터 기반 비즈니스 인텔리전스
기후변화 미래형 기후예측 시스템
13 / 11
Bayesian (확률) Frequentist (우도)
• 측도 : 확률(probability)
likelihood
prior posterior
• Bayesian 이론
- 과학적 추론에서 Kolmogrov
확률 이론 사용 가능
• 예측에 강함
• 측도 : 우도(likelihood)
• likelihood 이론
이론기반 : 불확실성 측도
불확실성 측도 연구 – h-likelihood 측도 기법
Bayesian
Frequentist
H - likelihood
• 측도: h- likelihood
• h-likelihood Theory
- Extended Likelihood Principle (Björnstad, 1996)
• Youngjo Lee &
John A. Nelder
(1996)
• 엄밀한 과학적 추론에 강함
• 새로운 발전적 통섭(융합)
창조적 통섭
14 / 11
이론기반 : 지식 공간 확장
통계모형 지식공간의 확장 - HGLM 확장
JGLM (Lee&Nelder,1991,
141회 인용)
분산에 대한
GLM
A2x2 = b2
Correlation
에 대한
GLM
A3x3 = b3
평균에 대한
GLM
A1x1 = b1
분산에 대한
HGLM
Correlation
에 대한
HGLM
평균에 대한
HGLM
DHGLM (Lee&Nelder,2006,
98회 인용)
분산에 대한
DHGLM
Correlation
에 대한
DHGLM
평균에 대한
DHGLM
MDHGLM (Noh&Lee,2014)
• HGLM : 기후산출기 (Oh&Lee, 2014)
• DHGLM : 뇌졸중환자 motion 분석 (Lee&Seo,
2014), 변수선택 (Lee&Oh, 2014)
• MDHGLM: 스웨덴 순록 움직임 분석 (Moudud,
et al 2014), EU 간호사 직원만족도 분석 (Noh et al,
2014), 네덜란드 안과분석 (Noh et al., 2014)
평균에 대한
GLM
A1x1 = b1
분산에 대한
GLM
A2x2 = b2
HGLM (Lee&Nelder,1996,2001,
각각 704,229회 인용)
LM (Galton, 1865) GLM (Nelder, 1972)
분산처리기술
15 / 11
Brownian Process
SRC 안
과제의 구조 및 내용 – 지식공간의 활용
Levy Process
이론기반: 앞으로의 과제
다양한 분야에서 동
적 모형분석에 필요
한 자료 대두
계산속도가 빠르고 추
정과 추론이 가능한
통계 방법론의 개발
미분방정식을 이용하여 사회과학,
보건학, 기상학 등에 활용할 수
있는 동적 MDHGLM 모형 개발
16 / 11
기술기반 : 플랫폼
이질적 데이터 통합 및 분석 기반 구축
이종적 데이터를 일관된 모델로 표현하지 못함
기존의 Data Warehouse
Triple 모델 기반의 Agile Data Warehouse
이질적 데이터를, 유연한 Triple 모델을
기반으로 일관된 모델 상에서 표현하여 통합
로그데이터의 그래프 변환
(Jaeseok Myung, WWW 2013)
중요노드 선별 연구
(Jaeseok Myung, WWW 2013)
음악청취 로그 수집/분석
(ByoungJu Yang et al, WWW 2012)
RDF 개체 검색 질의 처리
(Minsuk Kahng et al, SIGIR 2012)
Research Topics
• Agile DW 기반 이론 및
통합된 데이터 관리
• Triple 모델 기반 분석
질의 처리
• 분산처리 프레임워크
확장을 통한 최적화
Research Outputs
고정된 변수들 사이의 관계분석
의외의 요인을 반영하기 힘듦
데이터 이질성으로 인해 발생하는
비효율성 해결 및 이질적 데이터 융합 활용 촉진
통합된 그래프 분석을 통한
미리 상정하지 않은 상관관계의 발견
17 / 11
기술기반 : 패키지
통계적 데이터 분석의 시각화 분석 융합
기본 문제(As-Is) 기본 목표(To-Be)
Research Outputs
방대하고 복잡한 데이터
분석 요구 증대
전문가의 지식/직관과 전통적인
데이터 분석 프로세스의 실시간
통합이 필수 요소
시각적 데이터 분석
(Visual Analytics)
플랫폼 기술 연구
일반화된 시각화 모델에 기반한
시각적 분석 기법
및 사용자 인터액션 모델
h-likelihood 이론 기반의
일반적 통계 분석 도구
방대하고 복잡한 데이터 분석 요구 증대
 전문가의 지식/직관과 전통적인 데이터 분석 프로세스의 실시간 통합이 필수 요소
시각적 데이터 분석 (Visual Analytics) 플랫폼 기술 연구 필요
+ 일반화된 시각화 모델에 기반한 시각적 분석 기법 및 사용자 인터액션 모델
+ h-likelihood 이론 기반의 일반적 통계 분석 도구
의료 영상 데이터 분석 시
시선 분석
(Hyounjoo Song, TVCG 2014)
불규칙 시계열 데이터
시각화
(Myoungsu Cho, TVCG 2014)
통계 시각화 도구
(한구현, HCI Korea 2014)
18 / 11
기술기반: 앞으로의 과제
• 이질적 데이터 통합분석 기반 구축
– 인과 및 시간적 선후를 고려한 분석 질의 확장
• 기존의 노드 간 상관성 분석 및 노드 중요도 분석에서 진일보
– 분산처리 프레임워크 확장 연구를 통한 Agile DW 최적화
• 시각화 패키지 개발
– 융합적 데이터 분석 시스템 설계
– 시각적 분석도구를 이용한 직관적인 데이터 탐색 및 의사결정 보조
Agile DW를 위한
기반 이론 연구
Triple 기반 분석질의
처리 연구
인과 및 시간적
선후를 고려한
분석 질의 확장
분산처리 프레임워크
확장 연구를 통한 Agile
DW 최적화
TODO
19 / 11
이슈 기반 : 생명의료(EMR)
병원 정보 시스템에 축적되어 있는 대용량의 복합의료정보를 효과적으로 사용하고 새로운
관점으로 분석하여, 질병에 대한 이해를 높이고 환자 치료 및 국민 건강에 기여함
질환 별 지식 데이터베이스
임상에서 환자 치료
질병 극복의 열쇠
하나의 질환모델에서
여러 질환으로 확장
전자의무기록(EMR) = 비구조화 데이터
기본 데이터베이스
병원 정보 시스템에 다양한
종류의 대용량 데이터들이
계속적으로 축적되고 있음
질환 모델 구축
컴퓨터
공학
산업
공학
의학
다학제간 교류로
다양한 분석 수행
질환 및 변수 자료 추출
데이터의 체계화
20 / 11
이슈 기반 : 생명의료(EMR)
전자의무기록 정보를 이용한 질병 극복
예비분석
데이터 확장
데이터 특성
가시화
데이터 분석
질병 지식 창출
예비분석: 제 2형 당뇨병 환자 100명의 3년 간 자료
제 2형 당뇨 환자의 처방 내역 및 검사 수치 데이터를 기반으로 분석에 적합한 형태의
데이터베이스를 구축하고, 다각도 분석을 시행하여 새로운 지식을 창출함
• 인구학적 특성 파악 및 데이터 검토
• 주요 변수자료 탐색 및 추가 수집
• 비구조화 데이터의 전처리 방법론 확립
데이터 확장: 10년간 서울대병원을 방문한 제 2형 당뇨병 환자
• 인구학적 특성 파악 및 데이터 검토
• 확립된 방법론으로 데이터 가공
• 데이터 탐색 및 가시화
- 인구학적 데이터 분포
- 당뇨약제 처방 내역 변화 양상
- HbA1c 변화 양상
• 약제와 혈당 조절간의 연관성 탐색
제 2형 당뇨 질환 모델을 활용하여, 복합
의료정보로부터 다양한 질환의 지식 창출이
가능함
21 / 11
이슈 기반 : 생명의료(EMR)
영상 데이터로부터의 지식발견 기법
다양한 검사 모달리티로부터 다양한 영상 정보를 생성하여 질병의 분류와 예후의 평가 정확도 및
질병의 병태생리에 대한 이해도를 높여, 환자의 치료와 국민건강, 보건정책 수립에 기여함
데이터 구축/방법론 개발
질병 분류 및 예후 평가
다차원 뇌 신경망 정보의 통합모델 제시
영상 데이터를 이용한 뇌신경계 만성
질환의 질환 진행 모델 개발
질병 진행의 예측을 위한 종단 뇌 영상
데이터 베이스 구축
다차원 뇌 영상 데이터의 신경망 정보를
활용한 진단 분류방법의 개발
데이터 전처리, 변환 및 정보추출 방법론
개발
Nodes
in the brain
Connectivity
matrix
FPTSOC
left
right
hemisphere
Find the skeleton of
brain network
control condition
(control group)
experimental condition
(patient group)
22 / 11
•질병 진단을 위한
최적의 통계적 방법론
구축
: 확장된 우도 예측법과
고차원 데이터 분석
• 데이터 전처리, 변화 및 정보추출 방법론 개발
• 고차원 뇌영상에서 뇌네트워크 가시화
• 다중 모달리티 뇌영상의 융합
• 고차원 뇌 영상 데이터의 확보
• 임상데이터의 선별
제1세부 : 통계학
병원/지역의료기관 제3-2세부. 의학
연계형
융합 연구
통계
개발
응용
시각화
• 통계적 검정 기법과
시각화 통합
제2세부 : 컴퓨터 공학
뇌 MRI와 FDG PETMULTI-
dimensional persistent
homology 를 이용한 ASD
질병평가
SVM 기반 다중 뇌영상
모달리트 분석을 통한 AD
질병 스펙트럼의 분류
이슈 기반 : 생명의료(EMR)
의료정보의 시각적 분석
질병분류/예후예측
23 / 11
이슈 기반 : 기술관리
기술관리 영역은 기술-제조-서비스로 이루어지는 산업 사이클에 맞추어 각 영역의 데이터
분석에 전문성을 지니며, 기술-제조-서비스의 혁신 주기를 관리하는 것을 목표로 함
기술의 대량화, 복잡화, 융합화에 따라
기술 데이터가 급격히 증가하고
복잡해짐에 따라 새로운 미래기술개발
발굴이 어려워짐
신성장동력 기술발굴 시스템
제조업 생산성 혁신을 위한
순간 최적화 엔진 개발
제조 및 서비스 비즈니스를
위한 빅데이터 기반 BI
(Business Intelligence)
시스템
제조업에서 경쟁이 심화되고
수요의 불확실성이 증가함에 따라
데이터 분석에 기반한 효과적이고
빠른 의사결정이 필요해짐
대용량의 정형 데이터와 산재해
있는 비정형 데이터로부터
기업 내 정보 서비스 관련 인사이트
도출에 대한 니즈가 증가
기술
제조
서비스
기술관리
24 / 11
주요 토픽 추출 트렌드 분석 서비스 아이디어 생성 및 인사이트 도출
소셜미디어 데이터 기업 내부의 비정형 데이터대용량 정형 데이터
제조 및 서비스 비즈니스에서 발생하는 다양한 형태의 데이터(대용량의 수치형 데이터 및
산재하고 있는 텍스트 데이터 등)에 적합한 저장 방식 및 분석 방법을 적용하여 비즈니스
인사이트를 도출할 수 있는 시스템 개발이 필요함.
이슈 기반 : 기술관리
빅데이터 기반 비즈니스 인텔리전스
25 / 11
이슈 기반 : 기술관리
생산성 혁신을 위한 순간 최적화 엔진
공정 복잡도와 수요 변동성이 증가함에 따라, 경쟁우위 확보를 위해 생산성 혁신이 필요.
순간 최적화 엔진을 사용하여 생산성 혁신을 도모하고, 제조의 주요 의사결정 문제 해결
- 다양한 제품 생산 필요
- 제품의 생산 공정 복잡도 증가
- 수요의 변동성 증가
- 경쟁으로 인한 비용 절감 필요
제조업의 해결 이슈
- 복잡한 최적화 문제를
상태기반 의사결정 문제로
근사하여 순식간에 해결
- 기계학습, 추천 기법, 병렬
최적화, 분산 검색 기술 활용
순간 최적화 엔진 개요
- 변동에 즉각 대처 가능
- 문제 발생시 조기 탐지 가능
- 다양한 What-if 분석 제공
- 생산 KPI 향상
순간 최적화 엔진 특징
다양한 제품들을 효율적으로 생산하는 스케줄 제공 생산 요구사항 적극 반영 가능 웹 기반의 UI를 통한 실시간
모니터링
26 / 11
이슈 기반 : 기술관리
신성장 동력 기술의 발굴
수치나 텍스트 형태의 기술 데이터인 평면 정보를 분석 및 가공하여 입체적으로
시각화함으로써 창의적인 지식을 도출하고 신성장 동력 기술을 발굴하는 시스템 설계
[평면 정보 – 데이터 수치]
[입체 지식 – 지도, 네트워크, 계층]
키워드 빈도 구분
T1 43 Machinery
T2 39 Chemistry
T3 34 Display
T4 32 Machinery
T5 28 Display
T6 26 Computer
T6 24 Telecom.
T7 22 Machinery
27 / 11
이슈 기반 : 기후변화
미래형 기후예측 시스템
• 수치모델 예측값과 시공간 통계모형 및 추론을 이용한 방법론
• 여러 개의 수치모델을 동시에 고려하고 평가하여 장,단기 기후변화와
지역적 기후변화 예측력 향상시킴
• 통계 프로그래밍을 통한 빠른 알고리즘 구현 – 현업에서 사용 가능
• 관측된 기후자료만을 사용하여
미래의 기후변화 예측방법
• 장기적인 기후변화를 고려할 수
없음
• 과거자료에 국한된 예측으로
역동적인 예측이 어려움
• 전 지구의 대기, 해양의 수치모델
(General Circulation Model)을 이용한
기후변화 예측방법
• 기후의 불확실성을 반영하지 못함
• 지역적 기후변화의 예측력이 떨어짐
Spatial-Temporal Model Output Statistics
Pure Statistical ForecastDynamical Forecast
28 / 11
데이터 과학의 정의와 대표과제 도출
연구의 융합형 추진 시스템
영상 데이터를
이용한 지식 발견
기법
수치 및 텍스트
기반 복합의료
정보를 이용한
질병 극복
뇌졸중 연구
혁신을 위한 시각
적 분석 시스템
신성장 동력
기술의 발굴
제조업 생산성
혁신
정보 서비스
혁신 시스템
통계적 방법론을
이용한 기후예측
향상
SRC-STAT
국산 통계 패키지
개발
이질적 데이터 통
합 분석을 위한
기반 구축
통계적 데이터 분
석의 시각화 분석
융합
불확실성
측도
연구
통계 모형의
지식공간 확장
구조화
희소특징학습의
분산처리와 응용
미분방정식에
기반한 동적 모형
연구
새로운 과학적, 사회적, 경제적 이슈에 대응하기 위한 다학제적 융합과 시스템 접근을 통해
연구를 추진
이슈 기반 –
생명의료
이슈 기반 –
기술관리
이슈 기반 –
기후변화
이론 기반
기술 기반

Weitere ähnliche Inhalte

Was ist angesagt?

Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한SRCDSC
 
Src슬라이드(1총괄2세부) 이재용
Src슬라이드(1총괄2세부) 이재용Src슬라이드(1총괄2세부) 이재용
Src슬라이드(1총괄2세부) 이재용SRCDSC
 
Src슬라이드(2총괄1세부) 이상구
Src슬라이드(2총괄1세부) 이상구Src슬라이드(2총괄1세부) 이상구
Src슬라이드(2총괄1세부) 이상구SRCDSC
 
Src슬라이드(3총괄1세부) 박종헌
Src슬라이드(3총괄1세부) 박종헌Src슬라이드(3총괄1세부) 박종헌
Src슬라이드(3총괄1세부) 박종헌SRCDSC
 
Src슬라이드(1총괄1세부)이영조2
Src슬라이드(1총괄1세부)이영조2Src슬라이드(1총괄1세부)이영조2
Src슬라이드(1총괄1세부)이영조2SRCDSC
 
Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트SRCDSC
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석Kwang Woo NAM
 
계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.Han Woo PARK
 
Kiosk issue52 2018_9
Kiosk issue52 2018_9Kiosk issue52 2018_9
Kiosk issue52 2018_9올포피엠
 

Was ist angesagt? (10)

Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한
 
Src슬라이드(1총괄2세부) 이재용
Src슬라이드(1총괄2세부) 이재용Src슬라이드(1총괄2세부) 이재용
Src슬라이드(1총괄2세부) 이재용
 
Src슬라이드(2총괄1세부) 이상구
Src슬라이드(2총괄1세부) 이상구Src슬라이드(2총괄1세부) 이상구
Src슬라이드(2총괄1세부) 이상구
 
Src슬라이드(3총괄1세부) 박종헌
Src슬라이드(3총괄1세부) 박종헌Src슬라이드(3총괄1세부) 박종헌
Src슬라이드(3총괄1세부) 박종헌
 
Src슬라이드(1총괄1세부)이영조2
Src슬라이드(1총괄1세부)이영조2Src슬라이드(1총괄1세부)이영조2
Src슬라이드(1총괄1세부)이영조2
 
Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
 
계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.계량정보분석 해외사례 조사분석.
계량정보분석 해외사례 조사분석.
 
통계진로정보게시판(20150225)
통계진로정보게시판(20150225)통계진로정보게시판(20150225)
통계진로정보게시판(20150225)
 
Kiosk issue52 2018_9
Kiosk issue52 2018_9Kiosk issue52 2018_9
Kiosk issue52 2018_9
 

Ähnlich wie 데이터과학의 정의와 대표과제 도출

빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용수보 김
 
디지털 트윈과 핼스케어 Digital Twin and Healthcare
디지털 트윈과 핼스케어  Digital Twin and Healthcare디지털 트윈과 핼스케어  Digital Twin and Healthcare
디지털 트윈과 핼스케어 Digital Twin and HealthcareJahee Lee
 
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관Suntae Kim
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
오픈사이언스와 연구데이터
오픈사이언스와 연구데이터오픈사이언스와 연구데이터
오픈사이언스와 연구데이터Suntae Kim
 
Big data활용 ss
Big data활용 ssBig data활용 ss
Big data활용 ssJinSoo Park
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기Kangwook Lee
 
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용구중억 (한국기초과학지원연구원)
 
병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략Digital Initiative Group
 
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptxNamkug Kim
 
융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.Chanjin Park
 
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향K data
 
4차산업시대와 의료환경
4차산업시대와 의료환경 4차산업시대와 의료환경
4차산업시대와 의료환경 Namkug Kim
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해수보 김
 
2013 더나은미래를위한데이터분석 (big data 글로벌 선진사례 2)nia
2013 더나은미래를위한데이터분석 (big data 글로벌 선진사례 2)nia2013 더나은미래를위한데이터분석 (big data 글로벌 선진사례 2)nia
2013 더나은미래를위한데이터분석 (big data 글로벌 선진사례 2)niaatelier t*h
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형datasciencekorea
 
2015 스마트의료기술 세미나 질의응답기반의 개방형 클라우드 서비스 이제관
2015 스마트의료기술 세미나 질의응답기반의 개방형 클라우드 서비스 이제관2015 스마트의료기술 세미나 질의응답기반의 개방형 클라우드 서비스 이제관
2015 스마트의료기술 세미나 질의응답기반의 개방형 클라우드 서비스 이제관제관 이
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선datasciencekorea
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
 

Ähnlich wie 데이터과학의 정의와 대표과제 도출 (20)

빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 
디지털 트윈과 핼스케어 Digital Twin and Healthcare
디지털 트윈과 핼스케어  Digital Twin and Healthcare디지털 트윈과 핼스케어  Digital Twin and Healthcare
디지털 트윈과 핼스케어 Digital Twin and Healthcare
 
빅데이터
빅데이터빅데이터
빅데이터
 
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
오픈사이언스와 연구데이터
오픈사이언스와 연구데이터오픈사이언스와 연구데이터
오픈사이언스와 연구데이터
 
Big data활용 ss
Big data활용 ssBig data활용 ss
Big data활용 ss
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기
 
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
 
병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략
 
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx
의료용 디지털트윈의 정의, 주요 동향(정책, 기술)과 바이오헬스 분야 응용.pptx
 
융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.
 
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
 
4차산업시대와 의료환경
4차산업시대와 의료환경 4차산업시대와 의료환경
4차산업시대와 의료환경
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
2013 더나은미래를위한데이터분석 (big data 글로벌 선진사례 2)nia
2013 더나은미래를위한데이터분석 (big data 글로벌 선진사례 2)nia2013 더나은미래를위한데이터분석 (big data 글로벌 선진사례 2)nia
2013 더나은미래를위한데이터분석 (big data 글로벌 선진사례 2)nia
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형
 
2015 스마트의료기술 세미나 질의응답기반의 개방형 클라우드 서비스 이제관
2015 스마트의료기술 세미나 질의응답기반의 개방형 클라우드 서비스 이제관2015 스마트의료기술 세미나 질의응답기반의 개방형 클라우드 서비스 이제관
2015 스마트의료기술 세미나 질의응답기반의 개방형 클라우드 서비스 이제관
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 

데이터과학의 정의와 대표과제 도출

  • 2. 2 / 11 데이터의 양이 2년마다 2배 이상 증가 2010년2020년 데이터의 양 75배 증가 The future belongs to the one who rules the data
  • 3. 3 / 11 데이터 과학의 정의와 대표과제 도출 과학혁명의 패러다임: 기본모형 새로운 과학적 현상 새로운 사회적 문제 새로운 경제적 과제 수수께끼(Enigma) 새로운 패러다임: 문제해결과정 정상과학(Normal science) 새로운 이론기반 새로운 기술기반 과학혁명의 과정 Thomas Kuhn, The Structure of Scientific Revolutions, 1962
  • 4. 4 / 11 데이터 과학의 정의와 대표과제 도출 과학혁명의 패러다임: 데이터 과학의 출현 새로운 과학적 현상 새로운 사회적 문제 새로운 경제적 과제 수수께끼(Enigma) 문제해결과정 정상과학(Normal science) 새로운 이론기반 새로운 기술기반 데이터 과학은 새롭게 출현하는 사회적, 경제적, 자연적 이슈들에 대응하여, 방대하고 복잡한 데이터를 다학제적 융합(muti- disciplinary convergence)과 시스템적 접근(systems approach)을 반영하여 창의적 지식(creative knowledge)으로 전환하는 활동으로 정의함
  • 5. 5 / 11 데이터 과학의 정의와 대표과제 도출 데이터 과학의 정의와 학문 기술 이슈 이론 Data Mining Explorative Technology Applied Statistics Data Science
  • 6. 6 / 11 데이터 과학의 정의와 대표과제 도출 데이터 과학의 정의와 구조 데이터 과학 가치 Knowledge Creation 확장성 Modeling & Analysis 속도 Huge Data Various Data  데이터 기반  새로운 지식 탐색 및 창출  의료, 기술, 기후 분야: 예측력이 경쟁력  대용량의 다양한 데이터를 EMR등으로 체계적으로 관리  하둡/맵리듀스 등을 이용  실시간적 (속도)으로 제공함  대용량의 데이터를 분석하는 두뇌  통계처리분석/모델링/예측,  새로운 국산 패키지 개발  확장성이 매우 중요 이슈: 생명의료, 기술관리, 기후변화 기술 : 대용량, 다차원, 성능 이론 : 모형화, 분석
  • 7. 7 / 11 데이터 과학의 정의와 대표과제 도출 과제 영역 도출의 단계 이슈 대응 과제 기술 기반 과제 이론 기반 과제 단계 1 단계 2 단계 3 새로운 과학 패러다임의 출현을 견인하는 사회적/경제적/과학적 이슈 새로운 과학 패러다임의 이슈들에 대응하는 기술 기반의 구축 새로운 과학 패러다임의 이슈들에 대응하는 이론 기반의 구축 단계별 과제 도출
  • 8. 8 / 11 데이터 과학의 정의와 대표과제 도출 과제 영역 도출 새로운 과학적 현상 새로운 사회적 문제 새로운 경제적 과제 수수께끼(Enigma) 새로운 패러다임: 데이터 과학 정상과학(Normal science) 새로운 이론 기반 새로운 기술 기반 과제 도출 영역 I – 이슈 대응 과제 과제 도출 영역 II – 이론 기반 과제 과제 도출 영역 III – 기술 기반 과제
  • 9. 9 / 11 데이터 과학의 정의와 대표과제 도출 연구과제의 구성도 – 대표과제 도출 (I) 사회적 문제이슈 “새롭게 출현하는 사회적, 경제적, 과학적 이슈” 가운데 데이터와 분석의 중요성이 지대한 영역을 대표과제로 도출 과제 경제적 과제 과학적 현상 생명의료 (Bio-Medical) 기술관리 (Techno-Managerial) 기후변화 (Climatological)
  • 10. 10 / 11 데이터 과학의 정의와 대표과제 도출 연구과제의 구성도 – 대표과제 도출 (II) 통계분석 Tool이슈 “방대하고 복잡한 데이터”의 수집-처리-가공을 위한 분석 tool과 데이터 infra, 구현 algorithm에 관한 새로운 기술 기반의 대표과제 도출 과제 통합 Database 시각화 Algorithm 한국형 통계패키지 개발 이질적 데이터 통합 구축 시각화 패키지
  • 11. 11 / 11 데이터 과학의 정의와 대표과제 도출 연구과제의 구성도 – 대표과제 도출 (III) 불확실성이슈 비구조적 데이터를 “창의적 지식”으로 전환할 수 있는 breakthrough 이론 개발에 관한 대표과제 도출 과제 고차원성 지식공간 불확실성 측도 이론 분산처리 기법 이론 지식공간 확장 이론
  • 12. 12 / 11 데이터 과학의 정의와 대표과제 도출 연구과제의 내용 과제 기반에 따라 도출된 영역에 맞춰 새로운 지식을 창출하고, 분석 이론을 구체화 하고, 이론 체계를 확립할 대표과제를 수행 과제기반 과제영역 과제주제 이론 기반 불확실성 측도 불확실성 측도 연구 – h-likelihood 측도 기법 지식공간 확장 통계모형 지식공간의 확장 –HGLM 확장 미분방정식에 기반한 동적 모형 연구 기술 기반 패키지 SRC-STAT 국산 통계 패키지 개발 통계적 데이터 분석의 시각화 분석 융합 플랫폼 이질적 데이터 통합 및 분석 기반 구축 구조화 희소특징학습의 분산처리와 응용 이슈 기반 생명의료 영상 데이터로부터의 지식발견 기법 전자의무기록 정보를 이용한 질병 극복 의료정보의 시각적 분석 기술관리 신성장 동력 기술의 발굴 생산성 혁신을 위한 순간 최적화 엔진 빅데이터 기반 비즈니스 인텔리전스 기후변화 미래형 기후예측 시스템
  • 13. 13 / 11 Bayesian (확률) Frequentist (우도) • 측도 : 확률(probability) likelihood prior posterior • Bayesian 이론 - 과학적 추론에서 Kolmogrov 확률 이론 사용 가능 • 예측에 강함 • 측도 : 우도(likelihood) • likelihood 이론 이론기반 : 불확실성 측도 불확실성 측도 연구 – h-likelihood 측도 기법 Bayesian Frequentist H - likelihood • 측도: h- likelihood • h-likelihood Theory - Extended Likelihood Principle (Björnstad, 1996) • Youngjo Lee & John A. Nelder (1996) • 엄밀한 과학적 추론에 강함 • 새로운 발전적 통섭(융합) 창조적 통섭
  • 14. 14 / 11 이론기반 : 지식 공간 확장 통계모형 지식공간의 확장 - HGLM 확장 JGLM (Lee&Nelder,1991, 141회 인용) 분산에 대한 GLM A2x2 = b2 Correlation 에 대한 GLM A3x3 = b3 평균에 대한 GLM A1x1 = b1 분산에 대한 HGLM Correlation 에 대한 HGLM 평균에 대한 HGLM DHGLM (Lee&Nelder,2006, 98회 인용) 분산에 대한 DHGLM Correlation 에 대한 DHGLM 평균에 대한 DHGLM MDHGLM (Noh&Lee,2014) • HGLM : 기후산출기 (Oh&Lee, 2014) • DHGLM : 뇌졸중환자 motion 분석 (Lee&Seo, 2014), 변수선택 (Lee&Oh, 2014) • MDHGLM: 스웨덴 순록 움직임 분석 (Moudud, et al 2014), EU 간호사 직원만족도 분석 (Noh et al, 2014), 네덜란드 안과분석 (Noh et al., 2014) 평균에 대한 GLM A1x1 = b1 분산에 대한 GLM A2x2 = b2 HGLM (Lee&Nelder,1996,2001, 각각 704,229회 인용) LM (Galton, 1865) GLM (Nelder, 1972) 분산처리기술
  • 15. 15 / 11 Brownian Process SRC 안 과제의 구조 및 내용 – 지식공간의 활용 Levy Process 이론기반: 앞으로의 과제 다양한 분야에서 동 적 모형분석에 필요 한 자료 대두 계산속도가 빠르고 추 정과 추론이 가능한 통계 방법론의 개발 미분방정식을 이용하여 사회과학, 보건학, 기상학 등에 활용할 수 있는 동적 MDHGLM 모형 개발
  • 16. 16 / 11 기술기반 : 플랫폼 이질적 데이터 통합 및 분석 기반 구축 이종적 데이터를 일관된 모델로 표현하지 못함 기존의 Data Warehouse Triple 모델 기반의 Agile Data Warehouse 이질적 데이터를, 유연한 Triple 모델을 기반으로 일관된 모델 상에서 표현하여 통합 로그데이터의 그래프 변환 (Jaeseok Myung, WWW 2013) 중요노드 선별 연구 (Jaeseok Myung, WWW 2013) 음악청취 로그 수집/분석 (ByoungJu Yang et al, WWW 2012) RDF 개체 검색 질의 처리 (Minsuk Kahng et al, SIGIR 2012) Research Topics • Agile DW 기반 이론 및 통합된 데이터 관리 • Triple 모델 기반 분석 질의 처리 • 분산처리 프레임워크 확장을 통한 최적화 Research Outputs 고정된 변수들 사이의 관계분석 의외의 요인을 반영하기 힘듦 데이터 이질성으로 인해 발생하는 비효율성 해결 및 이질적 데이터 융합 활용 촉진 통합된 그래프 분석을 통한 미리 상정하지 않은 상관관계의 발견
  • 17. 17 / 11 기술기반 : 패키지 통계적 데이터 분석의 시각화 분석 융합 기본 문제(As-Is) 기본 목표(To-Be) Research Outputs 방대하고 복잡한 데이터 분석 요구 증대 전문가의 지식/직관과 전통적인 데이터 분석 프로세스의 실시간 통합이 필수 요소 시각적 데이터 분석 (Visual Analytics) 플랫폼 기술 연구 일반화된 시각화 모델에 기반한 시각적 분석 기법 및 사용자 인터액션 모델 h-likelihood 이론 기반의 일반적 통계 분석 도구 방대하고 복잡한 데이터 분석 요구 증대  전문가의 지식/직관과 전통적인 데이터 분석 프로세스의 실시간 통합이 필수 요소 시각적 데이터 분석 (Visual Analytics) 플랫폼 기술 연구 필요 + 일반화된 시각화 모델에 기반한 시각적 분석 기법 및 사용자 인터액션 모델 + h-likelihood 이론 기반의 일반적 통계 분석 도구 의료 영상 데이터 분석 시 시선 분석 (Hyounjoo Song, TVCG 2014) 불규칙 시계열 데이터 시각화 (Myoungsu Cho, TVCG 2014) 통계 시각화 도구 (한구현, HCI Korea 2014)
  • 18. 18 / 11 기술기반: 앞으로의 과제 • 이질적 데이터 통합분석 기반 구축 – 인과 및 시간적 선후를 고려한 분석 질의 확장 • 기존의 노드 간 상관성 분석 및 노드 중요도 분석에서 진일보 – 분산처리 프레임워크 확장 연구를 통한 Agile DW 최적화 • 시각화 패키지 개발 – 융합적 데이터 분석 시스템 설계 – 시각적 분석도구를 이용한 직관적인 데이터 탐색 및 의사결정 보조 Agile DW를 위한 기반 이론 연구 Triple 기반 분석질의 처리 연구 인과 및 시간적 선후를 고려한 분석 질의 확장 분산처리 프레임워크 확장 연구를 통한 Agile DW 최적화 TODO
  • 19. 19 / 11 이슈 기반 : 생명의료(EMR) 병원 정보 시스템에 축적되어 있는 대용량의 복합의료정보를 효과적으로 사용하고 새로운 관점으로 분석하여, 질병에 대한 이해를 높이고 환자 치료 및 국민 건강에 기여함 질환 별 지식 데이터베이스 임상에서 환자 치료 질병 극복의 열쇠 하나의 질환모델에서 여러 질환으로 확장 전자의무기록(EMR) = 비구조화 데이터 기본 데이터베이스 병원 정보 시스템에 다양한 종류의 대용량 데이터들이 계속적으로 축적되고 있음 질환 모델 구축 컴퓨터 공학 산업 공학 의학 다학제간 교류로 다양한 분석 수행 질환 및 변수 자료 추출 데이터의 체계화
  • 20. 20 / 11 이슈 기반 : 생명의료(EMR) 전자의무기록 정보를 이용한 질병 극복 예비분석 데이터 확장 데이터 특성 가시화 데이터 분석 질병 지식 창출 예비분석: 제 2형 당뇨병 환자 100명의 3년 간 자료 제 2형 당뇨 환자의 처방 내역 및 검사 수치 데이터를 기반으로 분석에 적합한 형태의 데이터베이스를 구축하고, 다각도 분석을 시행하여 새로운 지식을 창출함 • 인구학적 특성 파악 및 데이터 검토 • 주요 변수자료 탐색 및 추가 수집 • 비구조화 데이터의 전처리 방법론 확립 데이터 확장: 10년간 서울대병원을 방문한 제 2형 당뇨병 환자 • 인구학적 특성 파악 및 데이터 검토 • 확립된 방법론으로 데이터 가공 • 데이터 탐색 및 가시화 - 인구학적 데이터 분포 - 당뇨약제 처방 내역 변화 양상 - HbA1c 변화 양상 • 약제와 혈당 조절간의 연관성 탐색 제 2형 당뇨 질환 모델을 활용하여, 복합 의료정보로부터 다양한 질환의 지식 창출이 가능함
  • 21. 21 / 11 이슈 기반 : 생명의료(EMR) 영상 데이터로부터의 지식발견 기법 다양한 검사 모달리티로부터 다양한 영상 정보를 생성하여 질병의 분류와 예후의 평가 정확도 및 질병의 병태생리에 대한 이해도를 높여, 환자의 치료와 국민건강, 보건정책 수립에 기여함 데이터 구축/방법론 개발 질병 분류 및 예후 평가 다차원 뇌 신경망 정보의 통합모델 제시 영상 데이터를 이용한 뇌신경계 만성 질환의 질환 진행 모델 개발 질병 진행의 예측을 위한 종단 뇌 영상 데이터 베이스 구축 다차원 뇌 영상 데이터의 신경망 정보를 활용한 진단 분류방법의 개발 데이터 전처리, 변환 및 정보추출 방법론 개발 Nodes in the brain Connectivity matrix FPTSOC left right hemisphere Find the skeleton of brain network control condition (control group) experimental condition (patient group)
  • 22. 22 / 11 •질병 진단을 위한 최적의 통계적 방법론 구축 : 확장된 우도 예측법과 고차원 데이터 분석 • 데이터 전처리, 변화 및 정보추출 방법론 개발 • 고차원 뇌영상에서 뇌네트워크 가시화 • 다중 모달리티 뇌영상의 융합 • 고차원 뇌 영상 데이터의 확보 • 임상데이터의 선별 제1세부 : 통계학 병원/지역의료기관 제3-2세부. 의학 연계형 융합 연구 통계 개발 응용 시각화 • 통계적 검정 기법과 시각화 통합 제2세부 : 컴퓨터 공학 뇌 MRI와 FDG PETMULTI- dimensional persistent homology 를 이용한 ASD 질병평가 SVM 기반 다중 뇌영상 모달리트 분석을 통한 AD 질병 스펙트럼의 분류 이슈 기반 : 생명의료(EMR) 의료정보의 시각적 분석 질병분류/예후예측
  • 23. 23 / 11 이슈 기반 : 기술관리 기술관리 영역은 기술-제조-서비스로 이루어지는 산업 사이클에 맞추어 각 영역의 데이터 분석에 전문성을 지니며, 기술-제조-서비스의 혁신 주기를 관리하는 것을 목표로 함 기술의 대량화, 복잡화, 융합화에 따라 기술 데이터가 급격히 증가하고 복잡해짐에 따라 새로운 미래기술개발 발굴이 어려워짐 신성장동력 기술발굴 시스템 제조업 생산성 혁신을 위한 순간 최적화 엔진 개발 제조 및 서비스 비즈니스를 위한 빅데이터 기반 BI (Business Intelligence) 시스템 제조업에서 경쟁이 심화되고 수요의 불확실성이 증가함에 따라 데이터 분석에 기반한 효과적이고 빠른 의사결정이 필요해짐 대용량의 정형 데이터와 산재해 있는 비정형 데이터로부터 기업 내 정보 서비스 관련 인사이트 도출에 대한 니즈가 증가 기술 제조 서비스 기술관리
  • 24. 24 / 11 주요 토픽 추출 트렌드 분석 서비스 아이디어 생성 및 인사이트 도출 소셜미디어 데이터 기업 내부의 비정형 데이터대용량 정형 데이터 제조 및 서비스 비즈니스에서 발생하는 다양한 형태의 데이터(대용량의 수치형 데이터 및 산재하고 있는 텍스트 데이터 등)에 적합한 저장 방식 및 분석 방법을 적용하여 비즈니스 인사이트를 도출할 수 있는 시스템 개발이 필요함. 이슈 기반 : 기술관리 빅데이터 기반 비즈니스 인텔리전스
  • 25. 25 / 11 이슈 기반 : 기술관리 생산성 혁신을 위한 순간 최적화 엔진 공정 복잡도와 수요 변동성이 증가함에 따라, 경쟁우위 확보를 위해 생산성 혁신이 필요. 순간 최적화 엔진을 사용하여 생산성 혁신을 도모하고, 제조의 주요 의사결정 문제 해결 - 다양한 제품 생산 필요 - 제품의 생산 공정 복잡도 증가 - 수요의 변동성 증가 - 경쟁으로 인한 비용 절감 필요 제조업의 해결 이슈 - 복잡한 최적화 문제를 상태기반 의사결정 문제로 근사하여 순식간에 해결 - 기계학습, 추천 기법, 병렬 최적화, 분산 검색 기술 활용 순간 최적화 엔진 개요 - 변동에 즉각 대처 가능 - 문제 발생시 조기 탐지 가능 - 다양한 What-if 분석 제공 - 생산 KPI 향상 순간 최적화 엔진 특징 다양한 제품들을 효율적으로 생산하는 스케줄 제공 생산 요구사항 적극 반영 가능 웹 기반의 UI를 통한 실시간 모니터링
  • 26. 26 / 11 이슈 기반 : 기술관리 신성장 동력 기술의 발굴 수치나 텍스트 형태의 기술 데이터인 평면 정보를 분석 및 가공하여 입체적으로 시각화함으로써 창의적인 지식을 도출하고 신성장 동력 기술을 발굴하는 시스템 설계 [평면 정보 – 데이터 수치] [입체 지식 – 지도, 네트워크, 계층] 키워드 빈도 구분 T1 43 Machinery T2 39 Chemistry T3 34 Display T4 32 Machinery T5 28 Display T6 26 Computer T6 24 Telecom. T7 22 Machinery
  • 27. 27 / 11 이슈 기반 : 기후변화 미래형 기후예측 시스템 • 수치모델 예측값과 시공간 통계모형 및 추론을 이용한 방법론 • 여러 개의 수치모델을 동시에 고려하고 평가하여 장,단기 기후변화와 지역적 기후변화 예측력 향상시킴 • 통계 프로그래밍을 통한 빠른 알고리즘 구현 – 현업에서 사용 가능 • 관측된 기후자료만을 사용하여 미래의 기후변화 예측방법 • 장기적인 기후변화를 고려할 수 없음 • 과거자료에 국한된 예측으로 역동적인 예측이 어려움 • 전 지구의 대기, 해양의 수치모델 (General Circulation Model)을 이용한 기후변화 예측방법 • 기후의 불확실성을 반영하지 못함 • 지역적 기후변화의 예측력이 떨어짐 Spatial-Temporal Model Output Statistics Pure Statistical ForecastDynamical Forecast
  • 28. 28 / 11 데이터 과학의 정의와 대표과제 도출 연구의 융합형 추진 시스템 영상 데이터를 이용한 지식 발견 기법 수치 및 텍스트 기반 복합의료 정보를 이용한 질병 극복 뇌졸중 연구 혁신을 위한 시각 적 분석 시스템 신성장 동력 기술의 발굴 제조업 생산성 혁신 정보 서비스 혁신 시스템 통계적 방법론을 이용한 기후예측 향상 SRC-STAT 국산 통계 패키지 개발 이질적 데이터 통 합 분석을 위한 기반 구축 통계적 데이터 분 석의 시각화 분석 융합 불확실성 측도 연구 통계 모형의 지식공간 확장 구조화 희소특징학습의 분산처리와 응용 미분방정식에 기반한 동적 모형 연구 새로운 과학적, 사회적, 경제적 이슈에 대응하기 위한 다학제적 융합과 시스템 접근을 통해 연구를 추진 이슈 기반 – 생명의료 이슈 기반 – 기술관리 이슈 기반 – 기후변화 이론 기반 기술 기반