2. 2
발표 내용
빅 데이란?
빅 데이타 3대 요소
왜 하둡인가?
머신러닝과의 관계
머신러닝이란?
빅데이타/머신러닝 응용(I)
빅데이타/인공지능관련 정부 정책
빅데이타 및 비 식별화
빅데이타/머신러닝 응용(II)
딥러닝
인공지능 속이기
Q&A
3. 3
빅데이터란?
정의
데이터 규모에 초점을 맞춘 정의
기존 데이터 베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는
데이터(맥킨지 2011년 6월)
업무 수행 방식에 초점을 맞춘 정의
다양한 종류의 대규모 데이터로 부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른
수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처(IDC 2010년 4월)
4. 4
빅데이터란?
Data Explosion(by Simplilearn)
매일 2.5 exabytes(2.5 billion gigabytes) of data가 생성
이런 데이터가 어디서 생성되나?
매일 1TB이상의 데이터 생성(증권시장)
전세계 약 5 Billion 모바일 폰이 존재(1.75 billion 스마트폰 포함)
유튜브를 통한 분당 48 hours 이상의 videos가 업로드 됨
Twitter 및 Facebook등 SNS를 통해 매일 10TB이상이 생성
전세계 30million이상의 네트웍화 된 센서가 존재
5. 5
빅데이터란?
Data의 형태
Structured Data
Data which is represented in a tabular format(e.g., databases)
Semi-structured data
Data which does no have a formal data model(e.g., XML files)
Unstructured data
Data which does not have a pre-defined data model(e.g., Text, image files)
6. 6
빅데이타 기술의 제한 사항
빅데이타 기술이 직면한 도전
어떻게 시스템 uptime
및 downtime을
다룰것인가?
전체 시스템으로 부터
축적된 데이터를
어떻게 합할것인가?
• 데이터 저장 및 분석을
위한 전문 하드웨어
사용
• 시스템 클러스터간
동일한 데이터의
복사판을 유지
• 이기종간 데이터의
분석
• 데이터의 머징
7. 7
왜 하둡(Hadoop)인가?
이러한 대규모 데이터의 효율적 처리가 필요
하둡이란?
대규모 데이터의 분산 처리를 위한 오픈 소스 프레임워크임
오픈 소스 검색 엔진인 루씬(Luecene)의 창시자인 더그 커팅이 개발한 오프 소스
프로젝트
구글의 GFS(Google File System)와 MapReduce를 기반으로 진행되었음
HDFS(Hadoop Distributed File System)를 통해 분산 저장하고,
MapReduce(맵리듀스)를 통해 분산 저장된 데이터를 분산 처리
8. 8
빅데이타 기술의 특징
증가하는 데이타량을 비용 효율적으로 처리
매일 SNS등에서 발생하는 정보(12 TB)를 제품품평분석 개선에 활용(IBM)
매년 미터기 정보(350billion meter reading)를 파워 소모량 예측에 사용토록함
데이터의 빠른 속도에 반응
매일 생성되는 거래정보건을 분석하여 잠재적인 금융사기를 탐지
매일 생성되는 고객통화내역을 실시간으로 분석하여 고객 이탈을 보다 빨리 예측
다양한 데이터의 집합적 분석이 가능
보안카메라의 많은 데이터를 실시간으로 분석하여 관심 목표를 설정케 함
고객 만족 개선을 위해 다양한 이미지, 영상, 문서를 활용
9. 9
기존의 IT 기술 및 빅데이타 기술 방법 비교
기존의 기술 방식
요구사항 분석 및 정의
솔루션 설계
질의 사항 실행
신규 요구사항
발생시 재설계
및 재작업
10. 10
기존의 IT 기술 및 빅데이타 기술 방법 비교
빅데이타 기반의 기술 방식
데이터 소스 판별
지능형 S/W
플랫폼
데이터 분석을 위한 질의 사항 결정
신규 질의
사항을 위한
데이터 첨가 및
통합 작업
11. 11
머신러닝(기계학습)이란(1)?
Classical Statistics
Infer information from small data sets(Not enough data)
Machine Learning
Infer information from large data sets(Too many data)
출처: http://blog.techback.in/intro-to-machine-learning/
36. 36
빅데이타 산업이 잘 되려면?
이민화 이사장(창조경제연구회 이사장)
한국 인공지능 전략은 알고리즘 개발보다 빅데이터 확보 전략에 중심을 둬야
한다”며 “3조5000억원에 이르는 기술지원보다 빅데이터 관련 규제개혁이
우선”이라고 강조(`인공지능과 4차산업혁명` 포럼에서)
6대 미래 전략 제시
개방 플랫폼 활용과 빅데이터 확보를 통한 활용
오픈소스 활용과 목적 중심 개발
공개교육 활용과 확대 및 학위심사 개혁을 통한 인재육성
공공데이터 개방과 민간 데이터 공유 빅데이터 확보
개인정보보호와 클라우드 규제개혁
사회적 갈등 해소전략
37. 37
빅데이타 및 비 식별화(I)
빅데이타 활용의 가장 큰 걸림돌로 개인 정보 유출의 위험성
이를 위한 비식별화에 대한 노력이 필요
'개인정보 비식별 조치 가이드라인'을 발간
한국인터넷진흥원(KISA) 내에 '개인정보 비식별 지원센터'를 설치·운영
46. 46
머신러닝(기계학습) 응용 II
What leads to a disease’s pathogenesis?
Our platform utilizes patient population health
data to bring actionable Patient IntelligenceTM to
precision medicine applications.