Big data활용 ss

빅데이타 활용 사례
순천향대학교
2016.9.7
박진수(vtjinsoo@naver.com)

2
발표 내용
 빅 데이란?
 빅 데이타 3대 요소
 왜 하둡인가?
 머신러닝과의 관계
 머신러닝이란?
 빅데이타/머신러닝 응용(I)
 빅데이타/인공지능관련 정부 정책
 빅데이타 및 비 식별화
 빅데이타/머신러닝 응용(II)
 딥러닝
 인공지능 속이기
 Q&A

3
빅데이터란?
 정의
 데이터 규모에 초점을 맞춘 정의
 기존 데이터 베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는
데이터(맥킨지 2011년 6월)
 업무 수행 방식에 초점을 맞춘 정의
 다양한 종류의 대규모 데이터로 부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른
수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처(IDC 2010년 4월)

4
빅데이터란?
 Data Explosion(by Simplilearn)
 매일 2.5 exabytes(2.5 billion gigabytes) of data가 생성
 이런 데이터가 어디서 생성되나?
 매일 1TB이상의 데이터 생성(증권시장)
 전세계 약 5 Billion 모바일 폰이 존재(1.75 billion 스마트폰 포함)
 유튜브를 통한 분당 48 hours 이상의 videos가 업로드 됨
 Twitter 및 Facebook등 SNS를 통해 매일 10TB이상이 생성
 전세계 30million이상의 네트웍화 된 센서가 존재

5
빅데이터란?
 Data의 형태
 Structured Data
 Data which is represented in a tabular format(e.g., databases)
 Semi-structured data
 Data which does no have a formal data model(e.g., XML files)
 Unstructured data
 Data which does not have a pre-defined data model(e.g., Text, image files)

6
빅데이타 기술의 제한 사항
 빅데이타 기술이 직면한 도전
어떻게 시스템 uptime
및 downtime을
다룰것인가?
전체 시스템으로 부터
축적된 데이터를
어떻게 합할것인가?
• 데이터 저장 및 분석을
위한 전문 하드웨어
사용
• 시스템 클러스터간
동일한 데이터의
복사판을 유지
• 이기종간 데이터의
분석
• 데이터의 머징

7
왜 하둡(Hadoop)인가?
 이러한 대규모 데이터의 효율적 처리가 필요
 하둡이란?
 대규모 데이터의 분산 처리를 위한 오픈 소스 프레임워크임
 오픈 소스 검색 엔진인 루씬(Luecene)의 창시자인 더그 커팅이 개발한 오프 소스
프로젝트
 구글의 GFS(Google File System)와 MapReduce를 기반으로 진행되었음
 HDFS(Hadoop Distributed File System)를 통해 분산 저장하고,
MapReduce(맵리듀스)를 통해 분산 저장된 데이터를 분산 처리

8
빅데이타 기술의 특징
 증가하는 데이타량을 비용 효율적으로 처리
 매일 SNS등에서 발생하는 정보(12 TB)를 제품품평분석 개선에 활용(IBM)
 매년 미터기 정보(350billion meter reading)를 파워 소모량 예측에 사용토록함
 데이터의 빠른 속도에 반응
 매일 생성되는 거래정보건을 분석하여 잠재적인 금융사기를 탐지
 매일 생성되는 고객통화내역을 실시간으로 분석하여 고객 이탈을 보다 빨리 예측
 다양한 데이터의 집합적 분석이 가능
 보안카메라의 많은 데이터를 실시간으로 분석하여 관심 목표를 설정케 함
 고객 만족 개선을 위해 다양한 이미지, 영상, 문서를 활용

9
기존의 IT 기술 및 빅데이타 기술 방법 비교
 기존의 기술 방식
요구사항 분석 및 정의
솔루션 설계
질의 사항 실행
신규 요구사항
발생시 재설계
및 재작업

10
기존의 IT 기술 및 빅데이타 기술 방법 비교
 빅데이타 기반의 기술 방식
데이터 소스 판별
지능형 S/W
플랫폼
데이터 분석을 위한 질의 사항 결정
신규 질의
사항을 위한
데이터 첨가 및
통합 작업

11
머신러닝(기계학습)이란(1)?
 Classical Statistics
 Infer information from small data sets(Not enough data)
 Machine Learning
 Infer information from large data sets(Too many data)
출처: http://blog.techback.in/intro-to-machine-learning/

12
 기계가 무엇을 할 수 있을까?
 예측 하기
 분류 하기
 유사 패턴 찾기
 다른 패턴 찾기
 생각하기
 추천하기
 …

13
 예측하기(Data Prediction)
키
몸무게

14
 분류하기(Data Classfication)
소득
부채

15
소득
부채

16
특징 1
특징 2

17

18
 이상유무 판단(Data Anomaly Detection)
# of laughing people
# of
smile faces

19
 이상유무 판단(Data Anomaly Detection)

20
 추천하기 (Recommender Systems)
사람
영화
티파니 수영 태연 윤아
정글북 5 5 0 0
닌자터틀 5 ? ? 0
곡성 ? 4 0 ?
크리미널 0 0 5 4
특별수사 0 0 5 ?

21
머신러닝(기계학습) 응용 I
 금융범죄예방

22
 스마트팩토리

23
 추천하기

24
 해킹탐지

25
 스팸차단
Ham: 대개 스팸 메시지와 연관이 있는 키워드를 하나 이상 포함하고 있어서 스팸이
아님에도 차단 또는 여과된 이메일 메시지

26
 파파고(네이버)

27
 이어폰 형태의 번역기(‘Pilot’)

28
 범죄예방

29
 얼굴인식
 NEC 얼굴인식 시스팀(http://blog.naver.com/vtjinsoo/220764139897)

30
머신러닝(기계학습) 응용 I 그림 그리기(Google Deap Dream Photos)
 데모(http://blog.naver.com/vtjinsoo/220764139897)

31
 작곡하기
 데모(http://blog.naver.com/vtjinsoo/220764139897)

32
머신러닝(기계학습) 응용 I 차량 추적(Particle Filter)

33
인공지능/빅데이타 관련 정부 정책
 최근 9대 국가 전략 프로젝트 제시(제2차 과학기술전략회의)
 성장동력 확보 5개 과제, 삶의 질 향상 4개 과제

34
 최근 9대 국가 전략 프로젝트 제시 (제2차 과학기술전략회의)
 미래부 과제 주요 내용

35
 인공지능(AI) 관련 정책(상세)

36
빅데이타 산업이 잘 되려면?
 이민화 이사장(창조경제연구회 이사장)
 한국 인공지능 전략은 알고리즘 개발보다 빅데이터 확보 전략에 중심을 둬야
한다”며 “3조5000억원에 이르는 기술지원보다 빅데이터 관련 규제개혁이
우선”이라고 강조(`인공지능과 4차산업혁명` 포럼에서)
 6대 미래 전략 제시
 개방 플랫폼 활용과 빅데이터 확보를 통한 활용
 오픈소스 활용과 목적 중심 개발
 공개교육 활용과 확대 및 학위심사 개혁을 통한 인재육성
 공공데이터 개방과 민간 데이터 공유 빅데이터 확보
 개인정보보호와 클라우드 규제개혁
 사회적 갈등 해소전략

37
빅데이타 및 비 식별화(I)
 빅데이타 활용의 가장 큰 걸림돌로 개인 정보 유출의 위험성
 이를 위한 비식별화에 대한 노력이 필요
 '개인정보 비식별 조치 가이드라인'을 발간
 한국인터넷진흥원(KISA) 내에 '개인정보 비식별 지원센터'를 설치·운영

38
빅데이타 및 비 식별화(II)
 비식별화 관련 솔루션

39
빅데이타 및 비 식별화(III)
 비식별화 관련 솔루션

40
머신러닝(기계학습) 응용 II
 의료진단

41
머신러닝(기계학습) 응용 II AI로 학습한 엑스레이CT
 저선량CT용 영상복원기술 알고리즘 개발(예종철
한국과학기술원(KAIST) 석좌교수)
 국내 연구진이 인공지능(AI) 기술인 딥러닝으로 엑스레이 CT(컴퓨터
단층촬영기법) 촬영시 방사선 피폭 위험성을 낮추되, 진단의 정확도는 높이는
기술을 개발

42
 세포주기상태 자동 식별

43
 세포분할에 기반한 유방암 진단

44
 실시간 심전도 모니터링에서 심혈관 질환의 예측

45
 Medication adherence (by AiCure)
HIPAA:미국의료정보보호법

46
 What leads to a disease’s pathogenesis?
Our platform utilizes patient population health
data to bring actionable Patient IntelligenceTM to
precision medicine applications.

47
머신러닝(기계학습) 응용 II 인재 선발
 By Lumesse

48
머신러닝(기계학습) 응용 II Google ‘Home’
 구글 가정용 인공지능 비서 ‘ Google Home’

49
머신러닝(기계학습) 응용 II Making a Movie Trailer
 IBM의 인공지능 ‘WATSON’이 영화(‘Morgan’)의 예고편을 만들다

50
참고문헌
[1] http://www.analyticsvidhya.com/blog/2013/11/getting-clustering-right/
[2]https://jpgdatascience.wordpress.com/2016/04/24/microchip-quality-test-
regularized-logistic-regression/
[3] http://fromdatawithlove.thegovans.us/2013/05/clustering-using-scikit-
learn.html?view=sidebar
[4] http://blog.rocapal.org/?p=312
[5] http://www.physicalgeography.net/fundamentals/3h.html
[6] https://azure.microsoft.com/en-us/documentation/articles/machine-learning-
algorithm-choice/
[7] http://iot-analytics.com/industrial-internet-disrupt-smart-factory/
[8] http://www.zmescience.com/research/predicting-crimes-before-they-happen-
090423423/
[9] http://fouryears.eu/tags/machine-learning/
[10] http://www.scmp.com/magazines/post-magazine/article/1925784/why-baidus-
breakthrough-speech-recognition-may-be-game
[11] http://www.dailymail.co.uk/sciencetech/article-2958597/Facial-recognition-
breakthrough-Deep-Dense-software-spots-faces-images-partially-hidden-UPSIDE-
DOWN.html
[12] https://www.youtube.com/watch?v=nmDiZGx5mqU
[13] http://www.gizmag.com/creative-artificial-intelligence-computer-algorithmic-
music/35764/

Big data활용 ss

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (8)

Similar to Big data활용 ss

Similar to Big data활용 ss (20)

Big data활용 ss