SlideShare ist ein Scribd-Unternehmen logo
1 von 19
Downloaden Sie, um offline zu lesen
ⓒ 2013 KT Hitel Corporation
빅데이터 솔루션(Daisy) 소개서
2013/05
노 동 학(rhodonghag@gmail.com)
2ⓒ 2013 KT Hitel Corporation
Context
1. 빅데이터 정의
2. 솔루션 기능 요건
3. 솔루션 주요 기능
4. 솔루션 적용 사례
5. 솔루션 분석 사례
별첨. 기술 구조도
3ⓒ 2013 KT Hitel Corporation
1. 빅데이터 정의 (1/2)
빅데이터는 단지 데이터의 규모만을 이야기하는 것이 아니라 데이터의 다양성과 데이터 처리를 위한 속도까지도 고려하는 것으로 최근에는
복잡성과 가치까지도 함께 포함하는 개념으로 확대됨.
Volume
Terabytes
Records
Transactions
Tables, Files
Velocity
Batch
Near Time
Real Time
Streams
Variety
Structured
UnStructured
Semi-Structured
All the above
3 Vs
of Big
Data
기존 DBMS로
처리불가한 대용량
데이터 증가
데이터 처리 및
분석속도 중요성 증가
기술 발전에 따른
데이터의 다양화
+
Complexity
=
Big
Data
분석
데이터의 다양화에
따른 복잡성 증가
데이터의 크기, 다양성 및 속도에 복잡성이 더해지면서 Big Data에 대한 개념도 변화하고 있음
Value
수집/분석되는
데이터의 가치 고려
OLAP
Report
Visualization
Monitoring
다양한
분석 정보 제공
4ⓒ 2013 KT Hitel Corporation
1. 빅데이터 정의 (2/2)
비지니스인텔리전스(BI)나 데이터웨어하우스(DW) 같은 전통적인 방식의 데이터 환경에서 처리하기 힘들었던 대용량 데이터를 Cloud Computing,
Hadoop, Distributed Computing과 같은 기술을 이용하여 저렴한 비용으로 가치를 추출하고 데이터를 수집, 발굴, 분석하는 모든 과정을 의미.
90%
전 세계 Data 90%
최근 2년 안에 생성
92%
VS
34%
모바일 트래픽 증가 92%
인터넷 트래픽 증가 34%
2011~15 연평균, 예상
2.5
quintillion
In 2012 2.5 quintillion
byte of every day
1.8ZB =1.8조 GB
2억/
1억
하루 평균 2억 개 트윗
트위터 이용 1억 명
SNS 11억 인구
Social 시대로 접어들면서 디지털 데이터 폭증 -> 효율적 데이터 수집/분석/관리의 필요성 증가
5ⓒ 2013 KT Hitel Corporation
Reporting
2. 솔루션 기능 요건
Big Data Solution은 방대하고 복잡한 정형/비정형 데이터의 수집과 저장 및 분석 그리고 다양한 뷰를 통한 정보 제공의 4가지 핵심 기능을
기본으로 각 기능을 담당할 인력(Data Scientist) 및 관리 시스템을 필요로 함.
Collecting Store Analysis Visualization
Collecting Store Analysis Reporting
OpenAPI Crawling
Data Collector
Web, Social Network
System log, RDBMS 등
수집 데이터
저장
NoSQL
DBMS
DBMS
Hadoop 등을 이용한
대용량 데이터 저장
Data Query
Data Clustering
Classification
Recommendation
Hive, mahout, R 등을 통한
분산/병렬 데이터 실시간 분석
Chart/Grid
Data Export/API
Monitoring
Chart, API 등을 통한
다양한 View 생성 및 제공
Data Scientist
Management System
Big Data Solution 의 기능 및 처리 흐름과 관리 구조
Managing
Function of Big Data Solution
6ⓒ 2013 KT Hitel Corporation
Data Input
3. 솔루션 주요 기능 - Hadoop
Hadoop은 대용량 데이터 처리를 위해 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈 소스 프레임워크로 구글 파일 시스템을
벤치마킹 하여 Hadoop 분산 파일 시스템과 Map Reduce 를 구현한 데이터 분산, 저장 및 병렬 처리 기술
Web Data
Social
Network
Log Files
Legacy Data
Map
생성
Reduce
추출, 조립
Result
Data
Output
데이터
분산
데이터
분류
결과
데이터
<Distribute Map & Data Reduce Processing (Hadoop)>
 Hadoop의 장점
- 대용량 파일을 저장할 수 있는 분산 파일 시스템을 제공
- 클러스터 구성을 통해 멀티 노드로 부하를 분산시켜 처리
- 장비를 증가시킬수록 성능이 Linear에 가깝게 향상
- 오픈소스, Intel Core 머신과 리눅스와 같은 저렴한 장비의 사용이 가능
 Hadoop의 단점
- Map/Reduce 방식의 사고의 전환 필요
- Open Source 로써 아직은 개발이 진행중인 상태
- 버전 호환성이 낮으며 구현되지 않은 부분이 많음
- 메모리 및 네트워크 관련 시행착오의 가능성이 높아 장애에 대한 대비가 필요
7ⓒ 2013 KT Hitel Corporation
3. 솔루션 주요 기능 - NoSQL
기존의 RDBMS가 가지는 클라우드 컴퓨팅 환경에서의 빅 데이터의 효과적인 저장, 관리상의 한계점을 보완하기 위해 새로운 저장 기술의 필요성이
대두되고 있는 상황에서 나온 새로운 개념의 DBMS 시스템
Node3
Node1 Node2
Client 1 Client 2
Node3
Node1 Node2
Client 1 Client 2
<RDBMS> <NoSQL>
Sql 작업 수행 시점에
Replication, locking
및 Consistency 에 대
한 check 필요
데이터 처리 느림
병렬 데이터 처리로
노드간 커뮤니케이션에
의한 sql 작업의 중단이
발생하지 않음
고속 데이터 처리 가능
 NoSQL의 장점
- 빠르고 유연한 데이터 저장 및 조회 능력
- 데이터 증가 시 노드 확장만으로 처리 가능 (확장성 및 가용성 뛰어남)
- Key-Value 형식의 저장 구조로 유연한 데이터 구조를 가짐
- 데이터 인덱싱을 통한 빠른 응답성 (저비용으로 데이터 분석 가능)
 NoSQL의 단점
- 분석 방식의 변화 및 내재화 비용 발생
- 트랜잭션과 같은 복잡한 처리에 적합하지 않으며 장애 발생 시 복구 비용 발생
- Schemaless 구조로 Join 과 같은 복잡한 query 사용이 어려움
- Schema 설계, 서버 네트워크 구성, 메모리/IO 등에 대한 시행착오 대비 필요
Read Entity 1 Write 20 Entities Read Entity 1
Write 20 Entities
<NoSQL과 RDBMS 비교>
8ⓒ 2013 KT Hitel Corporation
3. 솔루션 주요 기능 - CEP
데이터를 Event의 관점에서 바라보고 지속적으로 발생하는 데이터를 실시간(Real-Time)으로 분석하고 의미있는 패턴을 인지하여 즉시 반응하는
시스템. In-Memory기반으로 다양한 고속의 Event Stream을 실시간으로 처리가 가능
 CEP의 장점
- 선분석처리, 후저장 방식
- In-Memory 기반의 고성능 분석 가능 -> 실시간(Real-Time) 분석 가능
- Event-Driven Architecture
- 데이터 용량에 상관없이 Low-Latency 확보 가능
- 다양한 형태의 Input/Output Adapter 수용 가능
- EPL을 통한 실시간 이벤트 처리 및 외부 데이터 Join 연산 가능한 구조
Data
Input Adapter
Socket Input
Adapter
HTTP Input
Adapter
CSV Input
Adapter
Output Adapter
Socket Output
Adapter
HTTP Output
Adapter
CSV Output
Adapter
CEP Engine
EPL
Statements RDBMS
Open
API
Live Charts
JVM
RDBMSNoSQL
Log
Data
<CEP Real-Time Architecture>
9ⓒ 2013 KT Hitel Corporation
Lucene
3. 솔루션 주요 기능 - Lucene
자바로 만들어진 확장 가능한 고성능 정보 검색(IR – Information Retrieval) 라이브러리. Lucene을 이용하여 각종 프로그램에 텍스트 색인 및
검색 기능의 추가가 가능함
 Lucene의 장점
- Full Text 검색에 효율적 -> 다양한 언어의 Full Text 분석기 지원
- Full Text(Contents) 와 text를 단어로 쪼개는 방법(Analyzer)를 제시하면 알아서 Index를 구성해주며 Index된 데이터를 통해 빠른 검색 결과 도출이 가능
- E-mail, Web page, Document 검색에 유리
- 서로 다른 언어간에도 색인(Index) 데이터를 100% 호환해서 사용이 가능
File System
DB
Web
Etc…
Crawler
Parser
Search
Index
User
Request
Search
Result
Indexer
Analysis
Index
DB
<Lucene Architecture>
형태소
분석기
중의어
처리기
10ⓒ 2013 KT Hitel Corporation
4. 솔루션 적용 사례 – 자사 서비스
Big Data 플랫폼을 기반으로 자사 서비스에 서비스 로그 수집 및 데이터 분석을 통한 최종 추천 정보 제시 시스템 구현
User Service DAISY UserService
아임IN
Database
사용자
행동 패턴
HDFS
Data
collector
Data Analysis / Mining
By Hive / Mahout
* 분석 모델 적용
* 추천 키워드 추출
* Hive/Mahout 활용
Daisy를 통해
사용자 프로파일링 후
사용자 별 최적의 친구 추천
데이터를 제공합니다.
사용자 데이터
- 친구 맺기
- 조회 아이템
- 활동 아이템
- 발도장 남기기
맞춤형 친구/장소 추천
맞춤형
친구 추천
아임IN
푸딩.투
• 친구 추천
• 친구 맺기 경로
• Follow//following 수
• 추천 대비 결과
• 선호 사진 or POI
• Action 년/월/일/요일/시간
아임IN
로그 파일
푸딩.투
Database
푸딩.투
로그 파일
친구 추천 결과
친구 맺기 패턴
사용자 행동 패턴
최적의 친구 추천
Log
Agent
서비스별 챠트 및 통계
11ⓒ 2013 KT Hitel Corporation
4. 솔루션 적용 사례 - KT VOC 모니터링 시스템
무선VOC Data를 기반으로 분석했던 기존 시스템에서 유무선 통합 VOC Data 분석으로 변경하고, 유무선 통합으로 인해
증가 된 VoC 데이터 분석을 위하여 기존의 검색엔진 기반의 아키텍처를 실시간 대용량 분석 솔루션인 DAISY로 변경, 유무선 통합으로 인한
데이터 처리 인프라 구축과 검색 및 리포트 성능 향상 시스템을 개발
<KT VITAL System 개선>
VOC 수집
검색 시스템
실시간 주제별 분석
통계현황/리포팅
• Genesis 연동
• IDMS 연동
• 키워드 연관 분석 검색
• 유무선 검색 조건 추가
• 총 VOC 분석
• 실시간 VOC 분석 외 2종
• 통계 현황 Chart 구성
• 검색 결과 리포팅 구현
<KT VOC Monitoring 시스템>
12ⓒ 2013 KT Hitel Corporation
4. 솔루션 적용 사례 - 기상청(공공)
Big Data 관점에서 기상정보 처리 및 분석을 위한 Big Data 처리 플랫폼 구축
기상정보 성격에 적합한 클라우드 기반의 Big Data 분석 툴 및 최적화된 OpenAPI 형태의 기상정보 제공 시스템 개발
기상정보 활용 Big Data 개발
• 클라우드 기반 Big Data 분석툴 개발
• 최적화된 OpenAPI 형태의 기상정보 제공 시스템 개발
• 방대한 데이터의 실시간 분석을 고려한 Big Data 플랫폼
• Weather API store를 통해 내/외부에 기상 mash-up API 제공
Weather Daisy를 통해 실시간 Big Data 처리 기능을 제공
<다양한 기상정보 제공 시스템 개발>
13ⓒ 2013 KT Hitel Corporation
5. 솔루션 분석 사례(자사)
■ 분석대상
114전국전화 사용자 데이터 분석을 통한 마케팅 활용 사례 (치킨 & 올림픽 영향도 분석)
- 114전국전화 사용자 클릭 기반 로그
- 축구, 올림픽 경기 일정 조사
- 열대야 날씨 데이터
- 2012.05~08.05 로그 데이터
- 검색 키워드 및 콜 추출
- 월별, 요일, 시간 기준 데이터 비교 분석
■ 분석조건
- 올림픽 이슈와 114전국전화 상관관계 추출
- 실질적인 사용자 분석을 통해 얻게 된 결과를
마케팅에 활용한 내부 첫 사례
■ 분석결과 및 시사점
뉴스 활용(2012.8.8) 주요매체 배포 114전국전화 사용자 데이터 기반 영향도 분석 그래프
런던올림픽 축구경기 있는 날, 야식 주문 가장 많았다.(MNB)
스마트 모바일 컴퍼니 KTH(대표 서정수)는 자사가 운영하는 전화번호 검색
애플리케이션 ‘114전국전화’의 데이터를 분석한 결과, 올림픽 시즌에
야식 주문량이 급증한 것으로 나타났다. 지난 7월 1일부터 8월 8일까지
런던올림픽 개막 전후로 야간시간(21시~03시)에 114전국전화를 이용한
야식 검색 및 주문 수가 큰 편차를 보인 것으로 나타났다….
■ 분석결과
7월 한달 동안 Daily 검색어 빈도/
콜 클릭 빈도수 비교(오후 9시 부
터 ~새벽 3시까지)결과 114전국
전화 서비스 요일별 추이와 비슷한
패턴의 그래프 유형을 보이고 있습
니다. 결과적으로 7월 21일 부터
31일까지 열대야 기간 동안 큰 변
화는 없었습니다. 7월 26일 목요
일 축구경기때 치킨 검색어가 약
25% 상승했습니다. 여기서도 대한
민국 대표팀 축구에 대해 반응합니
다. 평일 국내 축구 경기에는 반응
하지 않습니다.
(치킨 검색어 평균 약 8% 상승)
14ⓒ 2013 KT Hitel Corporation
5. 솔루션 분석 사례(자사)
■ 분석대상
114전국전화 맞춤 메뉴 제공 (서비스로그데이터 분석을 통한 사용자 라이프타임 분석)
- 114전국전화 서비스 로그 전체
- 사용자 검색어 로그 전체
- 2011.08~2012.07.22 로그 데이터(전수)
- 요일, 시간, 시즌, 키워드 추출 통계 분석
- 패턴 파악 후 키워드 재 추출
■ 분석조건
- 114전국전화 메인 메뉴가 통계기반 구조로 변경
- 사용자 상황에 맞춰 메뉴를 추천해 준 결과
메뉴 선택과 UV, PV 증가한 긍정적 효과 입증
■ 분석결과 및 시사점
114전국전화 사용자데이터 기반으로 맞춤메뉴 구성 맞춤메뉴 개선 결과 측정 분석
■ 분석결과
1,2위 부동이었던 중국집, 치킨을
시간대로 상세하게 분류하면, 아래
그림처럼 평일 07~11시간대에는
병원이 1위에 오르기도 합니다.
2위에 순위가 오른 키워드는 점
심뭐먹지, 저녁뭐먹지 입니다. 사
용자 시간에 맞춰 메뉴명을 다르게
한 결과 사용자가 선택한 검색량이
증가 하였습니다.
12월 맞춤메뉴 적용 후 11월에 조
금 저조했던 콜 클릭 수가 증가하
였습니다. 12월 평균 및 Daily 수치
가 년 평균을 상회하고 있습니다.
12월에 송년회 등 사용자들의 활
발 한 시기 외에도 이벤트 등 다양
한 영향이 있겠지만, 맞춤메뉴 적
용 후 평균이상으로 증가 하고 있
으며 사용자에게 긍정적 영향을 미
치고 있습니다.
수집된 서비스 로그데이터 기반 사용자의 APP 행동패턴 분석
사용자 행동패턴 분석을 통해 요일, 시간, 시즌 별 검색키워드를 통해
통계기반으로 메인 메뉴를 다양한 조건에 따라 재배치 한다.
분석된 패턴을 기준으로 요일 분류체계, 시간 그룹, 시즌 그룹을 코드화
하고 이를 기반으로 메인 메뉴를 재 구성 하였다.
15ⓒ 2013 KT Hitel Corporation
5. 솔루션 분석 사례(자사)
■ 분석대상
글로벌 서비스 푸딩.투 인기사진을 위한 Time zone 분석 (글로벌 사용자 배려를 위한 데이터 분석)
- 푸딩.투 사진 업로드 정보 DB
- 푸딩.투 사용자 정보 DB
- ~2012.05까지 전체 데이터 기준
- 글로벌 사용자 상위 타임존 라이프패턴 분석
- 패턴을 기준으로 인기사진 선정 룰 적용
■ 분석조건
- Data-Driven을 통한 인기사진 선정
- 지속적인 개선과 측정을 반복하며 서비스개선에
사용자 긍정적 반응 도출
■ 분석결과 및 시사점
글로벌 사용자를 고려한 데이터기반 인기사진 선정 인기사진 룰 변경 효과 측정
■ 분석결과
푸딩.투의 인기사진선정은 데이터
분석을 통해 사용자들의 다양한 사
용패턴을 통해 1차, 2차 룰을 비교
해가며 A|B Test를 진행하였다.
Data –Driven 을 통해 푸딩.투 활
성화를 위한 인기사진 선정 룰 변
경과 그 결과를 측정하는 방법으로
Data –Driven으로 적용, 측정을 반
복하며, 지속적으로 개선 모델을
만들었다.
그 결과 PV, UV 증가, 푸딩.투 사용
자 증가, 인기사진 선정 Pool 확대
등 긍정적인 결과를 얻었다.
인기사진에 선정되면 푸딩.투 사용자들의 인기도
함께 할 수 있다.
푸딩.투 서비스는 사진 기반의 글로벌 SNS서비스이다. 인
기사진을 통해 많은 인기와 Follower를 늘릴 수 있다. 하
지만 인기사진 선정시간(UTC)과 각 나라별 시간차가 존재
하므로 각 나라별로 다양하게 인기사진이 선정될 수 있는
다양한 데이터 분석을 통해 선정 룰을 변경하였다.
16ⓒ 2013 KT Hitel Corporation
5. 솔루션 분석 사례(자사)
■ 분석대상
T-커머스 매출데이터 분석 (기초고객분석부터 주문과 매출에 대한 구매패턴 분석)
- T-커머스 매출 기준 DB
- T-커머스 주문 기준 DB
- 2012.08~2013.01 전체 매출, 주문 기준
- 주문고객,매출고객 고객기초통계
- 구매패턴 추출, 관련 아이템 도출
■ 분석조건
- 고객 구매패턴을 통한 시간 별 맞춤 상품 구성 가능
- 매출,주문 고객비교를 통한 매출로 전환되지 않는
주문 고객패턴을 추출하고 문제점 도출
■ 분석결과 및 시사점
T-커머스 구매 패턴 분석 매출, 주문 고객 분석
■ 분석결과
T-커머스의 구매지불수단은 카드
와 무통장으로 구분된다. 지불수단
중 약 33%에 해당하는 무통장 입
금은 실 구매단계로 전환하는 비율
이 62%였으며, 주문취소단계로
38%였다. 무통장의 특성 상 7일
이내 입금확인이 되지 않으면, 자
동으로 취소가 되는데, 고객주문이
실제 매출로 이어지기 위한 개선진
단을 도출하였다.
구매패턴 분석을 통한 사용자에게 맞춤 상품 제공
하는 기초분석
T-커머스에서 판매된 상품을 기준으로 월별현황, 요일별
현황, 최다판매상품리스트, 최다,최대 구매고객, 채널별 구
매 패턴 시간 등 다양한 구매패턴 분석을 통해 시간별 상
품 배열, 검색 우선 리스트, 상품 추천에 기반데이터로 활
용한다.
17ⓒ 2013 KT Hitel Corporation
별첨. 기술구조도
Collection
Agent
Mobile Browser (http, udp, tcp) Kafka/Flume Agent (unstructured data)
Collection
Data Store (Hadoop Cluster)
Management
Administration
Monitoring
(Ganglia/
Grapite/Nagios)
Configuration
Management
(Puppet/chef)
Batch Control
Monitoring
Dash Board
System
Log-searcher
HBASENameNode DataNode DataNode DataNode DataNode
Speed Processing Layer
Storm Real-time Topology
Biz Logic(추천,랭킹 etc)
Workflow Mgmt
Rule Engine Scheduler
History DB
Biz Logic
Visualization Layer
Chart
User
Dashboard
R Studio
Web
Templet
Mobile Web
Templet
Collection Biz RuleStorm Collection Topology
Kafka/Flume Cluster
Interface Layer
REST SOAP SSL TCP UDP
Serving Layer
OrientDB
(Graph DB)
Elephant
DB
(Key-Value)
LuceneOLAP
LegacyDBLegacySystems(로그기반데이터)
Sqoop
Coordinator Cluster Handler Cluster
Batch Processing Layer
Pig R Hive
Data Analysis Logic
Mahout OpenPDC
18ⓒ 2013 KT Hitel Corporation
THANK YOU!
빅데이터 솔루션 소개서(2013년 05월)

Weitere ähnliche Inhalte

Was ist angesagt?

[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기iron han
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Wooseung Kim
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)Saltlux zinyus
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석ko donghwi
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)Steve Min
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념현주 유
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능Myungjin Lee
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
 
빅데이터란?
빅데이터란?빅데이터란?
빅데이터란?Yoseop Shin
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래Wooseung Kim
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...Chanjin Park
 
[코세나, kosena] 빅데이터 기반의 End-to-End APM과 비정형 데이터 분석 자료입니다.
[코세나, kosena] 빅데이터 기반의 End-to-End APM과 비정형 데이터 분석 자료입니다.[코세나, kosena] 빅데이터 기반의 End-to-End APM과 비정형 데이터 분석 자료입니다.
[코세나, kosena] 빅데이터 기반의 End-to-End APM과 비정형 데이터 분석 자료입니다.kosena
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용Jin wook
 
빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2ko donghwi
 

Was ist angesagt? (20)

[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
빅데이터 개요
빅데이터 개요빅데이터 개요
빅데이터 개요
 
Bigdata
BigdataBigdata
Bigdata
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
빅데이터란?
빅데이터란?빅데이터란?
빅데이터란?
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
 
[코세나, kosena] 빅데이터 기반의 End-to-End APM과 비정형 데이터 분석 자료입니다.
[코세나, kosena] 빅데이터 기반의 End-to-End APM과 비정형 데이터 분석 자료입니다.[코세나, kosena] 빅데이터 기반의 End-to-End APM과 비정형 데이터 분석 자료입니다.
[코세나, kosena] 빅데이터 기반의 End-to-End APM과 비정형 데이터 분석 자료입니다.
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용
 
빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2
 
Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해
 

Ähnlich wie 빅데이터 솔루션 소개서(2013년 05월)

글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개Gruter
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요Hosung Lee
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기Amazon Web Services Korea
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...Amazon Web Services Korea
 
Google analytics in business
Google analytics in businessGoogle analytics in business
Google analytics in businessTae Young Lee
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용수보 김
 
비즈니스 인텔리전스 솔루션 사이센스 퀵스타트 프로그램
비즈니스 인텔리전스 솔루션 사이센스 퀵스타트 프로그램비즈니스 인텔리전스 솔루션 사이센스 퀵스타트 프로그램
비즈니스 인텔리전스 솔루션 사이센스 퀵스타트 프로그램Stefano_Shin
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개Gruter
 
How to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesHow to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesDataya Nolja
 
DLAB company info and big data case studies
DLAB company info and big data case studiesDLAB company info and big data case studies
DLAB company info and big data case studiesDLAB
 
공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향Haklae Kim
 
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개I Goo Lee
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04Suntae Kim
 
공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개SANGHEE SHIN
 

Ähnlich wie 빅데이터 솔루션 소개서(2013년 05월) (20)

글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
 
Google analytics in business
Google analytics in businessGoogle analytics in business
Google analytics in business
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 
비즈니스 인텔리전스 솔루션 사이센스 퀵스타트 프로그램
비즈니스 인텔리전스 솔루션 사이센스 퀵스타트 프로그램비즈니스 인텔리전스 솔루션 사이센스 퀵스타트 프로그램
비즈니스 인텔리전스 솔루션 사이센스 퀵스타트 프로그램
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
How to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesHow to Make Money from Data - Global Cases
How to Make Money from Data - Global Cases
 
DLAB company info and big data case studies
DLAB company info and big data case studiesDLAB company info and big data case studies
DLAB company info and big data case studies
 
공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향
 
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
 
공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개
 

빅데이터 솔루션 소개서(2013년 05월)

  • 1. ⓒ 2013 KT Hitel Corporation 빅데이터 솔루션(Daisy) 소개서 2013/05 노 동 학(rhodonghag@gmail.com)
  • 2. 2ⓒ 2013 KT Hitel Corporation Context 1. 빅데이터 정의 2. 솔루션 기능 요건 3. 솔루션 주요 기능 4. 솔루션 적용 사례 5. 솔루션 분석 사례 별첨. 기술 구조도
  • 3. 3ⓒ 2013 KT Hitel Corporation 1. 빅데이터 정의 (1/2) 빅데이터는 단지 데이터의 규모만을 이야기하는 것이 아니라 데이터의 다양성과 데이터 처리를 위한 속도까지도 고려하는 것으로 최근에는 복잡성과 가치까지도 함께 포함하는 개념으로 확대됨. Volume Terabytes Records Transactions Tables, Files Velocity Batch Near Time Real Time Streams Variety Structured UnStructured Semi-Structured All the above 3 Vs of Big Data 기존 DBMS로 처리불가한 대용량 데이터 증가 데이터 처리 및 분석속도 중요성 증가 기술 발전에 따른 데이터의 다양화 + Complexity = Big Data 분석 데이터의 다양화에 따른 복잡성 증가 데이터의 크기, 다양성 및 속도에 복잡성이 더해지면서 Big Data에 대한 개념도 변화하고 있음 Value 수집/분석되는 데이터의 가치 고려 OLAP Report Visualization Monitoring 다양한 분석 정보 제공
  • 4. 4ⓒ 2013 KT Hitel Corporation 1. 빅데이터 정의 (2/2) 비지니스인텔리전스(BI)나 데이터웨어하우스(DW) 같은 전통적인 방식의 데이터 환경에서 처리하기 힘들었던 대용량 데이터를 Cloud Computing, Hadoop, Distributed Computing과 같은 기술을 이용하여 저렴한 비용으로 가치를 추출하고 데이터를 수집, 발굴, 분석하는 모든 과정을 의미. 90% 전 세계 Data 90% 최근 2년 안에 생성 92% VS 34% 모바일 트래픽 증가 92% 인터넷 트래픽 증가 34% 2011~15 연평균, 예상 2.5 quintillion In 2012 2.5 quintillion byte of every day 1.8ZB =1.8조 GB 2억/ 1억 하루 평균 2억 개 트윗 트위터 이용 1억 명 SNS 11억 인구 Social 시대로 접어들면서 디지털 데이터 폭증 -> 효율적 데이터 수집/분석/관리의 필요성 증가
  • 5. 5ⓒ 2013 KT Hitel Corporation Reporting 2. 솔루션 기능 요건 Big Data Solution은 방대하고 복잡한 정형/비정형 데이터의 수집과 저장 및 분석 그리고 다양한 뷰를 통한 정보 제공의 4가지 핵심 기능을 기본으로 각 기능을 담당할 인력(Data Scientist) 및 관리 시스템을 필요로 함. Collecting Store Analysis Visualization Collecting Store Analysis Reporting OpenAPI Crawling Data Collector Web, Social Network System log, RDBMS 등 수집 데이터 저장 NoSQL DBMS DBMS Hadoop 등을 이용한 대용량 데이터 저장 Data Query Data Clustering Classification Recommendation Hive, mahout, R 등을 통한 분산/병렬 데이터 실시간 분석 Chart/Grid Data Export/API Monitoring Chart, API 등을 통한 다양한 View 생성 및 제공 Data Scientist Management System Big Data Solution 의 기능 및 처리 흐름과 관리 구조 Managing Function of Big Data Solution
  • 6. 6ⓒ 2013 KT Hitel Corporation Data Input 3. 솔루션 주요 기능 - Hadoop Hadoop은 대용량 데이터 처리를 위해 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈 소스 프레임워크로 구글 파일 시스템을 벤치마킹 하여 Hadoop 분산 파일 시스템과 Map Reduce 를 구현한 데이터 분산, 저장 및 병렬 처리 기술 Web Data Social Network Log Files Legacy Data Map 생성 Reduce 추출, 조립 Result Data Output 데이터 분산 데이터 분류 결과 데이터 <Distribute Map & Data Reduce Processing (Hadoop)>  Hadoop의 장점 - 대용량 파일을 저장할 수 있는 분산 파일 시스템을 제공 - 클러스터 구성을 통해 멀티 노드로 부하를 분산시켜 처리 - 장비를 증가시킬수록 성능이 Linear에 가깝게 향상 - 오픈소스, Intel Core 머신과 리눅스와 같은 저렴한 장비의 사용이 가능  Hadoop의 단점 - Map/Reduce 방식의 사고의 전환 필요 - Open Source 로써 아직은 개발이 진행중인 상태 - 버전 호환성이 낮으며 구현되지 않은 부분이 많음 - 메모리 및 네트워크 관련 시행착오의 가능성이 높아 장애에 대한 대비가 필요
  • 7. 7ⓒ 2013 KT Hitel Corporation 3. 솔루션 주요 기능 - NoSQL 기존의 RDBMS가 가지는 클라우드 컴퓨팅 환경에서의 빅 데이터의 효과적인 저장, 관리상의 한계점을 보완하기 위해 새로운 저장 기술의 필요성이 대두되고 있는 상황에서 나온 새로운 개념의 DBMS 시스템 Node3 Node1 Node2 Client 1 Client 2 Node3 Node1 Node2 Client 1 Client 2 <RDBMS> <NoSQL> Sql 작업 수행 시점에 Replication, locking 및 Consistency 에 대 한 check 필요 데이터 처리 느림 병렬 데이터 처리로 노드간 커뮤니케이션에 의한 sql 작업의 중단이 발생하지 않음 고속 데이터 처리 가능  NoSQL의 장점 - 빠르고 유연한 데이터 저장 및 조회 능력 - 데이터 증가 시 노드 확장만으로 처리 가능 (확장성 및 가용성 뛰어남) - Key-Value 형식의 저장 구조로 유연한 데이터 구조를 가짐 - 데이터 인덱싱을 통한 빠른 응답성 (저비용으로 데이터 분석 가능)  NoSQL의 단점 - 분석 방식의 변화 및 내재화 비용 발생 - 트랜잭션과 같은 복잡한 처리에 적합하지 않으며 장애 발생 시 복구 비용 발생 - Schemaless 구조로 Join 과 같은 복잡한 query 사용이 어려움 - Schema 설계, 서버 네트워크 구성, 메모리/IO 등에 대한 시행착오 대비 필요 Read Entity 1 Write 20 Entities Read Entity 1 Write 20 Entities <NoSQL과 RDBMS 비교>
  • 8. 8ⓒ 2013 KT Hitel Corporation 3. 솔루션 주요 기능 - CEP 데이터를 Event의 관점에서 바라보고 지속적으로 발생하는 데이터를 실시간(Real-Time)으로 분석하고 의미있는 패턴을 인지하여 즉시 반응하는 시스템. In-Memory기반으로 다양한 고속의 Event Stream을 실시간으로 처리가 가능  CEP의 장점 - 선분석처리, 후저장 방식 - In-Memory 기반의 고성능 분석 가능 -> 실시간(Real-Time) 분석 가능 - Event-Driven Architecture - 데이터 용량에 상관없이 Low-Latency 확보 가능 - 다양한 형태의 Input/Output Adapter 수용 가능 - EPL을 통한 실시간 이벤트 처리 및 외부 데이터 Join 연산 가능한 구조 Data Input Adapter Socket Input Adapter HTTP Input Adapter CSV Input Adapter Output Adapter Socket Output Adapter HTTP Output Adapter CSV Output Adapter CEP Engine EPL Statements RDBMS Open API Live Charts JVM RDBMSNoSQL Log Data <CEP Real-Time Architecture>
  • 9. 9ⓒ 2013 KT Hitel Corporation Lucene 3. 솔루션 주요 기능 - Lucene 자바로 만들어진 확장 가능한 고성능 정보 검색(IR – Information Retrieval) 라이브러리. Lucene을 이용하여 각종 프로그램에 텍스트 색인 및 검색 기능의 추가가 가능함  Lucene의 장점 - Full Text 검색에 효율적 -> 다양한 언어의 Full Text 분석기 지원 - Full Text(Contents) 와 text를 단어로 쪼개는 방법(Analyzer)를 제시하면 알아서 Index를 구성해주며 Index된 데이터를 통해 빠른 검색 결과 도출이 가능 - E-mail, Web page, Document 검색에 유리 - 서로 다른 언어간에도 색인(Index) 데이터를 100% 호환해서 사용이 가능 File System DB Web Etc… Crawler Parser Search Index User Request Search Result Indexer Analysis Index DB <Lucene Architecture> 형태소 분석기 중의어 처리기
  • 10. 10ⓒ 2013 KT Hitel Corporation 4. 솔루션 적용 사례 – 자사 서비스 Big Data 플랫폼을 기반으로 자사 서비스에 서비스 로그 수집 및 데이터 분석을 통한 최종 추천 정보 제시 시스템 구현 User Service DAISY UserService 아임IN Database 사용자 행동 패턴 HDFS Data collector Data Analysis / Mining By Hive / Mahout * 분석 모델 적용 * 추천 키워드 추출 * Hive/Mahout 활용 Daisy를 통해 사용자 프로파일링 후 사용자 별 최적의 친구 추천 데이터를 제공합니다. 사용자 데이터 - 친구 맺기 - 조회 아이템 - 활동 아이템 - 발도장 남기기 맞춤형 친구/장소 추천 맞춤형 친구 추천 아임IN 푸딩.투 • 친구 추천 • 친구 맺기 경로 • Follow//following 수 • 추천 대비 결과 • 선호 사진 or POI • Action 년/월/일/요일/시간 아임IN 로그 파일 푸딩.투 Database 푸딩.투 로그 파일 친구 추천 결과 친구 맺기 패턴 사용자 행동 패턴 최적의 친구 추천 Log Agent 서비스별 챠트 및 통계
  • 11. 11ⓒ 2013 KT Hitel Corporation 4. 솔루션 적용 사례 - KT VOC 모니터링 시스템 무선VOC Data를 기반으로 분석했던 기존 시스템에서 유무선 통합 VOC Data 분석으로 변경하고, 유무선 통합으로 인해 증가 된 VoC 데이터 분석을 위하여 기존의 검색엔진 기반의 아키텍처를 실시간 대용량 분석 솔루션인 DAISY로 변경, 유무선 통합으로 인한 데이터 처리 인프라 구축과 검색 및 리포트 성능 향상 시스템을 개발 <KT VITAL System 개선> VOC 수집 검색 시스템 실시간 주제별 분석 통계현황/리포팅 • Genesis 연동 • IDMS 연동 • 키워드 연관 분석 검색 • 유무선 검색 조건 추가 • 총 VOC 분석 • 실시간 VOC 분석 외 2종 • 통계 현황 Chart 구성 • 검색 결과 리포팅 구현 <KT VOC Monitoring 시스템>
  • 12. 12ⓒ 2013 KT Hitel Corporation 4. 솔루션 적용 사례 - 기상청(공공) Big Data 관점에서 기상정보 처리 및 분석을 위한 Big Data 처리 플랫폼 구축 기상정보 성격에 적합한 클라우드 기반의 Big Data 분석 툴 및 최적화된 OpenAPI 형태의 기상정보 제공 시스템 개발 기상정보 활용 Big Data 개발 • 클라우드 기반 Big Data 분석툴 개발 • 최적화된 OpenAPI 형태의 기상정보 제공 시스템 개발 • 방대한 데이터의 실시간 분석을 고려한 Big Data 플랫폼 • Weather API store를 통해 내/외부에 기상 mash-up API 제공 Weather Daisy를 통해 실시간 Big Data 처리 기능을 제공 <다양한 기상정보 제공 시스템 개발>
  • 13. 13ⓒ 2013 KT Hitel Corporation 5. 솔루션 분석 사례(자사) ■ 분석대상 114전국전화 사용자 데이터 분석을 통한 마케팅 활용 사례 (치킨 & 올림픽 영향도 분석) - 114전국전화 사용자 클릭 기반 로그 - 축구, 올림픽 경기 일정 조사 - 열대야 날씨 데이터 - 2012.05~08.05 로그 데이터 - 검색 키워드 및 콜 추출 - 월별, 요일, 시간 기준 데이터 비교 분석 ■ 분석조건 - 올림픽 이슈와 114전국전화 상관관계 추출 - 실질적인 사용자 분석을 통해 얻게 된 결과를 마케팅에 활용한 내부 첫 사례 ■ 분석결과 및 시사점 뉴스 활용(2012.8.8) 주요매체 배포 114전국전화 사용자 데이터 기반 영향도 분석 그래프 런던올림픽 축구경기 있는 날, 야식 주문 가장 많았다.(MNB) 스마트 모바일 컴퍼니 KTH(대표 서정수)는 자사가 운영하는 전화번호 검색 애플리케이션 ‘114전국전화’의 데이터를 분석한 결과, 올림픽 시즌에 야식 주문량이 급증한 것으로 나타났다. 지난 7월 1일부터 8월 8일까지 런던올림픽 개막 전후로 야간시간(21시~03시)에 114전국전화를 이용한 야식 검색 및 주문 수가 큰 편차를 보인 것으로 나타났다…. ■ 분석결과 7월 한달 동안 Daily 검색어 빈도/ 콜 클릭 빈도수 비교(오후 9시 부 터 ~새벽 3시까지)결과 114전국 전화 서비스 요일별 추이와 비슷한 패턴의 그래프 유형을 보이고 있습 니다. 결과적으로 7월 21일 부터 31일까지 열대야 기간 동안 큰 변 화는 없었습니다. 7월 26일 목요 일 축구경기때 치킨 검색어가 약 25% 상승했습니다. 여기서도 대한 민국 대표팀 축구에 대해 반응합니 다. 평일 국내 축구 경기에는 반응 하지 않습니다. (치킨 검색어 평균 약 8% 상승)
  • 14. 14ⓒ 2013 KT Hitel Corporation 5. 솔루션 분석 사례(자사) ■ 분석대상 114전국전화 맞춤 메뉴 제공 (서비스로그데이터 분석을 통한 사용자 라이프타임 분석) - 114전국전화 서비스 로그 전체 - 사용자 검색어 로그 전체 - 2011.08~2012.07.22 로그 데이터(전수) - 요일, 시간, 시즌, 키워드 추출 통계 분석 - 패턴 파악 후 키워드 재 추출 ■ 분석조건 - 114전국전화 메인 메뉴가 통계기반 구조로 변경 - 사용자 상황에 맞춰 메뉴를 추천해 준 결과 메뉴 선택과 UV, PV 증가한 긍정적 효과 입증 ■ 분석결과 및 시사점 114전국전화 사용자데이터 기반으로 맞춤메뉴 구성 맞춤메뉴 개선 결과 측정 분석 ■ 분석결과 1,2위 부동이었던 중국집, 치킨을 시간대로 상세하게 분류하면, 아래 그림처럼 평일 07~11시간대에는 병원이 1위에 오르기도 합니다. 2위에 순위가 오른 키워드는 점 심뭐먹지, 저녁뭐먹지 입니다. 사 용자 시간에 맞춰 메뉴명을 다르게 한 결과 사용자가 선택한 검색량이 증가 하였습니다. 12월 맞춤메뉴 적용 후 11월에 조 금 저조했던 콜 클릭 수가 증가하 였습니다. 12월 평균 및 Daily 수치 가 년 평균을 상회하고 있습니다. 12월에 송년회 등 사용자들의 활 발 한 시기 외에도 이벤트 등 다양 한 영향이 있겠지만, 맞춤메뉴 적 용 후 평균이상으로 증가 하고 있 으며 사용자에게 긍정적 영향을 미 치고 있습니다. 수집된 서비스 로그데이터 기반 사용자의 APP 행동패턴 분석 사용자 행동패턴 분석을 통해 요일, 시간, 시즌 별 검색키워드를 통해 통계기반으로 메인 메뉴를 다양한 조건에 따라 재배치 한다. 분석된 패턴을 기준으로 요일 분류체계, 시간 그룹, 시즌 그룹을 코드화 하고 이를 기반으로 메인 메뉴를 재 구성 하였다.
  • 15. 15ⓒ 2013 KT Hitel Corporation 5. 솔루션 분석 사례(자사) ■ 분석대상 글로벌 서비스 푸딩.투 인기사진을 위한 Time zone 분석 (글로벌 사용자 배려를 위한 데이터 분석) - 푸딩.투 사진 업로드 정보 DB - 푸딩.투 사용자 정보 DB - ~2012.05까지 전체 데이터 기준 - 글로벌 사용자 상위 타임존 라이프패턴 분석 - 패턴을 기준으로 인기사진 선정 룰 적용 ■ 분석조건 - Data-Driven을 통한 인기사진 선정 - 지속적인 개선과 측정을 반복하며 서비스개선에 사용자 긍정적 반응 도출 ■ 분석결과 및 시사점 글로벌 사용자를 고려한 데이터기반 인기사진 선정 인기사진 룰 변경 효과 측정 ■ 분석결과 푸딩.투의 인기사진선정은 데이터 분석을 통해 사용자들의 다양한 사 용패턴을 통해 1차, 2차 룰을 비교 해가며 A|B Test를 진행하였다. Data –Driven 을 통해 푸딩.투 활 성화를 위한 인기사진 선정 룰 변 경과 그 결과를 측정하는 방법으로 Data –Driven으로 적용, 측정을 반 복하며, 지속적으로 개선 모델을 만들었다. 그 결과 PV, UV 증가, 푸딩.투 사용 자 증가, 인기사진 선정 Pool 확대 등 긍정적인 결과를 얻었다. 인기사진에 선정되면 푸딩.투 사용자들의 인기도 함께 할 수 있다. 푸딩.투 서비스는 사진 기반의 글로벌 SNS서비스이다. 인 기사진을 통해 많은 인기와 Follower를 늘릴 수 있다. 하 지만 인기사진 선정시간(UTC)과 각 나라별 시간차가 존재 하므로 각 나라별로 다양하게 인기사진이 선정될 수 있는 다양한 데이터 분석을 통해 선정 룰을 변경하였다.
  • 16. 16ⓒ 2013 KT Hitel Corporation 5. 솔루션 분석 사례(자사) ■ 분석대상 T-커머스 매출데이터 분석 (기초고객분석부터 주문과 매출에 대한 구매패턴 분석) - T-커머스 매출 기준 DB - T-커머스 주문 기준 DB - 2012.08~2013.01 전체 매출, 주문 기준 - 주문고객,매출고객 고객기초통계 - 구매패턴 추출, 관련 아이템 도출 ■ 분석조건 - 고객 구매패턴을 통한 시간 별 맞춤 상품 구성 가능 - 매출,주문 고객비교를 통한 매출로 전환되지 않는 주문 고객패턴을 추출하고 문제점 도출 ■ 분석결과 및 시사점 T-커머스 구매 패턴 분석 매출, 주문 고객 분석 ■ 분석결과 T-커머스의 구매지불수단은 카드 와 무통장으로 구분된다. 지불수단 중 약 33%에 해당하는 무통장 입 금은 실 구매단계로 전환하는 비율 이 62%였으며, 주문취소단계로 38%였다. 무통장의 특성 상 7일 이내 입금확인이 되지 않으면, 자 동으로 취소가 되는데, 고객주문이 실제 매출로 이어지기 위한 개선진 단을 도출하였다. 구매패턴 분석을 통한 사용자에게 맞춤 상품 제공 하는 기초분석 T-커머스에서 판매된 상품을 기준으로 월별현황, 요일별 현황, 최다판매상품리스트, 최다,최대 구매고객, 채널별 구 매 패턴 시간 등 다양한 구매패턴 분석을 통해 시간별 상 품 배열, 검색 우선 리스트, 상품 추천에 기반데이터로 활 용한다.
  • 17. 17ⓒ 2013 KT Hitel Corporation 별첨. 기술구조도 Collection Agent Mobile Browser (http, udp, tcp) Kafka/Flume Agent (unstructured data) Collection Data Store (Hadoop Cluster) Management Administration Monitoring (Ganglia/ Grapite/Nagios) Configuration Management (Puppet/chef) Batch Control Monitoring Dash Board System Log-searcher HBASENameNode DataNode DataNode DataNode DataNode Speed Processing Layer Storm Real-time Topology Biz Logic(추천,랭킹 etc) Workflow Mgmt Rule Engine Scheduler History DB Biz Logic Visualization Layer Chart User Dashboard R Studio Web Templet Mobile Web Templet Collection Biz RuleStorm Collection Topology Kafka/Flume Cluster Interface Layer REST SOAP SSL TCP UDP Serving Layer OrientDB (Graph DB) Elephant DB (Key-Value) LuceneOLAP LegacyDBLegacySystems(로그기반데이터) Sqoop Coordinator Cluster Handler Cluster Batch Processing Layer Pig R Hive Data Analysis Logic Mahout OpenPDC
  • 18. 18ⓒ 2013 KT Hitel Corporation THANK YOU!