3. 01. 빅데이터 기술
1.2 빅데이터 기술의 현황
1.3 올바른 빅데이터 기술 적용
1.1 빅데이터 정의
ⓒ 2015 IMCLOUD COMPANY ALL RIGHTS RESERVED
4. 4
1.1 빅데이터의 정의 01. 빅데이터 기술
Structured
Data
Untructured
Data
Sensor Data
New Data Types
Volume
Velocity
Variability
Transactional
Time phased data
Social
Channel
Customer Service
Warranty
Temperature
RFID
Mapping
Video
QR codes
GPS
Voice
Digital Images
3V challengesData sources
빅데이터는 크기와 증가속도, 다양성 등을 종합하여 정의합니다.
대규모의 다양한 데이터로부터 수집, 검색, 분석을 처리하여 경제적인 가치발굴을 수행하는 차세대
기술 *IDC
전통적인 DB를 통해 저장,관리,분석할 수 있는 규모를 초과하는 데이터 *McKinsey
5. 5
1.2 빅데이터 기술 현황
빅데이터 기술은 오픈소스 기반의 Hadoop Ecosystem 기술을 활용하여 발전하고 있습
니다.
Haoop 기술 개발
*수십만대의 서버를 운영할 수 있는
대용량 분산 병렬 데이터 처리 기술
Critical Transaction 중심의
RDB 기술 중심으로 발달
(최근 빅데이터 기술 수용)
Apache Foundation
(오픈소스 재단)
Hadoop
오픈소스
기술개발
관련 생태계 S/W개발
: Hadoop
Ecosystem
Hadoop
기술 오픈
스폰서
Hadoop
기술채택
빅데이터 기술 발전
빅데이터 기술은 Google, Yahoo, Facebook 이 주도하고 세계적으로 영향력이 있는 아파치
(Apache)재단 으로부터 오픈 소스 형태로 발전하고 있으며 기존 글로벌 엔터프라이즈 기업이 스폰
쉽 및 기술을 채택하는 단계로 발전하고 있습니다.
01. 빅데이터 기술
6. 6
1.3 올바른 빅데이터 기술 적용
빅데이터 시스템 구축은 기술 표준으로 확고하게 자리잡은 Hadoop Ecosystem 기술 활용하여 급
변하는 빅데이터 오픈 소스 기술을 그대로 수용할 수 있어야합니다.
자체 개발 엔진 형태의 S/W 제품은 다각화 되고 있는 빅데이터 기술을 수용, 대응, 유지하기 어렵
습니다.
데이터
고속
수집
Flume
Sqoop
Logstash
…
시각화 서비스
(조회,통계)
Node.js, D3
HTML5, JQuery, JSON
R 기반 분산화된
통계 분석 처리
Mahout 기계학습 분석
빅데이터 관리자 Admin
(모니터링 서비스)
ImCloud
Add-on Solution
검색 엔진
(검색 데이터 인덱싱)
Lucene
Solr
ElasticSearch
Hive,Impala
: SQL on Hadoop 기반 분산 처리 프레임워크
대용량 빅데이터 저장소 (Hadoop, HDFS, NoSQL 기반)
정형데이터, 반정형데이터, 비정형데이터 수용
표준화된 Hadoop 기술 적용
실제적인 빅데이터 가치를 얻기 위해서는 올바른 빅데이터 기술의 적용이 중요합니다.
01. 빅데이터 기술
7. 02. 제품 소개
2.2 오픈소스 기술의 효과
2.3 제품 기능
2.1 제품 개요
ⓒ 2015 IMCLOUD COMPANY ALL RIGHTS RESERVED
2.3 기능 비교 자료
8. 가장 안정적인 대용량 데이터 수집
최신 검색기술 사용
저비용 고 효율성 보장
필요 기능에 맞는 아키텍처 수립
빅데이터 처리에 가장 적합한 시스템
8
2.1 제품 개요 02. 제품 소개
Flume
Hive Logstash
Kafka
Zookeeper Hbase
Solr
Sqoop
Oozie
Elastic
Search
KANABA
HADOOP
OpenSight는 빅데이터 처리에 가장 적합한 기술 적용으로 진정한 빅데이터 가치를 제공합
니다.
각각 처리 모듈을 Built-in 방식으로 사용자의
환경에 따라 최적의 아키텍처 구성 가능
사용자의 환경에 최적화가 가능한 시스
템
9. 9
2.2 오픈소스 기술의 효과 02. 제품 소개
오픈소스 기술을 통하여 저렴한 비용으로 다양한 커스텀 개발 및 사용자가 원하는
Application
개발이 가능합니다.
Flume
장비
Source
Channel
Sync
시스템
RDB
수집
설정
Hadoop (HDFS)
Hive
Web Service / Node.js
Admin
1. 수집
2. 저장/처리
6. 시각화
7. Job 스케쥴러
스키마
관리
스케쥴러 설정
3. 고급분석
4. 검색엔진
RServe
Solr
/Elastic
s-earch
분석
모듈
(결과)
검색
모듈
(결과)
대시
보드
수집
설정
탐색
시각화
통계
조회
모니
터링
Sqoop
Oozie
Storm or
Spark streaming
HBase (NoSQL)
5. 실시간 스트림 처리
Mahout
MapReduce
Pig
“사용자가 원하는 다양한
응용 Application 개발”
“유연성 높은 설계 변경 가능”
아키텍처 구현 예시
1. 데이터 처리에 사용된 기술을 투명하게 파악 가능하다. (수집, 저장, 처리, Job스케쥴러, 실시간처리, 검색, 분석, 시각화)
2. 오픈소스 기술을 부품처럼 쉽게 변경 및 업데이트 가능하다.
3. 각 단계별로 지원되는 Java API를 이용하여 다양한 Add-on 및 Plug-in 응용 프로그램 개발이 가능하다.
오픈소스 기술의 장점
10. 10
2.3 제품 기능(수집기술)
OpenSight는 유연성 있는 수집 기술 구조를 채택하였으며 대부분의 보안장비와의 연동 경험을
가지고 있습니다.
02. 제품 소개
Log
File
RDB
Flume Event
Sqoop
(SQL Query)
Hadoop
(HDFS)Source
Channe
l
Sink
Flume Event
Flume Event
Flume Event
Hive LogFile
upload
(MapReduce/Data Schema 관
리)기타
파일
Vendor Product name
Fortinet FortiGate series
Ahnlab TrusGuard series
Juniper Networks
SSG-140
NetScreen series
Secui
MF2 series
NXG series
Palo Alto Networks PA-500
Wins
SNIPER DDX
SNIPER IPS
SNIPER AF 1000
Dell
SonicWALL NSA E55
00
XNsystems NeoBox
ZyXEL ZyWALL USG 200
WatchGuard
Technologies
WatchGuard
Cisco Systems ASA series
WatchGuard XTM series
eNClue Shieldone 150
Sophos Cyberoam CR50iNG
Actela ISEC X3100C
Future Systems WeGuardia XTM
수집기술 연동경험
OpenSight는 다양한 수집관련 오픈소스(Flume, kafka, Sqoop..)를
바탕으로 유연성 있는 아키텍처 구성이 가능합니다.
* 수집 서버 병렬확장 가능
* 수집 데이터 관리/조건추출/수집전처리 등..
11. 11
2.3 제품 기능(쿼리/알람설정)
OpenSight는 오픈소스 루씬(Lucene) 기반의 다양한 쿼리 문법 및 기능을 지원합니다.
“500~1000개 이상 알람룰 설정 가
능”
1 2
3
4
02. 제품 소개
1.쿼리 리스트
2.쿼리문 작성
- 다양한 쿼리 문법 적용 가
능3.실행결과 확인
- 실행 결과를 미리 테스트
4.알람 설정
- 1000개 이상의
룰을 임계치를 설
정하여 실시간으로
알람 경보를 제공
12. 12
OpenSight는 유동적이며 직관적인 대시보드로 사용자가 원하는 관리 화면을 만들 수 있
습니다.
2.3 제품 기능(대시보드)
사용자관점 대시보
드
1.위젯 정보 입력
- 위젯 타이틀, 데이터 갱신
주기,
차트 종류 등을 선택
2.적용 쿼리 선택
- 설정해 놓은 쿼리를 적용
3.실행결과 확인 및 위젯 생
성
- 실행 결과를 미리 확인하
고
설정을 적용하여 위젯 생
31 2
02. 제품 소개
사용자가 원하는 대로 대시보드 구성 가
능
13. 13
OpenSight의 풀텍스트 인덱싱 검색과 분산병렬처리 아키텍처는 대용량 데이터에서 사용자가
원하는 데이터를 가장 빠르게 검색할 수 있도록 지원합니다.
2.3 제품 기능(통합검색)
2
1. 날짜별, 데이터 컬럼별, 조건별(AND,OR..) 검색
가능
2. 선택된 로그의 원본 확인 가능
“30억건 검색 시 약10초 소요”
1
하드웨어 테스트 환경 (2CPU/32GB RAM/SATA 3TB*4/분산병렬처
리)
02. 제품 소개
14. 14
OpenSight의 다양한 분석 도구로 대용량의 데이터에서 사용자가 원하는 가치를 한눈에 확인할 수 있
습니다.
2.3 제품 기능(통계분석) 02. 제품 소개
수집 데이터에 대한 전체적인 통계를 한눈에 확인할 수 있습니다.
15. 15
2.3 제품 기능(공격지 IP별 탐지현황) 02. 제품 소개
공격지 IP별 등의 사용자 관점의 분석기능을 세팅하여 통합 보안 관제의 활용성을 높입니다.
OpenSight의 다양한 분석 도구로 대용량의 데이터에서 사용자가 원하는 가치를 한눈에 확인할 수 있
습니다.
16. 16
2.3 제품 기능(IPS룰 별 탐지 현황) 02. 제품 소개
IPS 등의 보안장비 룰에 대한 이벤트를 빠르게 체크할 수 있습니다.
OpenSight의 다양한 분석 도구로 대용량의 데이터에서 사용자가 원하는 가치를 한눈에 확인할 수 있
습니다.
17. 17
2.3 제품 기능(이벤트/알람관리) 02. 제품 소개
알람경보, 특정 이벤트 발생현황을 파악할 뿐만 아니라 경고에 대한 조치를 관리할 수 있습니다.
통합적인 이벤트/알람 관리를 통해 보안관리의 체계화를 높일 수 있습니다.
18. 18
2.3 제품 기능(군집화/IP추적) 02. 제품 소개
1번 군집화 차트를 통해 장비별/종류별 상황을 한눈에 비교할 수 있습니다. *상세내용 확인 가능(2번화면)
3번 추적하는 IP가 어떤 장비를 통과했는지 확인을 통해 상황 파악 및 대처능력을 높일 수 있습니다.
*화면은 군집화에서 이동한 2014/05/12 ~ 2014/06/05 기간에서 167.25.104.154 IP를 검색한 경우이며 안쪽부터 방화벽
/IDS/IPS를 지나
3개의 포트로 나뉘어져 지나갔음을 알 수 있음
군집화 차트/ IP추적라인 등의 분석 기능으로 상황에 대한 파악 및 대처 능력을 높일 수 있습니다.
1
2
3
19. 19
2.3 제품 기능(지역 검색) 02. 제품 소개
국내 지점의 지역별로 로그 수집 현황을 검색할 수 있습니다.
* 1번 화면은 경기도를 타겟으로 하는 IP를 검색한 결과
* 2번 화면을 보면 추적하던 167.25.104.154 IP가 브라질로부터 온 IP임을 알 수 있음
국가/지역별 IP 검색을 통하여 수집된 로그의 현황을 더욱 정확하게 파악할 수 있습니다.
1
2
20. 20
2.3 제품 기능(계정관리) 02. 제품 소개
그룹 및 각각의 사용자에 대하여 계정 및 권한을 편리하게 관리할 수 있습니다.
그룹 설정/계정 관리/ 권한 관리 등을 지원하여 어떠한 내부 체계에서도 편리하게 관리할 수 있습니다.
드래그&드랍 방식으로 편리하게 관리
사용자(계정) 별 사용권한 부여
21. 21
2.4 기능 비교자료
OpenSight는 기존 보안 관리 시스템이 가지는 한계성을 극복하며 검증된 Hadoop 오픈소스를 기반
으로 고가의 외산 제품 대비 안정된 빅데이터 처리 기능을 제공합니다.
분류 기능
ESM
방식
상용 로그분석 제품
(S사 - 외산)
저장
저장기간
단기간
(수개월)
장기간
(수년이상)
장기간
(수년이상)
저장기술
SQL, Oracle
(Single RDB)
Hadoop
(분산병렬)
자체저장
기술
수집
수집방식
Agent
S/W방식
Syslog방식
장비직접수집
Syslog방식
장비직접수집
비정형로그수집 제한적 가능 가능
정규화(로그포맷)
가능여부
가능 가능 가능
실시간 이벤트 불가능 가능 불가능
검색 검색속도
느림
(DB검색)
빠름
(검색엔진구축)
빠름
(DB검색)
분석 장기간데이터 분석 불가능 가능 가능
UI
UI커스텀개발 제한적 가능 제한적
사용자 정의 대시보드 가능 위젯방식 고정식 대시보드
기타
도입비용 고가 저렴 고가
오픈소스기술 활용도 없음 활용도 높음 없음
RDBMS 연동 자체 지원 JDBC 별도 구성 필요
확장성 제한 우수 제한적
02. 제품 소개
22. 03. 적용 시나리오
3.1 구축 사례
ⓒ 2015 IMCLOUD COMPANY ALL RIGHTS RESERVED
23. 23
3.1 구축 사례
보안 관제센터 통합 보안 시스템 구축
03. 구축 사례
분석, 보고서UTM 관
제
센
터
F
/
W
Big
Data
통합 관제 및
통합 검색, 알람
NG F/W
IDS
1. 하루 10억건 이상의 보안로그 데이터 통합 수집 및 실시간 임계치 알람 처리
2. 각종 장비로그에 대한 데이터 표준 정의
3. 대용량 데이터에 대한 통합 검색(준 실시간 필요)
4. 관제룰에 의한 동적 대시보드 구현
5. 정기 보고서 구현
모니터링 요원
200대 이상
하루수억건
로그 발생
통합 데이터 처리
24. 04. 회사 소개
4.2 보유 기술
4.1 사업 영역
ⓒ 2015 IMCLOUD COMPANY ALL RIGHTS RESERVED
25. 25
4.1 사업 영역
㈜아임클라우드는 빅데이터 솔루션 전문 회사 입니다. Hadoop Echosystem 을 이용한 오픈 소스 기
반의 S/W플랫폼과 강력한 시각화를 바탕으로 다양한 빅데이터 응용 솔루션 구축과 빅데이터 시스템
및 서비스를 구축할 수 있도록 도와드립니다.
ImCloud 솔루션 ImBee 빅데이터 플랫폼 출시 사업 영역
파트너 및 고객사
빅데이터 플랫폼
보안 로그 분석 솔루션
데이터 시각화 솔루션
04. 회사 소개
26. 26
4.2 보유 기술
㈜아임클라우드는 Hadoop Echo System을 전문적으로 다루는 기업 입니다. 자사의 노하우가 담긴 빅
데이터 플랫폼 ImBee를 바탕으로 대용량 로그 분석 및 시각화에 특화 되어 있으며 최근 고객의 가장
큰 고민인 빅데이터에 대한 전문적인 컨설팅으로 고객 여러분에게 가장 알맞은 가치를 부여해 드립니다.
분석결과
시각화
Hadoop HDFS
데이터
고속
수집
분석 엔진검색 엔진
수집
Data
ETL 배치 검색인덱싱 배치 분석 배치 (마이닝 포함)Hadoop플랫폼 기술
로그 분석 기술
데이터 시각화 기술
NO. 특허번호 발명의 명칭 내용
1 0432420
침입탐지시스템에서
로그 모니터링을
이용한 공격판단시스
템 및 그 방법
“기업 내부 보안장비인 침입탐지 시
스템(IPS)의 장비로그를 모니터링 하
여 외부 침입 및 내부 유출에 관련된
해킹공격을 판단할 수 있는 방법 및
기술”
*등록특허(보안로그공격분석)
2. 기계학습 분석 기법
- Supervised learning : 유사한 입력값 측정, 학습
- Unsupervised learning : 유사 데이터
클러스터링 분석
- 3가지 기계학습 Tasks
D3(Data-Driven Documents)기술
Node.js 기술
Data Set.01
(시간별)
시계열 분석
기법
군집화
표현 기법
Featured
MAP 기법
Data Set.02
(업무별,위치별)
1. 통계적 분석 기법(R)
04. 회사 소개