More Related Content
Similar to GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례 (20)
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례
- 1. © 2013 Gruter. All rights reserved.
보안 로그 분석을 위한
빅데이터 시스템
구축 사례
2013.08.29
장정식 수석 연구원
- 2. © 2013 Gruter. All rights reserved.2
Contents
• 보안: Why Big Data?
– Co-work model & Deliverables
– Data life cycle overview
– Data collection
– Storage
– Analysis
– Search on Hadoop
– Detection
– A full picture: qoobah & common
- 3. © 2013 Gruter. All rights reserved.3
Why Big Data?
• 전수 데이터
- <> Sample 데이터
- Big Data = no more sampling
- 비용 구조 개선: 더 이상 비용 때문에 확률에 의존하지
않아도 됨
• 통합 데이터
- <> 단편적인 데이터
- 다양한 정보에 대한 360도 insight 필요
- 전사 차원에서의 정보 자산 공유 및 활용
- 4. © 2013 Gruter. All rights reserved.4
Co-work model and interaction
보안
분석 전문가
분석 시스템
데이터
프로세스
수집 시스템
빅데이터
운영 팀
모니터링
및 관리
툴
저장 시스템
데이터
빅데이터
기술 팀
기술 교육
- 5. © 2013 Gruter. All rights reserved.5
Deliverables
빅데이터 운영
데이터
보안 분석 전문가
분석 시스템
데이터
프로세스
수집 시스템
모니터링 및
관리 툴
저장 시스템
빅데이터
기술 팀
운영 및 기술
교육
- 6. © 2013 Gruter. All rights reserved.6
Data life cycle: basic idea
• 데이터를 수집해서
• 통합 저장소에 저장한 다음
• 분석을 통해서 보안 위협을 찾아내고
• 모델을 만들어서
• 실시간 감지 및 대응 시스템에 적용해서
• 보안 공격에 대비한다
• 이 과정을 지속적으로 반복하면서 더 강력하고
지능적인 모델을 만들어서 변화하는 보안 위협에
대응한다
- 7. © 2013 Gruter. All rights reserved.7
Data collection
• 다양한 데이터 발생원 = 유연한 수집 시스템
• 실시간 수집 = 이벤트 스트리밍
• 다양한 프로세싱 = pluggable pipeline 구조
• scalability, reliability, extensibility, manageability
• Flume
agent collector
data
storage
data
agent collector
... ...
- 8. © 2013 Gruter. All rights reserved.8
Storage
• Main storage
- 확장성 + 안정성 + 배치 분석을 위한 M/R 지원
• 실시간 분석 결과 저장
• 검색용 index 저장소
• Hive (Hadoop)
• elasticsearch
• Hbase
- 9. © 2013 Gruter. All rights reserved.9
Analysis
• 종합적인 분석 = 다양한 데이터 ad-hoc 분석
• 시계열 분석 = archiving 된 대용량 데이터 분석
• 실시간 full text 분석
• Hive
• elasticsearch
• cloustream
• Mahout
• Tajo is coming
- 10. © 2013 Gruter. All rights reserved.10
HDFS
Search on Hadoop
• Full text 검색
• Hadoop level scalability for search
• Fresh and fast/old and slow; tiered 아키텍쳐
Search engine
ElasticSearch Index
Search engine
ElasticSearch
Index Index Index
…
Data feeding
Index
query for old dataquery for fresh data
Search proxy
periodical move
- 11. © 2013 Gruter. All rights reserved.11
Detection
• 실시간/준실시간 스트리밍 프로세싱
• clouStream
• Esper (CEP engine) +Flume
Collector
Realtime
분석 결과 저장소
데이터 Source 데이터 Sink
스트리밍
프로세싱 엔진
Rule Manager
ARM
UI (실시간 분석/관제)
- 12. © 2013 Gruter. All rights reserved.12
Qoobah – Big Data Platform
Data source/collector
(various log data)
Data Source
(Web Server)
Flume
Agent
Thrift
Source
Thrift
Sink
Temporary
Data collector/ real-time analysis
Flume Collector
Logical Node
Thrift
Source
Pipeline-Sink
Hadoop
NoSQL
(HBase)
Search
Real-time
Analysis
primary storage(File/Structured), near real-time analysis
Hadoop
DataNode
HBase
RegionServer
Cluster coordinator
Search engine
ElasticSearch
Semi-
Structured
Origin File
Index
Real-time analysis result
storage (File/Structured)
Hadoop
DataNode
HBase
RegionServer
Semi-
Structured
Origin File
Cluster Monitoring
Batch analysis/storage
Hadoop
MapReduce
Origin File
Cloustream
Hive
Hadoop
DataNode
Analysis
Result
Near real-time
analysis
Batch analysis
Data source/collector
(standard protocols
such as FTP, HTTP)
Data Source
Flume
Agent
FTP/
HTTP
Thrift
Sink
Temporary
Oracle/MySQL RDB
Cloumon
Rule Manager
ARMZookeeper
- 13. © 2013 Gruter. All rights reserved.13
Cloumon – Monitoring & Management Tools
- 14. GRUTER: YOUR PARTNER
IN THE BIG DATA REVOLUTION
Phone +82-70-8129-2950
Fax +82-70-8129-2952
E-mail contact@gruter.com
Web www.gruter.com
© 2013 Gruter. All rights reserved.
Gruter, Inc.
5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839