Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
1
Ⅰ
Flamingo는 다양한 오픈소스 기반의 Big Data 기술을 하나로 묶어서 관리, 개발, 운영, 분석 등을 활용할 수 있도록
하는 통합 플랫폼입니다. 현재 IoT, Big Data Platform을 개발하고 있습니다.
빅데이터 분석 플랫폼 IoT 분석 플랫폼
빅데이터
통합 플랫폼
생태계
구축
1 2 3
오픈소스를 통한 주도권 확보 및 신속한 사용자 요구 반영
분석
애플리케이션
관리
리소스
관리
신속한
사용자 요구
반영
데이터
관리
7
Ⅱ
Flaming IoT Analytics Platform은 IoT 센서 및 각종 연동 서버에서 수집되는 IoT 센서 데이터 및 기타 다양한 데이터를 실시간
으로 수집하고 Big Data 기술을 활용하여 분석하도록 합니다.
HTTP
ISO/IEC
30128
MQTT
FTP
HTTP
Kafka
FTP
HDFS
MQTT
Kafka
HDFSKafka
예측모델
필터
비식별화
oneM2M
MQTT
MapReduce
Hive R Pig
머신러닝알고리즘
Spark
전처리
SQL on
Hadoop
기초통계
Flume
ZooKeeper Sqoop
프로그램
8
Ⅱ
Flamingo는 HTML 5 기반으로 Apache Hadoop EcoSystem을 위한 데이터 분석/처리/개발/운영 환경을 제공하며 MapReduce
분석 알고리즘, Hadoop Job 분석 및 모니터링, Hive Metastore 관리, 워크플로우 관리 기능을 제공합니다.
9
Ⅱ
Flamingo를 활용하는 곳은 다양하며 민간, 공공에서 폭넓게 활용하고 있습니다. 플랫폼 SW 자체로 사용하는
경우와 도메인 특성에 맞게 커스터마이징 하여 적용하는 두 가지 방법이 있습니다.
10
Ⅱ
Flamingo는 다양한 Hadoop 배포판에서 설치 및 운영이 가능하며 현재 MapR, Cloudera CDH, Hortonworks
HDP, Pivotal PHD, Apache Hadoop 배포판과 호환하여 동작합니다.
11
Ⅱ
Flamingo는 다양한 Hadoop 배포판을 기반으로 동작하며 기계학습 알고리즘, 분석 애플리케이션 모니터링,
워크플로우, 시각화 도구, 배치작업 관리, R, Hive/Pivotal HAWQ 개발도구를 제공합니다.
R
RStudio
Flamingo
Analysys
Application
Monitoring
Machine
Learning
Algorithm
Batch
Job
Scheduler
Workflow
Designer Visualizer
12
Ⅱ
Flamingo는 웹 기반 분석도구로 플랫폼 SW를 구현하고 개발한 MapReduce 분석 알고리즘을 워크
플로우 디자이너 자유롭게 분석에 활용할 수 있어서 분석 알고리즘을 자산화할 수 있습니다.
13
Ⅱ
Flamingo는 Workflow Designer 내에 MapReduce 기반 알고리즘을 통합하여 제공하지만 이를 확장
하여 추가 알고리즘 및 ETL 모듈을 추가하도록 설계되어 있습니다.
분류 내용 주요 출력 결과
수치/범주
데이터
기초 통계 분석
수치 데이터 기초 통계
합계, 평균(4종) 분산, 표준편차
최대/최소/중앙값
범주 데이터 기초 통계 발생빈도, 발생비율
수치 데이터 확신도 기반 합계 확신도(Certainty Factor) 기반 합계
전처리
Min/Max 정규화 값
Encryption, Grep, Clean, Aggregate
유사/상관
분석
이진 벡터 데이터 기반 Hamming, Jaccard/Tanimoto, Dice
수치 벡터 데이터 기반 Euclidean, Manhattan, Cosine, Pearson
문자열 데이터 기반 Hamming, Edit(Levenshtein)
마이닝
기계학습
Clustering
K-Means, EM, Fuzzy k-Means, Streaming k-
Means, Spectral k-Means,
Classification ID3
Recommendation
Collaborative Filtering, Parallel ALS
Item/User based Recommendation
Pattern Mining Frequent Pattern Mining With FPGrowth
공통
Hadoop EcoSystem MapReduce, Hive, Pig,
Program Java, Python, Bash
14
Ⅱ
Flamingo는 HDFS 상의 파일 및 디렉토리를 다루는 기능과 이를 Hive와 연동하여 테이블로 변환하는
기능을 제공합니다. 특히 멀티 태넌트 환경을 제공합니다.
15
Ⅱ
Flamingo의 파일 시스템 브라우저는 사용자의 등급에 따라서 디렉토리 및 파일에 대한 접근을 설정
할 수 있도록 기능을 지원하여 행위를 제한할 수 있습니다.
16
Ⅱ
Flamingo의 파일 시스템 브라우저에서 사용자의 모든 행위를 추적할 수 있도록 디렉토리 및 파일에
대한 행위 정보를 기록에 남기고 확인할 수 있도록 합니다.
17
Ⅱ
Flamingo는 RStudio와 통합하여 R 스크립트를 Flamingo 내에서 실행하고 이를 처리할 수 있는 UI
를 제공하여 데이터 모델링 및 대용량 분석을 하나의 통합 플랫폼에서 가능케 합니다.
18
Ⅱ
로그를 변경하지 않고 방화벽 로그를 Flamingo의 Hive Editor를 이용하여 테이블로 변환하고 로그를
Hive QL로 처리할 수 있습니다.
TYPE="IPINSIDE"
TIME="2014-03-20 17:40:37"
ID="guest0899349"
MAC="AA-BB-01-18-68-68"
NAT_IP="10.24.104.104"
NAT_IP_NATION="USA"
PROXY_USE="Y"
VPN_USE="Y"
REMOTE_USE="Y"
PROXY_IP="192.24.104.104"
PROXY_IP_NATION="USA"
VPN_IP="192.24.104.104"
VPN_IP_NATION="USA"
SVC_CODE="SVC_CODE_089
9349"
HDD_DISK="HDD_DISK_08993
49"
CPU_INFO="CPU_INFO_08993
49"
USE_OS_NATION="USA"
MESG="mesg..... time[1395284
830] rnd[875899349] unq[50000
00]”
19
Ⅱ
Hadoop 2에서 새로 추가된 YARN 애플리케이션은 분산 애플리케이션의 표준 환경으로써 Flamingo
는 차별화된 YARN 애플리케이션 모니터링을 지원합니다.
20
Ⅱ
Flamingo는 YARN과 연계하여 MapReduce, Hive QL, Pig Latin 등으로 실행된 MapReduce Job의
실행 이력 뿐만 아니라 상세정보를 모니터링합니다.