Anzeige
Anzeige

Más contenido relacionado

Presentaciones para ti(20)

Similar a Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사(20)

Anzeige

Más de uEngine Solutions(20)

Último(20)

Anzeige

Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사

  1. 1 Ⅰ Flamingo는 다양한 오픈소스 기반의 Big Data 기술을 하나로 묶어서 관리, 개발, 운영, 분석 등을 활용할 수 있도록 하는 통합 플랫폼입니다. 현재 IoT, Big Data Platform을 개발하고 있습니다. 빅데이터 분석 플랫폼 IoT 분석 플랫폼 빅데이터 통합 플랫폼 생태계 구축 1 2 3 오픈소스를 통한 주도권 확보 및 신속한 사용자 요구 반영 분석 애플리케이션 관리 리소스 관리 신속한 사용자 요구 반영 데이터 관리
  2. 2 Ⅰ
  3. 3 Ⅰ
  4. 4 Ⅰ MQTT IoT Agent FTP … FTP MQTT HTTP File JMS Kafka File HDFS JDBC TCP Kafka MQTT Filter Transformer PMML 예측분석 데이터 선별 데이터 변환 Slurper
  5. 5 Ⅰ MapReduce Hive Pig Apache Tajo Apache Spark 기초통계 전처리 머신러닝알고리즘 R 5
  6. 6 Ⅰ Apache Tajo MapReduce Hive R Pig Apache Spark ApacheFlume Apache Storm Cascading Sentry Mahout Mllib 기존 추가 ApacheSqoop
  7. 7 Ⅱ Flaming IoT Analytics Platform은 IoT 센서 및 각종 연동 서버에서 수집되는 IoT 센서 데이터 및 기타 다양한 데이터를 실시간 으로 수집하고 Big Data 기술을 활용하여 분석하도록 합니다. HTTP ISO/IEC 30128 MQTT FTP HTTP Kafka FTP HDFS MQTT Kafka HDFSKafka 예측모델 필터 비식별화 oneM2M MQTT MapReduce Hive R Pig 머신러닝알고리즘 Spark 전처리 SQL on Hadoop 기초통계 Flume ZooKeeper Sqoop 프로그램
  8. 8 Ⅱ Flamingo는 HTML 5 기반으로 Apache Hadoop EcoSystem을 위한 데이터 분석/처리/개발/운영 환경을 제공하며 MapReduce 분석 알고리즘, Hadoop Job 분석 및 모니터링, Hive Metastore 관리, 워크플로우 관리 기능을 제공합니다.
  9. 9 Ⅱ Flamingo를 활용하는 곳은 다양하며 민간, 공공에서 폭넓게 활용하고 있습니다. 플랫폼 SW 자체로 사용하는 경우와 도메인 특성에 맞게 커스터마이징 하여 적용하는 두 가지 방법이 있습니다.
  10. 10 Ⅱ Flamingo는 다양한 Hadoop 배포판에서 설치 및 운영이 가능하며 현재 MapR, Cloudera CDH, Hortonworks HDP, Pivotal PHD, Apache Hadoop 배포판과 호환하여 동작합니다.
  11. 11 Ⅱ Flamingo는 다양한 Hadoop 배포판을 기반으로 동작하며 기계학습 알고리즘, 분석 애플리케이션 모니터링, 워크플로우, 시각화 도구, 배치작업 관리, R, Hive/Pivotal HAWQ 개발도구를 제공합니다. R RStudio Flamingo Analysys Application Monitoring Machine Learning Algorithm Batch Job Scheduler Workflow Designer Visualizer
  12. 12 Ⅱ Flamingo는 웹 기반 분석도구로 플랫폼 SW를 구현하고 개발한 MapReduce 분석 알고리즘을 워크 플로우 디자이너 자유롭게 분석에 활용할 수 있어서 분석 알고리즘을 자산화할 수 있습니다.
  13. 13 Ⅱ Flamingo는 Workflow Designer 내에 MapReduce 기반 알고리즘을 통합하여 제공하지만 이를 확장 하여 추가 알고리즘 및 ETL 모듈을 추가하도록 설계되어 있습니다. 분류 내용 주요 출력 결과 수치/범주 데이터 기초 통계 분석 수치 데이터 기초 통계 합계, 평균(4종) 분산, 표준편차 최대/최소/중앙값 범주 데이터 기초 통계 발생빈도, 발생비율 수치 데이터 확신도 기반 합계 확신도(Certainty Factor) 기반 합계 전처리 Min/Max 정규화 값 Encryption, Grep, Clean, Aggregate 유사/상관 분석 이진 벡터 데이터 기반 Hamming, Jaccard/Tanimoto, Dice 수치 벡터 데이터 기반 Euclidean, Manhattan, Cosine, Pearson 문자열 데이터 기반 Hamming, Edit(Levenshtein) 마이닝 기계학습 Clustering K-Means, EM, Fuzzy k-Means, Streaming k- Means, Spectral k-Means, Classification ID3 Recommendation Collaborative Filtering, Parallel ALS Item/User based Recommendation Pattern Mining Frequent Pattern Mining With FPGrowth 공통 Hadoop EcoSystem MapReduce, Hive, Pig, Program Java, Python, Bash
  14. 14 Ⅱ Flamingo는 HDFS 상의 파일 및 디렉토리를 다루는 기능과 이를 Hive와 연동하여 테이블로 변환하는 기능을 제공합니다. 특히 멀티 태넌트 환경을 제공합니다.
  15. 15 Ⅱ Flamingo의 파일 시스템 브라우저는 사용자의 등급에 따라서 디렉토리 및 파일에 대한 접근을 설정 할 수 있도록 기능을 지원하여 행위를 제한할 수 있습니다.
  16. 16 Ⅱ Flamingo의 파일 시스템 브라우저에서 사용자의 모든 행위를 추적할 수 있도록 디렉토리 및 파일에 대한 행위 정보를 기록에 남기고 확인할 수 있도록 합니다.
  17. 17 Ⅱ Flamingo는 RStudio와 통합하여 R 스크립트를 Flamingo 내에서 실행하고 이를 처리할 수 있는 UI 를 제공하여 데이터 모델링 및 대용량 분석을 하나의 통합 플랫폼에서 가능케 합니다.
  18. 18 Ⅱ 로그를 변경하지 않고 방화벽 로그를 Flamingo의 Hive Editor를 이용하여 테이블로 변환하고 로그를 Hive QL로 처리할 수 있습니다. TYPE="IPINSIDE" TIME="2014-03-20 17:40:37" ID="guest0899349" MAC="AA-BB-01-18-68-68" NAT_IP="10.24.104.104" NAT_IP_NATION="USA" PROXY_USE="Y" VPN_USE="Y" REMOTE_USE="Y" PROXY_IP="192.24.104.104" PROXY_IP_NATION="USA" VPN_IP="192.24.104.104" VPN_IP_NATION="USA" SVC_CODE="SVC_CODE_089 9349" HDD_DISK="HDD_DISK_08993 49" CPU_INFO="CPU_INFO_08993 49" USE_OS_NATION="USA" MESG="mesg..... time[1395284 830] rnd[875899349] unq[50000 00]”
  19. 19 Ⅱ Hadoop 2에서 새로 추가된 YARN 애플리케이션은 분산 애플리케이션의 표준 환경으로써 Flamingo 는 차별화된 YARN 애플리케이션 모니터링을 지원합니다.
  20. 20 Ⅱ Flamingo는 YARN과 연계하여 MapReduce, Hive QL, Pig Latin 등으로 실행된 MapReduce Job의 실행 이력 뿐만 아니라 상세정보를 모니터링합니다.
  21. 21 Ⅱ Flamingo는 YARN을 구성하는 Cluster의 각 노드 및 Cluster 에서 사용하고 있는 Core, Memory 소 비량을 시각화여 표시합니다.
  22. 22 Ⅱ Flamingo는 데이터를 저장하는 역할을 하는 Datanode의 상태 정보를 일목요연하게 정리해서 보여 주며 장애 노드를 확인하여 표시함으로써 관리자가 상태를 쉽게 파악할 수 있도록 합니다.
  23. 23 Ⅱ Flamingo는 Hive Metastore와 Hive Server 2를 연동하여 Hive Query를 실행하고 이를 결과 파일로 다운로드할 수 있도록 되어 있습니다.
  24. 24 Ⅱ Flamingo는 Hive Metastore와 Hive Server 2를 연동하도록 하여 데이터베이스와 테이블을 관리하 는 기능을 제공합니다.
  25. 25 Ⅱ Flamingo는 Hive Metastore와 Hive Server 2를 연동하도록 하여 데이터베이스와 테이블을 관리하 는 기능을 제공합니다.
  26. 26 Ⅱ 최근 Apache Tajo의 지원을 추가했습니다. 많은 빅데이터 분석 및 개발자들이 고성능 데이터 분석을 위해서 SQL on Hadoop으로 이동하고 있으며 Flamingo는 2.0.5 버전에서 지원을 시작했습니다.
  27. 27 Ⅱ Flamingo는 고성능 분석을 위해서 필요한 SQL on Hadoop을 지원하며 SQL on Hadoop에 있어서 시장의 최강자인 Pivotal HAWQ 개발 도구를 제공합니다.
  28. 28 Ⅱ Flamingo 2.1.0에서 새로 추가된 기능으로 Spark In-Memory 분석 애플리케이션을 모니터링하고 Spark Streaming 애플리케이션을 관리하는 기능을 제공합니다.
  29. 29 Ⅱ 관리자 및 개발자에게 시스템 보안을 위해서 SSH로 서버에 직접 접근을 허용하지 않지만 시스템에 접근을 해야 하 는 경우 빅데이터 플랫폼에서 권한에 따라서 제한적으로 리모트 터미널에 접근할 수 있습니다.
  30. 30 Ⅱ Flamingo는 HDFS에 저장되어 있는 대용량 로그를 전처리 등의 작업을 지원하는 Apache Pig의 Pig Latin 스크립트 편집기를 제공합니다. 이를 활용하여 개발자가 빠르고 십게 통합 환경에서 파일을 가공하고 분석할 수 있습니다.
  31. 31 Ⅱ Flamingo는 가장 범용적으로 많이 사용하는 GGPLOT을 지원하며 GGPLOT을 기반으로 HDFS의 파일 및 로컬 PC의 파일을 시각화할 수 있습니다.
  32. 32 Ⅱ Flamingo는 가장 범용적으로 많이 사용하는 GGPLOT을 지원하며 GGPLOT을 기반으로 HDFS의 파일 및 로컬 PC의 파일을 시각화할 수 있습니다.
  33. 33 Ⅱ Flamingo는 작성한 Workflow를 배치 작업으로 등록하고 실행하기 위해서 배치작업 관리기능을 포 함하고 있으며 등록한 배치 작업의 생명 주기를 관리합니다. 등록된 배치작업 현황 배치 작업 스케줄러 현황 정보
  34. 34 Ⅱ Flamingo는 작성한 Workflow를 배치 작업으로 등록하고 실행하기 위해서 배치작업 관리기능을 포 함하고 있으며 이것은 Cron Expression을 중심으로 동작합니다. Cron Expression 설정 기능 배치 작업 등록
  35. 35 Ⅱ Flamingo의 워크플로우 디자이너에는 Sqoop의 Import, Export 기능을 제공하여 RDBMS, HDFS 간 데이터 전송을 할 수 있도록 제공합니다.
  36. 36 감사합니다. 홈페이지 : http://www.cloudine.io 기술지원 문의 : sales@cloudine.io
Anzeige