Submit Search
Upload
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반 NoSQL 구축사례
•
7 likes
•
2,662 views
Gruter
Follow
- 아키텍쳐 특징 - Bioinformatics 도메인에 특화된 알고리즘 및 데이터 처리
Read less
Read more
Technology
Slideshow view
Report
Share
Slideshow view
Report
Share
1 of 16
Recommended
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례
Gruter
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례
Gruter
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
Gruter
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
Gruter
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
Gruter
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
Gruter
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum DNA
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
uEngine Solutions
Recommended
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례
Gruter
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례
Gruter
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
Gruter
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
Gruter
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
Gruter
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
Gruter
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum DNA
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
uEngine Solutions
234 deview2013 김형준
234 deview2013 김형준
NAVER D2
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
Gruter
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
Gruter
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
Gruter
빅데이터 구축 사례
빅데이터 구축 사례
Taehyeon Oh
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
Gruter
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
Laura Oh
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
Channy Yun
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
SeungYong Baek
[경북] I'mcloud information
[경북] I'mcloud information
startupkorea
Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313
Sanghee Lee
Hadoop 제주대
Hadoop 제주대
DaeHeon Oh
빅데이터, big data
빅데이터, big data
H K Yoon
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
치완 박
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
Matthew (정재화)
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
Wooseung Kim
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료
Teddy Choi
5일차.map reduce 활용
5일차.map reduce 활용
주영 송
An introduction to hadoop
An introduction to hadoop
MinJae Kang
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Matthew (정재화)
RSS & Bioinformatics
RSS & Bioinformatics
Hong ChangBum
꽘스와 함께 하는 유전자 탐험
꽘스와 함께 하는 유전자 탐험
OnTheWheel
More Related Content
What's hot
234 deview2013 김형준
234 deview2013 김형준
NAVER D2
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
Gruter
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
Gruter
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
Gruter
빅데이터 구축 사례
빅데이터 구축 사례
Taehyeon Oh
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
Gruter
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
Laura Oh
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
Channy Yun
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
SeungYong Baek
[경북] I'mcloud information
[경북] I'mcloud information
startupkorea
Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313
Sanghee Lee
Hadoop 제주대
Hadoop 제주대
DaeHeon Oh
빅데이터, big data
빅데이터, big data
H K Yoon
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
치완 박
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
Matthew (정재화)
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
Wooseung Kim
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료
Teddy Choi
5일차.map reduce 활용
5일차.map reduce 활용
주영 송
An introduction to hadoop
An introduction to hadoop
MinJae Kang
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Matthew (정재화)
What's hot
(20)
234 deview2013 김형준
234 deview2013 김형준
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
빅데이터 구축 사례
빅데이터 구축 사례
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
[경북] I'mcloud information
[경북] I'mcloud information
Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313
Hadoop 제주대
Hadoop 제주대
빅데이터, big data
빅데이터, big data
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료
5일차.map reduce 활용
5일차.map reduce 활용
An introduction to hadoop
An introduction to hadoop
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Viewers also liked
RSS & Bioinformatics
RSS & Bioinformatics
Hong ChangBum
꽘스와 함께 하는 유전자 탐험
꽘스와 함께 하는 유전자 탐험
OnTheWheel
Web2.0 & Bioinformatics
Web2.0 & Bioinformatics
Hong ChangBum
Introduction to second generation sequencing
Introduction to second generation sequencing
Denis C. Bauer
Introduction to Software (Big data, Intelligence and Cloud)
Introduction to Software (Big data, Intelligence and Cloud)
우찬 김
2013_08_30_Bioinformatics1_yes
2013_08_30_Bioinformatics1_yes
Eunsil Yoon
Uses of Artificial Intelligence in Bioinformatics
Uses of Artificial Intelligence in Bioinformatics
Pragya Pai
Basics of bioinformatics
Basics of bioinformatics
Abhishek Vatsa
Bioinformatics tool & database 20130722 이승배
Bioinformatics tool & database 20130722 이승배
SEUNG BAE LEE
Viewers also liked
(9)
RSS & Bioinformatics
RSS & Bioinformatics
꽘스와 함께 하는 유전자 탐험
꽘스와 함께 하는 유전자 탐험
Web2.0 & Bioinformatics
Web2.0 & Bioinformatics
Introduction to second generation sequencing
Introduction to second generation sequencing
Introduction to Software (Big data, Intelligence and Cloud)
Introduction to Software (Big data, Intelligence and Cloud)
2013_08_30_Bioinformatics1_yes
2013_08_30_Bioinformatics1_yes
Uses of Artificial Intelligence in Bioinformatics
Uses of Artificial Intelligence in Bioinformatics
Basics of bioinformatics
Basics of bioinformatics
Bioinformatics tool & database 20130722 이승배
Bioinformatics tool & database 20130722 이승배
Similar to GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반 NoSQL 구축사례
Object storage의 이해와 활용
Object storage의 이해와 활용
Seoro Kim
Hadoop administration
Hadoop administration
Ryan Guhnguk Ahn
I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)
Suntae Kim
iris solution_overview_for_bigdata
iris solution_overview_for_bigdata
mobigen
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
ksdc2019
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
Channy Yun
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
SeungYong Baek
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
Suntae Kim
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스
Jayoung Lim
사업 실적
사업 실적
mobigen
디콘 특강 기말 요약
디콘 특강 기말 요약
junhozzang
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
eungjin cho
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
Cloud-Barista Community
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouse
NAVER Engineering
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013
Gruter
Glusterfs 파일시스템 구성_및 운영가이드_v2.0
Glusterfs 파일시스템 구성_및 운영가이드_v2.0
sprdd
Glusterfs 구성제안 및_운영가이드_v2.0
Glusterfs 구성제안 및_운영가이드_v2.0
sprdd
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
DeukJin Jeon
Sensor web
Sensor web
H K Yoon
분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기
NAVER D2
Similar to GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반 NoSQL 구축사례
(20)
Object storage의 이해와 활용
Object storage의 이해와 활용
Hadoop administration
Hadoop administration
I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)
iris solution_overview_for_bigdata
iris solution_overview_for_bigdata
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스
사업 실적
사업 실적
디콘 특강 기말 요약
디콘 특강 기말 요약
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouse
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013
Glusterfs 파일시스템 구성_및 운영가이드_v2.0
Glusterfs 파일시스템 구성_및 운영가이드_v2.0
Glusterfs 구성제안 및_운영가이드_v2.0
Glusterfs 구성제안 및_운영가이드_v2.0
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
Sensor web
Sensor web
분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기
More from Gruter
MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기
Gruter
Introduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data Warehouse
Gruter
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
Gruter
Introduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big Data
Gruter
Introduction to Apache Tajo
Introduction to Apache Tajo
Gruter
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
Gruter
What's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its Beyond
Gruter
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
Gruter
Efficient In‐situ Processing of Various Storage Types on Apache Tajo
Efficient In‐situ Processing of Various Storage Types on Apache Tajo
Gruter
Data analysis with Tajo
Data analysis with Tajo
Gruter
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
Gruter
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter
Apache Tajo - BWC 2014
Apache Tajo - BWC 2014
Gruter
Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014
Gruter
Hadoop security DeView 2014
Hadoop security DeView 2014
Gruter
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014
Gruter
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Gruter
More from Gruter
(20)
MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기
Introduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data Warehouse
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
Introduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo
Introduction to Apache Tajo
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
What's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its Beyond
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
Efficient In‐situ Processing of Various Storage Types on Apache Tajo
Efficient In‐situ Processing of Various Storage Types on Apache Tajo
Data analysis with Tajo
Data analysis with Tajo
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Apache Tajo - BWC 2014
Apache Tajo - BWC 2014
Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014
Hadoop security DeView 2014
Hadoop security DeView 2014
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반 NoSQL 구축사례
1.
© 2013 Gruter.
All rights reserved. Bioinformatics Data 를 위한 Hadoop 기반 NoSQL 구축사례 2013.08.28 김진호 책임 연구원
2.
© 2013 Gruter.
All rights reserved.2 Introduction • Bioinformatics – 생물체로부터 얻어진 대량의 데이터로부터 유용한 지 식을 얻어내기 위한 이론물리/전산/통계/수학적인 도 구를 이용하여 생명현상을 연구하는 분야 • Bioinformatics as a computer science – 생명공학(BT:BioTechnology) + 정보공학(IT:Infor mation Technology)
3.
© 2013 Gruter.
All rights reserved.3 DNA Structure
4.
© 2013 Gruter.
All rights reserved.4 Human genome • 유전자(Gene) 와 염색체(chromosome) 의 합 성어 • 게놈(독일어: genom, 영어: genome 지놈) • 한 개체의 유전자의 총 염기서열 – 사람의 유전자 약 3만 개는, 대략 30억 쌍의 염기대 의 DNA에 기록되어 있다. DNA의 염기 배열이 어느 유전자에 대응하는지를 조사함으로써 사람의 모든 유 전자를 해독하는 것을 “인간 게놈 계획”이라고 부르 고 있다. http://ko.wikipedia.org/wiki/%EA%B2%8C%EB%86%88
5.
© 2013 Gruter.
All rights reserved.5 Human genome http://en.wikipedia.org/wiki/Chromosome
6.
© 2013 Gruter.
All rights reserved.6 Conserved segments in the human and mouse gen ome Nature, Human Genome, Figure 46
7.
© 2013 Gruter.
All rights reserved.7 요구사항 • 저비용의 데이터 저장소 • 다양한 Bioinformatics data 지원 • File type 에 의존적이지 않는 meta 관리 • SQL query(JDBC) 지원 • 빠른 검색 및 대용량 검색 결과에 대한 성능 • 저장된 데이터 분석 • 확장 및 안정성 보장 • 클러스터 관리 및 모니터링
8.
© 2013 Gruter.
All rights reserved.8 1000 Genomes Browser http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes
9.
© 2013 Gruter.
All rights reserved.9 Challenges • 도메인 이해의 어려움 – 생소한 용어들 • Sequencing and mapping • Pairwise Alignment • AATCTATA AATCTATA AATCTATA … • 수 많은 알고리즘 및 수식 – Maxam-Gilbert sequencing – Needleman and Wunsch Algorithm – Phred quality score – R-Tree • 다양한 Data format – FASTA, SAM, BAM, SNP, CNV, Inversion, Large InDel, Small InDel • 대용량 레코드 저장과 검색 (Read only) – 약 30억 레코드 와 단계별 실험 데이터들 – 한사람당 RDB 데이터 저장시 최소 5GB 이상 필요. – 1,000,000 유저는 5PB -> 비용 문제로 서비스 가치 상실 – Hadoop 사용 시 500 ~ 1000대 구성으로 서비스 가능
10.
© 2013 Gruter.
All rights reserved.10 DNA Sequencing Costs http://www.nature.com/news/2009/091021/full/464670a.html
11.
© 2013 Gruter.
All rights reserved.11 Open Source 참조 • Picard - Java base SamTools – Command line 프로그램 and SAM-JDK – 다양한 format 처리 구현 – Index Model 제공 • Binning index – The binning scheme is essentially a representation of R-tree – Combining with linear index http://picard.sourceforge.net
12.
© 2013 Gruter.
All rights reserved.12 Index bin array 0 1 2 … 585 … 4681 … 37449 Chunk1: file offset Chunk2: file offset Linear index0 1 2 … 32770 bin-4681 (해당 bin의 min chunk start 저장)
13.
© 2013 Gruter.
All rights reserved.13 아키텍쳐 구성 Hadoop DataNode Data Server #1 Genome Unit #1 Disk Index Data File Memory Index Data File Index File Data File Index File Data File Index File Data File Index File Hadoop DataNode Data File Index File Data File Index File Data File Index File Data File Index File ZooKeeper Server Cluster Membership Cluster Configuration Master Election Meta Infomation Index File Index File Index File Master Server Genome Allocation Data Server Failover Meta Management Hadoop DataNode Data File Index File Data File Index File Data File Index File Data File Index File … … Application Server Genome Browser Client JDBC Uploader Indexer Uploader
14.
© 2013 Gruter.
All rights reserved.14 구성 요소 • Genome Unit – 검색 관리 대상 단위 – 메타정보와 데이터, 인덱스 파일로 구성 • Data Server – 검색 및 결과제공 – 사용자 Program 및 MR 실행 – 하나의 Data Server는 N개의 Genome Unit을 서비스. • Master Server – 시스템 관리 및 Genome Unit 할당 – 모니터링 제공 • Hadoop – 데이터 파일 및 인덱스 파일 저장소 • ZooKeeper – 클러스터 멤버쉽 및 메타정보 관리
15.
© 2013 Gruter.
All rights reserved.15 특징 • 확장성 – 하나의 Data Server 는 N개의 Genome Unit을 서비스 – 데이터 증가/감소에 따라 선형적으로 서버 추가/제거 가능 – 서버 추가/제거 작업 중에도 데이터 서비스 및 시스템 성능에는 영향 없음 – Index 크기에 따라 메모리 로딩, 로컬 디스크 저장 등 선택적 사용 가능 • 안정성 – 하나의 Genome Unit은 N대의 Data Server 복제 – Data Server 장애시 자동 재할당. • 성능 – 빠른 index 검색을 위해 index 크기, 빈도에 따라 index 위치 설정 – count, average 등은 별도의 index 제공 • 기타 – 웹기반 관리도구 제공
16.
GRUTER: YOUR PARTNER IN
THE BIG DATA REVOLUTION Phone +82-70-8129-2950 Fax +82-70-8129-2952 E-mail contact@gruter.com Web www.gruter.com © 2013 Gruter. All rights reserved. Gruter, Inc. 5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839