SlideShare a Scribd company logo
1 of 16
© 2013 Gruter. All rights reserved.
Bioinformatics Data 를 위한
Hadoop 기반 NoSQL 구축사례
2013.08.28
김진호 책임 연구원
© 2013 Gruter. All rights reserved.2
Introduction
• Bioinformatics
– 생물체로부터 얻어진 대량의 데이터로부터 유용한 지
식을 얻어내기 위한 이론물리/전산/통계/수학적인 도
구를 이용하여 생명현상을 연구하는 분야
• Bioinformatics as a computer science
– 생명공학(BT:BioTechnology) + 정보공학(IT:Infor
mation Technology)
© 2013 Gruter. All rights reserved.3
DNA Structure
© 2013 Gruter. All rights reserved.4
Human genome
• 유전자(Gene) 와 염색체(chromosome) 의 합
성어
• 게놈(독일어: genom, 영어: genome 지놈)
• 한 개체의 유전자의 총 염기서열
– 사람의 유전자 약 3만 개는, 대략 30억 쌍의 염기대
의 DNA에 기록되어 있다. DNA의 염기 배열이 어느
유전자에 대응하는지를 조사함으로써 사람의 모든 유
전자를 해독하는 것을 “인간 게놈 계획”이라고 부르
고 있다.
http://ko.wikipedia.org/wiki/%EA%B2%8C%EB%86%88
© 2013 Gruter. All rights reserved.5
Human genome
http://en.wikipedia.org/wiki/Chromosome
© 2013 Gruter. All rights reserved.6
Conserved segments in the human and mouse gen
ome
Nature, Human Genome, Figure 46
© 2013 Gruter. All rights reserved.7
요구사항
• 저비용의 데이터 저장소
• 다양한 Bioinformatics data 지원
• File type 에 의존적이지 않는 meta 관리
• SQL query(JDBC) 지원
• 빠른 검색 및 대용량 검색 결과에 대한 성능
• 저장된 데이터 분석
• 확장 및 안정성 보장
• 클러스터 관리 및 모니터링
© 2013 Gruter. All rights reserved.8
1000 Genomes Browser
http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes
© 2013 Gruter. All rights reserved.9
Challenges
• 도메인 이해의 어려움
– 생소한 용어들
• Sequencing and mapping
• Pairwise Alignment
• AATCTATA AATCTATA AATCTATA …
• 수 많은 알고리즘 및 수식
– Maxam-Gilbert sequencing
– Needleman and Wunsch Algorithm
– Phred quality score
– R-Tree
• 다양한 Data format
– FASTA, SAM, BAM, SNP, CNV, Inversion, Large InDel, Small InDel
• 대용량 레코드 저장과 검색 (Read only)
– 약 30억 레코드 와 단계별 실험 데이터들
– 한사람당 RDB 데이터 저장시 최소 5GB 이상 필요.
– 1,000,000 유저는 5PB -> 비용 문제로 서비스 가치 상실
– Hadoop 사용 시 500 ~ 1000대 구성으로 서비스 가능
© 2013 Gruter. All rights reserved.10
DNA Sequencing Costs
http://www.nature.com/news/2009/091021/full/464670a.html
© 2013 Gruter. All rights reserved.11
Open Source 참조
• Picard - Java base SamTools
– Command line 프로그램 and SAM-JDK
– 다양한 format 처리 구현
– Index Model 제공
• Binning index
– The binning scheme is essentially a
representation of R-tree
– Combining with linear index
http://picard.sourceforge.net
© 2013 Gruter. All rights reserved.12
Index
bin array
0 1 2 … 585 … 4681 … 37449
Chunk1: file offset
Chunk2: file offset
Linear index0 1 2 … 32770
bin-4681
(해당 bin의 min chunk start 저장)
© 2013 Gruter. All rights reserved.13
아키텍쳐 구성
Hadoop DataNode
Data Server #1
Genome Unit #1
Disk
Index
Data
File
Memory
Index
Data
File
Index
File
Data
File
Index
File
Data
File
Index
File
Data
File
Index
File
Hadoop DataNode
Data
File
Index
File
Data
File
Index
File
Data
File
Index
File
Data
File
Index
File
ZooKeeper
Server Cluster Membership
Cluster Configuration
Master Election
Meta Infomation
Index
File
Index
File
Index
File
Master Server
Genome Allocation
Data Server Failover
Meta Management
Hadoop DataNode
Data
File
Index
File
Data
File
Index
File
Data
File
Index
File
Data
File
Index
File
…
…
Application Server
Genome Browser
Client
JDBC
Uploader
Indexer
Uploader
© 2013 Gruter. All rights reserved.14
구성 요소
• Genome Unit
– 검색 관리 대상 단위
– 메타정보와 데이터, 인덱스 파일로 구성
• Data Server
– 검색 및 결과제공
– 사용자 Program 및 MR 실행
– 하나의 Data Server는 N개의 Genome Unit을 서비스.
• Master Server
– 시스템 관리 및 Genome Unit 할당
– 모니터링 제공
• Hadoop
– 데이터 파일 및 인덱스 파일 저장소
• ZooKeeper
– 클러스터 멤버쉽 및 메타정보 관리
© 2013 Gruter. All rights reserved.15
특징
• 확장성
– 하나의 Data Server 는 N개의 Genome Unit을 서비스
– 데이터 증가/감소에 따라 선형적으로 서버 추가/제거 가능
– 서버 추가/제거 작업 중에도 데이터 서비스 및 시스템 성능에는 영향 없음
– Index 크기에 따라 메모리 로딩, 로컬 디스크 저장 등 선택적 사용 가능
• 안정성
– 하나의 Genome Unit은 N대의 Data Server 복제
– Data Server 장애시 자동 재할당.
• 성능
– 빠른 index 검색을 위해 index 크기, 빈도에 따라 index 위치 설정
– count, average 등은 별도의 index 제공
• 기타
– 웹기반 관리도구 제공
GRUTER: YOUR PARTNER
IN THE BIG DATA REVOLUTION
Phone +82-70-8129-2950
Fax +82-70-8129-2952
E-mail contact@gruter.com
Web www.gruter.com
© 2013 Gruter. All rights reserved.
Gruter, Inc.
5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839

More Related Content

What's hot

234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준NAVER D2
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개Gruter
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK TelecomGruter
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimGruter
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례Taehyeon Oh
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSGruter
 
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLeeCUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLeeLaura Oh
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for HadoopSeungYong Baek
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Sanghee Lee
 
Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대DaeHeon Oh
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big dataH K Yoon
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안치완 박
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoMatthew (정재화)
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료Wooseung Kim
 
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료Teddy Choi
 
5일차.map reduce 활용
5일차.map reduce 활용5일차.map reduce 활용
5일차.map reduce 활용주영 송
 
An introduction to hadoop
An introduction to hadoopAn introduction to hadoop
An introduction to hadoopMinJae Kang
 
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Matthew (정재화)
 

What's hot (20)

234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
 
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLeeCUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313
 
Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big data
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
 
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료
 
5일차.map reduce 활용
5일차.map reduce 활용5일차.map reduce 활용
5일차.map reduce 활용
 
An introduction to hadoop
An introduction to hadoopAn introduction to hadoop
An introduction to hadoop
 
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
 

Viewers also liked

RSS & Bioinformatics
RSS & BioinformaticsRSS & Bioinformatics
RSS & BioinformaticsHong ChangBum
 
꽘스와 함께 하는 유전자 탐험
꽘스와 함께 하는 유전자 탐험꽘스와 함께 하는 유전자 탐험
꽘스와 함께 하는 유전자 탐험OnTheWheel
 
Web2.0 & Bioinformatics
Web2.0 & BioinformaticsWeb2.0 & Bioinformatics
Web2.0 & BioinformaticsHong ChangBum
 
Introduction to second generation sequencing
Introduction to second generation sequencingIntroduction to second generation sequencing
Introduction to second generation sequencingDenis C. Bauer
 
Introduction to Software (Big data, Intelligence and Cloud)
Introduction to Software (Big data, Intelligence and Cloud)Introduction to Software (Big data, Intelligence and Cloud)
Introduction to Software (Big data, Intelligence and Cloud)우찬 김
 
2013_08_30_Bioinformatics1_yes
2013_08_30_Bioinformatics1_yes2013_08_30_Bioinformatics1_yes
2013_08_30_Bioinformatics1_yesEunsil Yoon
 
Uses of Artificial Intelligence in Bioinformatics
Uses of Artificial Intelligence in BioinformaticsUses of Artificial Intelligence in Bioinformatics
Uses of Artificial Intelligence in BioinformaticsPragya Pai
 
Basics of bioinformatics
Basics of bioinformaticsBasics of bioinformatics
Basics of bioinformaticsAbhishek Vatsa
 
Bioinformatics tool & database 20130722 이승배
Bioinformatics tool & database 20130722 이승배Bioinformatics tool & database 20130722 이승배
Bioinformatics tool & database 20130722 이승배SEUNG BAE LEE
 

Viewers also liked (9)

RSS & Bioinformatics
RSS & BioinformaticsRSS & Bioinformatics
RSS & Bioinformatics
 
꽘스와 함께 하는 유전자 탐험
꽘스와 함께 하는 유전자 탐험꽘스와 함께 하는 유전자 탐험
꽘스와 함께 하는 유전자 탐험
 
Web2.0 & Bioinformatics
Web2.0 & BioinformaticsWeb2.0 & Bioinformatics
Web2.0 & Bioinformatics
 
Introduction to second generation sequencing
Introduction to second generation sequencingIntroduction to second generation sequencing
Introduction to second generation sequencing
 
Introduction to Software (Big data, Intelligence and Cloud)
Introduction to Software (Big data, Intelligence and Cloud)Introduction to Software (Big data, Intelligence and Cloud)
Introduction to Software (Big data, Intelligence and Cloud)
 
2013_08_30_Bioinformatics1_yes
2013_08_30_Bioinformatics1_yes2013_08_30_Bioinformatics1_yes
2013_08_30_Bioinformatics1_yes
 
Uses of Artificial Intelligence in Bioinformatics
Uses of Artificial Intelligence in BioinformaticsUses of Artificial Intelligence in Bioinformatics
Uses of Artificial Intelligence in Bioinformatics
 
Basics of bioinformatics
Basics of bioinformaticsBasics of bioinformatics
Basics of bioinformatics
 
Bioinformatics tool & database 20130722 이승배
Bioinformatics tool & database 20130722 이승배Bioinformatics tool & database 20130722 이승배
Bioinformatics tool & database 20130722 이승배
 

Similar to GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반 NoSQL 구축사례

Object storage의 이해와 활용
Object storage의 이해와 활용Object storage의 이해와 활용
Object storage의 이해와 활용Seoro Kim
 
I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)Suntae Kim
 
iris solution_overview_for_bigdata
iris solution_overview_for_bigdatairis solution_overview_for_bigdata
iris solution_overview_for_bigdatamobigen
 
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기ksdc2019
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)SeungYong Baek
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04Suntae Kim
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Jayoung Lim
 
사업 실적
사업 실적사업 실적
사업 실적mobigen
 
디콘 특강 기말 요약
디콘 특강 기말 요약디콘 특강 기말 요약
디콘 특강 기말 요약junhozzang
 
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장eungjin cho
 
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...Cloud-Barista Community
 
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseSQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseNAVER Engineering
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Gruter
 
Glusterfs 파일시스템 구성_및 운영가이드_v2.0
Glusterfs 파일시스템 구성_및 운영가이드_v2.0Glusterfs 파일시스템 구성_및 운영가이드_v2.0
Glusterfs 파일시스템 구성_및 운영가이드_v2.0sprdd
 
Glusterfs 구성제안 및_운영가이드_v2.0
Glusterfs 구성제안 및_운영가이드_v2.0Glusterfs 구성제안 및_운영가이드_v2.0
Glusterfs 구성제안 및_운영가이드_v2.0sprdd
 
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdfSK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdfDeukJin Jeon
 
Sensor web
Sensor webSensor web
Sensor webH K Yoon
 
분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기NAVER D2
 

Similar to GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반 NoSQL 구축사례 (20)

Object storage의 이해와 활용
Object storage의 이해와 활용Object storage의 이해와 활용
Object storage의 이해와 활용
 
Hadoop administration
Hadoop administrationHadoop administration
Hadoop administration
 
I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)
 
iris solution_overview_for_bigdata
iris solution_overview_for_bigdatairis solution_overview_for_bigdata
iris solution_overview_for_bigdata
 
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스
 
사업 실적
사업 실적사업 실적
사업 실적
 
디콘 특강 기말 요약
디콘 특강 기말 요약디콘 특강 기말 요약
디콘 특강 기말 요약
 
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
 
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
 
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseSQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouse
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013
 
Glusterfs 파일시스템 구성_및 운영가이드_v2.0
Glusterfs 파일시스템 구성_및 운영가이드_v2.0Glusterfs 파일시스템 구성_및 운영가이드_v2.0
Glusterfs 파일시스템 구성_및 운영가이드_v2.0
 
Glusterfs 구성제안 및_운영가이드_v2.0
Glusterfs 구성제안 및_운영가이드_v2.0Glusterfs 구성제안 및_운영가이드_v2.0
Glusterfs 구성제안 및_운영가이드_v2.0
 
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdfSK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
 
Sensor web
Sensor webSensor web
Sensor web
 
분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기
 

More from Gruter

MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기Gruter
 
Introduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data WarehouseIntroduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data WarehouseGruter
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoGruter
 
Introduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big DataIntroduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big DataGruter
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache TajoGruter
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWSGruter
 
What's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its BeyondWhat's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its BeyondGruter
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Gruter
 
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoEfficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoGruter
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with TajoGruter
 
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter
 
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter
 
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter
 
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter
 
Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Gruter
 
Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Gruter
 
Hadoop security DeView 2014
Hadoop security DeView 2014Hadoop security DeView 2014
Hadoop security DeView 2014Gruter
 
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Gruter
 
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopBig Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopGruter
 

More from Gruter (20)

MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기
 
Introduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data WarehouseIntroduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data Warehouse
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Introduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big DataIntroduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big Data
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache Tajo
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
 
What's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its BeyondWhat's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its Beyond
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
 
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoEfficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with Tajo
 
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in Telco
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
 
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
 
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
 
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
 
Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Apache Tajo - BWC 2014
Apache Tajo - BWC 2014
 
Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014
 
Hadoop security DeView 2014
Hadoop security DeView 2014Hadoop security DeView 2014
Hadoop security DeView 2014
 
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014
 
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopBig Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
 

GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반 NoSQL 구축사례

  • 1. © 2013 Gruter. All rights reserved. Bioinformatics Data 를 위한 Hadoop 기반 NoSQL 구축사례 2013.08.28 김진호 책임 연구원
  • 2. © 2013 Gruter. All rights reserved.2 Introduction • Bioinformatics – 생물체로부터 얻어진 대량의 데이터로부터 유용한 지 식을 얻어내기 위한 이론물리/전산/통계/수학적인 도 구를 이용하여 생명현상을 연구하는 분야 • Bioinformatics as a computer science – 생명공학(BT:BioTechnology) + 정보공학(IT:Infor mation Technology)
  • 3. © 2013 Gruter. All rights reserved.3 DNA Structure
  • 4. © 2013 Gruter. All rights reserved.4 Human genome • 유전자(Gene) 와 염색체(chromosome) 의 합 성어 • 게놈(독일어: genom, 영어: genome 지놈) • 한 개체의 유전자의 총 염기서열 – 사람의 유전자 약 3만 개는, 대략 30억 쌍의 염기대 의 DNA에 기록되어 있다. DNA의 염기 배열이 어느 유전자에 대응하는지를 조사함으로써 사람의 모든 유 전자를 해독하는 것을 “인간 게놈 계획”이라고 부르 고 있다. http://ko.wikipedia.org/wiki/%EA%B2%8C%EB%86%88
  • 5. © 2013 Gruter. All rights reserved.5 Human genome http://en.wikipedia.org/wiki/Chromosome
  • 6. © 2013 Gruter. All rights reserved.6 Conserved segments in the human and mouse gen ome Nature, Human Genome, Figure 46
  • 7. © 2013 Gruter. All rights reserved.7 요구사항 • 저비용의 데이터 저장소 • 다양한 Bioinformatics data 지원 • File type 에 의존적이지 않는 meta 관리 • SQL query(JDBC) 지원 • 빠른 검색 및 대용량 검색 결과에 대한 성능 • 저장된 데이터 분석 • 확장 및 안정성 보장 • 클러스터 관리 및 모니터링
  • 8. © 2013 Gruter. All rights reserved.8 1000 Genomes Browser http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes
  • 9. © 2013 Gruter. All rights reserved.9 Challenges • 도메인 이해의 어려움 – 생소한 용어들 • Sequencing and mapping • Pairwise Alignment • AATCTATA AATCTATA AATCTATA … • 수 많은 알고리즘 및 수식 – Maxam-Gilbert sequencing – Needleman and Wunsch Algorithm – Phred quality score – R-Tree • 다양한 Data format – FASTA, SAM, BAM, SNP, CNV, Inversion, Large InDel, Small InDel • 대용량 레코드 저장과 검색 (Read only) – 약 30억 레코드 와 단계별 실험 데이터들 – 한사람당 RDB 데이터 저장시 최소 5GB 이상 필요. – 1,000,000 유저는 5PB -> 비용 문제로 서비스 가치 상실 – Hadoop 사용 시 500 ~ 1000대 구성으로 서비스 가능
  • 10. © 2013 Gruter. All rights reserved.10 DNA Sequencing Costs http://www.nature.com/news/2009/091021/full/464670a.html
  • 11. © 2013 Gruter. All rights reserved.11 Open Source 참조 • Picard - Java base SamTools – Command line 프로그램 and SAM-JDK – 다양한 format 처리 구현 – Index Model 제공 • Binning index – The binning scheme is essentially a representation of R-tree – Combining with linear index http://picard.sourceforge.net
  • 12. © 2013 Gruter. All rights reserved.12 Index bin array 0 1 2 … 585 … 4681 … 37449 Chunk1: file offset Chunk2: file offset Linear index0 1 2 … 32770 bin-4681 (해당 bin의 min chunk start 저장)
  • 13. © 2013 Gruter. All rights reserved.13 아키텍쳐 구성 Hadoop DataNode Data Server #1 Genome Unit #1 Disk Index Data File Memory Index Data File Index File Data File Index File Data File Index File Data File Index File Hadoop DataNode Data File Index File Data File Index File Data File Index File Data File Index File ZooKeeper Server Cluster Membership Cluster Configuration Master Election Meta Infomation Index File Index File Index File Master Server Genome Allocation Data Server Failover Meta Management Hadoop DataNode Data File Index File Data File Index File Data File Index File Data File Index File … … Application Server Genome Browser Client JDBC Uploader Indexer Uploader
  • 14. © 2013 Gruter. All rights reserved.14 구성 요소 • Genome Unit – 검색 관리 대상 단위 – 메타정보와 데이터, 인덱스 파일로 구성 • Data Server – 검색 및 결과제공 – 사용자 Program 및 MR 실행 – 하나의 Data Server는 N개의 Genome Unit을 서비스. • Master Server – 시스템 관리 및 Genome Unit 할당 – 모니터링 제공 • Hadoop – 데이터 파일 및 인덱스 파일 저장소 • ZooKeeper – 클러스터 멤버쉽 및 메타정보 관리
  • 15. © 2013 Gruter. All rights reserved.15 특징 • 확장성 – 하나의 Data Server 는 N개의 Genome Unit을 서비스 – 데이터 증가/감소에 따라 선형적으로 서버 추가/제거 가능 – 서버 추가/제거 작업 중에도 데이터 서비스 및 시스템 성능에는 영향 없음 – Index 크기에 따라 메모리 로딩, 로컬 디스크 저장 등 선택적 사용 가능 • 안정성 – 하나의 Genome Unit은 N대의 Data Server 복제 – Data Server 장애시 자동 재할당. • 성능 – 빠른 index 검색을 위해 index 크기, 빈도에 따라 index 위치 설정 – count, average 등은 별도의 index 제공 • 기타 – 웹기반 관리도구 제공
  • 16. GRUTER: YOUR PARTNER IN THE BIG DATA REVOLUTION Phone +82-70-8129-2950 Fax +82-70-8129-2952 E-mail contact@gruter.com Web www.gruter.com © 2013 Gruter. All rights reserved. Gruter, Inc. 5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839