5. Virtualization
가상화
• 컴퓨터 자원의 추상화를 일컫는 말
• 가상의 물리적 리소스를 만들어 냄.
•물리적인 1대의 하드웨어 자원을 논리적으로 여러 개로 나누어 사용하거나,
•여러대의 하드웨어 자원을 논리적으로 통합하여 이용하는 기술
• 하드웨어 관리, 재난에 대한 시스템 복구 등 여러 문제를 해결할 수 있는 방법으로 최근
각광 받고 있음
6. Virtualization
가상화의 장점!!
• 비용절감
서버 한 대를 분할하여 여러 대의 서버를 구성할 수 있음
서버 구입비용 절감, 전기, 상면비용, 서버관리비용이 절감
• 자원의 효율적인 사용
서버의 비 활용되는 자원을 이용하여 가상머신을 만듬으로써 효율적인 자원사용이 가능
• 안정적인 운영
서버를 이미지로 백업, 손쉬운 서버 이전으로 장애에 대한 신속한 대처 가능
• SW의 지속적인 운영
서버 HW의 수명 주기가 끝나면 OS 벤더는 장치 드라이버 지원이 중단됨
-> 마이그레이션 문제가 발생
가상머신에 기존의 시스템을 가상머신에 올리기 때문에 장치 드라이버에 대한 문제
가 발생하지 않음
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 6
7. 가상화 이점
단일서버
- CPU: 2
Type A
- RAM: 96G
- HDD: 1T
단일서버
일반적인 Type B
- CPU: 24
- RAM: 96G
서버 구성
- HDD: 500G
클러스터서버
- CPU: 2
Type C - RAM: 8G
- HDD: 500G
- NODE: 12EA
추가적인 하드웨어 구매필요
모든 자원이 활용되는 것은 아님
Cop
7
8. 가상화 이점
단일서버
- CPU: 2
Type A 가상머신
- RAM: 96G
- HDD: 1T
단일서버
- CPU: 24
Type B 가상머신
- RAM: 96G
- HDD: 500G
가상화 이용
서버 구성 클러스터서버
- CPU: 2
Type C - RAM: 8G 가상머신
- HDD: 500G
- NODE: 12EA
하드웨어 비용 절감
자원의 효율적 이용
Cop
8
12. OpenStack
IaaS cloud computing by
Raskpace Cloud and NASA
Open source software for
building private and public
clouds
Deliver solutions for all types of
clouds by being simple to
implement, massively scalable
12
14. Grid vs Cluster
대용량 데이터에 대한 연산을 작은 소규모 연산들로 나누어
공통점 작은 여러대의 컴퓨터로 분산시켜 수행
WAN상에서 서로 다른 기종의 머신들을 연결
차이점 다양한 플랫폼을 서로 연결함
연결대수에 제한이 없음
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 14
15. Grid
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 15
16. Globus Toolkit
대표적인 계산 그리드 미들웨어
Open source toolkit for building computing grids
developed and provided by Globus Alliance
Standards implementation
• Open Grid Service Architecture (OGSA)
• Open Grid Service Infrastructure (OGSI)
• Web Services Resource Framework (WSRF)
• Job Submission Description Language (JSDL)
• Distributed Resource Management Application
API (DRMAA)
• SOAP
• WSDL
• Grid Security Infrastructure
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 16
17. High level Open Grid Forum API specification for submission and control of jobs to a
Distributed Resource Management (DRM, Job scheduler) system, such as a Cluster
or Grid computing infrastructure
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 17
18. PBS (Portable Batch System)
Computer software that performs job scheduling in Unix cluster environment
A component of the Globus Toolkit
Originally developed by NASA
Following versions
• OpenPBS
• TORQUE – a fork of OpenPBS
• PBS Professional (PBS pro) - commercial
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 18
19. TORQUE
Distributed resource manager providing control
over batch jobs and distributed compute node
It stands for Terascale Open Source Resource and
QUEue Manager
Slave 노드의 CPU개수, core 개수, RAM사이즈, 임
시저장소 등의 설정정보를 가지고 스케줄러에 의해
요청이 왔을 때 클러스터 리소스를 분배함
Slave 1
Master
Slave 2
NFS
Slave 3
> qsub a.sh
a.sh 명령을 스케줄러에 따라 slave로 넘김
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 19
21. CLOUD COMPUTING
21
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.
22. Cloud computing
Delivery of computing and storage
capacity as a service to a
heterogeneous community of end-
recipients.
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 22
24. VPS (Virtual Private Server)
Internet hosting services to refer a virtual machine in a cloud
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 24
25. AMAZON WEB SERVICES
25
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.
26. Amazon EC2 (Amazon Elastic Compute Cloud)
Virtualization + Grid(Cluster) computing in a Cloud
26
34. Galaxy 구성요소
Galaxy 주요구성 요소
Datasources : 입력 데이터 지정. 별도의 지역
시스템이나, 외부 웹사이트의 데이터를 등록 가능
Tool : 기본적인 분석의 최소 단위, 지역설치시
원하는 툴을 만들어 넣을 수 있음
History : 입력데이터가 Tool의 조합을 거쳐
얻어진 중간 결과물 목록
Workflow : History 는 입력데이터 및 파라메터만
바꾸면 새로운 데이터 결과를 얻을 수 있다. 이를
별도로 프로세스 등록
Visualization : 분석결과를 가시화 도구와 연결
Page : 위 요소들을 종합한 보고서 작성 기능
Eprimer3 tool 을 별도로 만들어 등록한 예제
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 34
35. Galaxy tool 은
입력 출력
Tool
포맷 포맷
입력 데이터를 (포맷에 맞게) 작업하여 (포맷에 맞게) 출력 데이터를 만드는 역할
조합하면 Workflow가 된다
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 35
36. Creating your own Galaxy
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 36
37. Primer design tool
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 37
38. Galaxy on Cloud
Using Amazon EC2 + S3
Select AMIs in Community AMIs
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 38
39. Galaxy on Cloud
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 39
40. Galaxy on Cloud
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 40
41. Galaxy on Cloud
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 41
42. Galaxy on Cloud
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 42
43. Galaxy on Cloud
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 43
44. Galaxy on Insilicogen
Galaxy localization on cluster
Tool development
Workflow development
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 44
45. CLOUD BASED NGS ANALYSIS
SERVICE
45
Copyrightⓒ Insilicogen, Inc. 2010. All rights reserved.
46. AWS를 활용 HPC 서비스 제공 (예, PacBio의 SMART)
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 46
59. CONCLUSION
59
Copyrightⓒ Insilicogen, Inc. 2010. All rights reserved.
60. Cloud based NGS analysis
No need to purchase hardware
Data acquisition and analysis and service in the same space
Elastic computing power and storage
But, data transfer problem (Aspera, NAS box)
My Book
Thunderbolt 6TB
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 60
61. Opportunity
Domestic Analysis Market Expansion (PGM21, Teragen,…)
For large NGS analysis, We need more server and storage
AWS is more easy and cheap
Customer want to easy analysis and high quality product
Need to easy web application
With KT?
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 61
62. What can we do?
Customized/Advanced Analysis Service Positioning
Galaxy + IncoBook on the cloud
Specialized analysis pipeline on the cloud
Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 62