1. Internet Week 2011 仮想化DAY
-組み合わせで作るクラウドシステム-
最新技術動向 GlusterFS
2011/12/1
(株)NTTPCコミュニケーションズ
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 1
6. 分散ファイルシステムとは
アーキテクチャ
単一のファイルシステム
A B C A B C
36TB 36TB
A
36TB
B C
が、複数の物理コン
ピュータノードに分散して
ユーザ 存在する。
スイッチ
(InfiniBand
or Ethernet)
A B C
12TB 12TB 12TB
レプリケーションや
ストレージサーバ群
フォールトトラレンス
など、分散FS特有の
機能を提供するもの
が多い。
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 6
7. 分散ファイルシステムとは
アーキテクチャ
単一のファイルシステム
A B C A B C
36TB×3冗長 36TB×3冗長
A B
36TB×3冗長
C
が、複数の物理コン
ピュータノードに分散して
ユーザ 存在する。
スイッチ
(InfiniBand
or Ethernet)
A B C A B C A B C
12TB 12TB 12TB 12TB 12TB 12TB 12TB 12TB 12TB
レプリケーションや
ストレージサーバ
レプリカグループ1
ストレージサーバ
レプリカグループ2
ストレージサーバ
レプリカグループ3
フォールトトラレンス
など、分散FS特有の
機能を提供するもの
が多い。
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 7
8. 分散ファイルシステムとは
ストレージとしての分類と適用領域
DAS SAN NAS
JBOD FC-SAN NFS
SCSIストレージ IP-SAN CIFS
eSATA iSCSI
分散FS 分散FS
Coda, Lustre, PVFS,
RedHat GFS, Ceph, OpenAFS, Gfarm,
Sheepdog, ZFS, NetApp GlusterFS, Microsoft DFS
WAFL, HP LeftHandなど など
オブジェクトストレージ
分散FS Google File System, HDFS, MogileFS, Amazon S3 (on Dynamo), Swift, kumofsなど
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 8
9. インターネットと分散FS
火付け役となったGoogle File System
– 2003年10月 19th ACM Symposiumにて発表。
– 2007年頃 論文がインターネット公開されて話題に。
– 追記型,チャンク,レプリケーション,MapReduceへの最適化が特徴。
– Hadoop HDFSにこれに近いものが実装される。
出典: Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung, Google The Google File System, SOSP’03, October 19–22, 2003, Bolton Landing, New York, USA.
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 9
10. インターネットと分散FS
分散FSの変遷 : クラウド以前
DAS SAN NAS
実装しやすく
扱いやすい
NASが主流。
分散FS 分散FS
Coda, Lustre, PVFS,
RedHat GFS, Ceph, OpenAFS, Gfarm,
Sheepdog, ZFS, NetApp GlusterFS, Microsoft DFS
WAFL, HP LeftHandなど など
オブジェクトストレージ
分散FS Google File System, HDFS, MogileFS, Amazon S3 (on Dynamo), Swift, kumofsなど
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 10
11. インターネットと分散FS
分散FSの変遷 : クラウド時代
DAS SAN NAS
データセンタ事業 プライベート・クラウ
者向けにSANの利 ド向けとして、SAN
用が増加。 だけでなくNASも根
強い。
パブリック・クラウド向け 分散FS 分散FS
Coda, Lustre, PVFS,
にオブジェクトストレー RedHat GFS, Ceph,
Sheepdog, ZFS, NetApp
OpenAFS, Gfarm,
GlusterFS, Microsoft DFS
ジとしての実装が台頭。 WAFL, HP LeftHandなど など
オブジェクトストレージ
分散FS Google File System, HDFS, MogileFS, Amazon S3 (on Dynamo), Swift, kumofsなど
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 11
19. GlusterFS 10の特徴(2)
機能ごとのモジュール化
• GlusterFSの機能を
モジュールに隠蔽。
• 機能追加が容易。
• モジュールの動的
ローディングにより、
構成変更が容易。
• バグの影響範囲を小
さくすることができる。
図: GlusterFS 2.0でのモジュール構成例
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 19
20. GlusterFS 10の特徴(3)
ゼロ・シングルポイント障害
• 多くの場合にシング A B C
ルポイントとなる中央
36TB×2冗長
サーバが存在しない。 ユーザ
• シングルポイントが
無い構成が取れる。 スイッチ
(InfiniBand
or Ethernet)
• レプリカ障害時の A B C A B C
フェイルオーバも(当 12TB 12TB 12TB 12TB 12TB 12TB
ストレージサーバ ストレージサーバ
然)可能。 レプリカグループ1 レプリカグループ2
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 20
25. GlusterFS 10の特徴(8)
InfiniBand RDMA
• NFSの場合は、NFS A B C
サーバ〜ストレージ
36TB×2冗長
間。 ユーザ(GlusterFSでマウント)
• GlusterFSの場合は、
クライアント〜スト スイッチ
(InfiniBand
or Ethernet)
レージ間。 A B C A B C
• TCPではなくRDMAを 12TB 12TB 12TB 12TB 12TB 12TB
ストレージサーバ ストレージサーバ
使用することで、低レ レプリカグループ1 レプリカグループ2
イテンシを実現。
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 25
26. GlusterFS 10の特徴(9)
豊富な導入実績
• 音楽配信
• 動画配信
• 広告配信
• エンタープライズ向けクラウドソリューション
• 医療
• etc
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 26
30. 構成例
distribute構成
• 最もプリミティブな構
成。
A B C A B C A B C
36TB 36TB 36TB • キャッシュ等、容量
が小さく、最悪消え
ユーザ
ても問題が無いよう
スイッチ
(InfiniBand
なデータ向き。
or Ethernet)
• SSD等を利用するこ
A B C
とでハードウェアの
12TB 12TB 12TB
信頼性が高められ
ストレージサーバ群 れば、通常利用も可
能かも?
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 30
31. 構成例
distributed-replicate構成
• 最もポピュラーな構
成。
A B C A B C A B C
36TB×3冗長 36TB×3冗長 36TB×3冗長 • 同期レプリケーショ
ンは、書き込み時に
ユーザ
レプリカの数に比例
スイッチ
(InfiniBand
して帯域を圧迫する
or Ethernet)
ことに注意。
A B C A B C A B C
• また、レプリカの数
12TB 12TB 12TB 12TB 12TB 12TB 12TB 12TB 12TB
に比例してハード
ストレージサーバ
レプリカグループ1
ストレージサーバ
レプリカグループ2
ストレージサーバ
レプリカグループ3 ウェア,ラック代,電
気代がかかることに
も注意。
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 31
32. 構成例
distributed-stripe構成
• 冗長性よりも速度を
稼ぎたい場合に有
A B C A B C A B C
108TB 108TB 108TB
効。
• しかし、大抵の場合
ユーザ
は、コネクティビティ
スイッチ
(InfiniBand
にお金をかけた方が
or Ethernet)
ランニングコストが
A/3 B/3 C/3 A/3 B/3 C/3 A/3 B/3 C/3
安く済むはず。
12TB 12TB 12TB 12TB 12TB 12TB 12TB 12TB 12TB
• RAID10構成は現状
ストレージサーバ
ストライプグループ1
ストレージサーバ
ストライプグループ2
ストレージサーバ
ストライプグループ3 はとれない(3.0系ま
では出来た)。
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 32
33. 構成例
distributed-replicate + Geo-replication構成
A B C A B C A B C
36TB×3冗長 36TB×3冗長 36TB×3冗長
A B C A B C A B C
36TB×3冗長 ユーザ 36TB×3冗長 36TB×3冗長
スイッチ ユーザ
(InfiniBand
or Ethernet)
スイッチ
A B C A B C A B C (InfiniBand
or Ethernet)
A B C A B C A B C
12TB 12TB 12TB 12TB 12TB 12TB 12TB 12TB 12TB
ストレージサーバ ストレージサーバ ストレージサーバ
レプリカグループ1 レプリカグループ2 レプリカグループ3
12TB 12TB 12TB 12TB 12TB 12TB 12TB 12TB 12TB
ストレージサーバ ストレージサーバ ストレージサーバ
レプリカグループ1 レプリカグループ2 レプリカグループ3
Copyright (C) 2011, NTTPC Communications, Inc. All Rights Reserved. 33