HDFSのスケーラビリティとマルチマスタへの取り組み

HDFSのスケーラビリティとマルチマスタへの取り組み 2010/05/26 三上俊輔

背景 HDFSのNamenodeの限界が見え始めた名前空間上のファイルやブロック数の限界 Namenodeのメインメモリ上にファイルやブロックの情報を載せる必要があり、メモリに載らなくなると極端に性能低下 Namenodeの要求処理性能の限界ハートビート、ブロックレポートとクライアントからのメタデータへのアクセスこれらのリクエストがある一定値を超えると飽和してしまい、線形的なスケールのボトルネックとなる

Targets for HDFS vs. actual deployed

Namespace Limitations 一つのfile,block（オブジェクト）に200byteほど必要 Yahooでは平均1fileは1.5blockで、1fileにつきNamenodeのRAMを600byte使用 1億ファイルには60GBのRAMが必要となる

Storage capacity 一億ファイルを達成するには60PBのストレージ容量が必要 10,000ノードで達成するにはノードあたり6TB必要今のyahooクラスタはノードあたり1TBディスクが4つだが、8つまで増やす必要がある

The Internal Load 3 block reports per second, each reporting 60,000 replicas 10,000 heartbeats per second NNThroughputベンチマークの結果 Block reportsによって常にCPUの30%が消費されている

Reasonable Load Expectations HDFS read and write throughput Open and create throughput Internal loadがあるのでThroughputのうち70%のみ実際に使用可能 100,000クライアントで各クライアントが96MB書き込むとすると、2.4秒なので、41,667 create block / sec 3920 ops/sしか書き込めない

まとめ 100,000クライアントからのreadは処理できるが、writeではnamenodeがボトルネックとなる Readはメモリアクセスだけで済むが、Writeではディスクアクセスが必要なので遅い性能向上のテクニックはいくつかあるが、結局一つのnamenodeではスケーラビリティがない将来的には小さいファイルが増える傾向にあることも考慮し、分散メタデータサーバが望ましい

HDFS scalability with multiple namenodes https://issues.apache.org/jira/browse/HDFS-1052 複数のNameNodeだが、名前空間も複数シンボリックリンクによってクライアント側は透過にアクセスできるようにすることは可能フェイルオーバーはない

Related work Colossus Google file systemの次世代版複数ネームサーバで単一名前空間を提供詳細はまだ不明 Haceph:Scalable Metadata Management for Hadoop using Ceph http://users.soe.ucsc.edu/~carlosm/Papers/eestolan-nsdi10-abstract.pdf HDFSの代わりにcephを使う Cephはダイナミックパーティションツリーを使った分散メタデータサーバを持つ実装は見当たらなかった

HDFSのスケーラビリティとマルチマスタへの取り組み

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (6)

Ähnlich wie HDFSのスケーラビリティとマルチマスタへの取り組み

Ähnlich wie HDFSのスケーラビリティとマルチマスタへの取り組み (14)

Mehr von shunsuke Mikami

Mehr von shunsuke Mikami (8)

HDFSのスケーラビリティとマルチマスタへの取り組み