SlideShare ist ein Scribd-Unternehmen logo
1 von 10
HDFSのスケーラビリティとマルチマスタへの取り組み 2010/05/26 三上俊輔
背景 HDFSのNamenodeの限界が見え始めた 名前空間上のファイルやブロック数の限界 Namenodeのメインメモリ上にファイルやブロックの情報を載せる必要があり、メモリに載らなくなると極端に性能低下 Namenodeの要求処理性能の限界 ハートビート、ブロックレポートとクライアントからのメタデータへのアクセス これらのリクエストがある一定値を超えると飽和してしまい、線形的なスケールのボトルネックとなる
Targets for HDFS vs. actual deployed
Namespace Limitations 一つのfile,block(オブジェクト)に200byteほど必要 Yahooでは平均1fileは1.5blockで、1fileにつきNamenodeのRAMを600byte使用 1億ファイルには60GBのRAMが必要となる
Storage capacity 一億ファイルを達成するには60PBのストレージ容量が必要 10,000ノードで達成するにはノードあたり6TB必要 今のyahooクラスタはノードあたり1TBディスクが4つだが、8つまで増やす必要がある
The Internal Load 3 block reports per second, each reporting 60,000 replicas 10,000 heartbeats per second NNThroughputベンチマークの結果 Block reportsによって常にCPUの30%が消費されている
Reasonable Load Expectations HDFS read and write throughput Open and create throughput Internal loadがあるのでThroughputのうち70%のみ実際に使用可能 100,000クライアントで各クライアントが96MB書き込むとすると、2.4秒なので、41,667 create block / sec 3920 ops/sしか書き込めない
まとめ 100,000クライアントからのreadは処理できるが、writeではnamenodeがボトルネックとなる Readはメモリアクセスだけで済むが、Writeではディスクアクセスが必要なので遅い 性能向上のテクニックはいくつかあるが、結局一つのnamenodeではスケーラビリティがない 将来的には小さいファイルが増える傾向にあることも考慮し、分散メタデータサーバが望ましい
HDFS scalability with multiple namenodes https://issues.apache.org/jira/browse/HDFS-1052 複数のNameNodeだが、名前空間も複数 シンボリックリンクによってクライアント側は透過にアクセスできるようにすることは可能 フェイルオーバーはない
Related work Colossus Google file systemの次世代版 複数ネームサーバで単一名前空間を提供 詳細はまだ不明 Haceph:Scalable Metadata Management for Hadoop using Ceph http://users.soe.ucsc.edu/~carlosm/Papers/eestolan-nsdi10-abstract.pdf HDFSの代わりにcephを使う Cephはダイナミックパーティションツリーを使った分散メタデータサーバを持つ 実装は見当たらなかった

Weitere ähnliche Inhalte

Was ist angesagt?

既出のDNS キャッシュポイズニング
既出のDNS キャッシュポイズニング既出のDNS キャッシュポイズニング
既出のDNS キャッシュポイズニングnemumu
 
DNS 入門
DNS 入門DNS 入門
DNS 入門Sho A
 
Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase ReportSeiichiro Ishida
 
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジLINE Corporation
 
Java EE7 䛸㻌JCache 
Java EE7 䛸㻌JCache Java EE7 䛸㻌JCache 
Java EE7 䛸㻌JCache maruyama097
 
cassandra調査レポート
cassandra調査レポートcassandra調査レポート
cassandra調査レポートAkihiro Kuwano
 
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013Cloudera Japan
 
MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法Tetsutaro Watanabe
 
データベースキャッシュの競合
データベースキャッシュの競合データベースキャッシュの競合
データベースキャッシュの競合kesnke
 
インターネッツの繋がるしくみ(DNS編) #sa_study
インターネッツの繋がるしくみ(DNS編) #sa_studyインターネッツの繋がるしくみ(DNS編) #sa_study
インターネッツの繋がるしくみ(DNS編) #sa_studyShinichiro Yoshida
 
Shibuya Perl Mongers#12 No Sql Couch Db
Shibuya Perl Mongers#12 No Sql Couch DbShibuya Perl Mongers#12 No Sql Couch Db
Shibuya Perl Mongers#12 No Sql Couch DbMakoto Ohnami
 
遊休リソースを用いた 相同性検索処理の並列化とその評価
遊休リソースを用いた相同性検索処理の並列化とその評価遊休リソースを用いた相同性検索処理の並列化とその評価
遊休リソースを用いた 相同性検索処理の並列化とその評価Satoshi Nagayasu
 
DNSの運用を考える
DNSの運用を考えるDNSの運用を考える
DNSの運用を考えるaeoe
 
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...Insight Technology, Inc.
 
読み出し性能と書き込み性能を選択可能なクラウドストレージ (DEIM2011-C3-3)
読み出し性能と書き込み性能を選択可能なクラウドストレージ (DEIM2011-C3-3)読み出し性能と書き込み性能を選択可能なクラウドストレージ (DEIM2011-C3-3)
読み出し性能と書き込み性能を選択可能なクラウドストレージ (DEIM2011-C3-3)Shun Nakamura
 
NASクラウドの連携3.pdf
NASクラウドの連携3.pdfNASクラウドの連携3.pdf
NASクラウドの連携3.pdfssuser3440151
 
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015SummerHBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015SummerMichio Katano
 

Was ist angesagt? (20)

既出のDNS キャッシュポイズニング
既出のDNS キャッシュポイズニング既出のDNS キャッシュポイズニング
既出のDNS キャッシュポイズニング
 
DNS 入門
DNS 入門DNS 入門
DNS 入門
 
Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase Report
 
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
 
Java EE7 䛸㻌JCache 
Java EE7 䛸㻌JCache Java EE7 䛸㻌JCache 
Java EE7 䛸㻌JCache 
 
はじめてのDNS
はじめてのDNSはじめてのDNS
はじめてのDNS
 
cassandra調査レポート
cassandra調査レポートcassandra調査レポート
cassandra調査レポート
 
Oracle Data Guard による高可用性
Oracle Data Guard による高可用性Oracle Data Guard による高可用性
Oracle Data Guard による高可用性
 
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013
 
MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法
 
[DDBJing33] Mass Submission System の紹介
[DDBJing33] Mass Submission System の紹介[DDBJing33] Mass Submission System の紹介
[DDBJing33] Mass Submission System の紹介
 
データベースキャッシュの競合
データベースキャッシュの競合データベースキャッシュの競合
データベースキャッシュの競合
 
インターネッツの繋がるしくみ(DNS編) #sa_study
インターネッツの繋がるしくみ(DNS編) #sa_studyインターネッツの繋がるしくみ(DNS編) #sa_study
インターネッツの繋がるしくみ(DNS編) #sa_study
 
Shibuya Perl Mongers#12 No Sql Couch Db
Shibuya Perl Mongers#12 No Sql Couch DbShibuya Perl Mongers#12 No Sql Couch Db
Shibuya Perl Mongers#12 No Sql Couch Db
 
遊休リソースを用いた 相同性検索処理の並列化とその評価
遊休リソースを用いた相同性検索処理の並列化とその評価遊休リソースを用いた相同性検索処理の並列化とその評価
遊休リソースを用いた 相同性検索処理の並列化とその評価
 
DNSの運用を考える
DNSの運用を考えるDNSの運用を考える
DNSの運用を考える
 
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
 
読み出し性能と書き込み性能を選択可能なクラウドストレージ (DEIM2011-C3-3)
読み出し性能と書き込み性能を選択可能なクラウドストレージ (DEIM2011-C3-3)読み出し性能と書き込み性能を選択可能なクラウドストレージ (DEIM2011-C3-3)
読み出し性能と書き込み性能を選択可能なクラウドストレージ (DEIM2011-C3-3)
 
NASクラウドの連携3.pdf
NASクラウドの連携3.pdfNASクラウドの連携3.pdf
NASクラウドの連携3.pdf
 
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015SummerHBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
 

Andere mochten auch

HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopCloudera Japan
 
マルチ テナント クラウド アプリケーションの設計手法
マルチ テナント クラウド アプリケーションの設計手法マルチ テナント クラウド アプリケーションの設計手法
マルチ テナント クラウド アプリケーションの設計手法Kazuyuki Nomura
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 

Andere mochten auch (6)

HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
 
マルチ テナント クラウド アプリケーションの設計手法
マルチ テナント クラウド アプリケーションの設計手法マルチ テナント クラウド アプリケーションの設計手法
マルチ テナント クラウド アプリケーションの設計手法
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 

Ähnlich wie HDFSのスケーラビリティとマルチマスタへの取り組み

10年効く分散ファイルシステム技術 GlusterFS & Red Hat Storage
10年効く分散ファイルシステム技術 GlusterFS & Red Hat Storage10年効く分散ファイルシステム技術 GlusterFS & Red Hat Storage
10年効く分散ファイルシステム技術 GlusterFS & Red Hat StorageEtsuji Nakai
 
Windows Server 2012 のストレージ強化とエンタープライズへの活用
Windows Server 2012 のストレージ強化とエンタープライズへの活用Windows Server 2012 のストレージ強化とエンタープライズへの活用
Windows Server 2012 のストレージ強化とエンタープライズへの活用Daichi Ogawa
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介bigt23
 
File Server on Azure IaaS
File Server on Azure IaaSFile Server on Azure IaaS
File Server on Azure IaaSjunichi anno
 
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...NTT DATA Technology & Innovation
 

Ähnlich wie HDFSのスケーラビリティとマルチマスタへの取り組み (14)

HBaseCon 2012 参加レポート
HBaseCon 2012 参加レポートHBaseCon 2012 参加レポート
HBaseCon 2012 参加レポート
 
10年効く分散ファイルシステム技術 GlusterFS & Red Hat Storage
10年効く分散ファイルシステム技術 GlusterFS & Red Hat Storage10年効く分散ファイルシステム技術 GlusterFS & Red Hat Storage
10年効く分散ファイルシステム技術 GlusterFS & Red Hat Storage
 
HDFS basics from API perspective
HDFS basics from API perspectiveHDFS basics from API perspective
HDFS basics from API perspective
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
Windows Server 2012 のストレージ強化とエンタープライズへの活用
Windows Server 2012 のストレージ強化とエンタープライズへの活用Windows Server 2012 のストレージ強化とエンタープライズへの活用
Windows Server 2012 のストレージ強化とエンタープライズへの活用
 
HDFS Router-based federation
HDFS Router-based federationHDFS Router-based federation
HDFS Router-based federation
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
 
File Server on Azure IaaS
File Server on Azure IaaSFile Server on Azure IaaS
File Server on Azure IaaS
 
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
 
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
 
141030ceph
141030ceph141030ceph
141030ceph
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
 

Mehr von shunsuke Mikami

アクセス解析システムの裏側 (公開用)
アクセス解析システムの裏側 (公開用)アクセス解析システムの裏側 (公開用)
アクセス解析システムの裏側 (公開用)shunsuke Mikami
 
分散ファイルシステムGfarm上でのHadoop MapReduce
分散ファイルシステムGfarm上でのHadoop MapReduce分散ファイルシステムGfarm上でのHadoop MapReduce
分散ファイルシステムGfarm上でのHadoop MapReduceshunsuke Mikami
 
Hdfsソースコードリーディング第2回
Hdfsソースコードリーディング第2回Hdfsソースコードリーディング第2回
Hdfsソースコードリーディング第2回shunsuke Mikami
 
Hdfsソースコードリーディング第一回
Hdfsソースコードリーディング第一回Hdfsソースコードリーディング第一回
Hdfsソースコードリーディング第一回shunsuke Mikami
 
広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理 @ SWoPP2010
広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理 @ SWoPP2010広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理 @ SWoPP2010
広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理 @ SWoPP2010shunsuke Mikami
 

Mehr von shunsuke Mikami (8)

アクセス解析システムの裏側 (公開用)
アクセス解析システムの裏側 (公開用)アクセス解析システムの裏側 (公開用)
アクセス解析システムの裏側 (公開用)
 
Fluent plugin-dstat
Fluent plugin-dstatFluent plugin-dstat
Fluent plugin-dstat
 
分散ファイルシステムGfarm上でのHadoop MapReduce
分散ファイルシステムGfarm上でのHadoop MapReduce分散ファイルシステムGfarm上でのHadoop MapReduce
分散ファイルシステムGfarm上でのHadoop MapReduce
 
Hdfsソースコードリーディング第2回
Hdfsソースコードリーディング第2回Hdfsソースコードリーディング第2回
Hdfsソースコードリーディング第2回
 
Hdfsソースコードリーディング第一回
Hdfsソースコードリーディング第一回Hdfsソースコードリーディング第一回
Hdfsソースコードリーディング第一回
 
広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理 @ SWoPP2010
広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理 @ SWoPP2010広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理 @ SWoPP2010
広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理 @ SWoPP2010
 
Hadoop gfarm使い方
Hadoop gfarm使い方Hadoop gfarm使い方
Hadoop gfarm使い方
 
Hadoop gfarm使い方
Hadoop gfarm使い方Hadoop gfarm使い方
Hadoop gfarm使い方
 

HDFSのスケーラビリティとマルチマスタへの取り組み