SlideShare a Scribd company logo
1 of 26
Hadoop Summit 2012

 Sho Shimauchi, Cloudera
       @shiumachi
お前誰よ?
• Sho Shimauchi ( @shiumachi )
• Cloudera 株式会社カスタマーオペレーショ
  ンズエンジニア
• 問い合わせ担当
Hadoop Summit
• サンノゼで開催された、世界最大の
  Hadoop イベントの一つ
• 今年は2,200 人参加
何聞いてきたの?
• プラットフォーム周り中心(YARN, HDFS HA,
  HBase …)
• 今日はこれらのスライドを元に、
  Hadoop/HBase の現状と今後について紹介
  します
APACHE HADOOP MAPREDUCE:
WHAT'S NEXT?
Apache Hadoop MapReduce: What's Next?

• スピーカー: Arun Murthy (Hortonworks)
• MapReduce1 から MapReduce2(YARN)、そ
  して今後の開発予定について語ったセッ
  ション
Hadoop 1.x MapReduce
• ご存知 MapReduce
• 非常に安定、 Enterprise Ready
• 以下の点で課題
  – map/reduce間でのタスクスロットの共有
  – 非MapReduce アルゴリズムのサポート
  – スケーラビリティ(Max 4,000ノード、 40,000
    タスク同時実行)
YARN
• Yet Another Resource Negociator
• ターゲット
  – 6,000 - 10,000 ノード
  – 100,000 以上のタスクの同時実行
  – 10,000 ジョブの同時実行
• hadoop-2.0.0-alpha で使用可能
• 性能は倍以上
今後の予定
• メモリ以外のリソースアロケーション
  MAPREDUCE-4327
• プリエンプション MAPREDUCE-3938
• cgroup などを使った Container アイソレー
  ション MAPREDUCE-4334
• HBase の YARN 対応 HBASE-4329, HBASE-4047
• プラガブルソート MAPREDUCE-4039,
  MAPREDUCE-2454
• プラガブルシャッフル MAPREDUCE-4049
まとめ
• YARNは「汎用」分散処理基盤に向けて一
  歩踏み出したもの
• 今までの Hadoop からさらに先に進んでい
  る
• これからの進化に要注目!
IMPROVING HBASE AVAILABILITY
AND REPAIR
Improving HBase Availability and Repair

• スピーカー Jonathan Hsieh, Jeff
  Bean(Cloudera)
• HBase の可用性にフォーカスしてしゃべっ
  たセッション
• コプロセッサ(0.92で採用)の話はないです
HBase
• フォールトトレラント
 – コンポーネントに障害が発生しても、データ
   の損失なく復旧できること
• 高可用性
 – コンポーネントに障害が発生しても、データ
   の損失なく高速に復旧できること


ゴール: ダウンタイムを短くする!
HBase のダウンタイム



         計画停止




  障害停止
HBase 障害の内訳

メタデータ障
   害
  28%           設定ミス
                 44%




HW/NW障害
   16%
             要パッチ
              12%
Conservative First!
• 不安定な機能は使わないでください
• 非推奨の構成・設定・運用はしないでく
  ださい
• HBase を使って冒険してもいいですが
  HBase で冒険しないでください
HBase 0.92 + Hadoop 2.0
• HDFS HA による高可用性の確保
• 分散ログスプリッティングによるリカバ
  リーの高速化
 – 100ノードの場合、9時間が5.4分(100倍)
 – ダウンタイムの削減=可用性の向上
HBase 0.96 + Hadoop 2.x (計画)
• 計画停止時間の削減
• オンラインスキーマ変更 HBASE-1730
• ローリングアップデート
 – バージョン間互換性が必須
   • HBase のバージョン間互換性 HBASE-5305
   • HDFS のバージョン間互換性 HADOOP-7307
まとめ
• HBase は一貫性と可用性の両立を目指して
  進化中
• 一方で運用はまだまだ課題が多い
• 対策
 – Conservative First! 用法をよく守って正しく使
   いましょう
 – HBase 本読みましょう(もうすぐ日本語版出る)
 – お金あるならサポート買ってね!
HDFS NAMENODE HIGH
AVAILABILITY
信頼性、保守性、可用性
• reliability 信頼性 = MTBF/(1 + MTBF)
  – MTBF: 平均故障間隔
  – 1ヶ月に1回壊れるより1年に1回の方が信頼性が高
    い
• maintainability 保守性 = 1 / (1 + MTTR)
  – MTTR: 平均復旧時間
  – 素早く復旧する方が保守性が高い
• availability 可用性 = MTTF / MTBF
  – MTTF: 平均故障時間
  – MTBF = MTTF + MTTR
  – 信頼性と保守性が高いと可用性も高い
信頼性
• データの信頼性
 – 10クラスタ、20,000ノード上の3.29億ブロッ
   クのうち19ブロックがロスト(2009年)
  • ※同一ファイルのブロックが全てロストする確率
    はほぼ0
 – 1700万ブロック中1ブロック(約4PB)
 – 原因となったバグは既に修正済み


      信頼性は十分高い
可用性
• 18ヶ月で、25クラスタの間で22回の障害
 – 1クラスタあたり年間0.58回の障害
 – HAが役に立っただろうと考えられるのはうち
   8回の障害(0.23回分)
• 計画停止
 – 設定変更のたびに再起動
 – アップデート時も当然再起動
保守性
• NN起動時間: 通常1-2分、大クラスタだと
  15分
 – 計画停止するたびにこれだけの時間停止する
   →MTTR増える(保守性下がる)
 – 日本で主流のHeartbeat + DRBD も、この部分
   は回避できてない
• DNの保守性
 – 大クラスタ: 1日1DNに障害発生、ディスクは
   もっと高頻度
 – 3ヶ月に1回の割合で一斉に補修・入れ替え
HDFS HAのデザイン
• NN外からのサービス監視とリーダー選出
 – ZKFC と Zookeeper
 – マニュアルフェイルオーバならZK不要
• ActとStandby両方にブロックレポート送信
 – 再起動時のブロックレポート収集が必要ない
• クライアントサイドもフェイルオーバに
  対応
• edits のみ共有ストレージに置く必要があ
  る
 – 将来的に ZooKeeper (BookKeeper)で管理する予
   定(HDFS-3077)
まとめ
• HDFS HA はかなり可用性を上げる
• 障害対策はもちろん、HDFSのアップグ
  レードや設定変更時の再起動にも有効

More Related Content

What's hot

PHPで大規模ブラウザゲームを開発してわかったこと
PHPで大規模ブラウザゲームを開発してわかったことPHPで大規模ブラウザゲームを開発してわかったこと
PHPで大規模ブラウザゲームを開発してわかったことKentaro Matsui
 
ファイルサーバーをクラウド化したい
ファイルサーバーをクラウド化したいファイルサーバーをクラウド化したい
ファイルサーバーをクラウド化したいmokudai masayuki
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera Japan
 
AWSとmod_pagespeedで 楽々サクサク高速化!!
AWSとmod_pagespeedで楽々サクサク高速化!!AWSとmod_pagespeedで楽々サクサク高速化!!
AWSとmod_pagespeedで 楽々サクサク高速化!!aasakawa
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopCloudera Japan
 
WordPress アジュール部 ハンズオン
WordPress アジュール部 ハンズオンWordPress アジュール部 ハンズオン
WordPress アジュール部 ハンズオンMasaki Takeda
 
File Server on Azure IaaS
File Server on Azure IaaSFile Server on Azure IaaS
File Server on Azure IaaSjunichi anno
 
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジLINE Corporation
 
20130413 JAWS-UG北陸 美人CDP
20130413 JAWS-UG北陸 美人CDP20130413 JAWS-UG北陸 美人CDP
20130413 JAWS-UG北陸 美人CDP真吾 吉田
 
今日から使えるCouchbaseシステムアーキテクチャデザインパターン集
今日から使えるCouchbaseシステムアーキテクチャデザインパターン集今日から使えるCouchbaseシステムアーキテクチャデザインパターン集
今日から使えるCouchbaseシステムアーキテクチャデザインパターン集Couchbase Japan KK
 
Apacheチューニング
ApacheチューニングApacheチューニング
Apacheチューニングii012014
 
Couchbase server入門
Couchbase server入門Couchbase server入門
Couchbase server入門Yusuke Komatsu
 
Cloudera Impala Seminar Jan. 8 2013
Cloudera Impala Seminar Jan. 8 2013Cloudera Impala Seminar Jan. 8 2013
Cloudera Impala Seminar Jan. 8 2013Cloudera Japan
 
Web体験を向上させる無料CDN 「rapid start」× stripe決済
Web体験を向上させる無料CDN 「rapid start」× stripe決済Web体験を向上させる無料CDN 「rapid start」× stripe決済
Web体験を向上させる無料CDN 「rapid start」× stripe決済Katsuhisa Ogawa
 
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会tama200x Kobayashi
 
クラウドで運用するCouchbase Server
クラウドで運用するCouchbase Serverクラウドで運用するCouchbase Server
クラウドで運用するCouchbase ServerKazumi Hirose
 
佐野裕章 Virident 社製半導体ストレージ flash max の検証
佐野裕章 Virident 社製半導体ストレージ flash max の検証佐野裕章 Virident 社製半導体ストレージ flash max の検証
佐野裕章 Virident 社製半導体ストレージ flash max の検証Hiroaki Sano
 
20130330 JAWS-UG広島 美人CDP
20130330 JAWS-UG広島 美人CDP20130330 JAWS-UG広島 美人CDP
20130330 JAWS-UG広島 美人CDP真吾 吉田
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例terurou
 

What's hot (20)

PHPで大規模ブラウザゲームを開発してわかったこと
PHPで大規模ブラウザゲームを開発してわかったことPHPで大規模ブラウザゲームを開発してわかったこと
PHPで大規模ブラウザゲームを開発してわかったこと
 
Osc2011 Do
Osc2011 DoOsc2011 Do
Osc2011 Do
 
ファイルサーバーをクラウド化したい
ファイルサーバーをクラウド化したいファイルサーバーをクラウド化したい
ファイルサーバーをクラウド化したい
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
AWSとmod_pagespeedで 楽々サクサク高速化!!
AWSとmod_pagespeedで楽々サクサク高速化!!AWSとmod_pagespeedで楽々サクサク高速化!!
AWSとmod_pagespeedで 楽々サクサク高速化!!
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
 
WordPress アジュール部 ハンズオン
WordPress アジュール部 ハンズオンWordPress アジュール部 ハンズオン
WordPress アジュール部 ハンズオン
 
File Server on Azure IaaS
File Server on Azure IaaSFile Server on Azure IaaS
File Server on Azure IaaS
 
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
 
20130413 JAWS-UG北陸 美人CDP
20130413 JAWS-UG北陸 美人CDP20130413 JAWS-UG北陸 美人CDP
20130413 JAWS-UG北陸 美人CDP
 
今日から使えるCouchbaseシステムアーキテクチャデザインパターン集
今日から使えるCouchbaseシステムアーキテクチャデザインパターン集今日から使えるCouchbaseシステムアーキテクチャデザインパターン集
今日から使えるCouchbaseシステムアーキテクチャデザインパターン集
 
Apacheチューニング
ApacheチューニングApacheチューニング
Apacheチューニング
 
Couchbase server入門
Couchbase server入門Couchbase server入門
Couchbase server入門
 
Cloudera Impala Seminar Jan. 8 2013
Cloudera Impala Seminar Jan. 8 2013Cloudera Impala Seminar Jan. 8 2013
Cloudera Impala Seminar Jan. 8 2013
 
Web体験を向上させる無料CDN 「rapid start」× stripe決済
Web体験を向上させる無料CDN 「rapid start」× stripe決済Web体験を向上させる無料CDN 「rapid start」× stripe決済
Web体験を向上させる無料CDN 「rapid start」× stripe決済
 
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会
 
クラウドで運用するCouchbase Server
クラウドで運用するCouchbase Serverクラウドで運用するCouchbase Server
クラウドで運用するCouchbase Server
 
佐野裕章 Virident 社製半導体ストレージ flash max の検証
佐野裕章 Virident 社製半導体ストレージ flash max の検証佐野裕章 Virident 社製半導体ストレージ flash max の検証
佐野裕章 Virident 社製半導体ストレージ flash max の検証
 
20130330 JAWS-UG広島 美人CDP
20130330 JAWS-UG広島 美人CDP20130330 JAWS-UG広島 美人CDP
20130330 JAWS-UG広島 美人CDP
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
 

Viewers also liked

Code complete ch22_developper_test
Code complete ch22_developper_testCode complete ch22_developper_test
Code complete ch22_developper_testSho Shimauchi
 
Decotai Shiumachi 091206
Decotai Shiumachi 091206Decotai Shiumachi 091206
Decotai Shiumachi 091206Sho Shimauchi
 
Data-Intensive Text Processing with MapReduce ch4
Data-Intensive Text Processing with MapReduce ch4Data-Intensive Text Processing with MapReduce ch4
Data-Intensive Text Processing with MapReduce ch4Sho Shimauchi
 
Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Sho Shimauchi
 
Programming Collective Intelligence 100111
Programming Collective Intelligence 100111Programming Collective Intelligence 100111
Programming Collective Intelligence 100111Sho Shimauchi
 
Decotai Shiumachi 091228
Decotai Shiumachi 091228Decotai Shiumachi 091228
Decotai Shiumachi 091228Sho Shimauchi
 
Cloudera Impala #pyfes 2012.11.24
Cloudera Impala #pyfes 2012.11.24Cloudera Impala #pyfes 2012.11.24
Cloudera Impala #pyfes 2012.11.24Sho Shimauchi
 
Programming Collective Intelligence 100131
Programming Collective Intelligence 100131Programming Collective Intelligence 100131
Programming Collective Intelligence 100131Sho Shimauchi
 
使い捨て python コードの書き方
使い捨て python コードの書き方使い捨て python コードの書き方
使い捨て python コードの書き方Sho Shimauchi
 
Fabric + Amazon EC2で快適サポート生活 #PyFes
Fabric + Amazon EC2で快適サポート生活 #PyFesFabric + Amazon EC2で快適サポート生活 #PyFes
Fabric + Amazon EC2で快適サポート生活 #PyFesSho Shimauchi
 
Hadoop for programmer
Hadoop for programmerHadoop for programmer
Hadoop for programmerSho Shimauchi
 
浅野高等学校 2015年度 卒業生講演
浅野高等学校 2015年度 卒業生講演浅野高等学校 2015年度 卒業生講演
浅野高等学校 2015年度 卒業生講演Sho Shimauchi
 

Viewers also liked (18)

Code complete ch22_developper_test
Code complete ch22_developper_testCode complete ch22_developper_test
Code complete ch22_developper_test
 
Clarity Profile
Clarity ProfileClarity Profile
Clarity Profile
 
Decotai Shiumachi 091206
Decotai Shiumachi 091206Decotai Shiumachi 091206
Decotai Shiumachi 091206
 
Data-Intensive Text Processing with MapReduce ch4
Data-Intensive Text Processing with MapReduce ch4Data-Intensive Text Processing with MapReduce ch4
Data-Intensive Text Processing with MapReduce ch4
 
Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1
 
Programming Collective Intelligence 100111
Programming Collective Intelligence 100111Programming Collective Intelligence 100111
Programming Collective Intelligence 100111
 
Decotai Shiumachi 091228
Decotai Shiumachi 091228Decotai Shiumachi 091228
Decotai Shiumachi 091228
 
Incredere
IncredereIncredere
Incredere
 
Cloudera Impala #pyfes 2012.11.24
Cloudera Impala #pyfes 2012.11.24Cloudera Impala #pyfes 2012.11.24
Cloudera Impala #pyfes 2012.11.24
 
Programming Collective Intelligence 100131
Programming Collective Intelligence 100131Programming Collective Intelligence 100131
Programming Collective Intelligence 100131
 
My Immortal
My ImmortalMy Immortal
My Immortal
 
Calendar 2010
Calendar 2010Calendar 2010
Calendar 2010
 
使い捨て python コードの書き方
使い捨て python コードの書き方使い捨て python コードの書き方
使い捨て python コードの書き方
 
Fabric + Amazon EC2で快適サポート生活 #PyFes
Fabric + Amazon EC2で快適サポート生活 #PyFesFabric + Amazon EC2で快適サポート生活 #PyFes
Fabric + Amazon EC2で快適サポート生活 #PyFes
 
Hadoop for programmer
Hadoop for programmerHadoop for programmer
Hadoop for programmer
 
Mantra Tara Verde
Mantra Tara VerdeMantra Tara Verde
Mantra Tara Verde
 
Christmas Spirit in Romania
Christmas Spirit in RomaniaChristmas Spirit in Romania
Christmas Spirit in Romania
 
浅野高等学校 2015年度 卒業生講演
浅野高等学校 2015年度 卒業生講演浅野高等学校 2015年度 卒業生講演
浅野高等学校 2015年度 卒業生講演
 

Similar to Hadoop summit 2012 report

Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTT DATA OSS Professional Services
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Yifeng Jiang
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16Yifeng Jiang
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...Insight Technology, Inc.
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Manager4.0とNameNode-HAセミナー資料Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Manager4.0とNameNode-HAセミナー資料Cloudera Japan
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng Jiang
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase ReportSeiichiro Ishida
 
NHN techcon-20120519-fujimoto
NHN techcon-20120519-fujimotoNHN techcon-20120519-fujimoto
NHN techcon-20120519-fujimotoMasaki Fujimoto
 

Similar to Hadoop summit 2012 report (20)

HBaseCon 2012 参加レポート
HBaseCon 2012 参加レポートHBaseCon 2012 参加レポート
HBaseCon 2012 参加レポート
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
Hadoop Summit 2016 San Jose ストリーム処理関連の報告 #streamctjp
Hadoop Summit 2016 San Jose ストリーム処理関連の報告 #streamctjpHadoop Summit 2016 San Jose ストリーム処理関連の報告 #streamctjp
Hadoop Summit 2016 San Jose ストリーム処理関連の報告 #streamctjp
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Flume
FlumeFlume
Flume
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Manager4.0とNameNode-HAセミナー資料Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Manager4.0とNameNode-HAセミナー資料
 
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreadingApache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase Report
 
NHN techcon-20120519-fujimoto
NHN techcon-20120519-fujimotoNHN techcon-20120519-fujimoto
NHN techcon-20120519-fujimoto
 

Hadoop summit 2012 report

  • 1. Hadoop Summit 2012 Sho Shimauchi, Cloudera @shiumachi
  • 2. お前誰よ? • Sho Shimauchi ( @shiumachi ) • Cloudera 株式会社カスタマーオペレーショ ンズエンジニア • 問い合わせ担当
  • 3. Hadoop Summit • サンノゼで開催された、世界最大の Hadoop イベントの一つ • 今年は2,200 人参加
  • 4. 何聞いてきたの? • プラットフォーム周り中心(YARN, HDFS HA, HBase …) • 今日はこれらのスライドを元に、 Hadoop/HBase の現状と今後について紹介 します
  • 6. Apache Hadoop MapReduce: What's Next? • スピーカー: Arun Murthy (Hortonworks) • MapReduce1 から MapReduce2(YARN)、そ して今後の開発予定について語ったセッ ション
  • 7. Hadoop 1.x MapReduce • ご存知 MapReduce • 非常に安定、 Enterprise Ready • 以下の点で課題 – map/reduce間でのタスクスロットの共有 – 非MapReduce アルゴリズムのサポート – スケーラビリティ(Max 4,000ノード、 40,000 タスク同時実行)
  • 8. YARN • Yet Another Resource Negociator • ターゲット – 6,000 - 10,000 ノード – 100,000 以上のタスクの同時実行 – 10,000 ジョブの同時実行 • hadoop-2.0.0-alpha で使用可能 • 性能は倍以上
  • 9. 今後の予定 • メモリ以外のリソースアロケーション MAPREDUCE-4327 • プリエンプション MAPREDUCE-3938 • cgroup などを使った Container アイソレー ション MAPREDUCE-4334 • HBase の YARN 対応 HBASE-4329, HBASE-4047 • プラガブルソート MAPREDUCE-4039, MAPREDUCE-2454 • プラガブルシャッフル MAPREDUCE-4049
  • 10. まとめ • YARNは「汎用」分散処理基盤に向けて一 歩踏み出したもの • 今までの Hadoop からさらに先に進んでい る • これからの進化に要注目!
  • 12. Improving HBase Availability and Repair • スピーカー Jonathan Hsieh, Jeff Bean(Cloudera) • HBase の可用性にフォーカスしてしゃべっ たセッション • コプロセッサ(0.92で採用)の話はないです
  • 13. HBase • フォールトトレラント – コンポーネントに障害が発生しても、データ の損失なく復旧できること • 高可用性 – コンポーネントに障害が発生しても、データ の損失なく高速に復旧できること ゴール: ダウンタイムを短くする!
  • 14. HBase のダウンタイム 計画停止 障害停止
  • 15. HBase 障害の内訳 メタデータ障 害 28% 設定ミス 44% HW/NW障害 16% 要パッチ 12%
  • 16. Conservative First! • 不安定な機能は使わないでください • 非推奨の構成・設定・運用はしないでく ださい • HBase を使って冒険してもいいですが HBase で冒険しないでください
  • 17. HBase 0.92 + Hadoop 2.0 • HDFS HA による高可用性の確保 • 分散ログスプリッティングによるリカバ リーの高速化 – 100ノードの場合、9時間が5.4分(100倍) – ダウンタイムの削減=可用性の向上
  • 18. HBase 0.96 + Hadoop 2.x (計画) • 計画停止時間の削減 • オンラインスキーマ変更 HBASE-1730 • ローリングアップデート – バージョン間互換性が必須 • HBase のバージョン間互換性 HBASE-5305 • HDFS のバージョン間互換性 HADOOP-7307
  • 19. まとめ • HBase は一貫性と可用性の両立を目指して 進化中 • 一方で運用はまだまだ課題が多い • 対策 – Conservative First! 用法をよく守って正しく使 いましょう – HBase 本読みましょう(もうすぐ日本語版出る) – お金あるならサポート買ってね!
  • 21. 信頼性、保守性、可用性 • reliability 信頼性 = MTBF/(1 + MTBF) – MTBF: 平均故障間隔 – 1ヶ月に1回壊れるより1年に1回の方が信頼性が高 い • maintainability 保守性 = 1 / (1 + MTTR) – MTTR: 平均復旧時間 – 素早く復旧する方が保守性が高い • availability 可用性 = MTTF / MTBF – MTTF: 平均故障時間 – MTBF = MTTF + MTTR – 信頼性と保守性が高いと可用性も高い
  • 22. 信頼性 • データの信頼性 – 10クラスタ、20,000ノード上の3.29億ブロッ クのうち19ブロックがロスト(2009年) • ※同一ファイルのブロックが全てロストする確率 はほぼ0 – 1700万ブロック中1ブロック(約4PB) – 原因となったバグは既に修正済み 信頼性は十分高い
  • 23. 可用性 • 18ヶ月で、25クラスタの間で22回の障害 – 1クラスタあたり年間0.58回の障害 – HAが役に立っただろうと考えられるのはうち 8回の障害(0.23回分) • 計画停止 – 設定変更のたびに再起動 – アップデート時も当然再起動
  • 24. 保守性 • NN起動時間: 通常1-2分、大クラスタだと 15分 – 計画停止するたびにこれだけの時間停止する →MTTR増える(保守性下がる) – 日本で主流のHeartbeat + DRBD も、この部分 は回避できてない • DNの保守性 – 大クラスタ: 1日1DNに障害発生、ディスクは もっと高頻度 – 3ヶ月に1回の割合で一斉に補修・入れ替え
  • 25. HDFS HAのデザイン • NN外からのサービス監視とリーダー選出 – ZKFC と Zookeeper – マニュアルフェイルオーバならZK不要 • ActとStandby両方にブロックレポート送信 – 再起動時のブロックレポート収集が必要ない • クライアントサイドもフェイルオーバに 対応 • edits のみ共有ストレージに置く必要があ る – 将来的に ZooKeeper (BookKeeper)で管理する予 定(HDFS-3077)
  • 26. まとめ • HDFS HA はかなり可用性を上げる • 障害対策はもちろん、HDFSのアップグ レードや設定変更時の再起動にも有効