SlideShare a Scribd company logo
1 of 69
Download to read offline
今話題のHadoop HBaseの
  性能検証結果と
  Zabbixによる性能監視のご紹介




日本ヒューレット・パッカード株式会社
テクノロジーコンサルティング統括本部
データセンターソリューション第一本部コアテクノロジー部
石田精一郎
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
お話ししたい内容
    • インフラの観点からのHBase
        •     どのように信頼性が確保されているのか
        •     スケールアウトやIOのアーキテクチャ
        •     性能監視のポイント


    • 検証の観点とハマりどころ
        •     プロダクトの基本的な特徴、性能特性の確認
        •     検証ノウハウの共有




3   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
    contained herein is subject to change without notice. Confidentiality label goes here
Hadoop概要




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
ビックデータ対応における現在のシステムでの問題点
    RDBMSの限界と非定形処理の増加
    非定形処理が必要なデータの爆発的増加に対して、RDBMSを利用した従
    来の集中処理型のアーキテクチャは限界を迎えている。




                                       •非定形処理データの増大

                                       •大量の処理要求によるシステム負荷の増大

                                       •性能を上げるために高コストなハードウェアが必要
                                          •スケールアップ型システムの限界
                                       •ストレージの限界
                                          •十分な保存領域を確保出来ない

5   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
    contained herein is subject to change without notice. Confidentiality label goes here
Hadoop開発の歴史的経緯

             GoogleFileSystemやMapReduceなどと呼ばれる分散処理技術を独自に開発。
             ソースコードではなく、その仕組みを論文として発表(2004年)


             膨大なデータに対する検索処理で課題を抱えていたYahoo Inc.は、著名な
             エンジニアであるDoug Cutting氏を中心に上記論文を元に、Hadoopを開発。
             Apache Hadoopプロジェクトとして公開され、オープンソースソフトウェ
             アとして開発が進む。




                米国を中心に利用が進み、
                Hadoop自体も様々な改良
                が加えられる。
                                                                                            日本でも導入事例が
                                                                                            増えつつある。
6   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
    contained herein is subject to change without notice. Confidentiality label goes here
Hadoopシステム構成
                                                                                             クライアント/データソース




                                                                                               Hadoop
    NameNode/JobTracker                                                                        クラスタ
    役割:メタタデータの保持、Data Nodeの状態管理
       分散処理(MapReduce)ジョブの管理

MapReduce :複数のサーバで分散処理することで高性能を実現
HDFS( Hadoop Distributed File System)
ファイルを分割して複数のサーバに複製して保持することで冗長性を担保




                                          DataNode/TaskTracker
                                          データの保持と分散処理を、スケールアウト構成で実現
7    © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
HBase概要




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
HBaseとは

    「HDFS上に構築された列指向データベース」
    冗長化、永続性、データ一貫性、スケールアウト、複雑なデータの操
       作を実現したBigData用の高機能KVS(Key Value Store)


    – 特徴
              – データをHadoop 分散ファイルシステム上に保存することで冗長化
                と永続性を実現
              – ノードを追加することでリニアにスケールアウト
              – 行単位のロック操作でデータ一貫性を保証
              – 複雑なデータを柔軟に操作するために、カラム・ファミリーを採用


9   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
    contained herein is subject to change without notice. Confidentiality label goes here
HBaseの開発概要
 HBaseはHDFSの欠点を埋めるための低レンテンシデータストアとして開発されました


 開発概要
 • Apacheソフトウェア財団のトッププロジェクト
 • HBase開発の動機 ― Hadoop HDFSとRDBMSの欠点を補完するデータストア
     –HDFSは、スケールアウト可能な分散データストアだが、大きなデータを一括で読み書きする処理に
      特化している。
     –RDBMSは、SQLでの高度なデータ処理とトランザクションをサポートしているがスケールアウトに限
      界がある。
     –一方でデータ量は増加の一途をたどっており、それに対応したランダムライト/リードに対応した
      データストアが必要。
 • Google Bigtableを参考に設計された
 • Facebookがメッセージング基盤に採用し、世界的に注目が高まっている。




10   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
HBaseとRDBMSの比較
 HBaseとRDBMSの特性の違い(※1)


                                                                                 RDBMS        HBase
         データ構造(※2)                                                               行指向が多い(※3)   列指向
         トランザクション                                                                可能           行ロックのみ
         データ操作                                                                   SQL          get/put/scan(※4)
                                                                                 (JDBC等で接続)   (独自APIで接続)
         インデックス                                                                  任意の列         Row keyのみ
         最大データサイズ                                                                TBs          PB+
         最大スループット                                                                数1000クエリ/s   数100万クエリ/s

         ※1 Cloudera HBaseトレーニング資料を参考に作成。比較対象のHBaseのバージョンは
         「0.90」とした。
         ※2「行指向」「列指向」は、データを扱う単位の違いを表わす。行指向データベースは、行ご
          とにデータを取り出すことに最適化されているが、列指向データベースは行をまたいで列ごとに
          データを取り出すことに最適化されている。
         ※3 たとえば、HP Verticaは列指向RDBMSで、列ごとの高速な読み出しに最適化されている。
         ※4 scanは、HBase独自の一定のキー範囲での読み込み(例:Key
11   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
HBaseの基本構成
 Hadoopの基本構成にHBase関連のサービスを追加


                            NameNode




                           DataNode                                                          DataNode   DataNode



                                                                                              HDFS



12   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
HBaseの基本構成
 Hadoopの基本構成にHBase関連のサービスを追加
                                                                                                      データの配置管理          分散ロックサービス


                            NameNode                                                         HBase Master         Zookeeper




                                                                                                                          データの読み書き

                         RegionServer                                                        RegionServer        RegionServer



                           DataNode                                                           DataNode            DataNode



                                                                                               HDFS



13   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
HBaseの基本構成例
 HBaseの基本構成例
                                                                                                                  •   Hadoopの基本構成にHBase
                                                                                                                      関連のサービスを追加する。
                                                                                                                  •   HBase Masterは2台のAct-Act
         NN                                                                                                           で冗長化。
      Zookeeper
                                NN(Stb)                                                                           •   ZookeeperはHBaseクラスタ管
                                                                        JT, SNN(Stb)               SNN, JT(Stb)
                               HBase Master                                                         Zookeeper         理を行うサービス。クウォーラ
                                                                        HBase Master
                                Zookeeper                                                                             ムを確保するため、ノードは3
                                                                                                                      台以上の奇数で構成。
                                                                                                                  •   HBaseのデータを保存する
           DN, TT                                  DN, TT                                 DN, TT
         Regionserver                            Regionserver                           Regionserver                  Regionserverは、Datanodeと
                                                                                                                      同居させる。
                     DN, TT                                  DN, TT                            DN, TT             •   スレーブノードは最低3台から。
                   Regionserver                            Regionserver                      Regionserver
                                                                                                                      【略記・凡例】
                                                                                                                      Namenode: NN
                                                                                                                      Secondary Namenode: SNN
                                                                                                                      Jobtracker: JT
                                                                                                                      Datanode: DN
                                                                                                                      Tasktracker: TT
                                                                                                                      ※赤字がHBase関連サービス
14   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
HBaseアーキテクチャ




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
テーブル表現方式
     – ユニークなKeyで指定される行(Row)を集めたテーブルとして管理
     – 各行は、複数のカラムファミリーを持つ
     – カラムファミリーには、複数の(label, data) の組や単一のデータなど
       を保持可能
                                                                                                                          カラムファ
                                                                                                                          ミリー名
                                                             Column                          Column             Column
                                                             Family1                         Family2            Family3
           Key1                                              (label1,data1)                  (label1,data7)     data11
                                                             (label2,data2)

           Key2                                              (label3,data3)                  (label1,data8)     data12
                                                             (label1,data4)                                               Row
                                                                                                              単一データ
                                                             (label4,data5)                       カラム

           Key3                                              (label1,data6)                  (label2,data9)     data13
                                カラムファミリー                                                     (label3,data10)
16   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
テーブルデータ管理方式
     – テーブルは、カラムファミリ毎に管理(列指向データベース)
     – Keyの範囲を分けてRegionに分割
     – データはKeyでソートされて格納される
                                                               key                           Column Family1   Column Family2   Column Family3
Regionserver1
                                                               Key1                          (label1,data1)   (label1,data7)   data11
                              Region




                                                                            ソート
                                                               Key2                          (label3,data3)   (label1,data8)   data12
                                                               Key3                                CF1
                                                                                             (label1,data6)         CF2
                                                                                                              (label2,data9)        CF3
                                                                                                                               data13
                                                               Key4                          (label1,data1)   (label1,data7)   data11

Regionserver2                                                  Key5         ソート (label3,data3)                (label1,data8)   data12
                              Region




                                                               Key6                          (label1,data6)
                                                                                                   CF1              CF2
                                                                                                              (label2,data9)
                                                                                                                                    CF3
                                                                                                                               data13
                                                               Key7                          (label1,data1)   (label1,data7)   data11
 Regionserver3                                                 Key8          ソート (label3,data3)               (label1,data8)   data12
                              Region




                                                               Key9                          (label1,data6)   (label2,data9)   data13
                                                               Key10                         (label1,data1)   (label1,data7)   data11
                                                                                                    CF1             CF2             CF3
                                                               Key11                         (label3,data3)   (label1,data8)   data12
                                                               Key12                         (label1,data6)   (label2,data9)   data13

17   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
テーブルデータ格納方式

     – カラムファミリーをRegionに分割することで、1つのテーブルを複数
       のサーバで処理可能となり、スケールアウトに対応
     – データを定期的にHDFSに書き出すことで冗長化を実現



     Regionserver1                                                              Regionserver2               Regionserver3

                         Region                                                              Region                 Region


          CF1                 CF2                CF3                                   CF1    CF2     CF3     CF1    CF2     CF3


                                                                                             HDFS

18   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
Region分割による負荷分散

     – Regionのデータサイズが大きくなると、Regionを自動分割
     – RegionserverごとのRegion数が均等になるように自動で再配置




     Regionserver1                                                              Regionserver2         Regionserver3

                         Region                                                      Region            Region


                              CF1                                                        CF1             CF1


                                                                                               HDFS

19   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
Region分割による負荷分散

     – Regionのデータサイズが大きくなると、Regionを自動分割
     – RegionserverごとのRegion数が均等になるように自動で再配置




     Regionserver1                                                              Regionserver2         Regionserver3

        Region                             Region                                    Region            Region


            CF1                                CF1                                       CF1             CF1


                                                                                               HDFS

20   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
Region分割による負荷分散

     – Regionのデータサイズが大きくなると、Regionを自動分割
     – RegionserverごとのRegion数が均等になるように自動で再配置




     Regionserver1                                                              Regionserver2               Regionserver3

        Region                             Region                                    Region       Region     Region     Region


            CF1                                CF1                                       CF1          CF1      CF1          CF1


                                                                                               HDFS

21   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
この節のまとめ
     • HBaseは、「列指向データベース」
     • キーごとにデータをRegionに自動分割、自動配置することでリニアにス
       ケールアウト。
     • データは、カラムファミリごとに管理されていて、カラムファミリは
       データの物理配置に対応している。




22   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
HBaseのデータ読み書き




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
データの物理配置
     • 各Regionのカラムファミリは、「Store」と呼ばれる物理データ構造に1対1
       対応
                                                                  Region

                                                                                              Store      RegionserverのJVM
                                Column                                                       MemStore    ヒープメモリ領域の
                                Family                                                                   一部
                                                                                             Memory


                             論理構造                                                                        データの実体は、HDFS
                                                                                             StoreFile   を構成しているサーバ
                                                                                              HDFS       のハードディスク


                                                                                         物理構造
24   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
データ書き込みフロー
        クライアント
                                                                                                         ① HLog書き込み
                                     書き込み要求                                                    ノード1
                                                                                                         •Write Ahead Log(WAL)を
         Regionserver                                                                                     書き込み
                                                                                                         •HLogは、HDFSの仕組みでレ
                                                                         Region
     ①HLog書
                                                                                                          プリカされる。
     き込み
                                                          Store                               Store
                                                       MemStore                              MemStore
                                                       (CF1)                                 (CF2)
                                                                                                           ノード2       ノード3


                     Hlog                             StoreFile                              StoreFile
                                                        (CF1)                                  (CF2)



                                                                                                  HDFS
25   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
データ書き込みフロー
        クライアント
                                                                                                         ① HLog書き込み
                                     書き込み要求                                                    ノード1
                                                                                                         •Write Ahead Log(WAL)を
         Regionserver                                                                                     書き込み
                                                                                                         •HLogは、HDFSの仕組みでレ
                                                                         Region
     ①HLog書
                                                                                                          プリカされる。
     き込み
                                                          Store                               Store
                                                       MemStore                              MemStore
                                                       (CF1)                                 (CF2)
                                                                                                           ノード2       ノード3


                     Hlog                             StoreFile                              StoreFile
                                                        (CF1)                                  (CF2)       Hlog


                                                                                                  HDFS
26   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
データ書き込みフロー
        クライアント
                                                                                                         ① HLog書き込み
                                     書き込み要求                                                    ノード1
                                                                                                         •Write Ahead Log(WAL)を
         Regionserver                                                                                     書き込み
                                                                                                         •HLogは、HDFSの仕組みでレ
                                                                         Region
     ①HLog書
                                                                                                          プリカされる。
     き込み
                                                          Store                               Store
                                                       MemStore                              MemStore
                                                       (CF1)                                 (CF2)
                                                                                                           ノード2       ノード3


                     Hlog                             StoreFile                              StoreFile
                                                        (CF1)                                  (CF2)       Hlog       Hlog


                                                                                                  HDFS
27   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
データ書き込みフロー
        クライアント
                                                                                                         ②MemStore書き込み
                                     書き込み要求                                                    ノード1
                                                                                                          •MemStoreは、HBaseのデータ
         Regionserver                                        ②MemStore書き込み                                 をインメモリで保存している
                                                                                                           領域。
                                                                         Region
                                                                                                          •MemStore自体はレプリカされ
     ①HLog書
     き込み                                                                                                   ない。
                                                          Store                               Store
                                                       MemStore                              MemStore     ⇒一貫性を確保
                                                       (CF1)                                 (CF2)
                                                                                                            ノード2      ノード3


                     Hlog                             StoreFile                              StoreFile
                                                        (CF1)                                  (CF2)        Hlog      Hlog


                                                                                                  HDFS
28   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
データ書き込みフロー
        クライアント
                                                                                                         ③MemStore書き出し
                                     書き込み要求                                                    ノード1
                                                                                                          •MemStoreのデータが一定以上
         Regionserver                                        ②MemStore書き込み                                 になった段階でメモリ上の
                                                                                                           データがHDFS上のStore Fileに
                                                                         Region                            まとめて書き出される
     ①HLog書
     き込み                                                                                                  •書き出されたデータはHDFSの
                                                          Store                               Store
                                                       MemStore                              MemStore      仕組みで複製される。
                                                       (CF1)                                 (CF2)
                                                                                                             ノード2       ノード3
                                                                         ③Memstare書き出し


                     Hlog                             StoreFile                              StoreFile
                                                        (CF1)                                  (CF2)        Hlog       Hlog


                                                                                                  HDFS
29   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
HBaseのサーバクラッシュ時の動作
        クライアント
                                     書き込み要求                                                    ノード1

         Regionserver                                        ②MemStore書き込み


                                                                         Region
     ①HLog書
     き込み
                                                          Store                               Store
                                                       MemStore                              MemStore
                                                       (CF1)                                 (CF2)
                                                                                                         ノード2   ノード3


                     Hlog                             StoreFile                              StoreFile
                                                        (CF1)                                  (CF2)     Hlog   Hlog


                                                                                                  HDFS
30   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
サーバクラッシュ時の動作
        クライアント                                                                                           Hlog書き込み後にノード1がク
                                     書き込み要求                                                    ノード1      ラッシュ!

         Regionserver                                        ②MemStore書き込み


                                                                         Region
     ①HLog書
     き込み
                                                          Store                               Store
                                                       MemStore                              MemStore
                                                       (CF1)                                 (CF2)
                                                                                                            ノード2    ノード3


                     Hlog                             StoreFile                              StoreFile
                                                        (CF1)                                  (CF2)        Hlog   Hlog


                                                                                                  HDFS
31   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
サーバクラッシュ時の動作
                                                                                                         HBase MasterによりRegionが再
        クライアント                                                                                           割り当てされ、HLogから
                                     書き込み要求                                                    ノード1      MemStoreが復元される。
                                                                                                           書き込み継続
         Regionserver                                        ②MemStore書き込み
                                                                                                                          ノード2
                                                                                                           Regionserver
                                                                         Region
     ①HLog書
                                                                                                            Region        HBase Master
     き込み
                                                          Store                               Store
                                                       MemStore                              MemStore
                                                                                                             Store
                                                       (CF1)                                 (CF2)          MemStore
                                                                                                            (CF1)
                                                                                                                             ノード3


                     Hlog                             StoreFile                              StoreFile
                                                        (CF1)                                  (CF2)          Hlog           Hlog


                                                                                                  HDFS
32   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
HBaseのデータ読み込み
        クライアント
                                     読み込み要求                                         ノード1     • 読み込み時には、MemStoreと
                                                                                               RegionserverのBlockCacheの両方
               Regionserver
                                                                                               にデータを探しに行く。
                                                                                             • BlockCache中に目的のデータがな
                          Region
                                                                     BlockCache
                                                                                               い場合は、HDFS上のStoreFileを読
                             Store
                                                                                               みだす
                           MemStore                                    StoreFile
                           (CF1)                                         (CF1)



                          StoreFile
                            (CF1)


                                               HDFS

33   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
この節のまとめ
     •  HBaseはHLogによってデータ書き込みの信頼性を担保している。
     •  1つのRegionをホストするノードはいつでも1つ。
     •  HBase MasterはRegion配置の管理のみを行っている。
     •  HBaseのIOは各読み込み、書き込みフェーズごとに最適化されている。
       • HBase
       • HDFS
       • 物理メモリ
       • 物理ディスク
     • Regionserverのメモリ領域は以下の2種類がある。
       • 各Storeごとに1つのMemStore
       • Regionserverごとに1つのHDFSブロックキャッシュ
     • HBaseはランダムライトとショートレンジスキャンに最適化されている。

                             これらを理解した上でモニタリングすることが重要
                             あとでZabbixを使った監視の手法をご紹介します。
34       © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
         contained herein is subject to change without notice. Confidentiality label goes here
HBase基礎性能検証




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
今回の検証の目的
     1. HBaseの基礎的な性能測定データの取得
         •     初期導入で想定される小規模構成における処理性能を把握
     2. HBaseの性能測定手法の確認
         •     HBase性能測定の標準手法となっているYCSB(Yahoo! Cloud Serving
               Benchmark)の特性、利用にあたっての留意点


     • 以下については今回の検証の範囲外となります
         •     HBaseの導入方法
         •     HBaseをスケールアウトさせた際の性能検証
               − スケールアウト検証は今後実施予定




36   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
試験環境




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
試験環境構成
                                                                       マスタ

                                 NameNode, JobTracker,                                                           クライアント
                                 SecondaryNameNode,
                                     HBaseMaster,                                                           クライアント,
                                                                                                            NFS, Zabbix
                                      ZooKeeper

                               スレーブ#1                                       スレーブ#2                 スレーブ#3                 スレーブ#4

                DataTracker,                                  DataTracker,                   DataTracker,          DataTracker,
                TaskTracker,                                  TaskTracker,                   TaskTracker,          TaskTracker,
                RegionServer                                  RegionServer                   RegionServer          RegionServer




•マスタノードは1台構成
          •NameNodeのメタ情報の二次退避領域としてクライアントノード上にNFSサーバを構成
•スレーブノードは4台構成
          •HDFSのレプリカ数は3(default)
•監視を行うためにクライアントノード上にZabbixサーバを構築
•各ノード間をGigabit Ethernetスイッチにて接続


38   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
試験環境構成
                                                             Procurve2810-48G Gigabit Ethernet Switch




                             HBase RegionServer (Slave) x 4                                  HBase Master Server   YCSB Client

                             HW: SL335sG7                                                    HW: SL335sG7          HW: SL335sG7
                             OS: RHEL5.7(x86_64)                                             OS: RHEL5.7(x86_64)   OS: RHEL5.7(x86_64)
                             SW: CDH3u2, JDK1.6                                              SW: CDH3u2, JDK1.6    SW: YCSB0.1, JDK1.6
                                                                                                                       Zabbix1.8




39   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
試験環境構成

                                    マスタノード                                                   スレーブノード                  クライアント

         Hardware                   HP ProLiant SL335s G7                                    同左                       同左

         CPU                        AMD Opteron 4100(2.4GHz) 2P12C                           同左                       同左

         Memory                     32GB                                                     同左                       同左

         HDD                        SATA 1TB × 4 (RAID1+0)                                   SATA 1TB × 4 (RAIDなし)    SATA 1TB × 4 (RAID1+0)

         OS                         RHEL5.7 (x86_64)                                         同左                       同左

         NIC                        Embedded HP NC362i DP Gb                                 同左                       同左

         Software                   J2SDK 1.6.0_29 (64bit)                                   J2SDK 1.6.0_29 (64bit)   J2SDK 1.6.0_29 (64bit)
                                    CDH3u2 (64bit)                                           CDH3u2 (64bit)           YCSB 0.1.3
                                                                                                                      Zabbix1.8




     •スレーブノードのHDDはRAID構成をとらず、4本のDiskにI/Oを分散させる
        •冗長性はHDFSのレプリケーション機構で担保する
     •YCSBはソースからのコンパイルを行いました
40   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
YCSBを用いた試験実施手順




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
試験シナリオ
     •           YCSBにより以下の2種類の負荷を生成
             •           Read:対象テーブルの全レコードから一様分布に従って選択された
                         rowkeyの全フィールド値を読みだす操作。(HBaseのAPIのget操作)
             •           Update:対象テーブルの全レコードから一様分布に従って選択された
                         rowkeyの全フィールド値をランダムな値で更新する操作(HBaseのAPIの
                         put操作)


     •           シナリオは以下の4種類を作成
             1.          Readのみを実行
             2.          Updateのみを実行
             3.          ReadとUpdateを1:1の割合で実行
             4.          ReadとUpdateを9:1の割合で実行



42       © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
         contained herein is subject to change without notice. Confidentiality label goes here
試験項目
     •           試験項目

                          データサイズ                                        1レコード1KB × 3,000,000レコード = 3GB

                          シナリオ                                          シナリオ1~シナリオ4

                                                                        10, 100, 250, 500, 1000の5種類
                          スレッド数
                                                                        ※各操作と次の操作の間の待ち時間は0秒



     •           試験結果の集計項目
             •           Read実行回数/秒
             •           Update実行回数/秒
             •           Read平均応答時間(ms)
             •           Update平均応答時間(ms)




43       © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
         contained herein is subject to change without notice. Confidentiality label goes here
主な設定値
     設定ファイル                            項目                                                     既定値     設定値                 備考

                                                                                                                          シーケンスファイルの読み書きで使
     core-site.xml                     io.file.buffer.size                                4096       16384                用するバッファサイズ

     hdfs-site.xml                     dfs.block.size                                     67108864   33554432             新規ファイルのブロックサイズ

                                       hbase.hregion.memstor                                                              書き込み負荷が高い状況下でヒープ
     hbase-site.xml                                          false                                   true
                                       e.mslab.enabled                                                                    のフラグメンテーションを防ぐ

                                       hbase.hregion.memstor                                                              書き込み負荷が高い状況下でヒープ
                                                             2097152                                 2097152
                                       e.mslab.chunksize                                                                  のフラグメンテーションを防ぐ

                                       hfile.block.cache.size                             0.2        0.3                  Heap内のLRUキャッシュの割合

     hbase-env.sh                      HBASE_HEAPSIZE                                     1000       25000                region serverのヒープサイズ
                                                                                                     -ea -
                                                                                                     XX:+UseConcMarkSw
                                       HBASE_OPTS                                         N/A        eepGC -              region serverのGC方式
                                                                                                     XX:+CMSIncremental
                                                                                                     Mode




44    © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
      contained herein is subject to change without notice. Confidentiality label goes here
試験結果




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
①スループット
                                                                                             スループット
                            45,000


                            40,000


                            35,000


                            30,000
          スループット(ops/sec)




                            25,000
                                                                                                                       read100
                                                                                                                       update100
                            20,000
                                                                                                                       read50update50
                            15,000                                                                                     read90update10


                            10,000


                             5,000


                                0
                                     0            100                     200                 300    400   500   600
                                                                                             スレッド数




46   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
②平均応答時間
                                                                                             平均応答時間
                       40


                       35


                       30


                       25
          平均応答時間(ms)




                                                                                                                  read100
                                                                                                                  update100
                       20
                                                                                                                  read50update50(read操作)
                                                                                                                  read50update50(update操作)
                       15
                                                                                                                  read90update10(read操作)
                                                                                                                  read90update10(update操作)
                       10


                       5


                       0
                            0            100                   200                   300       400    500   600
                                                                                スレッド数




47   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
検証でハマったポイントと
今後の検証項目




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
検証でハマったポイント
     その1 YCSBの書き込みが速すぎる!?

     •           YCSBをビルドしてupdateを行ったところ、マイクロ秒クラス(メモリの
                 反応速度!)の応答時間!?
             •           デフォルトではYCSBクライアントが更新レコードデータをサーバに送信せ
                         ず、クライアント上でキャッシュする
                   −           Update操作の応答時間が非常に短く見える(40μsec程度)
                   −           クライアントキャッシュがフルになった時点でフラッシュするため、その時点で応答
                               時間が極端に長時間になる
             •           対処:自動フラッシュを行うようにYCSBのソースコードを修正
                   −           _hTable.setAutoFlush(false);                                      ← trueに修正して自動フラッシュさせる

                                      YCSBクライアント                                                               HBaseサーバ




                                                                       Update




                                                                          更新データ
                                                                 キャッシュ領域                          setAutoFlush(false)の場合の挙動
49       © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
         contained herein is subject to change without notice. Confidentiality label goes here
検証でハマったポイント
     その2 書き込みの速度が落ちるタイミングがある

     • Updateのベンチマークを続けていると時折書き込みが遅くなる。
       • 原因はRegion分割? フルガベージコレクション?
        • ZabbixとRegionserverのログから推移をトラッキング
        • Region分割時の書き込み停止の影響がわかったのでRegion数が適切な数に分割された
          のち「hbase.hregion.max.filesize」を大きくして、ベンチマーク中のRegion分割を抑制
        • この変更によって断続的な速度劣化は解消。


                                                                                                       <解析>
                                                                                                       • Regionの分割は、各Regionserverのログおよ
                                                                                                         びHBaseのメトリクスに記録されたRegion数
                                                                                                         の推移からトラッキングできる。
                Region数の推移                                    Regionserverヒープサイズの推移                    • YCSBのログに出力されている断続的な
                                                                         ※グラフは表示例です。                     updateの遅れとRegion分割のタイミングを突
     項目                                                                  設定値
                                                                                                         き合わせて原因を特定
                                                                                                       • ガベージコレクションログを見たところ、フ
     hbase.hregion.memstore.mslab.enabled                               true
                                                                                                         ルガベージコレクションは発生していなかっ
     hbase.hregion.max.filesize                                         100G                             た。これはHBaseの新機能「MSLAB」を有効
                                                                        -ea-XX:+UseConcMarkSweepGC -     化したためだと考えられる。
     HBASE_OPTS                                                         XX:+CMSIncrementalMode

                                            関連するHBase設定
50   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
検証でハマったポイント
     その3 だんだん書き込み性能が劣化する


     • Update試験を続けているとだんだんスループットが低下
        • HBaseのIOを見直して、HDFSのブロックサイズを32MBに変更し改善した


        • 当初のHDFS設計
           •     Hadoopクラスタで一般的な128MBに設定
           •     この設定は一度に大量のデータを読み書きすることを前提としたもの
           •     HBase向けではワークロードに応じた設定の見直しが必要




                                                         項目                                               設定値
                                                         dfs.block.size                                   33554432
                                                                                             関連するHDFS設定




51   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
今後の検証項目
     • 今後検証を進めていきたい項目
       • スケールアウトによる性能向上
       • クライアントキャッシュの活用
       • 実運用時のワークロードを踏まえたScanの活用
       • BloomFilterを使ったRead性能の向上
       • データ圧縮によるディスクの節約とIOの削減
       • Namenode HA(Hadoop 0.23、CDH4b1~)を使ったHA検証



     • 今後、引き続き検証を進め、成果を発表していきたい。




52    © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
      contained herein is subject to change without notice. Confidentiality label goes here
Zabbix向け
Hadoop 監視プラグインのご紹介




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
Zabbixプラグイン開発の経緯
     • 開発時の課題
       • Hadoopクラスタの監視は、GangliaとNagiosの組み合わせがデファク
         トスタンダードだが、日本国内での運用を考えた場合、運用性、アカ
         ウント管理やサポート等に課題
       • Ganglia/Nagiosのカスタマイズは、ソースコードを改変する必要があ
         る。

     • Zabbixの選択理由
       • 日本国内で人気があり、コミュニティが活発なOSS統合監視ソフト
       • 性能監視と障害通知が1つのソフトで可能。
       • カスタマイズが容易。集めた情報をグルーピングして一覧表示可能
     ⇒社内検証用に開発し検証時のフィードバックを通じてブラッシュアップ

54   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
Zabbixプラグイン表示イメージ
 Hadoop Cluster Overview
 Hadoop Cluster全体の負荷状況をモニタリング
 – 各ノードの統計情報をグループ単
   位で集約(合計、平均、最小、最
   大)して表示
 – Hadoopノードの死活やエラーを
   一画面で表示
 – 集約の単位はカスタマイズ可能
 – 表示範囲は、1時間~2年間まで分
   単位で選択可能。(※1)


                                                                                                        図をいれるエリア
                                                                                                    この枠線は削除してください。
                                                                                             できるだけこの外枠からはみ出さないように配置してください。




     ※1 表示できる期間は、データ保存期
     間に依存します。
55   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
Zabbixプラグイン表示イメージ
 各ノードの負荷状況
 各ノードの負荷状況をOSレイヤ、Hadoopレイヤを統合して表示
 – 各ノードのOS統計情報とHadoop
   Metricsを一画面に表示
 – 表示範囲は、1時間~2年間まで分
   単位で選択可能。(※1)




                                                                                                        図をいれるエリア
                                                                                                     この枠線は削除してください。
                                                                                             できるだけこの外枠からはみ出さないように配置してください。




     ※1 表示できる期間は、データ保存期
     間に依存します。
56   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
Zabbixプラグイン表示イメージ
 HBase統計情報画面
 HBaseの多様なメトリクスを一覧表示。任意の期間を指定できる。
 – HBaseのノードごとに主要な統計
   情報を一覧表示
     •   HBase MemStore(書込用メモリ領
         域)とブロックキャッシュ(ディスク
         キャッシュ領域)の使用量
     •   キャッシュヒット率
     •   Regionserverのヒープメモリ使用状況
     •   ホストされているRegion(データ保存
         単位)数の推移
     •   Regionserver内の操作の遅延時間
     •   DatanodeのIO

                                                                                                        図をいれるエリア
 – 表示範囲は、1時間~2年間まで分                                                                                 この枠線は削除してください。
   単位で選択可能。(※1)                                                                              できるだけこの外枠からはみ出さないように配置してください。
 – モニタリングで必要になることが
   多い主要なパラメータのグラフは
   最初から設定済み。
 – 表示情報カスタマイズ可能
 – 統計情報を横断的に把握すること
   でボトルネック解析が容易になる




     ※1 表示できる期間は、データ保存期
     間に依存します。
57   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
Zabbixプラグイン表示イメージ
 カスタム画面例-MapReduceモニタリング
 Hadoop JobTrackerとHadoopクラスタの負荷状況を一画面で閲覧
 – Zabbix上に格納されている統計情
   報とHadoop JobTrackerの情報を
   一画面で表示する例
     •   MapReduceジョブの進行状況とクラス
         タ全体の負荷状況を同時に確認可能

 – このほかにも必要な情報をまとめ
   たカスタム画面を随時追加可能
 – Zabbixの「スクリーン」機能を利
   用することで、このように外部の
   URLも含めた統合を実現
                                                                                                        図をいれるエリア
 – 定義済みスクリーンを組み合わせ                                                                                  この枠線は削除してください。
   た画面表示も可能                                                                                  できるだけこの外枠からはみ出さないように配置してください。




58   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
そのほかの機能
 Zabbixの機能をフル活用


 監視対象の自動追加
 • Zabbix Agentをインストールして起動するだけで、監視対象に自動追加(※
   1)

 定義済みトリガー
 • 基本的なトリガーがテンプレートに含まれており、通知方法を定義するだけで
   すぐに監視ができます。




59   ※1 自動追加は、ホスト名の命名規則やZabbix Agent設定の共通化等の標準設計が行われていることが前提に
     © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     なります。 is subject to change without notice. Confidentiality label goes here
     contained herein
Hadoop関連
コンサルティングサービス




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here
HPが提供するHadoop管理・監視ソリューションスタック
                      対象                                                                     プロダクト

                                                     • Cloudera Managerは、CDH(※2)専用の構築・管理ツール。OS上への
                                           Cloudera
                                                       Hadoop導入から設定管理を自動化。
     構           Hadoop                    Manager(※1)
                                                     • GUI上からHadoopの設定の確認、変更、サービス再起動を実行可能。
     築           (CDH)
     ・
     管                                                                    • HP Cluster Management Utility(HP CMU)は、HPC分野で10年以上の実績
     理                                                                      を持つ、大規模システム向け管理ソフトウェア。国内でもTSUBAME2.0を
                                            HP CMU                          はじめ、採用例多数。大規模システムでのOSデプロイ、バックアップ、
                       OS                                                   リストア、システム全体に対するコマンド発行などを行うことができる。


                                                                          • Gangliaは、大規模システムでの性能監視に特化したOSSプロダクト。
                                            Ganglia                       • Hadoopには、Ganglia向けの設定が組み込まれており、それを使うことで
     監
     視           Hadoop                                                     効率的にHadoopシステムの性能情報収集と表示を行うことができる。
                 (CDH)
     (




     性                                           HP Hadoop
                                                                          • 日本HPが作成のプラグインにより、Hadoopサービスの監視も統合
     能                                            プラグイン
     監                                                                    • Zabbixは、業界標準のOSSの統合管理ソフト。GUIから設定変更、サーバ
     視                                      Zabbix                          状態の確認が可能な、使いやすいなインターフェースを持つ。
     ・                 OS                                                 • サーバ管理者と運用者などのサーバごとの監視権限設定が可能。
     障
     害
     監                                                                    • HP Systems Insight Manager(HP SIM)は、HPが無償で提供しているサー
     視                HW                    HP SIM                          バ監視ソフトウェア。専用Agentを用いて、HWのきめ細かい監視が可能。
     )




                                                                            ノード障害の予兆を検知し、プロアクティブな対応を実現。HPへの自動
                                                                            通報機能を備える。

61              ※1 Cloudera Managerには、50ノードまでの限定で無償で利用できるFree Edition版が用意されている。
     © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
                ※2 CDHは、Cloudera社が提供しているオープンソースのHadoopディストリビューションパッケージ。
     contained herein is subject to change without notice. Confidentiality label goes here
管理・監視運用方式

                                                                     管理サーバ                          クラスタ管理者


                                                             Cloudera Manager                • クラスタ管理者は、Hadoop技術者を想定。
                                                                                             • クラスタ内のすべての情報にアクセスし、
                                                                                               クラスタの状態確認やチューニングを行う。
                                                                        HP CMU               • ノード追加時のクラスタ構築や、クラスタ
                                                                                               の再起動や設定変更、バックアップ、リス
                                                                                               トア操作を行う。
     Hadoopクラスタ                                                         Ganglia


                                                                         Zabbix                     クラスタ運用者

                                                                                             • クラスタ運用者は、障害監視に必要な最低
                                                                         HP SIM                限の閲覧権限のみを持ち、クラスタの障害
        SNMPTrap等で上位                                                                           監視を行う。Hadoop固有のスキルは必要
        の監視サーバへのア                                                                              ない。
        ラート転送可能
                                                                                             • 運用者向けの監視情報は、Zabbixに一元化
                                                                              HP               して表示。
                                                                                             • HW障害はHP SIMがHPに自動通報し、迅
                                                                                               速な障害対応を実現。

 ★お客様の既存のサーバ運用方式とHadoop運用をシームレスに統合可能
62   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
Hadoop HBase サービス概要
       • 大規模分散処理プラットフォーム「Hadoop」をベースとして、ビッグデー
         タ活用に最適化したITインフラを構築するソリューション
       • サーバー、データベース、運用ツールとあわせて、導入コンサルティング
         サービスも提供し、お客様のビッグデータ活用をワンストップで支援

                                                     Hadoop HBase コンサルティングサービス
                                                     •適用領域、既存システムの連携についてのヒアリングを実施
                                                     •必要に応じて、導入前検証をHPソリューションセンターで実施


                                                     Hadoop HBase導入支援サービス
                                                     •ヒアリング内容に基づくサーバ構成の検討・設計
                                                     •Hadoopに対応した全体アーキテクチャの設計・構築
                                                     •性能測定・チューニング

                                                     Hadoop HBase運用支援サービス
                                                     •HP CMUおよびZabbix/Gangliaを使ったクラスタ運用基盤の構築
                                                     •Hadoopクラスタ運用支援

63   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
HP ビッグデータ分析
 コンサルティングサービス
                                                         1. ディスカバリーワークショップ
                                                         •お客様の業務、システム改善を目的に、最新製品およびテクノロジーの紹介
                                                         •統計分析によるテキスト/ログなどの事例紹介及びデモの実施


                                                         2. 分析支援コンサルティングサービス
                                                         •お客様の業務やシステムの全体像の把握、PDCAを回す全体設計
                                                         •今後の対応策、予算規模、スケジュールなど上申書のもととなる情報を作成
                                                         •システムの将来像とロードマップの策定及び、全体の参考価格も算出

                                                         3. 分析システム導入支援サービス
                                                         •策定したシステムの将来像に向けて、システム全体の要件定義、システム設
                                                          計、システム構築サービスを提供
                                                         •事前検証を実施

                                                         4. 分析システム運用支援サービス
                                                         •システム運用時の支援を実施


64   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
HP ビッグデータバッチ処理高速化
 コンサルティングサービス
                                                    1. バッチ処理高速化コンサルティングサービス
                                                    •お客様にもアセスメントに参加して頂き、既存システムの問題点を的確に把
                                                     握


                                                    2. バッチ処理高速化システム導入支援サービス
                                                    • アーキテクチャ、運用、監視などのシステム設計を実施
                                                    • 機能テストや、性能テスト、負荷テスト、耐久テストなどを実施
                                                    • 顧客毎のシステム要件にしたがいプログラミングを日本HPで行う

                                                    3. バッチ処理高速化システム運用支援サービス
                                                    • システム運用時の支援を実施



             成果物:                           既存システム問題解析結果報告書                                  システム監視手順書
                                            システム設計書                                          テスト結果報告書
                                            システム運用手順書                                        システム支援報告書
65   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
Hadoopだけでなく、関連するオープンソースソフトウェアを
含めたトータルサポート
                                                                                   Web
Java AP                                                                                                           Management
                                                                                             Apache http server
                Tomcat, JBoss
               JVM (OpenJDK)                                                                                            Nagios, ZABBIX

                                                          No SQL

                                                                                     Hadoop
     HA                                                                                                            OS

                                                                                                                    FreeBSD, CentOS
      DRBD, Heart Beat
                                                                                  DB                                 Debian, Ubuntu


                                                                             MySQL, Postgre SQL



                     ワンストップで、トータルサポートを提供
66   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
New!
     • 最近の情報
     • Clouderaの協力のもと、教育サービスを開始
        • 次回開催: Hadoop開発者向けトレーニング 3/26-29
        • http://h50146.www5.hp.com/services/education/whatshot/newcourse.html




     • 「今さら聞けないHadoopとビッグデータ」をYoutubeで公開
        •     前回のOSCで発表した古井が解説を行っております。
        •     http://www.youtube.com/watch?v=Q4lZPDYB1y0




67   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
参考資料
     • HBase: The Definitive Guide(O’REILLY)
      • Lars George 著
         http://ofps.oreilly.com/titles/9781449396107/


     • HBase Book(Web上で公開)
      • HBase プロジェクトの公式リファレンスガイド
         http://hbase.apache.org/book.html




68    © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
      contained herein is subject to change without notice. Confidentiality label goes here
Q&A




69   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information
     contained herein is subject to change without notice. Confidentiality label goes here
Thank you




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information
contained herein is subject to change without notice. Confidentiality label goes here

More Related Content

What's hot

20分でわかるHBase
20分でわかるHBase20分でわかるHBase
20分でわかるHBaseSho Shimauchi
 
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...Insight Technology, Inc.
 
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wIntroduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wCloudera Japan
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理Yoji Kiyota
 
刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」cyberagent
 
CDH4.1オーバービュー
CDH4.1オーバービューCDH4.1オーバービュー
CDH4.1オーバービューCloudera Japan
 
Cassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sqlCassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sqlYutuki r
 
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15MapR Technologies Japan
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Cloudera Japan
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltToshihiro Suzuki
 
インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門Akihiro Kuwano
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera Japan
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
Hadoopソースコードリーディング8/MapRを使ってみた
Hadoopソースコードリーディング8/MapRを使ってみたHadoopソースコードリーディング8/MapRを使ってみた
Hadoopソースコードリーディング8/MapRを使ってみたRecruit Technologies
 

What's hot (20)

MapR M7 技術概要
MapR M7 技術概要MapR M7 技術概要
MapR M7 技術概要
 
20分でわかるHBase
20分でわかるHBase20分でわかるHBase
20分でわかるHBase
 
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ...
 
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wIntroduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
 
刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」
 
CDH4.1オーバービュー
CDH4.1オーバービューCDH4.1オーバービュー
CDH4.1オーバービュー
 
HBase at LINE
HBase at LINEHBase at LINE
HBase at LINE
 
Cassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sqlCassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sql
 
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
HBase at Ameba
HBase at AmebaHBase at Ameba
HBase at Ameba
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
 
インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門インフラエンジニアのためのcassandra入門
インフラエンジニアのためのcassandra入門
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
Apache Hive 紹介
Apache Hive 紹介Apache Hive 紹介
Apache Hive 紹介
 
Hadoopソースコードリーディング8/MapRを使ってみた
Hadoopソースコードリーディング8/MapRを使ってみたHadoopソースコードリーディング8/MapRを使ってみた
Hadoopソースコードリーディング8/MapRを使ってみた
 

Similar to Osc2012 spring HBase Report

【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512Seiichiro Ishida
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTT DATA OSS Professional Services
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介bigt23
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16Yifeng Jiang
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちAdvancedTechNight
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...Insight Technology, Inc.
 

Similar to Osc2012 spring HBase Report (20)

【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
Zabbix jp勉強会 Hadoop-HBaseの監視_20120512
 
OSC2012 OSC.DB Hadoop
OSC2012 OSC.DB HadoopOSC2012 OSC.DB Hadoop
OSC2012 OSC.DB Hadoop
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
 
Hadoop loves H2
Hadoop loves H2Hadoop loves H2
Hadoop loves H2
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on HadoopThe truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
 
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystemDistributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
 
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 

More from Seiichiro Ishida

CEO 3Dモデルお披露目兼会社説明会
CEO 3Dモデルお披露目兼会社説明会CEO 3Dモデルお披露目兼会社説明会
CEO 3Dモデルお披露目兼会社説明会Seiichiro Ishida
 
Infrastructure as code LT AWS + Ansibleのお悩み相談
Infrastructure as code LT AWS + Ansibleのお悩み相談Infrastructure as code LT AWS + Ansibleのお悩み相談
Infrastructure as code LT AWS + Ansibleのお悩み相談Seiichiro Ishida
 
Qpstudy201404 インフラ設計の勘所
Qpstudy201404 インフラ設計の勘所Qpstudy201404 インフラ設計の勘所
Qpstudy201404 インフラ設計の勘所Seiichiro Ishida
 
Qpstudy.2013.07.c84新作発表資料「汝はエンジニアような名状しがたい何かなりや?」
Qpstudy.2013.07.c84新作発表資料「汝はエンジニアような名状しがたい何かなりや?」Qpstudy.2013.07.c84新作発表資料「汝はエンジニアような名状しがたい何かなりや?」
Qpstudy.2013.07.c84新作発表資料「汝はエンジニアような名状しがたい何かなりや?」Seiichiro Ishida
 
Note difference between sysstat on cent os 5 & 6
Note  difference between sysstat on cent os 5 & 6Note  difference between sysstat on cent os 5 & 6
Note difference between sysstat on cent os 5 & 6Seiichiro Ishida
 
Osc2013 spring OpenStackで実現する分散ストレージ「Swift」とプライベートクラウド
Osc2013 spring OpenStackで実現する分散ストレージ「Swift」とプライベートクラウドOsc2013 spring OpenStackで実現する分散ストレージ「Swift」とプライベートクラウド
Osc2013 spring OpenStackで実現する分散ストレージ「Swift」とプライベートクラウドSeiichiro Ishida
 
かるた工場作業一日目
かるた工場作業一日目かるた工場作業一日目
かるた工場作業一日目Seiichiro Ishida
 
俺のZabbixがこんなに可愛いわけがない~北海道巡業編~
俺のZabbixがこんなに可愛いわけがない~北海道巡業編~俺のZabbixがこんなに可愛いわけがない~北海道巡業編~
俺のZabbixがこんなに可愛いわけがない~北海道巡業編~Seiichiro Ishida
 
【Hpcstudy】みんな、ベンチマークどうやってるの?
【Hpcstudy】みんな、ベンチマークどうやってるの?【Hpcstudy】みんな、ベンチマークどうやってるの?
【Hpcstudy】みんな、ベンチマークどうやってるの?Seiichiro Ishida
 
【Zabbix jp】明日から職場で使えるざびたん
【Zabbix jp】明日から職場で使えるざびたん【Zabbix jp】明日から職場で使えるざびたん
【Zabbix jp】明日から職場で使えるざびたんSeiichiro Ishida
 
【Qp08】ざびたん2リリース報告lt 20111022
【Qp08】ざびたん2リリース報告lt 20111022【Qp08】ざびたん2リリース報告lt 20111022
【Qp08】ざびたん2リリース報告lt 20111022Seiichiro Ishida
 
サーバ擬人化ユーザ会Lt資料 qpstudy lite
サーバ擬人化ユーザ会Lt資料 qpstudy liteサーバ擬人化ユーザ会Lt資料 qpstudy lite
サーバ擬人化ユーザ会Lt資料 qpstudy liteSeiichiro Ishida
 
サーバ擬人化ユーザ会キックオフ資料 Slideshare ver
サーバ擬人化ユーザ会キックオフ資料 Slideshare verサーバ擬人化ユーザ会キックオフ資料 Slideshare ver
サーバ擬人化ユーザ会キックオフ資料 Slideshare verSeiichiro Ishida
 
俺のZabbixがこんなに可愛いわけがない(おかわり)
俺のZabbixがこんなに可愛いわけがない(おかわり) 俺のZabbixがこんなに可愛いわけがない(おかわり)
俺のZabbixがこんなに可愛いわけがない(おかわり) Seiichiro Ishida
 
俺のZabbixがこんなに可愛いわけがない
俺のZabbixがこんなに可愛いわけがない俺のZabbixがこんなに可愛いわけがない
俺のZabbixがこんなに可愛いわけがないSeiichiro Ishida
 
第1回Webサーバ勉強会 - 212-223 ブラウザマッチ処理
第1回Webサーバ勉強会 - 212-223 ブラウザマッチ処理第1回Webサーバ勉強会 - 212-223 ブラウザマッチ処理
第1回Webサーバ勉強会 - 212-223 ブラウザマッチ処理Seiichiro Ishida
 

More from Seiichiro Ishida (16)

CEO 3Dモデルお披露目兼会社説明会
CEO 3Dモデルお披露目兼会社説明会CEO 3Dモデルお披露目兼会社説明会
CEO 3Dモデルお披露目兼会社説明会
 
Infrastructure as code LT AWS + Ansibleのお悩み相談
Infrastructure as code LT AWS + Ansibleのお悩み相談Infrastructure as code LT AWS + Ansibleのお悩み相談
Infrastructure as code LT AWS + Ansibleのお悩み相談
 
Qpstudy201404 インフラ設計の勘所
Qpstudy201404 インフラ設計の勘所Qpstudy201404 インフラ設計の勘所
Qpstudy201404 インフラ設計の勘所
 
Qpstudy.2013.07.c84新作発表資料「汝はエンジニアような名状しがたい何かなりや?」
Qpstudy.2013.07.c84新作発表資料「汝はエンジニアような名状しがたい何かなりや?」Qpstudy.2013.07.c84新作発表資料「汝はエンジニアような名状しがたい何かなりや?」
Qpstudy.2013.07.c84新作発表資料「汝はエンジニアような名状しがたい何かなりや?」
 
Note difference between sysstat on cent os 5 & 6
Note  difference between sysstat on cent os 5 & 6Note  difference between sysstat on cent os 5 & 6
Note difference between sysstat on cent os 5 & 6
 
Osc2013 spring OpenStackで実現する分散ストレージ「Swift」とプライベートクラウド
Osc2013 spring OpenStackで実現する分散ストレージ「Swift」とプライベートクラウドOsc2013 spring OpenStackで実現する分散ストレージ「Swift」とプライベートクラウド
Osc2013 spring OpenStackで実現する分散ストレージ「Swift」とプライベートクラウド
 
かるた工場作業一日目
かるた工場作業一日目かるた工場作業一日目
かるた工場作業一日目
 
俺のZabbixがこんなに可愛いわけがない~北海道巡業編~
俺のZabbixがこんなに可愛いわけがない~北海道巡業編~俺のZabbixがこんなに可愛いわけがない~北海道巡業編~
俺のZabbixがこんなに可愛いわけがない~北海道巡業編~
 
【Hpcstudy】みんな、ベンチマークどうやってるの?
【Hpcstudy】みんな、ベンチマークどうやってるの?【Hpcstudy】みんな、ベンチマークどうやってるの?
【Hpcstudy】みんな、ベンチマークどうやってるの?
 
【Zabbix jp】明日から職場で使えるざびたん
【Zabbix jp】明日から職場で使えるざびたん【Zabbix jp】明日から職場で使えるざびたん
【Zabbix jp】明日から職場で使えるざびたん
 
【Qp08】ざびたん2リリース報告lt 20111022
【Qp08】ざびたん2リリース報告lt 20111022【Qp08】ざびたん2リリース報告lt 20111022
【Qp08】ざびたん2リリース報告lt 20111022
 
サーバ擬人化ユーザ会Lt資料 qpstudy lite
サーバ擬人化ユーザ会Lt資料 qpstudy liteサーバ擬人化ユーザ会Lt資料 qpstudy lite
サーバ擬人化ユーザ会Lt資料 qpstudy lite
 
サーバ擬人化ユーザ会キックオフ資料 Slideshare ver
サーバ擬人化ユーザ会キックオフ資料 Slideshare verサーバ擬人化ユーザ会キックオフ資料 Slideshare ver
サーバ擬人化ユーザ会キックオフ資料 Slideshare ver
 
俺のZabbixがこんなに可愛いわけがない(おかわり)
俺のZabbixがこんなに可愛いわけがない(おかわり) 俺のZabbixがこんなに可愛いわけがない(おかわり)
俺のZabbixがこんなに可愛いわけがない(おかわり)
 
俺のZabbixがこんなに可愛いわけがない
俺のZabbixがこんなに可愛いわけがない俺のZabbixがこんなに可愛いわけがない
俺のZabbixがこんなに可愛いわけがない
 
第1回Webサーバ勉強会 - 212-223 ブラウザマッチ処理
第1回Webサーバ勉強会 - 212-223 ブラウザマッチ処理第1回Webサーバ勉強会 - 212-223 ブラウザマッチ処理
第1回Webサーバ勉強会 - 212-223 ブラウザマッチ処理
 

Recently uploaded

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 

Recently uploaded (10)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 

Osc2012 spring HBase Report

  • 1. 今話題のHadoop HBaseの 性能検証結果と Zabbixによる性能監視のご紹介 日本ヒューレット・パッカード株式会社 テクノロジーコンサルティング統括本部 データセンターソリューション第一本部コアテクノロジー部 石田精一郎 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 2. お話ししたい内容 • インフラの観点からのHBase • どのように信頼性が確保されているのか • スケールアウトやIOのアーキテクチャ • 性能監視のポイント • 検証の観点とハマりどころ • プロダクトの基本的な特徴、性能特性の確認 • 検証ノウハウの共有 3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 3. Hadoop概要 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 4. ビックデータ対応における現在のシステムでの問題点 RDBMSの限界と非定形処理の増加 非定形処理が必要なデータの爆発的増加に対して、RDBMSを利用した従 来の集中処理型のアーキテクチャは限界を迎えている。 •非定形処理データの増大 •大量の処理要求によるシステム負荷の増大 •性能を上げるために高コストなハードウェアが必要 •スケールアップ型システムの限界 •ストレージの限界 •十分な保存領域を確保出来ない 5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 5. Hadoop開発の歴史的経緯 GoogleFileSystemやMapReduceなどと呼ばれる分散処理技術を独自に開発。 ソースコードではなく、その仕組みを論文として発表(2004年) 膨大なデータに対する検索処理で課題を抱えていたYahoo Inc.は、著名な エンジニアであるDoug Cutting氏を中心に上記論文を元に、Hadoopを開発。 Apache Hadoopプロジェクトとして公開され、オープンソースソフトウェ アとして開発が進む。 米国を中心に利用が進み、 Hadoop自体も様々な改良 が加えられる。 日本でも導入事例が 増えつつある。 6 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 6. Hadoopシステム構成 クライアント/データソース Hadoop NameNode/JobTracker クラスタ 役割:メタタデータの保持、Data Nodeの状態管理 分散処理(MapReduce)ジョブの管理 MapReduce :複数のサーバで分散処理することで高性能を実現 HDFS( Hadoop Distributed File System) ファイルを分割して複数のサーバに複製して保持することで冗長性を担保 DataNode/TaskTracker データの保持と分散処理を、スケールアウト構成で実現 7 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 7. HBase概要 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 8. HBaseとは 「HDFS上に構築された列指向データベース」 冗長化、永続性、データ一貫性、スケールアウト、複雑なデータの操 作を実現したBigData用の高機能KVS(Key Value Store) – 特徴 – データをHadoop 分散ファイルシステム上に保存することで冗長化 と永続性を実現 – ノードを追加することでリニアにスケールアウト – 行単位のロック操作でデータ一貫性を保証 – 複雑なデータを柔軟に操作するために、カラム・ファミリーを採用 9 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 9. HBaseの開発概要 HBaseはHDFSの欠点を埋めるための低レンテンシデータストアとして開発されました 開発概要 • Apacheソフトウェア財団のトッププロジェクト • HBase開発の動機 ― Hadoop HDFSとRDBMSの欠点を補完するデータストア –HDFSは、スケールアウト可能な分散データストアだが、大きなデータを一括で読み書きする処理に 特化している。 –RDBMSは、SQLでの高度なデータ処理とトランザクションをサポートしているがスケールアウトに限 界がある。 –一方でデータ量は増加の一途をたどっており、それに対応したランダムライト/リードに対応した データストアが必要。 • Google Bigtableを参考に設計された • Facebookがメッセージング基盤に採用し、世界的に注目が高まっている。 10 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 10. HBaseとRDBMSの比較 HBaseとRDBMSの特性の違い(※1) RDBMS HBase データ構造(※2) 行指向が多い(※3) 列指向 トランザクション 可能 行ロックのみ データ操作 SQL get/put/scan(※4) (JDBC等で接続) (独自APIで接続) インデックス 任意の列 Row keyのみ 最大データサイズ TBs PB+ 最大スループット 数1000クエリ/s 数100万クエリ/s ※1 Cloudera HBaseトレーニング資料を参考に作成。比較対象のHBaseのバージョンは 「0.90」とした。 ※2「行指向」「列指向」は、データを扱う単位の違いを表わす。行指向データベースは、行ご とにデータを取り出すことに最適化されているが、列指向データベースは行をまたいで列ごとに データを取り出すことに最適化されている。 ※3 たとえば、HP Verticaは列指向RDBMSで、列ごとの高速な読み出しに最適化されている。 ※4 scanは、HBase独自の一定のキー範囲での読み込み(例:Key 11 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 11. HBaseの基本構成 Hadoopの基本構成にHBase関連のサービスを追加 NameNode DataNode DataNode DataNode HDFS 12 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 12. HBaseの基本構成 Hadoopの基本構成にHBase関連のサービスを追加 データの配置管理 分散ロックサービス NameNode HBase Master Zookeeper データの読み書き RegionServer RegionServer RegionServer DataNode DataNode DataNode HDFS 13 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 13. HBaseの基本構成例 HBaseの基本構成例 • Hadoopの基本構成にHBase 関連のサービスを追加する。 • HBase Masterは2台のAct-Act NN で冗長化。 Zookeeper NN(Stb) • ZookeeperはHBaseクラスタ管 JT, SNN(Stb) SNN, JT(Stb) HBase Master Zookeeper 理を行うサービス。クウォーラ HBase Master Zookeeper ムを確保するため、ノードは3 台以上の奇数で構成。 • HBaseのデータを保存する DN, TT DN, TT DN, TT Regionserver Regionserver Regionserver Regionserverは、Datanodeと 同居させる。 DN, TT DN, TT DN, TT • スレーブノードは最低3台から。 Regionserver Regionserver Regionserver 【略記・凡例】 Namenode: NN Secondary Namenode: SNN Jobtracker: JT Datanode: DN Tasktracker: TT ※赤字がHBase関連サービス 14 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 14. HBaseアーキテクチャ © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 15. テーブル表現方式 – ユニークなKeyで指定される行(Row)を集めたテーブルとして管理 – 各行は、複数のカラムファミリーを持つ – カラムファミリーには、複数の(label, data) の組や単一のデータなど を保持可能 カラムファ ミリー名 Column Column Column Family1 Family2 Family3 Key1 (label1,data1) (label1,data7) data11 (label2,data2) Key2 (label3,data3) (label1,data8) data12 (label1,data4) Row 単一データ (label4,data5) カラム Key3 (label1,data6) (label2,data9) data13 カラムファミリー (label3,data10) 16 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 16. テーブルデータ管理方式 – テーブルは、カラムファミリ毎に管理(列指向データベース) – Keyの範囲を分けてRegionに分割 – データはKeyでソートされて格納される key Column Family1 Column Family2 Column Family3 Regionserver1 Key1 (label1,data1) (label1,data7) data11 Region ソート Key2 (label3,data3) (label1,data8) data12 Key3 CF1 (label1,data6) CF2 (label2,data9) CF3 data13 Key4 (label1,data1) (label1,data7) data11 Regionserver2 Key5 ソート (label3,data3) (label1,data8) data12 Region Key6 (label1,data6) CF1 CF2 (label2,data9) CF3 data13 Key7 (label1,data1) (label1,data7) data11 Regionserver3 Key8 ソート (label3,data3) (label1,data8) data12 Region Key9 (label1,data6) (label2,data9) data13 Key10 (label1,data1) (label1,data7) data11 CF1 CF2 CF3 Key11 (label3,data3) (label1,data8) data12 Key12 (label1,data6) (label2,data9) data13 17 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 17. テーブルデータ格納方式 – カラムファミリーをRegionに分割することで、1つのテーブルを複数 のサーバで処理可能となり、スケールアウトに対応 – データを定期的にHDFSに書き出すことで冗長化を実現 Regionserver1 Regionserver2 Regionserver3 Region Region Region CF1 CF2 CF3 CF1 CF2 CF3 CF1 CF2 CF3 HDFS 18 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 18. Region分割による負荷分散 – Regionのデータサイズが大きくなると、Regionを自動分割 – RegionserverごとのRegion数が均等になるように自動で再配置 Regionserver1 Regionserver2 Regionserver3 Region Region Region CF1 CF1 CF1 HDFS 19 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 19. Region分割による負荷分散 – Regionのデータサイズが大きくなると、Regionを自動分割 – RegionserverごとのRegion数が均等になるように自動で再配置 Regionserver1 Regionserver2 Regionserver3 Region Region Region Region CF1 CF1 CF1 CF1 HDFS 20 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 20. Region分割による負荷分散 – Regionのデータサイズが大きくなると、Regionを自動分割 – RegionserverごとのRegion数が均等になるように自動で再配置 Regionserver1 Regionserver2 Regionserver3 Region Region Region Region Region Region CF1 CF1 CF1 CF1 CF1 CF1 HDFS 21 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 21. この節のまとめ • HBaseは、「列指向データベース」 • キーごとにデータをRegionに自動分割、自動配置することでリニアにス ケールアウト。 • データは、カラムファミリごとに管理されていて、カラムファミリは データの物理配置に対応している。 22 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 22. HBaseのデータ読み書き © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 23. データの物理配置 • 各Regionのカラムファミリは、「Store」と呼ばれる物理データ構造に1対1 対応 Region Store RegionserverのJVM Column MemStore ヒープメモリ領域の Family 一部 Memory 論理構造 データの実体は、HDFS StoreFile を構成しているサーバ HDFS のハードディスク 物理構造 24 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 24. データ書き込みフロー クライアント ① HLog書き込み 書き込み要求 ノード1 •Write Ahead Log(WAL)を Regionserver 書き込み •HLogは、HDFSの仕組みでレ Region ①HLog書 プリカされる。 き込み Store Store MemStore MemStore (CF1) (CF2) ノード2 ノード3 Hlog StoreFile StoreFile (CF1) (CF2) HDFS 25 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 25. データ書き込みフロー クライアント ① HLog書き込み 書き込み要求 ノード1 •Write Ahead Log(WAL)を Regionserver 書き込み •HLogは、HDFSの仕組みでレ Region ①HLog書 プリカされる。 き込み Store Store MemStore MemStore (CF1) (CF2) ノード2 ノード3 Hlog StoreFile StoreFile (CF1) (CF2) Hlog HDFS 26 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 26. データ書き込みフロー クライアント ① HLog書き込み 書き込み要求 ノード1 •Write Ahead Log(WAL)を Regionserver 書き込み •HLogは、HDFSの仕組みでレ Region ①HLog書 プリカされる。 き込み Store Store MemStore MemStore (CF1) (CF2) ノード2 ノード3 Hlog StoreFile StoreFile (CF1) (CF2) Hlog Hlog HDFS 27 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 27. データ書き込みフロー クライアント ②MemStore書き込み 書き込み要求 ノード1 •MemStoreは、HBaseのデータ Regionserver ②MemStore書き込み をインメモリで保存している 領域。 Region •MemStore自体はレプリカされ ①HLog書 き込み ない。 Store Store MemStore MemStore ⇒一貫性を確保 (CF1) (CF2) ノード2 ノード3 Hlog StoreFile StoreFile (CF1) (CF2) Hlog Hlog HDFS 28 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 28. データ書き込みフロー クライアント ③MemStore書き出し 書き込み要求 ノード1 •MemStoreのデータが一定以上 Regionserver ②MemStore書き込み になった段階でメモリ上の データがHDFS上のStore Fileに Region まとめて書き出される ①HLog書 き込み •書き出されたデータはHDFSの Store Store MemStore MemStore 仕組みで複製される。 (CF1) (CF2) ノード2 ノード3 ③Memstare書き出し Hlog StoreFile StoreFile (CF1) (CF2) Hlog Hlog HDFS 29 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 29. HBaseのサーバクラッシュ時の動作 クライアント 書き込み要求 ノード1 Regionserver ②MemStore書き込み Region ①HLog書 き込み Store Store MemStore MemStore (CF1) (CF2) ノード2 ノード3 Hlog StoreFile StoreFile (CF1) (CF2) Hlog Hlog HDFS 30 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 30. サーバクラッシュ時の動作 クライアント Hlog書き込み後にノード1がク 書き込み要求 ノード1 ラッシュ! Regionserver ②MemStore書き込み Region ①HLog書 き込み Store Store MemStore MemStore (CF1) (CF2) ノード2 ノード3 Hlog StoreFile StoreFile (CF1) (CF2) Hlog Hlog HDFS 31 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 31. サーバクラッシュ時の動作 HBase MasterによりRegionが再 クライアント 割り当てされ、HLogから 書き込み要求 ノード1 MemStoreが復元される。 書き込み継続 Regionserver ②MemStore書き込み ノード2 Regionserver Region ①HLog書 Region HBase Master き込み Store Store MemStore MemStore Store (CF1) (CF2) MemStore (CF1) ノード3 Hlog StoreFile StoreFile (CF1) (CF2) Hlog Hlog HDFS 32 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 32. HBaseのデータ読み込み クライアント 読み込み要求 ノード1 • 読み込み時には、MemStoreと RegionserverのBlockCacheの両方 Regionserver にデータを探しに行く。 • BlockCache中に目的のデータがな Region BlockCache い場合は、HDFS上のStoreFileを読 Store みだす MemStore StoreFile (CF1) (CF1) StoreFile (CF1) HDFS 33 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 33. この節のまとめ • HBaseはHLogによってデータ書き込みの信頼性を担保している。 • 1つのRegionをホストするノードはいつでも1つ。 • HBase MasterはRegion配置の管理のみを行っている。 • HBaseのIOは各読み込み、書き込みフェーズごとに最適化されている。 • HBase • HDFS • 物理メモリ • 物理ディスク • Regionserverのメモリ領域は以下の2種類がある。 • 各Storeごとに1つのMemStore • Regionserverごとに1つのHDFSブロックキャッシュ • HBaseはランダムライトとショートレンジスキャンに最適化されている。 これらを理解した上でモニタリングすることが重要 あとでZabbixを使った監視の手法をご紹介します。 34 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 34. HBase基礎性能検証 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 35. 今回の検証の目的 1. HBaseの基礎的な性能測定データの取得 • 初期導入で想定される小規模構成における処理性能を把握 2. HBaseの性能測定手法の確認 • HBase性能測定の標準手法となっているYCSB(Yahoo! Cloud Serving Benchmark)の特性、利用にあたっての留意点 • 以下については今回の検証の範囲外となります • HBaseの導入方法 • HBaseをスケールアウトさせた際の性能検証 − スケールアウト検証は今後実施予定 36 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 36. 試験環境 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 37. 試験環境構成 マスタ NameNode, JobTracker, クライアント SecondaryNameNode, HBaseMaster, クライアント, NFS, Zabbix ZooKeeper スレーブ#1 スレーブ#2 スレーブ#3 スレーブ#4 DataTracker, DataTracker, DataTracker, DataTracker, TaskTracker, TaskTracker, TaskTracker, TaskTracker, RegionServer RegionServer RegionServer RegionServer •マスタノードは1台構成 •NameNodeのメタ情報の二次退避領域としてクライアントノード上にNFSサーバを構成 •スレーブノードは4台構成 •HDFSのレプリカ数は3(default) •監視を行うためにクライアントノード上にZabbixサーバを構築 •各ノード間をGigabit Ethernetスイッチにて接続 38 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 38. 試験環境構成 Procurve2810-48G Gigabit Ethernet Switch HBase RegionServer (Slave) x 4 HBase Master Server YCSB Client HW: SL335sG7 HW: SL335sG7 HW: SL335sG7 OS: RHEL5.7(x86_64) OS: RHEL5.7(x86_64) OS: RHEL5.7(x86_64) SW: CDH3u2, JDK1.6 SW: CDH3u2, JDK1.6 SW: YCSB0.1, JDK1.6 Zabbix1.8 39 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 39. 試験環境構成 マスタノード スレーブノード クライアント Hardware HP ProLiant SL335s G7 同左 同左 CPU AMD Opteron 4100(2.4GHz) 2P12C 同左 同左 Memory 32GB 同左 同左 HDD SATA 1TB × 4 (RAID1+0) SATA 1TB × 4 (RAIDなし) SATA 1TB × 4 (RAID1+0) OS RHEL5.7 (x86_64) 同左 同左 NIC Embedded HP NC362i DP Gb 同左 同左 Software J2SDK 1.6.0_29 (64bit) J2SDK 1.6.0_29 (64bit) J2SDK 1.6.0_29 (64bit) CDH3u2 (64bit) CDH3u2 (64bit) YCSB 0.1.3 Zabbix1.8 •スレーブノードのHDDはRAID構成をとらず、4本のDiskにI/Oを分散させる •冗長性はHDFSのレプリケーション機構で担保する •YCSBはソースからのコンパイルを行いました 40 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 40. YCSBを用いた試験実施手順 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 41. 試験シナリオ • YCSBにより以下の2種類の負荷を生成 • Read:対象テーブルの全レコードから一様分布に従って選択された rowkeyの全フィールド値を読みだす操作。(HBaseのAPIのget操作) • Update:対象テーブルの全レコードから一様分布に従って選択された rowkeyの全フィールド値をランダムな値で更新する操作(HBaseのAPIの put操作) • シナリオは以下の4種類を作成 1. Readのみを実行 2. Updateのみを実行 3. ReadとUpdateを1:1の割合で実行 4. ReadとUpdateを9:1の割合で実行 42 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 42. 試験項目 • 試験項目 データサイズ 1レコード1KB × 3,000,000レコード = 3GB シナリオ シナリオ1~シナリオ4 10, 100, 250, 500, 1000の5種類 スレッド数 ※各操作と次の操作の間の待ち時間は0秒 • 試験結果の集計項目 • Read実行回数/秒 • Update実行回数/秒 • Read平均応答時間(ms) • Update平均応答時間(ms) 43 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 43. 主な設定値 設定ファイル 項目 既定値 設定値 備考 シーケンスファイルの読み書きで使 core-site.xml io.file.buffer.size 4096 16384 用するバッファサイズ hdfs-site.xml dfs.block.size 67108864 33554432 新規ファイルのブロックサイズ hbase.hregion.memstor 書き込み負荷が高い状況下でヒープ hbase-site.xml false true e.mslab.enabled のフラグメンテーションを防ぐ hbase.hregion.memstor 書き込み負荷が高い状況下でヒープ 2097152 2097152 e.mslab.chunksize のフラグメンテーションを防ぐ hfile.block.cache.size 0.2 0.3 Heap内のLRUキャッシュの割合 hbase-env.sh HBASE_HEAPSIZE 1000 25000 region serverのヒープサイズ -ea - XX:+UseConcMarkSw HBASE_OPTS N/A eepGC - region serverのGC方式 XX:+CMSIncremental Mode 44 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 44. 試験結果 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 45. ①スループット スループット 45,000 40,000 35,000 30,000 スループット(ops/sec) 25,000 read100 update100 20,000 read50update50 15,000 read90update10 10,000 5,000 0 0 100 200 300 400 500 600 スレッド数 46 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 46. ②平均応答時間 平均応答時間 40 35 30 25 平均応答時間(ms) read100 update100 20 read50update50(read操作) read50update50(update操作) 15 read90update10(read操作) read90update10(update操作) 10 5 0 0 100 200 300 400 500 600 スレッド数 47 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 47. 検証でハマったポイントと 今後の検証項目 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 48. 検証でハマったポイント その1 YCSBの書き込みが速すぎる!? • YCSBをビルドしてupdateを行ったところ、マイクロ秒クラス(メモリの 反応速度!)の応答時間!? • デフォルトではYCSBクライアントが更新レコードデータをサーバに送信せ ず、クライアント上でキャッシュする − Update操作の応答時間が非常に短く見える(40μsec程度) − クライアントキャッシュがフルになった時点でフラッシュするため、その時点で応答 時間が極端に長時間になる • 対処:自動フラッシュを行うようにYCSBのソースコードを修正 − _hTable.setAutoFlush(false); ← trueに修正して自動フラッシュさせる YCSBクライアント HBaseサーバ Update 更新データ キャッシュ領域 setAutoFlush(false)の場合の挙動 49 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 49. 検証でハマったポイント その2 書き込みの速度が落ちるタイミングがある • Updateのベンチマークを続けていると時折書き込みが遅くなる。 • 原因はRegion分割? フルガベージコレクション? • ZabbixとRegionserverのログから推移をトラッキング • Region分割時の書き込み停止の影響がわかったのでRegion数が適切な数に分割された のち「hbase.hregion.max.filesize」を大きくして、ベンチマーク中のRegion分割を抑制 • この変更によって断続的な速度劣化は解消。 <解析> • Regionの分割は、各Regionserverのログおよ びHBaseのメトリクスに記録されたRegion数 の推移からトラッキングできる。 Region数の推移 Regionserverヒープサイズの推移 • YCSBのログに出力されている断続的な ※グラフは表示例です。 updateの遅れとRegion分割のタイミングを突 項目 設定値 き合わせて原因を特定 • ガベージコレクションログを見たところ、フ hbase.hregion.memstore.mslab.enabled true ルガベージコレクションは発生していなかっ hbase.hregion.max.filesize 100G た。これはHBaseの新機能「MSLAB」を有効 -ea-XX:+UseConcMarkSweepGC - 化したためだと考えられる。 HBASE_OPTS XX:+CMSIncrementalMode 関連するHBase設定 50 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 50. 検証でハマったポイント その3 だんだん書き込み性能が劣化する • Update試験を続けているとだんだんスループットが低下 • HBaseのIOを見直して、HDFSのブロックサイズを32MBに変更し改善した • 当初のHDFS設計 • Hadoopクラスタで一般的な128MBに設定 • この設定は一度に大量のデータを読み書きすることを前提としたもの • HBase向けではワークロードに応じた設定の見直しが必要 項目 設定値 dfs.block.size 33554432 関連するHDFS設定 51 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 51. 今後の検証項目 • 今後検証を進めていきたい項目 • スケールアウトによる性能向上 • クライアントキャッシュの活用 • 実運用時のワークロードを踏まえたScanの活用 • BloomFilterを使ったRead性能の向上 • データ圧縮によるディスクの節約とIOの削減 • Namenode HA(Hadoop 0.23、CDH4b1~)を使ったHA検証 • 今後、引き続き検証を進め、成果を発表していきたい。 52 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 52. Zabbix向け Hadoop 監視プラグインのご紹介 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 53. Zabbixプラグイン開発の経緯 • 開発時の課題 • Hadoopクラスタの監視は、GangliaとNagiosの組み合わせがデファク トスタンダードだが、日本国内での運用を考えた場合、運用性、アカ ウント管理やサポート等に課題 • Ganglia/Nagiosのカスタマイズは、ソースコードを改変する必要があ る。 • Zabbixの選択理由 • 日本国内で人気があり、コミュニティが活発なOSS統合監視ソフト • 性能監視と障害通知が1つのソフトで可能。 • カスタマイズが容易。集めた情報をグルーピングして一覧表示可能 ⇒社内検証用に開発し検証時のフィードバックを通じてブラッシュアップ 54 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 54. Zabbixプラグイン表示イメージ Hadoop Cluster Overview Hadoop Cluster全体の負荷状況をモニタリング – 各ノードの統計情報をグループ単 位で集約(合計、平均、最小、最 大)して表示 – Hadoopノードの死活やエラーを 一画面で表示 – 集約の単位はカスタマイズ可能 – 表示範囲は、1時間~2年間まで分 単位で選択可能。(※1) 図をいれるエリア この枠線は削除してください。 できるだけこの外枠からはみ出さないように配置してください。 ※1 表示できる期間は、データ保存期 間に依存します。 55 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 55. Zabbixプラグイン表示イメージ 各ノードの負荷状況 各ノードの負荷状況をOSレイヤ、Hadoopレイヤを統合して表示 – 各ノードのOS統計情報とHadoop Metricsを一画面に表示 – 表示範囲は、1時間~2年間まで分 単位で選択可能。(※1) 図をいれるエリア この枠線は削除してください。 できるだけこの外枠からはみ出さないように配置してください。 ※1 表示できる期間は、データ保存期 間に依存します。 56 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 56. Zabbixプラグイン表示イメージ HBase統計情報画面 HBaseの多様なメトリクスを一覧表示。任意の期間を指定できる。 – HBaseのノードごとに主要な統計 情報を一覧表示 • HBase MemStore(書込用メモリ領 域)とブロックキャッシュ(ディスク キャッシュ領域)の使用量 • キャッシュヒット率 • Regionserverのヒープメモリ使用状況 • ホストされているRegion(データ保存 単位)数の推移 • Regionserver内の操作の遅延時間 • DatanodeのIO 図をいれるエリア – 表示範囲は、1時間~2年間まで分 この枠線は削除してください。 単位で選択可能。(※1) できるだけこの外枠からはみ出さないように配置してください。 – モニタリングで必要になることが 多い主要なパラメータのグラフは 最初から設定済み。 – 表示情報カスタマイズ可能 – 統計情報を横断的に把握すること でボトルネック解析が容易になる ※1 表示できる期間は、データ保存期 間に依存します。 57 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 57. Zabbixプラグイン表示イメージ カスタム画面例-MapReduceモニタリング Hadoop JobTrackerとHadoopクラスタの負荷状況を一画面で閲覧 – Zabbix上に格納されている統計情 報とHadoop JobTrackerの情報を 一画面で表示する例 • MapReduceジョブの進行状況とクラス タ全体の負荷状況を同時に確認可能 – このほかにも必要な情報をまとめ たカスタム画面を随時追加可能 – Zabbixの「スクリーン」機能を利 用することで、このように外部の URLも含めた統合を実現 図をいれるエリア – 定義済みスクリーンを組み合わせ この枠線は削除してください。 た画面表示も可能 できるだけこの外枠からはみ出さないように配置してください。 58 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 58. そのほかの機能 Zabbixの機能をフル活用 監視対象の自動追加 • Zabbix Agentをインストールして起動するだけで、監視対象に自動追加(※ 1) 定義済みトリガー • 基本的なトリガーがテンプレートに含まれており、通知方法を定義するだけで すぐに監視ができます。 59 ※1 自動追加は、ホスト名の命名規則やZabbix Agent設定の共通化等の標準設計が行われていることが前提に © Copyright 2012 Hewlett-Packard Development Company, L.P. The information なります。 is subject to change without notice. Confidentiality label goes here contained herein
  • 59. Hadoop関連 コンサルティングサービス © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 60. HPが提供するHadoop管理・監視ソリューションスタック 対象 プロダクト • Cloudera Managerは、CDH(※2)専用の構築・管理ツール。OS上への Cloudera Hadoop導入から設定管理を自動化。 構 Hadoop Manager(※1) • GUI上からHadoopの設定の確認、変更、サービス再起動を実行可能。 築 (CDH) ・ 管 • HP Cluster Management Utility(HP CMU)は、HPC分野で10年以上の実績 理 を持つ、大規模システム向け管理ソフトウェア。国内でもTSUBAME2.0を HP CMU はじめ、採用例多数。大規模システムでのOSデプロイ、バックアップ、 OS リストア、システム全体に対するコマンド発行などを行うことができる。 • Gangliaは、大規模システムでの性能監視に特化したOSSプロダクト。 Ganglia • Hadoopには、Ganglia向けの設定が組み込まれており、それを使うことで 監 視 Hadoop 効率的にHadoopシステムの性能情報収集と表示を行うことができる。 (CDH) ( 性 HP Hadoop • 日本HPが作成のプラグインにより、Hadoopサービスの監視も統合 能 プラグイン 監 • Zabbixは、業界標準のOSSの統合管理ソフト。GUIから設定変更、サーバ 視 Zabbix 状態の確認が可能な、使いやすいなインターフェースを持つ。 ・ OS • サーバ管理者と運用者などのサーバごとの監視権限設定が可能。 障 害 監 • HP Systems Insight Manager(HP SIM)は、HPが無償で提供しているサー 視 HW HP SIM バ監視ソフトウェア。専用Agentを用いて、HWのきめ細かい監視が可能。 ) ノード障害の予兆を検知し、プロアクティブな対応を実現。HPへの自動 通報機能を備える。 61 ※1 Cloudera Managerには、50ノードまでの限定で無償で利用できるFree Edition版が用意されている。 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information ※2 CDHは、Cloudera社が提供しているオープンソースのHadoopディストリビューションパッケージ。 contained herein is subject to change without notice. Confidentiality label goes here
  • 61. 管理・監視運用方式 管理サーバ クラスタ管理者 Cloudera Manager • クラスタ管理者は、Hadoop技術者を想定。 • クラスタ内のすべての情報にアクセスし、 クラスタの状態確認やチューニングを行う。 HP CMU • ノード追加時のクラスタ構築や、クラスタ の再起動や設定変更、バックアップ、リス トア操作を行う。 Hadoopクラスタ Ganglia Zabbix クラスタ運用者 • クラスタ運用者は、障害監視に必要な最低 HP SIM 限の閲覧権限のみを持ち、クラスタの障害 SNMPTrap等で上位 監視を行う。Hadoop固有のスキルは必要 の監視サーバへのア ない。 ラート転送可能 • 運用者向けの監視情報は、Zabbixに一元化 HP して表示。 • HW障害はHP SIMがHPに自動通報し、迅 速な障害対応を実現。 ★お客様の既存のサーバ運用方式とHadoop運用をシームレスに統合可能 62 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 62. Hadoop HBase サービス概要 • 大規模分散処理プラットフォーム「Hadoop」をベースとして、ビッグデー タ活用に最適化したITインフラを構築するソリューション • サーバー、データベース、運用ツールとあわせて、導入コンサルティング サービスも提供し、お客様のビッグデータ活用をワンストップで支援 Hadoop HBase コンサルティングサービス •適用領域、既存システムの連携についてのヒアリングを実施 •必要に応じて、導入前検証をHPソリューションセンターで実施 Hadoop HBase導入支援サービス •ヒアリング内容に基づくサーバ構成の検討・設計 •Hadoopに対応した全体アーキテクチャの設計・構築 •性能測定・チューニング Hadoop HBase運用支援サービス •HP CMUおよびZabbix/Gangliaを使ったクラスタ運用基盤の構築 •Hadoopクラスタ運用支援 63 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 63. HP ビッグデータ分析 コンサルティングサービス 1. ディスカバリーワークショップ •お客様の業務、システム改善を目的に、最新製品およびテクノロジーの紹介 •統計分析によるテキスト/ログなどの事例紹介及びデモの実施 2. 分析支援コンサルティングサービス •お客様の業務やシステムの全体像の把握、PDCAを回す全体設計 •今後の対応策、予算規模、スケジュールなど上申書のもととなる情報を作成 •システムの将来像とロードマップの策定及び、全体の参考価格も算出 3. 分析システム導入支援サービス •策定したシステムの将来像に向けて、システム全体の要件定義、システム設 計、システム構築サービスを提供 •事前検証を実施 4. 分析システム運用支援サービス •システム運用時の支援を実施 64 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 64. HP ビッグデータバッチ処理高速化 コンサルティングサービス 1. バッチ処理高速化コンサルティングサービス •お客様にもアセスメントに参加して頂き、既存システムの問題点を的確に把 握 2. バッチ処理高速化システム導入支援サービス • アーキテクチャ、運用、監視などのシステム設計を実施 • 機能テストや、性能テスト、負荷テスト、耐久テストなどを実施 • 顧客毎のシステム要件にしたがいプログラミングを日本HPで行う 3. バッチ処理高速化システム運用支援サービス • システム運用時の支援を実施 成果物:  既存システム問題解析結果報告書  システム監視手順書  システム設計書  テスト結果報告書  システム運用手順書  システム支援報告書 65 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 65. Hadoopだけでなく、関連するオープンソースソフトウェアを 含めたトータルサポート Web Java AP Management Apache http server Tomcat, JBoss JVM (OpenJDK) Nagios, ZABBIX No SQL Hadoop HA OS FreeBSD, CentOS DRBD, Heart Beat DB Debian, Ubuntu MySQL, Postgre SQL ワンストップで、トータルサポートを提供 66 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 66. New! • 最近の情報 • Clouderaの協力のもと、教育サービスを開始 • 次回開催: Hadoop開発者向けトレーニング 3/26-29 • http://h50146.www5.hp.com/services/education/whatshot/newcourse.html • 「今さら聞けないHadoopとビッグデータ」をYoutubeで公開 • 前回のOSCで発表した古井が解説を行っております。 • http://www.youtube.com/watch?v=Q4lZPDYB1y0 67 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 67. 参考資料 • HBase: The Definitive Guide(O’REILLY) • Lars George 著 http://ofps.oreilly.com/titles/9781449396107/ • HBase Book(Web上で公開) • HBase プロジェクトの公式リファレンスガイド http://hbase.apache.org/book.html 68 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 68. Q&A 69 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here
  • 69. Thank you © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Confidentiality label goes here