[D22] Pivotal HD 2.0 -業界最高レベルSQL on Hadoop技術「HAWQ」解説- by Masayuki Matsushita

1© Copyright 2014 Pivotal. All rights reserved. 1© Copyright 2014 Pivotal. All rights reserved.
Pivotal HD 2.0
- 業界最高レベル SQL on Hadoop 技術「HAWQ」解説 -
2014年6月19日
Pivotalジャパン株式会社
技術統括部
松下正之

2© Copyright 2014 Pivotal. All rights reserved.
本日のアジェンダ
Ÿ  Pivotalについて
–  会社概要
–  コンセプト
–  ソリューション・ポートフォリオ
Ÿ  Pivotal HD 2.0
–  Pivotal HD 2.0技術
–  HAWQ性能検証結果報告
–  HAWQデモ
Ÿ  まとめ

Pivotal について

次世代エンタープライズPaaSのための新会社
Pivotal社始動(2013年4月1日)
2013年3億ドル
2017年10億ドル
出資比率
CEO ポール・マリッツ
従業員数
2,000人
売り上げ規模(計画)

次世代のクラウド&ビッグデータアプリケーション
PaaS
Platform
Big &
FastData
Agile
Dev
Data
Science
ソフトウェアで抽象化されたデータセンター)
VMAX VNX Isilon Atmos
情報基盤 (インフォメーション・インフラ)
Data
Domain
EMCグループの事業戦略 – 緩やかな水平協業 -
Open
FW
エンタープライズPaaS
クラウド、ビッグデータ/
ファストデータ及び
アジャイル開発、データ・
サイエンス
ソフトウェア・デファインド・
データセンター
ハイブリッド・クラウド
エンド・ユーザー・コン
ピューティング
ソフトウェア・デファインド・
ストレージ
バックアップ、セキュリティ
統合ストレージ管理(ViPR)
Pivotal Data
Science Labs

Pivotalのコンセプト
エンタープライズのお客様も、Google,Facebookと同様に・・・
自ら膨大なデータを収集・分析し、早いスピードで市場に対応する
戦略アプリケーションの投入がビジネス競争上必須になる !!
コンシューマ・グレイド・エンタープライズ
Pivotalのコンセプト
•  お客様ビジネスのスピード促進のためのITの仕組みを提供
•  『コンシューマ・グレイド・エンタープライズ』への進化を支援
•  3rd Platform時代の製品技術と活用のための支援サービスを提供

アプリケーションから
データが生成される
データを溜める
データの分析・活用
アプリケーションで
分析結果を実装
Pivotalとは
Pivotalとは、、
このビジネスサイクルを迅速に回
す仕組みをお客様と共に実現す
るための製品、サービスを提要

クラウド
アプリケーション
プライベート・クラウドパブリック・クラウド
バーチャル・
プライベート・クラウド
PaaS基盤
アジャイル開発データサイエンス
開発フレームワーク & オープンソース
ビッグデータ
ファストデータ
データ
Pivotalのソリューション・ポートフォリオ

クラウド
アプリケーションデータ
PIVOTAL ONE
導入事例豊富な製品群とオープンソース戦略

Pivotal HD 2.0

ビッグデータ時代に求められる技術: HAWQ
ー
データ量
RDB
Oracle, DB2, MS SQL Server,
MySQL, PostgreSQL ..
分散型RDB
Greenplum DB
PureData, Teradata, Exadata...
Hadoop
Pivotal HD
Cloudera, MapR, Hortonworks..
SQL on Hadoop
HAWQ
Impala, Drill, Presto,..

Ø  Data Lake: データ処理基盤の基盤要素となるHDFSにデータを蓄積
Ø  あらゆるデータ・要件に応じて処理エンジンを使い分ける
Pivotal データプラットフォーム・アーキテクチャ
アナリティック
データマート
SQL処理
オペレーショナル
インテリジェンス
イン・メモリデータベース
ラン・タイム
アプリケージョン
HDFS
データ
ステージング
データ管理
Pivotal データプラットフォーム
ストリーム
インジェスチョン
ストリーミング処理
Software-Defined Datacenter
New Data-fabrics
...ETC
イン・メモリグリッド
Data Lake

Pivotal HD 2.0 の国内販売開始(2014年6月2日)

Pivotal HD 概要
•  Pivotal HD 2.0
–  Apache Hadoop 2.2.0 ベース
–  Apache Hadoop 2.2.0は、2.X系のGAリリースの位置付け
–  処理全体のデータスループット効率化: YARN
–  運用・: スナップショット / HDFS Federation / NFSv3によるデータアクセス
–  HAWQ(HAdoop With Query、読み方: ホーク)
–  性能：HDFSに対する標準SQLによる高速クエリ処理
–  連携：Hive, Hbase, Avro等 Hadoop データとの連携
–  GemFire XD
–  性能: ビッグデータ用のインメモリ・データストア
–  仮想化・エンタープライズストレージ対応
–  Hadoop構成の VMWare 上での最適化や Isilonとの連携

Pivotal HD 2.0 エンタープライズコンポーネント
HDFS
HBase Pig, Hive,
Mahout
Map
Reduce
Sqoop Flume
リソース管理
&
ワークフロー
Yarn
Zookeeper
Apache Pivotal追加機能
Command
Center
コンフィグ
デプロイ
モニター
管理
Spring XD
Pivotal HD 2.0
エンタープライズ
Spring
Oozie
Virtual
Extensions
Graphlab,
Open MPI

管理・監視ツール Pivotal Command Center
Ÿ  PivotalHD用ウェブ管理コンソール
–  クラスタ性能・健常性の監視
–  クラスタストレージ状況の監視
–  各サーバへのドリルダウン監視
–  性能指標の表示(リアルタイム・トレンド)
–  MapReduceジョブの詳細監視
–  YARN(MapReduce2.0)アプリケーションの監視
–  HAWQクエリの監視

Pivotal Command Center: ダッシュボード(1/2)

Pivotal Command Center: ダッシュボード(2/2)

Pivotal Command Center: MapReduceジョブモニタ

HVEによる仮想基盤最適化
Ÿ  業界唯一VMware Hadoop バーチャルエクステンション(HVE)対応ディスト
リビューション
–  動作確認済み
–  vSphere環境用に最適化
▪  HDFSレプリケーション時に可用性面で最適なデータ配置先ノード(VM)を決定
▪  データ配置用ノード(VM)の構成に基づき、性能面で最適な計算用ノード(VM)を決定
▪  計算用ノードの動的スケールに対応
Ÿ  Vmware Serengeiによる PivotalHD システムの vSphere上へのデプロイ
Ÿ  Pivotal社・Vmware社の緊密な協業

HVEによるレプリカ配置ポリシーの拡張
従来のデータレプリケーション
（HVE無効時）
物理サーバ1
物理サーバ2
物理サーバ3
物理サーバ4
1
2 3
ラック0 ラック1
HVE有効時の
データレプリケーション
1 2
3
ラック0 ラック1
仮想マシン 1 ブロックレプリケーション
物理サーバ1
物理サーバ2
物理サーバ3
物理サーバ4
物理サーバ障害時、複数の仮想マシンが停
止することにより、複数のデータレプリケー
ションが停止する可能性有り。
物理サーバ上の仮想マシンには常に１つの
データレプリケーションしか構成されないた
め、物理サーバ障害時も他物理サーバ上
のデータレプリカによる冗長化を維持。

•  HAWQがもたらすHadoopとデータベースの融合
•  GemFire XDがもたらすHadoopとインメモリデータグリッドの融合
Pivotal HD 2.0 製品構成
HDFS
HBase Pig, Hive,
Mahout
Map
Reduce
Sqoop Flume
リソース管理
&
ワークフロー
Yarn
Zookeeper
Command
Center
コンフィグ
デプロイ
モニター
管理
Spring XD
Pivotal HD 2.0
Spring
Xtension
フレーム
ワーク
カタログ
サービス
クエリオプ
ティマイザ
ダイナミックパイプライニング
ANSI SQL + アナリティクス
HAWQ – アドバンスド
データベースサービス
分散
イン・メモリ
ストア
クエリトランザ
クション
インジェス
チョン処理
Hadoop Driver –
パラレルコンパクション
ANSI SQL + イン・メモリ
GemFire XD – リアルタイム
MADlib アルゴリズム
Oozie
Virtual
Extensions
Graphlab,
Open MPI

Hadoop処理をより高速に
OS
HDFS
MapReduce
OS
GPDB
データ
処理層
データ
IO層
OS
HDFS
HAWQ
•  Cプロセスによる低
いオーバヘッド
•  中間データのオン
メモリ処理
•  Javaプロセスによる
高いオーバヘッド
•  中間データのオンディ
スク処理
HDFSレイヤーにIO処理
時のオーバヘッド
•  Cプロセスによる低
いオーバヘッド
•  中間データのオン
メモリ処理

HAWQを支える GreenplumDB 10年の実績
•  GreenplumDBの主要テクノロジーを HAWQ で採用
•  標準 SQL 対応
•  堅牢なクエリオプティマイザ
•  ローストア・カラムストア両方への対応
•  圧縮
•  分散格納
•  マルチレベルパーティショニング
•  パラレルーロード・アンロード
•  高速データ再分散
•  SELECT
•  INSERT
•  JOIN
•  統計解析関数(MADlib)
•  ビュー
•  外部表
•  リソースマネジメント
•  セキュリティ
•  認証
•  管理・監視
•  ODBC/JDBC対応

User intelligence
4.2
198

Sales analysis
8.7
161

Click analysis
2.0
415

Data exploration
2.7
1,285

BI drill down
2.8
1,815

47X
19X
208X
476X
648X
Pivotal HD HAWQベンチマーク
単位：秒
User intelligence
4.2
37

Sales analysis
8.7
596

Click analysis
2.0
50

Data exploration
2.7
55

BI drill down
2.8
59

単位：秒
9X
69X
25X
20X
21X

HAWQ クエリオプティマイザ
Ÿ  コストベースのオプティマイザに
より、最適な実行プランを選択
Ÿ  DB処理(スキャン、ジョイン、ソ
ート、集計等)に対してコストを算出
Ÿ  セグメント間通信(“モーション”)も
オプティマイザが指示
PHYSICAL EXECUTION PLAN
FROM SQL
Gather Motion
4:1(Slice 3)
Sort
HashAggregate
HashJoin
Redistribute Motion
4:4(Slice 1)
HashJoin
Hash Hash
HashJoin
Hash
Broadcast Motion
4:4(Slice 2)
Seq Scan on
motion
Seq Scan on
customer
Seq Scan on
lineitem
Seq Scan on
orders

HAWQ高度分析機能の標準実装
•  パラレル処理による高い性能
•  SQLインタフェイス
•  分析関数 MADLib の標準実装
–  線形回帰
–  ロジスティック回帰
–  多重ロジスティック回帰
–  K平均
–  アソシエーションルール
–  PLDA

Pivotal eXtension Framework(PXF)
Ÿ  HAWQから外部データに対して、クエリ
アクセスを可能にする拡張フレームワ
ーク
Ÿ  HDFS上のファイル、Hiveテーブル、
Hbaseテーブルのデータなどにアクセ
スするためのビルトイン・コネクタ
–  HDFS/Hive/HBase/AVRO/GemFireXD
Ÿ  拡張フレームワークによる、連携対象
データの追加も可能
–  ユーザは他のデータストアにアクセスするた
めのオリジナル・コネクタ(Java)を作成するこ
とも可能
HDFS HBase Hive
Xtension Framework

HAWQ性能検証結果報告
(プロジェクタ表示のみスライド含む)

導入事例：MicroAd
PHD/HAWQによるビッグデータ分析とツール統一
PivotaHD/HAWQは、ODBCやJDBCによる接続が可能
•  お客様がお使いのBI/BAツールを Hadoop と連携させることが可能
•  HAWQ は GreenplumDB を Hadoop 用に改良したものでアクセスインタフェイスは GreenplumDB と同じ
•  GreenplumDBとHAWQ(Hadoop)にアクセスするためのツールを統一も実現可能
背景：
•  IBM PureData/SPSSの分析基盤を構築済み
•  ログデータの格納領域はHadoop(CDH無償版)を使っ
ている
課題：
•  使用している分析ツールからHadoopにアクセスしたい
•  HIVEによる検索性能が遅く現実的には利用不可能
•  分析対象データが大きい場合にはHIVEクエリがエラー
PHD/HAWQ PoC：
•  SPSSとHAWQによる分析が可能であることを確認
•  HIVEと比較して70倍近い高い性能を記録
結果：
•  PivotalHD/HAWQの採用決定
•  できなかった分析ができるように
背景・課題
結果

Pivotal HD/HAWQがもたらす価値
Ÿ  インタラクティブな分析環境の提供
–  Hiveと比較して数十倍から数百倍の性能向上
Ÿ  既存資産(プログラムとスキル)の活用
–  ANSI SQL92,98,2003への対応
Ÿ  HIVE,Hbase,Avro等Hadoopデータへの透過的クエリアクセス
Ÿ  Hadoop/DB間のデータ移動が不要
Ÿ  データ二重持ちコストの削減
–  HDFS上への全データの統合

HAWQデモ

デモメニューと構成
Ÿ  Hive実行
Ÿ  Pivotal Command Center紹介
Ÿ  HAWQ機能
–  Pivotal eXtension Framework
–  HAWQからHiveへのアクセス
Ÿ  HAWQ vs. Hive性能簡易比較
Ÿ  ソフトウェア
–  CentOS 6.4 64bit
–  PHD-2.0.0.0
–  HAWQ 1.2.0.0
Ÿ  ハードウェア
MacBook Pro
CPU 2.6GHz(4Core) Intel Core i7
Memory 16GB
Disk 500GB フラッシュストレージ

まとめ

Pivotalが考える次世代統合分析基盤に必要な
ITアーキテクチャとその技術要素 
セントラルDWH データマート
BI/BA
Pivotal Greenplum Database / Pivotal DCA
構造化データ
生産情報
売上情報
・
・
・
非構造化データ
顧客情報
ステージング
・
・
・
・
・
・
アクセスログ
メール・Webコンテンツ
M2M
音声
画像・映像
SNS
Pivotal HD
(Hadoop)
構造化処理
ETL
処理
DWH
統合分析基盤(Unified Analytics Platform)
・・・
経営者・管理者
業務部門
分析者・情報
システム部門
センサデータ等のリアル
タイム取り込み
HDFS上のデータに対しての
分析クエリ実行
インメモリ技術による
リアルタイム分析
高度分析専門者のための
先進分析関数・連携イン
ターフェースの提供
HDFSによる様々なデータ
の効率的な格納
シームレスなデータ連携
スケーラブル・アジャイル
な基盤

リアルタイム処理(これから)
メッセージ
キュー受信
Twitter
ストリーム受信
TCPソケット受信
①ストリームデータの分割 ②データの処理(フィルタ、カウントなど)
ネットワーク
パケット受信
：
ストリームデータ処理：
1) 連続的に生成されるデータを
2) ある単位に順次分割し、
3) 順次処理を行う仕組み
つまり溜めずに処理！

•  HAWQがもたらすHadoopとデータベースの融合
•  GemFire XDがもたらすHadoopとインメモリデータグリッドの融合
Pivotal HD 2.0 製品構成
HDFS
HBase Pig, Hive,
Mahout
Map
Reduce
Sqoop Flume
リソース管理
&
ワークフロー
Yarn
Zookeeper
Command
Center
コンフィグ
デプロイ
モニター
管理
Spring XD
Pivotal HD 2.0
Spring
Xtension
フレーム
ワーク
カタログ
サービス
クエリオプ
ティマイザ
ダイナミックパイプライニング
ANSI SQL + アナリティクス
HAWQ – アドバンスド
分散
イン・メモリ
ストア
クエリトランザ
クション
インジェス
チョン処理
Hadoop Driver –
パラレルコンパクション
ANSI SQL + イン・メモリ
GemFire XD – リアルタイム
MADlib アルゴリズム
Oozie
Virtual
Extensions
Graphlab,
Open MPI

アプリケーション
Analytics
Apps
Carrier
Services
Online Apps
Mobile Apps
Contents
Services
Device
Services
クライアント
将来構想：Pivotalデータプラットフォーム全体像
セントラルDWH
データマート
構造化
データ
売上
情報
顧客
情報
生
データ
Hadoop
ETL
処理
DB
商品
マスタ
マシン
データ
ETL
処理
GPロードによる
高速双方向連携
Hadoopデータへの
SQLアクセス
HAWQ高速ロード
Hadoop
Sqoop/Flume
GemFire XDによる
モデル更新
GemFire
超低レイテンシ検索
GemFireの
リアルタイムロード
GemFire XDの
Hadoop蓄積 GPDBによる
高速分析
GemFire
リアルタイム
フィードバック

「データ・レーク」型分析プラットフォームの必要性
スケールアップ型
分析プラットフォーム
スケールアウト型
•  分析処理量が増加すると
パフォーマンス劣化
•  分析処理量増加に伴い
増加する管理コスト
•  投資に見合わない拡張性と
パフォーマンス
•  データの種類ごとに異なる
•  分散処理により大規模分析が可能
•  高いコストパフォーマンス
•  スケールアウトによる柔軟な拡張
–  必要な時に必要なだけ拡張
–  投資に見合った確実な性能向上
•  構造化・非構造化データ分析の
スムーズな連携
従来型アーキテクチャからの転換

[D22] Pivotal HD 2.0 -業界最高レベルSQL on Hadoop技術「HAWQ」解説- by Masayuki Matsushita

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to [D22] Pivotal HD 2.0 -業界最高レベルSQL on Hadoop技術「HAWQ」解説- by Masayuki Matsushita

Similar to [D22] Pivotal HD 2.0 -業界最高レベルSQL on Hadoop技術「HAWQ」解説- by Masayuki Matsushita (20)

More from Insight Technology, Inc.

More from Insight Technology, Inc. (20)

Recently uploaded

Recently uploaded (10)

[D22] Pivotal HD 2.0 -業界最高レベルSQL on Hadoop技術「HAWQ」解説- by Masayuki Matsushita