Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
1© Copyright 2017 Pivotal. All rights reserved. 1© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplumで実現する
次世代...
2© Copyright 2017 Pivotal. All rights reserved.
Agenda & このセッションで持ち帰って頂きたい事
Ÿ  はじめに
–  Pivotalご紹介
–  デジタル革命で打ち勝つためのサイクル
Ÿ...
3© Copyright 2017 Pivotal. All rights reserved.
2000s
メソドロジの
確⽴立立
シリコンバレーを代表する  
インターネット企業のソフト
ウェア開発に影響を与える様
な新たなメソロドジーを確⽴...
デジタル・トランスフォーメーション
競争の鍵
アナリティクス
アプリケーション データサイエンス
マシンラーニング
ビッグデータ
(DWH/Hadoop)
リーン&
アジャイル開発
オープンクラウド
(IaaS/PaaS) ファストデータ
(M...
5© Copyright 2017 Pivotal. All rights reserved.
データレイクが実現するデータ分析基盤
RDBMS
Hadoop
インメモリ	
Analytics
Apps
Online
Apps
Mobile
A...
6© Copyright 2017 Pivotal. All rights reserved.
より自由に、柔軟に、迅速にビジネス要求に答える
Data Lakeアーキテクチャ
Data Lake評価視点 EDW(エンタープライズデータウェアハ...
7© Copyright 2017 Pivotal. All rights reserved.
HDFSビッグデータ
高度分析 /
機械学習
インメモリ
リアルタイム
データ
ストリームパイプライン
データレイクのこれから
特徴	
•  データ...
8© Copyright 2017 Pivotal. All rights reserved.
データレイクが実現するデータ分析基盤
RDBMS
Hadoop
インメモリ	
Analytics
Apps
Online
Apps
Mobile
A...
9© Copyright 2017 Pivotal. All rights reserved.
“Pivotalコネクテッドカー”レファレンスアーキテクチャ
投入
JSON / HTTP
ストリーム処理
Spring XD加工エンリッチ
データ...
10© Copyright 2017 Pivotal. All rights reserved.
Pivotalが提唱するデータレイクとは
Ÿ  デジタル革命で打ち勝つためのサイクル	
–  データ蓄積・分析→アプリケーション開発→迅速なデプ...
Hadoop Data Lakes
Massively Parallel Architecture
Public Cloud Data Lakes
Predefined Libraries
Programmatic
GPText
Paralle...
12© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum
技術概要
13© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum 3つの特長
•  データ分析基盤向け「Pivotal Data Suite」(CPUコアでのライセンス体系)
...
14© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum アーキテクチャ
MPP (Massively Parallel Processing)
シェアードナッシングア...
15© Copyright 2017 Pivotal. All rights reserved.
CPU
メモリ
ディスクI/Oを分散して処理を高速化
ディスク
CPU
メモリ
ディスク
CPU
メモリ
ディスク
CPU
メモリ
ディスク
CP...
16© Copyright 2017 Pivotal. All rights reserved.
パラレルデータフロー
エンジン	
パラレルデータフロー
エンジン	
パラレルデータフロー
エンジン	
パラレルデータフロー
エンジン	
セグメント...
17© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum
最大の特長:選択出来る実装環境
仮想化	
クラウド	
コモディティH/W	
EMC DCA	
•  EMC D...
18© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum 高速化技術
カラムストア	
 圧縮	
リソースキュー(ワークロード管理)	
パーティション	
• 
–  RD...
19© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum/Hadoop 連携
Hadoop ノード	
Hadoop ノード	
Hadoop ノード	
Hadoop ノー...
20© Copyright 2017 Pivotal. All rights reserved.
外部表機能は様々なデータ格納場所や鮮度をサポートする
計算と格納の本格的な分割
Hadoop Data Lakes Public Cloud Da...
21© Copyright 2017 Pivotal. All rights reserved.
インフラ非依存型データウェアハウス
On Premise Public CloudPrivate Cloud
お客様の必要に応じて、どこにでも分析...
22© Copyright 2017 Pivotal. All rights reserved.
クラウド・マーケットプレイスとそのパートナー
23© Copyright 2017 Pivotal. All rights reserved.
多様な分析ユースケースを構築
テキスト クラスタリング
回帰分析
分類
STRUCTURED QUERY LANGUAGE
グラフ地理・空間情報
24© Copyright 2017 Pivotal. All rights reserved.
事例
25© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplumを用いた日本最大級のID-POSデータ分析基盤を構築	
導入事例: 株式会社True Data様(旧:カスタマー...
26© Copyright 2017 Pivotal. All rights reserved.
優れたコストパフォーマンスと柔軟な拡張性を備え、高度分析が行えるデータ分析基盤を構築	
導入事例: 京阪電気鉄道様
プロファイル
•  グループカ...
Hadoop Data Lakes
Massively Parallel Architecture
Public Cloud Data Lakes
Predefined Libraries
Programmatic
GPText
Paralle...
28© Copyright 2017 Pivotal. All rights reserved.
Nächste SlideShare
Wird geladen in …5
×

Pivotal Greenplumで実現する次世代データ分析基盤のご紹介

1.871 Aufrufe

Veröffentlicht am

db tech showcase Tokyo 2017

Veröffentlicht in: Daten & Analysen
  • Als Erste(r) kommentieren

Pivotal Greenplumで実現する次世代データ分析基盤のご紹介

  1. 1. 1© Copyright 2017 Pivotal. All rights reserved. 1© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplumで実現する 次世代データ分析基盤のご紹介 ~ データレイク・アーキテクチャのコンセプトとPivotal Greenplum技術のご紹介 ~ 2017年9月6日 Pivotalジャパン株式会社 技術統括部 松下 正之
  2. 2. 2© Copyright 2017 Pivotal. All rights reserved. Agenda & このセッションで持ち帰って頂きたい事 Ÿ  はじめに –  Pivotalご紹介 –  デジタル革命で打ち勝つためのサイクル Ÿ  データ分析基盤のための「データレイク・アーキテクチャ」のコンセプトと技術要素 Ÿ  Pivotal Greenplum技術紹介 Ÿ  事例 Ÿ  デモ(時間に応じて)
  3. 3. 3© Copyright 2017 Pivotal. All rights reserved. 2000s メソドロジの 確⽴立立 シリコンバレーを代表する   インターネット企業のソフト ウェア開発に影響を与える様 な新たなメソロドジーを確⽴立立 1990s メソドロジの創 設 ソフトウェア開発にアジャイル、 迅速なイテレーション、テスト 駆動型アプローチなどを導⼊入 2015 デジタル変⾰革 の推進役へ グローバルの代表的な企業が クラウドネイティブなソフト ウェア・カンパニーへと変⾰革 を遂げる時代へ 2013 エンタープライ ズへの展開 先進的なソフトウェア開発⼿手法 とクラウド・プラットフォーム を⽤用いて世界のエンタープライ ズ企業のデジタル変⾰革を⽀支援 Founded EMC,  ヴイエムウェア及びGE出資 従業員約2,000名 クラウド,  ビッグデータ基盤の提供 およびアジャイル⼿手法を軸とした アプリケーション開発を推進
  4. 4. デジタル・トランスフォーメーション 競争の鍵 アナリティクス アプリケーション データサイエンス マシンラーニング ビッグデータ (DWH/Hadoop) リーン& アジャイル開発 オープンクラウド (IaaS/PaaS) ファストデータ (M2M/リアルタイム) DevOps CI/CD デジタル革命で打ち勝つためのサイクル プラットフォーム クラウドネイティブ アプリ
  5. 5. 5© Copyright 2017 Pivotal. All rights reserved. データレイクが実現するデータ分析基盤 RDBMS Hadoop インメモリ Analytics Apps Online Apps Mobile Apps Analytics Apps Online Apps Mobile Apps データレイク アプリ ユーザ 構造化データ 売上情報 顧客情報 商品マスタ ファストデータ 1. Hadoopへの Pivotal技術の統合 2. ファストデータ・ビッグデータへの対応 3. SQLにも対応した高い開発生産性 Machine PIVOTAL GREENPLUM PIVOTAL HDB PIVOTAL GEMFIRE Pivotal HDP
  6. 6. 6© Copyright 2017 Pivotal. All rights reserved. より自由に、柔軟に、迅速にビジネス要求に答える Data Lakeアーキテクチャ Data Lake評価視点 EDW(エンタープライズデータウェアハウス) データモデル 生データ+目的別データ (事前に定義しない) 目的別データ (事前に利用目的を確定) データの質 Full spectrum 1 0 0 1 01 0 0 1 0 1 1 1 0 データの種類 インタフェイス SQL, SAS, R, MapReduce, NoSQL SQL のみ 混合ワークロード vs QoS 低レイテンシー / 対話型 / バッチ 混合ワークロードには 運用でQoS対応
  7. 7. 7© Copyright 2017 Pivotal. All rights reserved. HDFSビッグデータ 高度分析 / 機械学習 インメモリ リアルタイム データ ストリームパイプライン データレイクのこれから 特徴 •  データ収集のストリーム処理化 •  データ収集の人手を削減 •  分析の自動化 •  アクションの自動化
  8. 8. 8© Copyright 2017 Pivotal. All rights reserved. データレイクが実現するデータ分析基盤 RDBMS Hadoop インメモリ Analytics Apps Online Apps Mobile Apps Analytics Apps Online Apps Mobile Apps データレイク アプリ ユーザ 構造化データ 売上情報 顧客情報 商品マスタ ファストデータ 1. Hadoopへの Pivotal技術の統合 2. ファストデータ・ビッグデータへの対応 3. SQLにも対応した高い開発生産性 4. 様々なデータ収集と配信(API化)に対応 Machine PIVOTAL GREENPLUM PIVOTAL HDB PIVOTAL GEMFIRE Pivotal HDP Spring Cloud Data Flow ストリーム パイプライン
  9. 9. 9© Copyright 2017 Pivotal. All rights reserved. “Pivotalコネクテッドカー”レファレンスアーキテクチャ 投入 JSON / HTTP ストリーム処理 Spring XD加工エンリッチ データレイク Pivotal HDP 連携 アナリティクス Pivotal HDB(HAWQ) リアルタイムデータ処理 Pivotal GemFire モバイルサービス マイクロサービス Pivotal Cloud Foundry ダッシュボード 分析アプリ シミュレータ IoT アプリ プッシュ 自動車からの車載データを活用した、クラウドサービス基盤 適用例:走行経路予測とレコメンデーション 参考URL: Demo: IoT Realized with Spring XD - The Connected Car https://www.youtube.com/watch?v=5gySgGWJMHA&feature=youtu.be https://spring.io/blog/2014/09/24/demo-iot-realized-with-spring-xd-the-connected-car
  10. 10. 10© Copyright 2017 Pivotal. All rights reserved. Pivotalが提唱するデータレイクとは Ÿ  デジタル革命で打ち勝つためのサイクル –  データ蓄積・分析→アプリケーション開発→迅速なデプロイのサイクル Ÿ  データ分析活用基盤「データレイク・アーキテクチャ」 –  あらゆるデータの蓄積基盤はHDFSもしくはスケールアウト 可能な基盤 –  処理要件に応じて、バッチ処理(Hadoop)/ニアリアルタイム処 理(DWH)/リアルタイム処理(In-Memory)それぞれをデータ レイクと連携 –  様々なデータの取り込みとデータ活用を意識した配信(API化 )の仕組みを提供 –  オープンソースをベースとしたソフトウェア技術で実現 実現すべきデータ活用のサイクル
  11. 11. Hadoop Data Lakes Massively Parallel Architecture Public Cloud Data Lakes Predefined Libraries Programmatic GPText Parallel Configurable Data Load High Speed Ingestion Analytical Data to cache In-Memory Data Grid Parallel Data Load and External Tables Pivotal Data Suite を使ったこれからのデータ分析処理基盤 In-DB Predictive Analytics ColdHotWarm DataTemperature PIVOTAL GEMFIRE PIVOTAL GREENPLUM (Data Warehouse) PIVOTAL HDB (SQL on Hadoop)
  12. 12. 12© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum 技術概要
  13. 13. 13© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum 3つの特長 •  データ分析基盤向け「Pivotal Data Suite」(CPUコアでのライセンス体系) •  運用負荷を軽減するチューニングレス思想 •  導入・運用コストを削減するアプラインス製品 •  テスト・開発環境については仮想環境の利用も可能 •  MPP型DBによる超高速の並列処理性能 •  データロード、処理、アンロードまでを完全に並列で実行 •  標準搭載の豊富な高速化機能(データ圧縮、カラムストア、マルチレベルパーティション etc..) •  必要な時に最適なシステム投資を実現するスケールアウトアーキテクチャ •  サーバノード追加により性能もリニアに向上 •  クラウド、仮想化、コモディティサーバ、アプライアンスと豊富な実装環境に対応 拡張性 高速性 コストパフォーマンス
  14. 14. 14© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum アーキテクチャ MPP (Massively Parallel Processing) シェアードナッシングアーキテクチャ インタコネクト バス ... ... マスター サーバ x 2台 クエリプランニング& ディスパッチ セグメント サーバ x 2台〜 クエリの実行& データの格納 SQL 外部ソース ローディング、 ストリーミング等 SQLを解析し、 セグメントサーバのための最適 な並列実行プランを作成 パラレルデータ フローエンジンが ハードサーバ性能を 最大活用 gNetソフトウェア インタコネクトによる セグメント間の効率的な データ送受信 パラレルロードによる 高速ローディング EMC DCAは、マスターサーバ、インタコネクトバス、セグメントサーバ、そして、これらを管理するための管理スイッチから 構成されています。
  15. 15. 15© Copyright 2017 Pivotal. All rights reserved. CPU メモリ ディスクI/Oを分散して処理を高速化 ディスク CPU メモリ ディスク CPU メモリ ディスク CPU メモリ ディスク CPU メモリ ディスク CPUを 使いきれない CPUを 使いきれる CPUを 使いきれる CPUを 使いきれる CPUを 使いきれる ディスクI/Oがボトルネックとなり、単一 ノードでは処理の多重度に限界がある   並列処理することで、I/Oが分散され、   HW本来の性能を使い切ることができる   従来型RDB 使 用 率 使 用 率 並列分散処理型DB 使 用 率 使 用 率 使 用 率
  16. 16. 16© Copyright 2017 Pivotal. All rights reserved. パラレルデータフロー エンジン パラレルデータフロー エンジン パラレルデータフロー エンジン パラレルデータフロー エンジン セグメントサーバ ローディング プロセス マスタサーバ   データソース データソース セグメントサーバ 他社 他社処理方式とGreenplum方式の比較
  17. 17. 17© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum 最大の特長:選択出来る実装環境 仮想化 クラウド コモディティH/W EMC DCA •  EMC DCAでの導入 –  最適(最速)環境 –  サポート負荷軽減 •  仮想化S/W上で稼働可能 –  仮想インフラ上での開発環境 •  コモディティH/Wでの導入 –  柔軟な拡張性 –  お客様要件に合わせた機器構成 •  パブリッククラウド上での稼働 –  Amazon VPC等を使ったトレーニング・ 検証環境の構築 アプライアンス構成 ソフトウェア構成
  18. 18. 18© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum 高速化技術 カラムストア 圧縮 リソースキュー(ワークロード管理) パーティション •  –  RDBMS –  •  –  –  IO –  DB A B C D A B C D IO IO •  •  –  –  •  1 2008 2009 2010 2011 2012 ? ? ? ?? ? ? ? ?? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? : HIGH : LOW : Medium XXX YYY ZZZ ? ? ? ? ? ? ? ? ? ? ? ? ? ? AAA ( ) ( ) BBB CCC
  19. 19. 19© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum/Hadoop 連携 Hadoop ノード Hadoop ノード Hadoop ノード Hadoop ノード Greenplum セグメントサーバ Greenplum セグメントサーバ Greenplum セグメントサーバ Pivotal Greenplumの外部表機能を使ったシームレスなデータアクセス → データがDB上にあるかHadoop上にあるかを意識せずに処理を記述することが可能 Pivotal Greenplum/Hadoop間での、効率的かつ高速なデータ転送 → 大量データの移動にかかる時間を減らし、トータルの集計・分析時間を短縮 Pivotal Greenplum/Hadoopは両方ともスケールアウト型の並列処理アーキテクチャ → 処理の増大、容量の拡張に応じて柔軟に拡張ができる 多ノード対多ノードの パラレルデータ転送 10Gb ネットワーク Pivotal Greenplumの各セグメント サーバとHadoopの各ノード間では、 ダイレクトかつパラレルなデータ転送 が行われる Pivotal Greenplumの外部表機能 を使い、Hadoop上のファイルをDB テーブルとして扱うことが可能
  20. 20. 20© Copyright 2017 Pivotal. All rights reserved. 外部表機能は様々なデータ格納場所や鮮度をサポートする 計算と格納の本格的な分割 Hadoop Data Lakes Public Cloud Data Lakes HybridLocal
  21. 21. 21© Copyright 2017 Pivotal. All rights reserved. インフラ非依存型データウェアハウス On Premise Public CloudPrivate Cloud お客様の必要に応じて、どこにでも分析環境を稼働出来ます
  22. 22. 22© Copyright 2017 Pivotal. All rights reserved. クラウド・マーケットプレイスとそのパートナー
  23. 23. 23© Copyright 2017 Pivotal. All rights reserved. 多様な分析ユースケースを構築 テキスト クラスタリング 回帰分析 分類 STRUCTURED QUERY LANGUAGE グラフ地理・空間情報
  24. 24. 24© Copyright 2017 Pivotal. All rights reserved. 事例
  25. 25. 25© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplumを用いた日本最大級のID-POSデータ分析基盤を構築 導入事例: 株式会社True Data様(旧:カスタマー・コミュニケーションズ株式会社) 背景 •  ユーザの分析処理のオンライン化を実現したい(バッチ 処理からの脱却) •  マルチテナント・多重処理を前提として、保有する全件 データの分析処理においてもオンライン化したい •  高コスト体質の既存ベンダから脱却し、運用コストを削 減したい •  将来のデータ量・ユーザの増加にも柔軟に対応したい 課題 •  大量ID-POSデータ分析を高速処理可能な基盤構築 •  将来的な容量・性能の枯渇への柔軟な対応 提案(Pivotal Greenplum) •  MPP型DBによる超高速の並列処理性能 •  標準搭載の豊富な高速化機能(データ圧縮、カラムスト ア、マルチレベルパーティション等) •  必要な時に最適なシステム投資を実現するスケールア ウト・アーキテクチャ 結果 •  Pivotal Greenplumの採用により、分析サービスのオ ンライン化と大幅なコスト削減を実現 •  容易にスケールアウト可能なため、将来のビジネス成 長に追従・対応可能な分析基盤を構築 背景・課題 提案・結果 Ÿ  以前はバッチ処理で分析結果を提供していたが、高速処理基盤の構築によってオンラインサービス化を実現 Ÿ  スケールアウト・アーキテクチャの採用により、データ量・ユーザ数の増加に柔軟に対応
  26. 26. 26© Copyright 2017 Pivotal. All rights reserved. 優れたコストパフォーマンスと柔軟な拡張性を備え、高度分析が行えるデータ分析基盤を構築 導入事例: 京阪電気鉄道様 プロファイル •  グループカード会員の顧客管理(顧客情報利活用)システム 採用理由 •  増え続ける顧客の乗車履歴、取引明細のデータをスケーラブルな蓄積・分析用途のデータベースシステムとして、   コストパフォーマンスの高い「Pivotal Greenplum」を採用 •  高度分析のコンサルティングやトレーニングなどのサポートも評価され採用 •  SAS Access to Greenplum, SAS Scoring Accelerator with Greenplumを採用 導入効果 •  Greenplumの大規模並列処理による高速性により、年間1億件(初期3年分)の顧客取引明細の分析を高速処理可能 •  大量データを蓄積・処理でき、迅速な意思決定を支援する分析サービスをグループ各社に提供可能 •  Greenplumの柔軟な拡張性により、今後、SNSなど社外のデータを分析対象として取込予定 会員基本 情報 クレジットカード 利用履歴 乗車履歴 その他 (キャンペーン反応など) 高度分析 データ抽出 定型帳票 高度分析 コンサルティング 高度分析 トレーニング SAS+Greenplum事例 ポイント 履歴
  27. 27. Hadoop Data Lakes Massively Parallel Architecture Public Cloud Data Lakes Predefined Libraries Programmatic GPText Parallel Configurable Data Load High Speed Ingestion Analytical Data to cache In-Memory Data Grid Parallel Data Load and External Tables Pivotal Data Suite を使ったこれからのデータ分析処理基盤 In-DB Predictive Analytics ColdHotWarm DataTemperature PIVOTAL GEMFIRE PIVOTAL GREENPLUM (Data Warehouse) PIVOTAL HDB (SQL on Hadoop)
  28. 28. 28© Copyright 2017 Pivotal. All rights reserved.

×