Suche senden
Hochladen
クラウド上でのHadoop基盤とCloudera Director 2.0 #rhcj2016
•
5 gefällt mir
•
3,130 views
Cloudera Japan
Folgen
Rejected HCJ 2016 で発表した資料です。 http://www.zusaar.com/event/17397003
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 28
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Cloudera search
Cloudera search
Mark Kerzner
Introduction to Cloudera Search Training
Introduction to Cloudera Search Training
Cloudera, Inc.
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
HDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
Cloudera Japan
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
Cloudera Japan
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
Empfohlen
Cloudera search
Cloudera search
Mark Kerzner
Introduction to Cloudera Search Training
Introduction to Cloudera Search Training
Cloudera, Inc.
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
HDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
Cloudera Japan
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
Cloudera Japan
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Cloudera Japan
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
Cloudera Japan
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
Cloudera Japan
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera Japan
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
Cloudera Japan
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
Cloudera Japan
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Cloudera Japan
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
Cloudera Japan
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
Cloudera Japan
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
Cloudera Japan
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Japan
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera Japan
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
Cloudera Japan
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Cloudera Japan
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Cloudera Japan
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
Cloudera Japan
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Cloudera Japan
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
Weitere ähnliche Inhalte
Mehr von Cloudera Japan
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Cloudera Japan
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
Cloudera Japan
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
Cloudera Japan
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera Japan
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
Cloudera Japan
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
Cloudera Japan
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Cloudera Japan
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
Cloudera Japan
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
Cloudera Japan
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
Cloudera Japan
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Japan
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera Japan
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
Cloudera Japan
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Cloudera Japan
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Cloudera Japan
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
Cloudera Japan
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Cloudera Japan
Mehr von Cloudera Japan
(20)
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Kürzlich hochgeladen
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Kürzlich hochgeladen
(8)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
クラウド上でのHadoop基盤とCloudera Director 2.0 #rhcj2016
1.
1© Cloudera, Inc.
All rights reserved. クラウド上でのHadoop基盤 とCloudera Director 2.0 嶋内 翔、Cloudera
2.
2© Cloudera, Inc.
All rights reserved. ⾃自⼰己紹介 • 嶋内 翔(しまうち しょう) • テクニカルエバンジェリスト • 2011年年4⽉月にClouderaの最初の⽇日本⼈人社員として⼊入社 • お客様がCloudera製品を活⽤用できるように⼀一緒に議論論するのがメインの 仕事 • email: sho@cloudera.com • twitter: @shiumachi
3.
5© Cloudera, Inc.
All rights reserved. Cloudera Enterprise Hadoop に Fast / Easy / Secure をもたらす 新しいタイプの データプラットフォーム • 一箇所で無制限のデータ • 統合されたマルチフレームワー クデータアクセス Clouderaがもたらすもの: • Fast : ビジネスの迅速性 • Easy : 管理の容易性 • Secure : 包括的・透過的セ キュリティ OPERATIONS DATA MANAGEMENT STRUCTURED UNSTRUCTURED PROCESS, ANALYZE, SERVE UNIFIED SERVICES RESOURCE MANAGEMENT SECURITY FILESYSTEM RELATIONAL NoSQL STORE INTEGRATE BATCH STREAM SQL SEARCH SDK Public Cloud Private Cloud Hybrid Environments Hybrid Deployment Flexibility
4.
6© Cloudera, Inc.
All rights reserved. クラウド上でのHadoopはオンプレとは違う 最適なパフォーマンスのため の区分化 コスト削減のための一時的ク ラスタの採用 効率性のための、ストレージ と計算リソースの別個の拡張 Object Store STORE COMPUTE
5.
7© Cloudera, Inc.
All rights reserved. クラウド上でのHadoopの検討 計算リソースとストレージの弾 力性を簡単にサポートできるだ ろうか? ワークロードの効率性のためど ういう自動化が利用可能だろう か? この環境はエンタープライズ級 の要件を満たしているだろう か? クラスタを停止したあとでも簡 単にトラブルシューティングで きるだろうか? 構築した全クラスタでHadoopの ツールの一貫性を維持できるだ ろうか? 複数のオブジェクトストアをサ ポートしたりスイッチしたりす る必要があるとしたら?
6.
8© Cloudera, Inc.
All rights reserved. Cloudera: クラウド上でのHadoopにおける先進的専門性 CDHは主要クラウドプロバイダにおいて最もデプロイされている Hadoopディストリビューションです 2009 2012 2013 2014 2015 AWS上での大規模 クラスタ Cloudera Enterprise のMSP上でのサポート ClouderaはAzureサ ポートを追加 ClouderaはGCPサポート を追加 プライベートクラウ ドサポート リリース 最初の クラウド上での Hadoopの顧客 クラウドオブ ジェクトストア のサポート
7.
9© Cloudera, Inc.
All rights reserved. ハイブリッド Hadoopディストリ ビューション
8.
11© Cloudera, Inc.
All rights reserved. クラウド上でのワークロードの単純化 ビジネスの転換に対する価値を提供 必要な時に、必要な分だけ支 払う ETL/モデリング どこに置かれていたとしても、 全てのデータを探索し分析す る BI/アナリティ クス たとえ何が起ころうとおもエ ンタープライズレベルでビジ ネスを保護する アプリケー ションデリバ リ 運用コスト削減 新しいインサイトと新し い価値 リスクなしでの稼働
9.
15© Cloudera, Inc.
All rights reserved. Easy: 管理の容易性 自動的に、使った分だけお支払い 自動的な一時クラスタの作成 ジョブ固有のクラスタライフサイクルマネ ジメント ホスティングのコストの削減 スポットインスタンスサポート より多くのジョブのサポート ワークキューの管理をシンプルに ハイブリッド管理 複数の環境にまたがってのビューと管理 Launch Cluster Submit Job Record Results 1 2 3Auto-‐‑‒ Termina te 4
10.
16© Cloudera, Inc.
All rights reserved. ヨーロッパの大規模空港 は数千のマシンからのセ ンサーデータを監視し、 電力使用量や空港利用者 の動線を予測 CUSTOMER 360 参考: http://blog.godatadriven.com/schiphol-‐‑‒implements-‐‑‒datasciencesuite.html
11.
21© Cloudera, Inc.
All rights reserved. アデコは、仕事の空 きと候補者のマッチ ングをより高速に、 正確にすることでリ クルーターの生産性 を向上させ、仕事投 稿の費用を$120M(130 億円)削減
12.
22© Cloudera, Inc.
All rights reserved. カメラ会社はコストを 下げつつ、より高速な 分析と正確性でもって、 新しい市場を分析し、 新製品を創りだした 参考: hZp://techspec[ve.net/2015/08/03/how-‐gopro-‐is-‐using-‐amazon-‐bmc-‐and-‐ cloudera-‐to-‐kick-‐everyone-‐elses-‐buZ/
13.
26© Cloudera, Inc.
All rights reserved. FINRA monitors 50B market events per day to build a holis[c picture of US market ac[vity and make real-‐ [me decisions, while saving $10-‐20M annually
14.
27© Cloudera, Inc.
All rights reserved. Airbnb improved their overall booking rate through machine learning algorithms and beZer search to more effec[vely match customers with the right rental property CUSTOMER 360
15.
34© Cloudera, Inc.
All rights reserved. Cloudera Director 2.0 & C5.5 Releases • 高速デプロイ • ジョブ送信API • スポットインスタンス • クラスタ終了前フック • Hive on S3 • Spark on S3 一時クラスタ • クラスタクローン • クラスタ復旧 • オンデマンドとスポットイ ンスタンスを同じクラスタ で実行可能 • Impala on S3 (beta) BI/分析クラスタ • HAクラスタの拡張 • HA/Kerberosクラスタをブー トストラップ時に有効可能 • ワーカーノードの復旧 • 外部DBオプション • より多くのインサイトを持 つUIの改善 アプリケーション デリバリクラスタ ALL WORKLOADS: • AWS s3aコネクタサポート • クラスタテンプレート • GUI 改善: クラスタの集約とインスタンスレベルのメタデータビューとフィルタリング
16.
35© Cloudera, Inc.
All rights reserved. Power BI Microso> Azure Marketplace Marketplace Delivers • Full cloud deployment; no hardware dependency • Start work in <40min using Azure templates • Fully automated setup with best prac[ces from OS to Cloudera Customer 360 Compliance InnovaKon Product & Services ExpressRoute Cloudera’s Azure Marketplace Offering
17.
36© Cloudera, Inc.
All rights reserved. Get Started AWS Reference Guide GCP Reference Guide Download Cloudera Director www.cloudera.com/downloads Try It Out Cloudera Live (includes step-‐by-‐step tutorial) AWS Quickstart Azure Marketplace Resources API Integra[on & Scrip[ng hZps://github.com/cloudera/director-‐ sdk hZps://github.com/cloudera/director-‐ scripts Addi[onal Cloud Integra[on hZps://github.com/cloudera/director-‐spi hZps://github.com/cloudera/director-‐ google-‐plugin
18.
37© Cloudera, Inc.
All rights reserved. Cloudera on AWS
19.
38© Cloudera, Inc.
All rights reserved. Cloudera on AWS の基本的な考え⽅方 • ⻑⾧長期稼働クラスタが基本 • ⼀一時クラスタは単発的なバッチ処理理のみ • HDFSのデータは性能確保のためインスタンスストレージに保存 • よって、データセンター障害時などにより全インスタンスが停⽌止した場 合、HDFS上のデータは失われる • データの永続化はS3で⾏行行う • ⾼高CPUコア数 / ⾼高メモリ数のインスタンスを少数稼働させる
20.
39© Cloudera, Inc.
All rights reserved. ストレージ選定 ストレージのタイプ メリット デメリット ⽤用途 S3 • 耐障害性が⾼高い • インスタンスの起動が不不要 • スループットが遅い • HDFSと異異なり、パーミッション 情報などを保持出来ない • Hadoopエコシステムの全機能が 対応しているわけではない • データの永続化層 • データ取り込み⼝口 インスタンスストレージ (エフェメラルストレージ) • インスタンスに直結している物理理 ディスクを使うため、Hadoop本来 の性能を発揮可能 • 通常のHDFS⽤用のディスクとして機 能するため、Hadoopエコシステム の全機能が利利⽤用可能 • インスタンス障害により全ストレー ジ情報がロストする • HDFS EBS • ランダムIOに強い • インスタンスを停⽌止してもデータを 保持可能 • シーケンシャルIOに弱い • ⾼高い • EC2/EBS間のネットワーク帯域は 制限されているのでボトルネックに なる • OSデータの保存
21.
40© Cloudera, Inc.
All rights reserved. インスタンス選定 ワークロードのタイプ サービスの例例 管理理ノード⽤用インスタンス ワーカーノード⽤用インスタンス バッチ処理理 • MapReduce • YARN • Spark • Hive • Pig • Crunch • c3.8xlarge • d2.2xlarge • i2.2xlarge • i2.4xlarge • i2.8xlarge • r3.8xlarge • m2.4xlarge • c3.8xlarge • d2.8xlarge • i2.2xlarge • i2.4xlarge • i2.8xlarge • r3.8xlarge リアルタイム処理理 • HBase • Solr • Impala • c3.8xlarge • d2.2xlarge • i2.4xlarge • i2.8xlarge • r3.8xlarge • d2.8xlarge • i2.4xlarge • i2.8xlarge エンタープライズデータハブ • CDHの全サービス • d2.2xlarge • i2.2xlarge • i2.4xlarge • d2.8xlarge
22.
41© Cloudera, Inc.
All rights reserved. ネットワーク • VPC 必須 • 1サブネット1クラスタの構成が最も簡単 • ネットワークACLは使わず、セキュリティグループでアクセス管理理する • Flume ノード、ワーカー、マスターなどのロールに応じてセキュリティグルー プで通信経路路を制御する • ロール毎にサブネットを分けるとネットワークトポロジーは複雑になる • インターネットアクセスの管理理 • 全インスタンスにパブリックIPアドレスを持たせる • インターネットGWとサブネット間の通信はルーティングで制御 • NATインスタンスを別のサブネットに持たせる • NATインスタンスは通常は Linux EC2 インスタンス • オンプレミスDCとの接続 (VPC or Direct Connect) • データマイグレーションの予定がなければ不不要
23.
43© Cloudera, Inc.
All rights reserved. データ取り込み戦略略 • S3ファースト • データの永続化は保証される • S3からdistcpなどによりHDFSにロードするため、Hadoop上で利利⽤用可 能になるまでは少し時間がかかる • HDFSファースト • すぐにHadoop上で利利⽤用できる • S3に転送する前にデータセンター障害などで全インスタンスが停⽌止する と、データは失われる
24.
44© Cloudera, Inc.
All rights reserved. バックアップ・リストア戦略略 • バックアップ • S3へのdistcpが基本 • パーミッション / ACL などが失われるため、HDFS上のセキュリティ が必須ならクラスタ⼆二重化しかない • HBaseならスナップショット保存が可能 • こちらもパーミッションを引き継げない • 2つのAZにまたがってのクラスタ⼆二重化 • Hiveメタストア等のRDBMSはAmazon RDSを使って耐障害性を確保 • リストア • distcpでS3からHDFSにロード
25.
45© Cloudera, Inc.
All rights reserved. クラウド環境とHadoop オブジェクトストレージ インスタンスストレージ Impala Spark Kafka Flume HDFS HBase データソース クラウド
26.
46© Cloudera, Inc.
All rights reserved. バッチ処理理とアドホック処理理 • インスタンスの動的⽴立立ち上げとS3からのデータ取得による実⾏行行(バースト 実⾏行行) • 常時⽴立立ち上げる必要がなくコスト削減につながるが、データのロードに 時間がかかるため、処理理は遅くなる • 利利⽤用頻度度が上がるなら常時稼働させた⽅方がコストは安くなるはず • また、利利⽤用状況がわかっているのなら必要なリソースを計算できるので、 必要最低限のインスタンスの稼働で済むはず • アドホック処理理(Impala等) • 常時稼働させた状態でインスタンスストレージにデータをロードしてお くことで性能を確保できる
27.
47© Cloudera, Inc.
All rights reserved. Impala on S3 • C5.5 時点ではテクニカルプレビュー • 対応状況 • JOIN: HDFS, HBase, S3 全て相互にJOIN可能 • メタデータ管理理(SentryによるACL含む): 対応済 • リソース管理理: 対応済 • 未対応 • DML • INSERT / LOAD DATA / CREATE TABLE AS SELECT • 制限事項 • 性能は当然スピンドルより落落ちる • チューニング⽅方法で使えるものと使えないものがある • HDFSショートサーキットリードなどは当然使えない
28.
48© Cloudera, Inc.
All rights reserved. Thank you
Jetzt herunterladen