SlideShare ist ein Scribd-Unternehmen logo
1 von 28
Downloaden Sie, um offline zu lesen
1©  Cloudera,  Inc.  All  rights  reserved.
クラウド上でのHadoop基盤
とCloudera	
  Director	
  2.0	
  
嶋内	
  翔、Cloudera	
  
2©  Cloudera,  Inc.  All  rights  reserved.
⾃自⼰己紹介
•  嶋内  翔(しまうち  しょう)
•  テクニカルエバンジェリスト
•  2011年年4⽉月にClouderaの最初の⽇日本⼈人社員として⼊入社
•  お客様がCloudera製品を活⽤用できるように⼀一緒に議論論するのがメインの
仕事
•  email:  sho@cloudera.com
•  twitter:  @shiumachi
5©  Cloudera,  Inc.  All  rights  reserved.
Cloudera	
  Enterprise	
  	
  
Hadoop	
  に	
  Fast	
  /	
  Easy	
  /	
  Secure	
  をもたらす	
  
新しいタイプの
データプラットフォーム
•  一箇所で無制限のデータ
•  統合されたマルチフレームワー
クデータアクセス
Clouderaがもたらすもの:
•  Fast  :  ビジネスの迅速性
•  Easy  :  管理の容易性
•  Secure  :  包括的・透過的セ
キュリティ
OPERATIONS	
  
DATA	
  
MANAGEMENT	
  
STRUCTURED	
   UNSTRUCTURED	
  
PROCESS,	
  ANALYZE,	
  SERVE	
  
UNIFIED	
  SERVICES	
  
RESOURCE	
  MANAGEMENT	
   SECURITY	
  
FILESYSTEM	
   RELATIONAL	
   NoSQL	
  
STORE	
  
INTEGRATE	
  
BATCH	
   STREAM	
   SQL	
   SEARCH	
   SDK	
  
Public	
  Cloud	
  
Private	
  Cloud	
  
Hybrid	
  Environments	
  
Hybrid	
  Deployment	
  
Flexibility	
  
6©  Cloudera,  Inc.  All  rights  reserved.
クラウド上でのHadoopはオンプレとは違う
最適なパフォーマンスのため
の区分化	
  
コスト削減のための一時的ク
ラスタの採用	
  
効率性のための、ストレージ
と計算リソースの別個の拡張	
  
Object	
  Store	
  
STORE	
  
COMPUTE	
  
7©  Cloudera,  Inc.  All  rights  reserved.
クラウド上でのHadoopの検討	
  
計算リソースとストレージの弾
力性を簡単にサポートできるだ
ろうか?	
  
	
  
ワークロードの効率性のためど
ういう自動化が利用可能だろう
か?	
  
この環境はエンタープライズ級
の要件を満たしているだろう
か?	
  
	
  
クラスタを停止したあとでも簡
単にトラブルシューティングで
きるだろうか?	
  
構築した全クラスタでHadoopの
ツールの一貫性を維持できるだ
ろうか?	
  
	
  
複数のオブジェクトストアをサ
ポートしたりスイッチしたりす
る必要があるとしたら?	
  
8©  Cloudera,  Inc.  All  rights  reserved.
Cloudera:	
  クラウド上でのHadoopにおける先進的専門性	
  
CDHは主要クラウドプロバイダにおいて最もデプロイされている
Hadoopディストリビューションです	
  
2009	
   2012	
   2013	
   2014	
   2015	
  
AWS上での大規模
クラスタ	
  
Cloudera	
  Enterprise	
  
のMSP上でのサポート	
  
ClouderaはAzureサ
ポートを追加	
  
ClouderaはGCPサポート
を追加	
  
プライベートクラウ
ドサポート	
  
リリース	
  
最初の	
  
クラウド上での	
  
Hadoopの顧客	
  
クラウドオブ
ジェクトストア
のサポート	
  
9©  Cloudera,  Inc.  All  rights  reserved.
ハイブリッド
Hadoopディストリ
ビューション	
  
11©  Cloudera,  Inc.  All  rights  reserved.
クラウド上でのワークロードの単純化	
  
ビジネスの転換に対する価値を提供	
  
必要な時に、必要な分だけ支
払う	
  
ETL/モデリング	
  
どこに置かれていたとしても、
全てのデータを探索し分析す
る	
  
BI/アナリティ
クス	
  
たとえ何が起ころうとおもエ
ンタープライズレベルでビジ
ネスを保護する	
  
アプリケー
ションデリバ
リ	
  
運用コスト削減	
   新しいインサイトと新し
い価値	
  
リスクなしでの稼働	
  
15©  Cloudera,  Inc.  All  rights  reserved.
Easy:	
  管理の容易性	
  
自動的に、使った分だけお支払い	
  
自動的な一時クラスタの作成	
  
ジョブ固有のクラスタライフサイクルマネ
ジメント	
  
	
  
ホスティングのコストの削減	
  
スポットインスタンスサポート	
  
	
  
より多くのジョブのサポート	
  
ワークキューの管理をシンプルに	
  
	
  
ハイブリッド管理	
  
複数の環境にまたがってのビューと管理	
  
Launch  
Cluster
Submit  
Job
Record  
Results
1
2
3Auto-‐‑‒
Termina
te
4
16©  Cloudera,  Inc.  All  rights  reserved.
	
  
ヨーロッパの大規模空港
は数千のマシンからのセ
ンサーデータを監視し、
電力使用量や空港利用者
の動線を予測	
  
CUSTOMER	
  360	
  
参考:  http://blog.godatadriven.com/schiphol-‐‑‒implements-‐‑‒datasciencesuite.html	
  
21©  Cloudera,  Inc.  All  rights  reserved.
アデコは、仕事の空
きと候補者のマッチ
ングをより高速に、
正確にすることでリ
クルーターの生産性
を向上させ、仕事投
稿の費用を$120M(130
億円)削減	
  
22©  Cloudera,  Inc.  All  rights  reserved.
	
  
カメラ会社はコストを
下げつつ、より高速な
分析と正確性でもって、
新しい市場を分析し、
新製品を創りだした	
  
参考:	
  hZp://techspec[ve.net/2015/08/03/how-­‐gopro-­‐is-­‐using-­‐amazon-­‐bmc-­‐and-­‐
cloudera-­‐to-­‐kick-­‐everyone-­‐elses-­‐buZ/	
  
26©  Cloudera,  Inc.  All  rights  reserved.
FINRA	
  monitors	
  50B	
  
market	
  events	
  per	
  day	
  
to	
  build	
  a	
  holis[c	
  
picture	
  of	
  US	
  market	
  
ac[vity	
  and	
  make	
  real-­‐
[me	
  decisions,	
  while	
  
saving	
  $10-­‐20M	
  
annually	
  
27©  Cloudera,  Inc.  All  rights  reserved.
	
  
Airbnb	
  improved	
  their	
  
overall	
  booking	
  rate	
  through	
  
machine	
  learning	
  algorithms	
  
and	
  beZer	
  search	
  to	
  more	
  
effec[vely	
  match	
  customers	
  
with	
  the	
  right	
  rental	
  
property	
  	
  
CUSTOMER	
  360	
  
34©  Cloudera,  Inc.  All  rights  reserved.
Cloudera	
  Director	
  2.0	
  &	
  C5.5	
  Releases	
  
	
  
•  高速デプロイ	
  
•  ジョブ送信API	
  
•  スポットインスタンス	
  
•  クラスタ終了前フック	
  
•  Hive	
  on	
  S3	
  
•  Spark	
  on	
  S3	
  
一時クラスタ	
  
	
  
•  クラスタクローン	
  
•  クラスタ復旧	
  
•  オンデマンドとスポットイ
ンスタンスを同じクラスタ
で実行可能	
  
•  Impala	
  on	
  S3	
  (beta)	
  	
  
BI/分析クラスタ	
  
	
  
•  HAクラスタの拡張	
  
•  HA/Kerberosクラスタをブー
トストラップ時に有効可能	
  
•  ワーカーノードの復旧	
  
•  外部DBオプション	
  
•  より多くのインサイトを持
つUIの改善	
  
アプリケーション
デリバリクラスタ	
  
ALL	
  WORKLOADS:	
  	
  
•  AWS	
  s3aコネクタサポート	
  
•  クラスタテンプレート	
  
•  GUI	
  改善:	
  クラスタの集約とインスタンスレベルのメタデータビューとフィルタリング	
  
35©  Cloudera,  Inc.  All  rights  reserved.
Power	
  BI	
  
Microso>	
  
Azure	
  
Marketplace	
  
Marketplace	
  Delivers	
  
•  Full	
  cloud	
  deployment;	
  no	
  hardware	
  dependency	
  
•  Start	
  work	
  in	
  <40min	
  using	
  Azure	
  templates	
  
•  Fully	
  automated	
  setup	
  with	
  best	
  prac[ces	
  from	
  
OS	
  to	
  Cloudera	
  
	
  
Customer	
  360	
  
Compliance	
  
InnovaKon	
  
Product	
  &	
  Services	
  
ExpressRoute	
  
Cloudera’s	
  Azure	
  	
  
Marketplace	
  Offering	
  
36©  Cloudera,  Inc.  All  rights  reserved.
Get	
  Started	
  
AWS	
  Reference	
  Guide	
  
GCP	
  Reference	
  Guide	
  
	
  
Download	
  Cloudera	
  Director	
  
www.cloudera.com/downloads	
  
	
  
Try	
  It	
  Out	
  	
  
Cloudera	
  Live	
  (includes	
  step-­‐by-­‐step	
  tutorial)	
  	
  
AWS	
  Quickstart	
  
Azure	
  Marketplace	
  
Resources	
  
API	
  Integra[on	
  &	
  Scrip[ng	
  
hZps://github.com/cloudera/director-­‐
sdk	
  
hZps://github.com/cloudera/director-­‐
scripts	
  
	
  
Addi[onal	
  Cloud	
  Integra[on	
  
hZps://github.com/cloudera/director-­‐spi	
  
hZps://github.com/cloudera/director-­‐
google-­‐plugin	
  
	
  
37©  Cloudera,  Inc.  All  rights  reserved.
Cloudera  on  AWS
38©  Cloudera,  Inc.  All  rights  reserved.
Cloudera  on  AWS  の基本的な考え⽅方
•  ⻑⾧長期稼働クラスタが基本
•  ⼀一時クラスタは単発的なバッチ処理理のみ
•  HDFSのデータは性能確保のためインスタンスストレージに保存
• よって、データセンター障害時などにより全インスタンスが停⽌止した場
合、HDFS上のデータは失われる
•  データの永続化はS3で⾏行行う
•  ⾼高CPUコア数  /  ⾼高メモリ数のインスタンスを少数稼働させる
39©  Cloudera,  Inc.  All  rights  reserved.
ストレージ選定
ストレージのタイプ メリット デメリット ⽤用途
S3 •  耐障害性が⾼高い
•  インスタンスの起動が不不要
•  スループットが遅い
•  HDFSと異異なり、パーミッション
情報などを保持出来ない
•  Hadoopエコシステムの全機能が
対応しているわけではない
•  データの永続化層
•  データ取り込み⼝口
インスタンスストレージ
(エフェメラルストレージ)
•  インスタンスに直結している物理理
ディスクを使うため、Hadoop本来
の性能を発揮可能
•  通常のHDFS⽤用のディスクとして機
能するため、Hadoopエコシステム
の全機能が利利⽤用可能
•  インスタンス障害により全ストレー
ジ情報がロストする
•  HDFS
EBS •  ランダムIOに強い
•  インスタンスを停⽌止してもデータを
保持可能
•  シーケンシャルIOに弱い
•  ⾼高い
•  EC2/EBS間のネットワーク帯域は
制限されているのでボトルネックに
なる
•  OSデータの保存
40©  Cloudera,  Inc.  All  rights  reserved.
インスタンス選定
ワークロードのタイプ サービスの例例 管理理ノード⽤用インスタンス ワーカーノード⽤用インスタンス
バッチ処理理 •  MapReduce
•  YARN
•  Spark
•  Hive
•  Pig
•  Crunch
•  c3.8xlarge
•  d2.2xlarge
•  i2.2xlarge
•  i2.4xlarge
•  i2.8xlarge
•  r3.8xlarge
•  m2.4xlarge
•  c3.8xlarge
•  d2.8xlarge
•  i2.2xlarge
•  i2.4xlarge
•  i2.8xlarge
•  r3.8xlarge
リアルタイム処理理 •  HBase
•  Solr
•  Impala
•  c3.8xlarge
•  d2.2xlarge
•  i2.4xlarge
•  i2.8xlarge
•  r3.8xlarge
•  d2.8xlarge
•  i2.4xlarge
•  i2.8xlarge
エンタープライズデータハブ •  CDHの全サービス •  d2.2xlarge
•  i2.2xlarge
•  i2.4xlarge
•  d2.8xlarge
41©  Cloudera,  Inc.  All  rights  reserved.
ネットワーク
•  VPC  必須
•  1サブネット1クラスタの構成が最も簡単
•  ネットワークACLは使わず、セキュリティグループでアクセス管理理する
•  Flume  ノード、ワーカー、マスターなどのロールに応じてセキュリティグルー
プで通信経路路を制御する
•  ロール毎にサブネットを分けるとネットワークトポロジーは複雑になる
•  インターネットアクセスの管理理
•  全インスタンスにパブリックIPアドレスを持たせる
•  インターネットGWとサブネット間の通信はルーティングで制御
•  NATインスタンスを別のサブネットに持たせる
•  NATインスタンスは通常は  Linux  EC2  インスタンス
•  オンプレミスDCとの接続  (VPC  or  Direct  Connect)
•  データマイグレーションの予定がなければ不不要
43©  Cloudera,  Inc.  All  rights  reserved.
データ取り込み戦略略
•  S3ファースト
• データの永続化は保証される
• S3からdistcpなどによりHDFSにロードするため、Hadoop上で利利⽤用可
能になるまでは少し時間がかかる
•  HDFSファースト
• すぐにHadoop上で利利⽤用できる
• S3に転送する前にデータセンター障害などで全インスタンスが停⽌止する
と、データは失われる
44©  Cloudera,  Inc.  All  rights  reserved.
バックアップ・リストア戦略略
•  バックアップ
• S3へのdistcpが基本
•  パーミッション  /  ACL  などが失われるため、HDFS上のセキュリティ
が必須ならクラスタ⼆二重化しかない
• HBaseならスナップショット保存が可能
•  こちらもパーミッションを引き継げない
• 2つのAZにまたがってのクラスタ⼆二重化
• Hiveメタストア等のRDBMSはAmazon  RDSを使って耐障害性を確保
•  リストア
• distcpでS3からHDFSにロード
45©  Cloudera,  Inc.  All  rights  reserved.
クラウド環境とHadoop
オブジェクトストレージ
インスタンスストレージ
Impala
Spark
Kafka Flume
HDFS HBase
データソース クラウド
46©  Cloudera,  Inc.  All  rights  reserved.
バッチ処理理とアドホック処理理
•  インスタンスの動的⽴立立ち上げとS3からのデータ取得による実⾏行行(バースト
実⾏行行)
• 常時⽴立立ち上げる必要がなくコスト削減につながるが、データのロードに
時間がかかるため、処理理は遅くなる
• 利利⽤用頻度度が上がるなら常時稼働させた⽅方がコストは安くなるはず
• また、利利⽤用状況がわかっているのなら必要なリソースを計算できるので、
必要最低限のインスタンスの稼働で済むはず
•  アドホック処理理(Impala等)
• 常時稼働させた状態でインスタンスストレージにデータをロードしてお
くことで性能を確保できる
47©  Cloudera,  Inc.  All  rights  reserved.
Impala  on  S3
•  C5.5  時点ではテクニカルプレビュー
•  対応状況
•  JOIN:  HDFS,  HBase,  S3  全て相互にJOIN可能
•  メタデータ管理理(SentryによるACL含む):  対応済
•  リソース管理理:  対応済
•  未対応
•  DML
•  INSERT  /  LOAD  DATA  /  CREATE  TABLE  AS  SELECT
•  制限事項
•  性能は当然スピンドルより落落ちる
•  チューニング⽅方法で使えるものと使えないものがある
•  HDFSショートサーキットリードなどは当然使えない
48©  Cloudera,  Inc.  All  rights  reserved.
Thank	
  you	
  

Weitere ähnliche Inhalte

Mehr von Cloudera Japan

HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelCloudera Japan
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera Japan
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方Cloudera Japan
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Cloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017Cloudera Japan
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpCloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera Japan
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloudera Japan
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計Cloudera Japan
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング Cloudera Japan
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSCloudera Japan
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltCloudera Japan
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015Cloudera Japan
 

Mehr von Cloudera Japan (20)

HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
 

Kürzlich hochgeladen

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Kürzlich hochgeladen (8)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

クラウド上でのHadoop基盤とCloudera Director 2.0 #rhcj2016

  • 1. 1©  Cloudera,  Inc.  All  rights  reserved. クラウド上でのHadoop基盤 とCloudera  Director  2.0   嶋内  翔、Cloudera  
  • 2. 2©  Cloudera,  Inc.  All  rights  reserved. ⾃自⼰己紹介 •  嶋内  翔(しまうち  しょう) •  テクニカルエバンジェリスト •  2011年年4⽉月にClouderaの最初の⽇日本⼈人社員として⼊入社 •  お客様がCloudera製品を活⽤用できるように⼀一緒に議論論するのがメインの 仕事 •  email:  sho@cloudera.com •  twitter:  @shiumachi
  • 3. 5©  Cloudera,  Inc.  All  rights  reserved. Cloudera  Enterprise     Hadoop  に  Fast  /  Easy  /  Secure  をもたらす   新しいタイプの データプラットフォーム •  一箇所で無制限のデータ •  統合されたマルチフレームワー クデータアクセス Clouderaがもたらすもの: •  Fast  :  ビジネスの迅速性 •  Easy  :  管理の容易性 •  Secure  :  包括的・透過的セ キュリティ OPERATIONS   DATA   MANAGEMENT   STRUCTURED   UNSTRUCTURED   PROCESS,  ANALYZE,  SERVE   UNIFIED  SERVICES   RESOURCE  MANAGEMENT   SECURITY   FILESYSTEM   RELATIONAL   NoSQL   STORE   INTEGRATE   BATCH   STREAM   SQL   SEARCH   SDK   Public  Cloud   Private  Cloud   Hybrid  Environments   Hybrid  Deployment   Flexibility  
  • 4. 6©  Cloudera,  Inc.  All  rights  reserved. クラウド上でのHadoopはオンプレとは違う 最適なパフォーマンスのため の区分化   コスト削減のための一時的ク ラスタの採用   効率性のための、ストレージ と計算リソースの別個の拡張   Object  Store   STORE   COMPUTE  
  • 5. 7©  Cloudera,  Inc.  All  rights  reserved. クラウド上でのHadoopの検討   計算リソースとストレージの弾 力性を簡単にサポートできるだ ろうか?     ワークロードの効率性のためど ういう自動化が利用可能だろう か?   この環境はエンタープライズ級 の要件を満たしているだろう か?     クラスタを停止したあとでも簡 単にトラブルシューティングで きるだろうか?   構築した全クラスタでHadoopの ツールの一貫性を維持できるだ ろうか?     複数のオブジェクトストアをサ ポートしたりスイッチしたりす る必要があるとしたら?  
  • 6. 8©  Cloudera,  Inc.  All  rights  reserved. Cloudera:  クラウド上でのHadoopにおける先進的専門性   CDHは主要クラウドプロバイダにおいて最もデプロイされている Hadoopディストリビューションです   2009   2012   2013   2014   2015   AWS上での大規模 クラスタ   Cloudera  Enterprise   のMSP上でのサポート   ClouderaはAzureサ ポートを追加   ClouderaはGCPサポート を追加   プライベートクラウ ドサポート   リリース   最初の   クラウド上での   Hadoopの顧客   クラウドオブ ジェクトストア のサポート  
  • 7. 9©  Cloudera,  Inc.  All  rights  reserved. ハイブリッド Hadoopディストリ ビューション  
  • 8. 11©  Cloudera,  Inc.  All  rights  reserved. クラウド上でのワークロードの単純化   ビジネスの転換に対する価値を提供   必要な時に、必要な分だけ支 払う   ETL/モデリング   どこに置かれていたとしても、 全てのデータを探索し分析す る   BI/アナリティ クス   たとえ何が起ころうとおもエ ンタープライズレベルでビジ ネスを保護する   アプリケー ションデリバ リ   運用コスト削減   新しいインサイトと新し い価値   リスクなしでの稼働  
  • 9. 15©  Cloudera,  Inc.  All  rights  reserved. Easy:  管理の容易性   自動的に、使った分だけお支払い   自動的な一時クラスタの作成   ジョブ固有のクラスタライフサイクルマネ ジメント     ホスティングのコストの削減   スポットインスタンスサポート     より多くのジョブのサポート   ワークキューの管理をシンプルに     ハイブリッド管理   複数の環境にまたがってのビューと管理   Launch   Cluster Submit   Job Record   Results 1 2 3Auto-‐‑‒ Termina te 4
  • 10. 16©  Cloudera,  Inc.  All  rights  reserved.   ヨーロッパの大規模空港 は数千のマシンからのセ ンサーデータを監視し、 電力使用量や空港利用者 の動線を予測   CUSTOMER  360   参考:  http://blog.godatadriven.com/schiphol-‐‑‒implements-‐‑‒datasciencesuite.html  
  • 11. 21©  Cloudera,  Inc.  All  rights  reserved. アデコは、仕事の空 きと候補者のマッチ ングをより高速に、 正確にすることでリ クルーターの生産性 を向上させ、仕事投 稿の費用を$120M(130 億円)削減  
  • 12. 22©  Cloudera,  Inc.  All  rights  reserved.   カメラ会社はコストを 下げつつ、より高速な 分析と正確性でもって、 新しい市場を分析し、 新製品を創りだした   参考:  hZp://techspec[ve.net/2015/08/03/how-­‐gopro-­‐is-­‐using-­‐amazon-­‐bmc-­‐and-­‐ cloudera-­‐to-­‐kick-­‐everyone-­‐elses-­‐buZ/  
  • 13. 26©  Cloudera,  Inc.  All  rights  reserved. FINRA  monitors  50B   market  events  per  day   to  build  a  holis[c   picture  of  US  market   ac[vity  and  make  real-­‐ [me  decisions,  while   saving  $10-­‐20M   annually  
  • 14. 27©  Cloudera,  Inc.  All  rights  reserved.   Airbnb  improved  their   overall  booking  rate  through   machine  learning  algorithms   and  beZer  search  to  more   effec[vely  match  customers   with  the  right  rental   property     CUSTOMER  360  
  • 15. 34©  Cloudera,  Inc.  All  rights  reserved. Cloudera  Director  2.0  &  C5.5  Releases     •  高速デプロイ   •  ジョブ送信API   •  スポットインスタンス   •  クラスタ終了前フック   •  Hive  on  S3   •  Spark  on  S3   一時クラスタ     •  クラスタクローン   •  クラスタ復旧   •  オンデマンドとスポットイ ンスタンスを同じクラスタ で実行可能   •  Impala  on  S3  (beta)     BI/分析クラスタ     •  HAクラスタの拡張   •  HA/Kerberosクラスタをブー トストラップ時に有効可能   •  ワーカーノードの復旧   •  外部DBオプション   •  より多くのインサイトを持 つUIの改善   アプリケーション デリバリクラスタ   ALL  WORKLOADS:     •  AWS  s3aコネクタサポート   •  クラスタテンプレート   •  GUI  改善:  クラスタの集約とインスタンスレベルのメタデータビューとフィルタリング  
  • 16. 35©  Cloudera,  Inc.  All  rights  reserved. Power  BI   Microso>   Azure   Marketplace   Marketplace  Delivers   •  Full  cloud  deployment;  no  hardware  dependency   •  Start  work  in  <40min  using  Azure  templates   •  Fully  automated  setup  with  best  prac[ces  from   OS  to  Cloudera     Customer  360   Compliance   InnovaKon   Product  &  Services   ExpressRoute   Cloudera’s  Azure     Marketplace  Offering  
  • 17. 36©  Cloudera,  Inc.  All  rights  reserved. Get  Started   AWS  Reference  Guide   GCP  Reference  Guide     Download  Cloudera  Director   www.cloudera.com/downloads     Try  It  Out     Cloudera  Live  (includes  step-­‐by-­‐step  tutorial)     AWS  Quickstart   Azure  Marketplace   Resources   API  Integra[on  &  Scrip[ng   hZps://github.com/cloudera/director-­‐ sdk   hZps://github.com/cloudera/director-­‐ scripts     Addi[onal  Cloud  Integra[on   hZps://github.com/cloudera/director-­‐spi   hZps://github.com/cloudera/director-­‐ google-­‐plugin    
  • 18. 37©  Cloudera,  Inc.  All  rights  reserved. Cloudera  on  AWS
  • 19. 38©  Cloudera,  Inc.  All  rights  reserved. Cloudera  on  AWS  の基本的な考え⽅方 •  ⻑⾧長期稼働クラスタが基本 •  ⼀一時クラスタは単発的なバッチ処理理のみ •  HDFSのデータは性能確保のためインスタンスストレージに保存 • よって、データセンター障害時などにより全インスタンスが停⽌止した場 合、HDFS上のデータは失われる •  データの永続化はS3で⾏行行う •  ⾼高CPUコア数  /  ⾼高メモリ数のインスタンスを少数稼働させる
  • 20. 39©  Cloudera,  Inc.  All  rights  reserved. ストレージ選定 ストレージのタイプ メリット デメリット ⽤用途 S3 •  耐障害性が⾼高い •  インスタンスの起動が不不要 •  スループットが遅い •  HDFSと異異なり、パーミッション 情報などを保持出来ない •  Hadoopエコシステムの全機能が 対応しているわけではない •  データの永続化層 •  データ取り込み⼝口 インスタンスストレージ (エフェメラルストレージ) •  インスタンスに直結している物理理 ディスクを使うため、Hadoop本来 の性能を発揮可能 •  通常のHDFS⽤用のディスクとして機 能するため、Hadoopエコシステム の全機能が利利⽤用可能 •  インスタンス障害により全ストレー ジ情報がロストする •  HDFS EBS •  ランダムIOに強い •  インスタンスを停⽌止してもデータを 保持可能 •  シーケンシャルIOに弱い •  ⾼高い •  EC2/EBS間のネットワーク帯域は 制限されているのでボトルネックに なる •  OSデータの保存
  • 21. 40©  Cloudera,  Inc.  All  rights  reserved. インスタンス選定 ワークロードのタイプ サービスの例例 管理理ノード⽤用インスタンス ワーカーノード⽤用インスタンス バッチ処理理 •  MapReduce •  YARN •  Spark •  Hive •  Pig •  Crunch •  c3.8xlarge •  d2.2xlarge •  i2.2xlarge •  i2.4xlarge •  i2.8xlarge •  r3.8xlarge •  m2.4xlarge •  c3.8xlarge •  d2.8xlarge •  i2.2xlarge •  i2.4xlarge •  i2.8xlarge •  r3.8xlarge リアルタイム処理理 •  HBase •  Solr •  Impala •  c3.8xlarge •  d2.2xlarge •  i2.4xlarge •  i2.8xlarge •  r3.8xlarge •  d2.8xlarge •  i2.4xlarge •  i2.8xlarge エンタープライズデータハブ •  CDHの全サービス •  d2.2xlarge •  i2.2xlarge •  i2.4xlarge •  d2.8xlarge
  • 22. 41©  Cloudera,  Inc.  All  rights  reserved. ネットワーク •  VPC  必須 •  1サブネット1クラスタの構成が最も簡単 •  ネットワークACLは使わず、セキュリティグループでアクセス管理理する •  Flume  ノード、ワーカー、マスターなどのロールに応じてセキュリティグルー プで通信経路路を制御する •  ロール毎にサブネットを分けるとネットワークトポロジーは複雑になる •  インターネットアクセスの管理理 •  全インスタンスにパブリックIPアドレスを持たせる •  インターネットGWとサブネット間の通信はルーティングで制御 •  NATインスタンスを別のサブネットに持たせる •  NATインスタンスは通常は  Linux  EC2  インスタンス •  オンプレミスDCとの接続  (VPC  or  Direct  Connect) •  データマイグレーションの予定がなければ不不要
  • 23. 43©  Cloudera,  Inc.  All  rights  reserved. データ取り込み戦略略 •  S3ファースト • データの永続化は保証される • S3からdistcpなどによりHDFSにロードするため、Hadoop上で利利⽤用可 能になるまでは少し時間がかかる •  HDFSファースト • すぐにHadoop上で利利⽤用できる • S3に転送する前にデータセンター障害などで全インスタンスが停⽌止する と、データは失われる
  • 24. 44©  Cloudera,  Inc.  All  rights  reserved. バックアップ・リストア戦略略 •  バックアップ • S3へのdistcpが基本 •  パーミッション  /  ACL  などが失われるため、HDFS上のセキュリティ が必須ならクラスタ⼆二重化しかない • HBaseならスナップショット保存が可能 •  こちらもパーミッションを引き継げない • 2つのAZにまたがってのクラスタ⼆二重化 • Hiveメタストア等のRDBMSはAmazon  RDSを使って耐障害性を確保 •  リストア • distcpでS3からHDFSにロード
  • 25. 45©  Cloudera,  Inc.  All  rights  reserved. クラウド環境とHadoop オブジェクトストレージ インスタンスストレージ Impala Spark Kafka Flume HDFS HBase データソース クラウド
  • 26. 46©  Cloudera,  Inc.  All  rights  reserved. バッチ処理理とアドホック処理理 •  インスタンスの動的⽴立立ち上げとS3からのデータ取得による実⾏行行(バースト 実⾏行行) • 常時⽴立立ち上げる必要がなくコスト削減につながるが、データのロードに 時間がかかるため、処理理は遅くなる • 利利⽤用頻度度が上がるなら常時稼働させた⽅方がコストは安くなるはず • また、利利⽤用状況がわかっているのなら必要なリソースを計算できるので、 必要最低限のインスタンスの稼働で済むはず •  アドホック処理理(Impala等) • 常時稼働させた状態でインスタンスストレージにデータをロードしてお くことで性能を確保できる
  • 27. 47©  Cloudera,  Inc.  All  rights  reserved. Impala  on  S3 •  C5.5  時点ではテクニカルプレビュー •  対応状況 •  JOIN:  HDFS,  HBase,  S3  全て相互にJOIN可能 •  メタデータ管理理(SentryによるACL含む):  対応済 •  リソース管理理:  対応済 •  未対応 •  DML •  INSERT  /  LOAD  DATA  /  CREATE  TABLE  AS  SELECT •  制限事項 •  性能は当然スピンドルより落落ちる •  チューニング⽅方法で使えるものと使えないものがある •  HDFSショートサーキットリードなどは当然使えない
  • 28. 48©  Cloudera,  Inc.  All  rights  reserved. Thank  you