Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
1	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
MapReduce	
  を置き換えるSpark	
  
~ Hadoop	
  とSpark	
  の統合 ~
The...
2	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
アジェンダ
•  Apache  Spark  の歴史
•  Spark  の優位点
•  MapReduce  を置き...
3	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
MapReduce  は多く分野の課題に有効ですが...
さまざまな課題の解決に利利⽤用されてきましたが
•  限定的な...
4	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
...  しかし、望むらくは
課題に応じて、改善できる別の⽅方法があります:
特定⽤用途の  
システム
•  特定の課...
5	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Apache  Spark  の登場
MapReduce  より柔軟な  汎⽤用処理理フレームワーク
主な特性:
•  ...
6	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Apache  Spark
Hadoop  のための柔軟なインメモリデータ処理理
導⼊入が容易易
柔軟で拡張の⾼高い
A...
7	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
容易易な導⼊入
⽣生産性の⾼高い⾔言語をサポート
•  同⼀一の  API  で複数の⾔言語をネイティブに
サポート
•...
8	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
容易易な開発
インタラクティブな開発が可能
•  データサイエンティストのための
インタラクティブな探索索機能
•  「...
9	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
メモリの優位性を活⽤用する  Spark
RDD(Resilient  Distributed  Dataset)
• ...
10	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Spark  のエコシステムと  Hadoop
Spark  
Streaming
MLlib SparkSQL Gr...
11	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera  が  Spark  の動性を牽引
2013 2014 2015 2016
Spark  の可能性
...
12	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera  における  Spark
•  ClouderaはSparkを最初に出荷、サポートした  Hadoo...
13	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera  の  Spark  エンジニアリングに対するコミットメント
Cloudera
67%
Intel
...
14	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera  のカスタマー
•  他のベンダーのすべてを合わせた数以上のお客様環境でSparkが稼働
•  15...
15	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Cloudera  カスタマーの適⽤用事例例
Core  Spark Spark  Streaming
•  ポートフ...
16	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Spark  が  MapReduce  を置き換える
Hadoop  の標準実⾏行行エンジンへ
17	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
コミュニティイニシャティブ:Spark  が  MapReduce  に取って替わる
ステージ1
• Crunch  ...
18	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Spark  と  Hadoop  の統合
One  Platform  Initiative  の投資分野
管理理
...
19	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Hadoop  のデータ処理理の将来
特定⽬目的⽤用途のエンジンが  Spark  を補完
汎⽤用データ処理理
Spa...
20	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
実業務のために構築された  Cloudera
Hadoop  が提供:
•  無制限のデータを1か所から
•  統合マ...
21	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
Spark  に関するリソース
•  Spark  を学ぶ
•  Oʼ’Reilly  Advanced  Analy...
22	
  ©	
  Cloudera,	
  Inc.	
  All	
  rights	
  reserved.	
  
ありがとうございました
@cuMng	
  
Nächste SlideShare
Wird geladen in …5
×

MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015

Cloudera, Inc. チーフアーキテクト Doug CuttingによるCloudera World Tokyo 2015の講演資料です

  • Als Erste(r) kommentieren

MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015

  1. 1. 1  ©  Cloudera,  Inc.  All  rights  reserved.   MapReduce  を置き換えるSpark   ~ Hadoop  とSpark  の統合 ~ The  One  Platform  Initiative Doug  Cutting  |  チーフアーキテクト  |  Cloudera @cutting
  2. 2. 2  ©  Cloudera,  Inc.  All  rights  reserved.   アジェンダ •  Apache  Spark  の歴史 •  Spark  の優位点 •  MapReduce  を置き換える  Spark   •  One  Platform  Initiative •  Hadoop  のデータ処理理の将来
  3. 3. 3  ©  Cloudera,  Inc.  All  rights  reserved.   MapReduce  は多く分野の課題に有効ですが... さまざまな課題の解決に利利⽤用されてきましたが •  限定的な表現⼒力力  /  プログラミングの難しさ •  設計に起因するパフォーマンスの限界 MapReduce   実⾏行行エンジン Hive Pig Mahout SolrCrunch
  4. 4. 4  ©  Cloudera,  Inc.  All  rights  reserved.   ...  しかし、望むらくは 課題に応じて、改善できる別の⽅方法があります: 特定⽤用途の   システム •  特定の課題に対して優れた解決⼒力力 •  例例:  Giraph/Graphlab  (グラフ処理理)、   Impala  (インタラクティブ  SQL) 汎⽤用化した  MapReduce  の機能 •  課題解決のためにより機能豊富な基盤を提供 •  例例:Hama  (バルク同期並列列)、  Dryad   (Arbitrary  DAG)
  5. 5. 5  ©  Cloudera,  Inc.  All  rights  reserved.   Apache  Spark  の登場 MapReduce  より柔軟な  汎⽤用処理理フレームワーク 主な特性: •  分散メモリを使⽤用 •  データ並列列処理理のための、全有向グラフ表現 (Full  Directed  Graph  expressions) •  開発者のエクスペリエンスの向上 残された課題  : •  リニアな拡張性 •  フォールトトレランス •  データローカリティベースの処理理
  6. 6. 6  ©  Cloudera,  Inc.  All  rights  reserved.   Apache  Spark Hadoop  のための柔軟なインメモリデータ処理理 導⼊入が容易易 柔軟で拡張の⾼高い API ⾼高速なバッチおよび ストリーム処理理 •  Scala,Java,Python向けの   API •  対話的なシェル •  さまざまなワークロード の種類向けのAPI: •  バッチ   •  ストリーミング •  機械学習 •  グラフ •  インメモリ処理理と キャッシング
  7. 7. 7  ©  Cloudera,  Inc.  All  rights  reserved.   容易易な導⼊入 ⽣生産性の⾼高い⾔言語をサポート •  同⼀一の  API  で複数の⾔言語をネイティブに サポート •  Scala,  Java,  Python •  コードを最⼩小限に抑えるため、 クロージャー、イテレーションなど ⼀一般的な⾔言語構造を利利⽤用 •  2~∼5倍  コードを削減 Python   lines = sc.textFile(...) lines.filter(lambda s: “ERROR” in s).count() Scala   val lines = sc.textFile(...) lines.filter(s => s.contains(“ERROR”)).count() Java   JavaRDD<String> lines = sc.textFile(...); lines.filter(new Function<String, Boolean>() { Boolean call(String s) { return s.contains(“error”); } }).count();
  8. 8. 8  ©  Cloudera,  Inc.  All  rights  reserved.   容易易な開発 インタラクティブな開発が可能 •  データサイエンティストのための インタラクティブな探索索機能 •  「アプリケーション」の開発は不不要   •  本番稼動中のシステムでプロトタイプア プリケーションを開発可能 percolateur:spark srowen$ ./bin/spark-shell --master local[*] ... Welcome to ____ __ / __/__ ___ _____/ /__ _ / _ / _ `/ __/ '_/ /___/ .__/_,_/_/ /_/_ version 1.5.0-SNAPSHOT /_/ Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_51) Type in expressions to have them evaluated. Type :help for more information. ... scala> val words = sc.textFile("file:/usr/share/dict/words") ... words: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21 scala> words.count ... res0: Long = 235886 scala>
  9. 9. 9  ©  Cloudera,  Inc.  All  rights  reserved.   メモリの優位性を活⽤用する  Spark RDD(Resilient  Distributed  Dataset) •  分散したフォールトトレラントなキャッシュにデータを保存する、 メモリキャッシュレイヤ •  データセットがメモリに収まらない場合、ディスクにフォールバック •  安定的なストレージ内でデータを並列列変換して⽣生成 •  データのリネージ(データの系統)の概念念でフォールトトレランスを提供
  10. 10. 10  ©  Cloudera,  Inc.  All  rights  reserved.   Spark  のエコシステムと  Hadoop Spark   Streaming MLlib SparkSQL GraphX Data-‐‑‒frames SparkR ストレージ HDFS,  HBase リソース管理理 YARN Spark Impala MR OthersSearch
  11. 11. 11  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  が  Spark  の動性を牽引 2013 2014 2015 2016 Spark  の可能性 を早くから認識識 CDH  4.4  で Spark  の出荷と サポートを開始 YARN  連携に   Spark  を追加 Spark  を標準処理理エンジン にする取り組みを発表 初のSpark トレーニングを開始 セキュリティ 統合を追加 Cloudera  のエンジニアが Oʼ’Reilly  Spark  を出版 パフォーマンス、利利便便性、 エンタープライズ機能の 向上を牽引
  12. 12. 12  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  における  Spark •  ClouderaはSparkを最初に出荷、サポートした  Hadoop  ベンダー •  SparkはCloudera  プラットフォームに完全統合 •  共有データ、メタデータ、リソース管理理、アドミニストレーション、セキュリティおよびガバナンス •  総合的なビッグデータプラットフォームのための、特定⽤用途の分析ツールを補完 •  Cloudera  はSpark  のトレーニングを提供している最初の  Hadoop  ベンダー •  他のすべてのベンダーよりも数多くのお客様をトレーニング •  もっとも著名なトレーニングコース •  Cloudera  は第2位の競合相⼿手の5倍のエンジニアリングリソースを保有 •  最⼤大のコミッターを抱え、改善に最⼤大の貢献 •  ⼗十分にトレーニングされ、Spark  ユースケースの幅広い導⼊入専⾨門知識識を有する、世界中のスタッフ
  13. 13. 13  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  の  Spark  エンジニアリングに対するコミットメント Cloudera 67% Intel 17% Hortonworks 17% Hadoop  ディストリビューション別  Spark  のコミッター* *  IBM  と  MapR  の コミッターはゼロ Hadoop  ディストリビューター別  パッチ提供数 Cloudera,  370   Hortonworks,  4   IBM,  12   MapR,  1   Intel,  400  
  14. 14. 14  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  のカスタマー •  他のベンダーのすべてを合わせた数以上のお客様環境でSparkが稼働 •  150  以上のお客様 •  800  ノードもの  Spark  クラスター •  さまざまな業界で多様なユースケース •  調査のパーソナライズ •  ゲノム研究 •  保険のモデル作成 •  広告の最適化 •  疾患状況の予測モデリング
  15. 15. 15  ©  Cloudera,  Inc.  All  rights  reserved.   Cloudera  カスタマーの適⽤用事例例 Core  Spark Spark  Streaming •  ポートフォリオリスク分析 •  ETL  パイプラインの⾼高速化 •  20年年超の株式データ⾦金金融 サービス ヘルス •  ⼈人間の遺伝⼦子中における病原 遺伝⼦子の特定 •  ヘルスケアデータセットから Jaccard  指数を計算 ERP •  光学⽂文字認識識と紙幣分類 •  傾向分析   •  ⽂文書分類  (LDA) •  不不正⾏行行為分析データ サービス 1010 •  オンライン不不正⾏行行為検知 ⾦金金融 サービス ヘルス •  敗⾎血症インシデント予測 ⼩小売 •  オンラインレコメンデーションシステ •  リアルタイム在庫管理理 広告 •  リアルタイム広告パフォーマンス分析
  16. 16. 16  ©  Cloudera,  Inc.  All  rights  reserved.   Spark  が  MapReduce  を置き換える Hadoop  の標準実⾏行行エンジンへ
  17. 17. 17  ©  Cloudera,  Inc.  All  rights  reserved.   コミュニティイニシャティブ:Spark  が  MapReduce  に取って替わる ステージ1 • Crunch  on  Spark • Search  on  Spark ステージ2 • Hive  on  Spark  (beta) • Spark  on  HBase  (beta) ステージ3 • Pig  on  Spark  (alpha) • Sqoop  on  Spark Cloudera  が、コンポーネントを  Spark  に移植するコミュニティの開発を牽引
  18. 18. 18  ©  Cloudera,  Inc.  All  rights  reserved.   Spark  と  Hadoop  の統合 One  Platform  Initiative  の投資分野 管理理 Hadoop  ネイティブのリソース 管理理機能を利利⽤用 セキュリティ Hadoop  のセキュリティ以上の 機能を完全にサポート 拡張性 1万ノード以上のクラスターを可能に ストリーミング ⼀一般的なストリーミング処理理 ワークロードの  80%  をサーポート
  19. 19. 19  ©  Cloudera,  Inc.  All  rights  reserved.   Hadoop  のデータ処理理の将来 特定⽬目的⽤用途のエンジンが  Spark  を補完 汎⽤用データ処理理 Spark ⾼高速バッチ処理理、機械学習、 ストリーミング処理理 分析 データベース Impala 低レイテンシLow-‐‑‒Latency ⼤大規模並列列クエリ 全⽂文検索索    Solr   テキストデータのクエリ オンディスク処理理 MapReduce 超⼤大規模なジョブ、極めてディスク   I/O  インテンシブなジョブ 共有  : •  データストレージ •  メタデータ •  リソース管理理 •  アドミニ ストレーション •  セキュリティ •  ガバナンス
  20. 20. 20  ©  Cloudera,  Inc.  All  rights  reserved.   実業務のために構築された  Cloudera Hadoop  が提供: •  無制限のデータを1か所から •  統合マルチフレームワークデータアクセス Cloudera  が提供: •  優れたパフォーマンス •  エンタープライズ向けセキュリティ機能 •  データ管理理機能 •  シンプルな運⽤用管理理機能 セキュリティと運⽤用管理理 無制限のストレージ プロセス ディスカバー モデル サーブ 柔軟な構築 オンプレミス アプライアンス エンジニアドシステム パブリッククラウド プライベートクラウド ハイブリッドクラウド 最新のデータプラットフォームにエンタープライズの要件をプラス
  21. 21. 21  ©  Cloudera,  Inc.  All  rights  reserved.   Spark  に関するリソース •  Spark  を学ぶ •  Oʼ’Reilly  Advanced  Analytics  with  Spark  eBook  (Clouderaの社員が執筆) •  Cloudera  Developer  Blog •  cloudera.com/spark   •  トレーニング •  Cloudera  Spark  Training •  試しに使ってみる •  Cloudera  Live  Spark  Tutorial
  22. 22. 22  ©  Cloudera,  Inc.  All  rights  reserved.   ありがとうございました @cuMng  

×