SlideShare ist ein Scribd-Unternehmen logo
1 von 25
The Future of Apache Spark
Patrick Wendell
First Things First…
Recruit Technologies, NTT Data and
#HCJ2104, thank you for your hospitality
This slide – I managed to translate myself!
Recruit Technologies, NTT Data とHadoop Conference
Japanのおもてなしをありがとうございました。
このスライドは、私がトランスレートした。
A Week in Spark Development
500 patch updates
200 updates to our issue tracker
140 user list e-mails
80 merged patches
Spark開発コミュニティの1週間のアクティビティ
パッチの投稿や修正など : 500件
JIRA/GitHub上でのコメントなど : 200件
ユーザメーリングリスト上でのやり取り : 140スレッド
マージされるパッチの数 : 80件
Spark’s Future
Spark has seen rapid growth in the last year… where
are we going now?
Spark releases and developer process
Technical roadmap over future releases
Sparkのリリースや開発プロセス
将来のリリースにわたってのテクニカルロードマップを紹介します
Spark の将来
ここ1年でSparkは急速に成長しました
現在どこに向かっているのでしょうか?
Goal of the Spark project
Empower data scientists and engineers
Expressive, clean APIs
Unified runtime across many environments
Powerful standard libraries
Spark プロジェクトの目的
データサイエンティストやエンジニアの能力拡張
表現力のある、クリーンなAPIの提供
多様な環境にわたって統合されたランタイム
強力な標準ライブラリ群
API stability
In 1.0+ Spark has well defined public API’s and well
defined experimental API’s
Apps written against Spark API will be portable in new
versions
Patches that break our API automatically fail our build
Spark1.0以降、標準APIと試験的APIが提供されている
Spark APIに沿って書かれたアプリは新しいバージョンでも
動作する
API互換の無いパッチはビルド時に自動的に失敗する
API の安定性について
Developer-friendly release cadence
Minor releases every 3 months
1.1 (August), 1.2, 1.3
Maintenance releases with fixes as necessary
1.0.1, 1.0.2, etc
Extremely conservative about patch releases
マイナーリリースは3ヶ月毎に提供
必要に応じてメンテナンスリリースを提供
ただし、パッチリリースに関しては極めて慎重に
開発者にやさしいリリースサイクル
The Spark Stack
Spark Runtime
YARN, Mesos, AWS
HDFS, S3,
Cassandra, Hana
Cluster Managers Data Sources
Spark
Streaming
real-time
Spark SQL
Relational
operators
GraphX
Graph
processing
MLLib
machine
learning
The Spark Stack
Spark Runtime
Spark
Streaming
real-time
Spark SQL
Relational
operators
GraphX
Graph
processing
MLLib
machine
learning
More mature, focus on optimization and pluggability
Newer, focused on adding capabilities
新しいコンポーネントで、ケーパビリティの追加に集中
より完成度の高いコンポーネントで、最適化やパーツの可換性に集中
The future of Spark is libraries
Critical component of any successful runtime
Packaged and distributed with Spark to provide full
inter-operability
Lead by experts in respective fields, highly curated
and integrated with Spark core API
Spark の未来は「ライブラリ」
成功するランタイムの最重要コンポーネント
パッケージ化,ディストリビューション化して,相互運用性を提供
各分野の専門家たちによってリードされ、精選されて、Spark
core API に統合される
The Spark Stack
Spark Runtime
Spark
Streaming
real-time
Spark SQL
Relational
operators
GraphX
Graph
processing
MLLib
machine
learning
More mature, focus on optimization and pluggability
Newer, focused on adding capabilities
新しいコンポーネントで、ケーパビリティの追加に集中
より完成度の高いコンポーネントで、最適化やパーツの可換性に集中
Spark SQL
Growing faster than any other component
Support for SQL language and notion of typed schema
RDDs
Focuses going forward:
- Optimization (code gen, faster joins, etc)
- Language extensions (towards SQL92)
- Integration (next slide…)
他のコンポーネントよりも急速に成長
SQL言語と型付きスキーマRDDの考えをサポート
現在優先的に取り組んでいる課題
- クエリ最適化 / 言語の拡張 / インテグレーション
Spark SQL and SchemaRDD
Spark Runtime
Spark SQL
Hadoop NoSQL RDBMS
Will facilitate deeper integration with other systems
Parquet
JSON
他のシステムとの深いインテグレーションをひきつける
Spark SQL and Shark
Spark 0.9Shark 0.9
Spark 1.0
Spark 1.1
Shark 0.8 Spark 0.8
Spark 1.0.1 + JDBC
Spark 1.1+ will provide a
JDBC/ODBC Server allowing
direct upgrade for Shark users.
Preview release packaged
with Spark 1.0.1
このサーバソフトウェアのプレ
ビューリリース版がSpark 1.0.1に
同梱されている。
Spark 1.1以上のバージョンでは、
JDBC/ODBC接続用のサーバソ
フトウェアの提供を予定している。
これによりSharkを使用している
ユーザが直接アップグレードする
ことができる。
The Spark Stack
Spark Runtime
Spark
Streaming
real-time
GraphX
Graph
processing
MLLib
machine
learning
More mature, focus on optimization and plugability
Newer, focused on adding capabilities
Spark SQL
Relational
operators
新しいコンポーネントで、ケーパビリティの追加に集中
より完成度の高いコンポーネントで、最適化やパーツの可換性に集中
MLlib
Second fastest growing component 
MLLib 1.0 has about ~15 algorithms
MLLib 1.1 should roughly double that…
traditional descriptive statistics:
sampling, correlation, estimators, tests
learning algorithms:
NMF, Sparse SVD, LDA…
2番目に成長の早いコンポーネント
MLLib1.0では15のアルゴリズムが利用可能
MLLib1.1ではざっと2倍のアルゴリズムが利用可能となる予定
伝統的な記述統計
学習アルゴリズム
SparkR
Make SparkR “production ready”
(Alteryx and Databricks).
Integration with Mllib.
Consolidating the the data frame and RDD concepts.
Fast
Scalable
Expressive
Numerical
Interactive
Packages
SparkR を “production ready” にする
Mllib とのインテグレーション
データフレームと RDD のコンセプトを統合
The Spark Stack
Spark Runtime
Spark
Streaming
real-time
Spark SQL
Relational
operators
GraphX
Graph
processing
MLLib
machine
learning
More mature, focus on optimization and pluggability
Newer, focused on adding capabilities
新しいコンポーネントで、ケーパビリティの追加に集中
より完成度の高いコンポーネントで、最適化やパーツの可換性に集中
Notable trends
Hardware
Memory prices continue to fall, 256+GB machines
not uncommon
SSD’s becoming widely deployed
Software
Tachyon and other cluster memory managers
注目すべきトレンド
メモリの容量単価が下がり続け、256GB以上のメモリを搭載するハードウェ
アも珍しくない
SSD が広く普及しはじめている
Tachyon や他にもクラスタ全体でメモリを管理するソフトウェアが登場
Spark Core
Allow extension/innovation by defining internal API’s:
Internal storage API
Support for SSDs
Shared memory systems like Tachyon,
and (eventually) HDFS caching/DDMs.
Spark shuffle API
Sort-based shuffle
Pipelined shuffle
内部APIの定義により、拡張/革新が可能になった
SSDのサポート
Tachyonのような共有型のメモリシステムや、
HDFS caching / 分散データマネジメントへの対応
Sort-based shuffle や Pipelined shuffle など、
shuffle 時の挙動をプラガブルに
Timeline
Spark 1.0.1
JSON support in Spark SQL
Spark 1.1
Generalized shuffle interface
MLLib stats algorithms
JDBC server
Sort-based shuffle*
Spark 1.2
Refactored storage support
Spark 1.3+
SparkR
I’ve only scratched the surface…
Streaming: new data sources and tighter flume
integration
Graphx: optimizations and API stability
Core: Elastic scaling on YARN, user-defined metrics
and counters
[Your work here]
詳細には触れていない内容...
Streaming : 新しいデータソースや、Flumeとのより強い統合
GraphX: 最適化とAPIの安定化
Core: YARNによる柔軟なスケーリング、ユーザー定義メトリク
ス/カウンタ
[あなたのワークもここに含まれるかも]
Should also mention: Databricks Cloud
Provision a Spark cluster instantly in the cloud
Interactive workspace with full power of Spark:
notebooks, dashboards, and scheduled jobs
In private beta now, you can sign up at
databricks.com/cloud (or find me!)
もう一つ伝えておくべきこと:Databricks Cloud
クラウドですぐに Spark クラスタを提供
Sparkのフルパワーを備えたインタラクティブなワークスペース
notebooks, ダッシュボードとスケジューリングされたジョブ
Sparkのフルパワーを備えたインタラクティブなワークスペース
Wrapping it all up
Spark will grow substantially in the next year
Focus is on libraries and improving core internals for
future innovation
Release process and cadence provides users with
stable releases despite fast growth
まとめ
Sparkは次の1年についても十分な成長を遂げる予定
将来的な革新に向けライブラリやコア機能の改良にフォーカス
リリースプロセスとサイクル化により、急速な成長を遂げるつ
つも安定したリリースをユーザーに提供する
Thank You!

Weitere ähnliche Inhalte

Was ist angesagt?

[Modern Cloud Day Tokyo 2019] 基調講演(Day2):次世代クラウドがもたらす日本のイノベーション
[Modern Cloud Day Tokyo 2019] 基調講演(Day2):次世代クラウドがもたらす日本のイノベーション[Modern Cloud Day Tokyo 2019] 基調講演(Day2):次世代クラウドがもたらす日本のイノベーション
[Modern Cloud Day Tokyo 2019] 基調講演(Day2):次世代クラウドがもたらす日本のイノベーションオラクルエンジニア通信
 
2021年10月26日 Qlik Sense SaaS vs Client Managed徹底比較
2021年10月26日  Qlik Sense SaaS  vs Client Managed徹底比較2021年10月26日  Qlik Sense SaaS  vs Client Managed徹底比較
2021年10月26日 Qlik Sense SaaS vs Client Managed徹底比較QlikPresalesJapan
 
今年はJava進化の年!今知っておくべき新しいJava
今年はJava進化の年!今知っておくべき新しいJava今年はJava進化の年!今知っておくべき新しいJava
今年はJava進化の年!今知っておくべき新しいJavaTakashi Ito
 
TECHTALK 20201117 ビッグデータへのアプローチ ー チャートをリアルタイムに更新するDynamic Views とオンデマンドアプリ生成
TECHTALK 20201117 ビッグデータへのアプローチ ー チャートをリアルタイムに更新するDynamic Views とオンデマンドアプリ生成TECHTALK 20201117 ビッグデータへのアプローチ ー チャートをリアルタイムに更新するDynamic Views とオンデマンドアプリ生成
TECHTALK 20201117 ビッグデータへのアプローチ ー チャートをリアルタイムに更新するDynamic Views とオンデマンドアプリ生成QlikPresalesJapan
 
TECHTALK 20200825 RやPythonとの連携で実現するQlik Senseの高度な分析
TECHTALK 20200825 RやPythonとの連携で実現するQlik Senseの高度な分析TECHTALK 20200825 RやPythonとの連携で実現するQlik Senseの高度な分析
TECHTALK 20200825 RやPythonとの連携で実現するQlik Senseの高度な分析QlikPresalesJapan
 
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...オラクルエンジニア通信
 
Oracle Cloud PaaS & IaaS:2018年4月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年4月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年4月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年4月度サービス情報アップデートオラクルエンジニア通信
 
IBM DB2 for zOSのソースエンドポイントとしての利用
IBM DB2 for zOSのソースエンドポイントとしての利用IBM DB2 for zOSのソースエンドポイントとしての利用
IBM DB2 for zOSのソースエンドポイントとしての利用QlikPresalesJapan
 
オラクルが提唱するクラウドの真価と可能性(Oracle Cloud Days Tokyo 2015)
オラクルが提唱するクラウドの真価と可能性(Oracle Cloud Days Tokyo 2015)オラクルが提唱するクラウドの真価と可能性(Oracle Cloud Days Tokyo 2015)
オラクルが提唱するクラウドの真価と可能性(Oracle Cloud Days Tokyo 2015)オラクルエンジニア通信
 
Oracle Cloud PaaS & IaaS:2018年5月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年5月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年5月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年5月度サービス情報アップデートオラクルエンジニア通信
 
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデートオラクルエンジニア通信
 
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデートオラクルエンジニア通信
 
20200424 Oracle Big Data Jam Session #2 登壇資料(Data Flow)
20200424 Oracle Big Data Jam Session #2 登壇資料(Data Flow)20200424 Oracle Big Data Jam Session #2 登壇資料(Data Flow)
20200424 Oracle Big Data Jam Session #2 登壇資料(Data Flow)オラクルエンジニア通信
 
リアクティブ・アーキテクチャ ~大規模サービスにおける必要性と課題〜 #devsumi
リアクティブ・アーキテクチャ ~大規模サービスにおける必要性と課題〜 #devsumiリアクティブ・アーキテクチャ ~大規模サービスにおける必要性と課題〜 #devsumi
リアクティブ・アーキテクチャ ~大規模サービスにおける必要性と課題〜 #devsumiYuta Okamoto
 
TECHTALK 20200811 QlikViewをQlik Sense SaaS環境で活用ー新しい分析体験の勧め
TECHTALK 20200811 QlikViewをQlik Sense SaaS環境で活用ー新しい分析体験の勧めTECHTALK 20200811 QlikViewをQlik Sense SaaS環境で活用ー新しい分析体験の勧め
TECHTALK 20200811 QlikViewをQlik Sense SaaS環境で活用ー新しい分析体験の勧めQlikPresalesJapan
 
日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介
日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介
日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介CASAREAL, Inc.
 
[Modern Cloud Day Tokyo 2019] 実践エンタープライズ・ブロックチェーン ~ システム設計・運用における課題とそのソリューション
[Modern Cloud Day Tokyo 2019] 実践エンタープライズ・ブロックチェーン ~ システム設計・運用における課題とそのソリューション[Modern Cloud Day Tokyo 2019] 実践エンタープライズ・ブロックチェーン ~ システム設計・運用における課題とそのソリューション
[Modern Cloud Day Tokyo 2019] 実践エンタープライズ・ブロックチェーン ~ システム設計・運用における課題とそのソリューションオラクルエンジニア通信
 

Was ist angesagt? (20)

[Modern Cloud Day Tokyo 2019] 基調講演(Day2):次世代クラウドがもたらす日本のイノベーション
[Modern Cloud Day Tokyo 2019] 基調講演(Day2):次世代クラウドがもたらす日本のイノベーション[Modern Cloud Day Tokyo 2019] 基調講演(Day2):次世代クラウドがもたらす日本のイノベーション
[Modern Cloud Day Tokyo 2019] 基調講演(Day2):次世代クラウドがもたらす日本のイノベーション
 
JDK: 新しいリリースモデル解説(ver.2.0)
JDK: 新しいリリースモデル解説(ver.2.0)JDK: 新しいリリースモデル解説(ver.2.0)
JDK: 新しいリリースモデル解説(ver.2.0)
 
2021年10月26日 Qlik Sense SaaS vs Client Managed徹底比較
2021年10月26日  Qlik Sense SaaS  vs Client Managed徹底比較2021年10月26日  Qlik Sense SaaS  vs Client Managed徹底比較
2021年10月26日 Qlik Sense SaaS vs Client Managed徹底比較
 
今年はJava進化の年!今知っておくべき新しいJava
今年はJava進化の年!今知っておくべき新しいJava今年はJava進化の年!今知っておくべき新しいJava
今年はJava進化の年!今知っておくべき新しいJava
 
JDK: 新しいリリースモデル解説(ver.2.1)
JDK: 新しいリリースモデル解説(ver.2.1)JDK: 新しいリリースモデル解説(ver.2.1)
JDK: 新しいリリースモデル解説(ver.2.1)
 
TECHTALK 20201117 ビッグデータへのアプローチ ー チャートをリアルタイムに更新するDynamic Views とオンデマンドアプリ生成
TECHTALK 20201117 ビッグデータへのアプローチ ー チャートをリアルタイムに更新するDynamic Views とオンデマンドアプリ生成TECHTALK 20201117 ビッグデータへのアプローチ ー チャートをリアルタイムに更新するDynamic Views とオンデマンドアプリ生成
TECHTALK 20201117 ビッグデータへのアプローチ ー チャートをリアルタイムに更新するDynamic Views とオンデマンドアプリ生成
 
TECHTALK 20200825 RやPythonとの連携で実現するQlik Senseの高度な分析
TECHTALK 20200825 RやPythonとの連携で実現するQlik Senseの高度な分析TECHTALK 20200825 RやPythonとの連携で実現するQlik Senseの高度な分析
TECHTALK 20200825 RやPythonとの連携で実現するQlik Senseの高度な分析
 
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...
本当にできるの?ミッションクリティカルシステムのクラウド移行 第1回:検討すべき10のポイント (Oracle Cloudウェビナーシリーズ: 2021年...
 
Oracle Cloud PaaS & IaaS:2018年4月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年4月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年4月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年4月度サービス情報アップデート
 
IBM DB2 for zOSのソースエンドポイントとしての利用
IBM DB2 for zOSのソースエンドポイントとしての利用IBM DB2 for zOSのソースエンドポイントとしての利用
IBM DB2 for zOSのソースエンドポイントとしての利用
 
オラクルが提唱するクラウドの真価と可能性(Oracle Cloud Days Tokyo 2015)
オラクルが提唱するクラウドの真価と可能性(Oracle Cloud Days Tokyo 2015)オラクルが提唱するクラウドの真価と可能性(Oracle Cloud Days Tokyo 2015)
オラクルが提唱するクラウドの真価と可能性(Oracle Cloud Days Tokyo 2015)
 
Oracle Cloud PaaS & IaaS:2018年5月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年5月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年5月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年5月度サービス情報アップデート
 
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年7月度サービス情報アップデート
 
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデート
 
20200424 Oracle Big Data Jam Session #2 登壇資料(Data Flow)
20200424 Oracle Big Data Jam Session #2 登壇資料(Data Flow)20200424 Oracle Big Data Jam Session #2 登壇資料(Data Flow)
20200424 Oracle Big Data Jam Session #2 登壇資料(Data Flow)
 
第10回しゃちほこオラクル倶楽部
第10回しゃちほこオラクル倶楽部第10回しゃちほこオラクル倶楽部
第10回しゃちほこオラクル倶楽部
 
リアクティブ・アーキテクチャ ~大規模サービスにおける必要性と課題〜 #devsumi
リアクティブ・アーキテクチャ ~大規模サービスにおける必要性と課題〜 #devsumiリアクティブ・アーキテクチャ ~大規模サービスにおける必要性と課題〜 #devsumi
リアクティブ・アーキテクチャ ~大規模サービスにおける必要性と課題〜 #devsumi
 
TECHTALK 20200811 QlikViewをQlik Sense SaaS環境で活用ー新しい分析体験の勧め
TECHTALK 20200811 QlikViewをQlik Sense SaaS環境で活用ー新しい分析体験の勧めTECHTALK 20200811 QlikViewをQlik Sense SaaS環境で活用ー新しい分析体験の勧め
TECHTALK 20200811 QlikViewをQlik Sense SaaS環境で活用ー新しい分析体験の勧め
 
日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介
日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介
日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介
 
[Modern Cloud Day Tokyo 2019] 実践エンタープライズ・ブロックチェーン ~ システム設計・運用における課題とそのソリューション
[Modern Cloud Day Tokyo 2019] 実践エンタープライズ・ブロックチェーン ~ システム設計・運用における課題とそのソリューション[Modern Cloud Day Tokyo 2019] 実践エンタープライズ・ブロックチェーン ~ システム設計・運用における課題とそのソリューション
[Modern Cloud Day Tokyo 2019] 実践エンタープライズ・ブロックチェーン ~ システム設計・運用における課題とそのソリューション
 

Ähnlich wie The Future of Apache Spark

Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)NTT DATA Technology & Innovation
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningTakuya UESHIN
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...NTT DATA Technology & Innovation
 
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...Rescale Japan株式会社
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要Miho Yamamoto
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...NTT DATA Technology & Innovation
 
Javaヂカラ #Java最新動向 -Java 11 の新機能やOracle Code One 2018 発の最新技術トレンドを一気にキャッチアップ-
Javaヂカラ #Java最新動向 -Java 11 の新機能やOracle Code One 2018 発の最新技術トレンドを一気にキャッチアップ-Javaヂカラ #Java最新動向 -Java 11 の新機能やOracle Code One 2018 発の最新技術トレンドを一気にキャッチアップ-
Javaヂカラ #Java最新動向 -Java 11 の新機能やOracle Code One 2018 発の最新技術トレンドを一気にキャッチアップ-PE-BANK
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)NTT DATA OSS Professional Services
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC EnterpriseYusukeKuramata
 
Spark on sql server?
Spark on sql server?Spark on sql server?
Spark on sql server?Oda Shinsuke
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...NTT DATA Technology & Innovation
 
2014 03-15 業務アプリinsider ソフトウェア方面の先進テクノロジー
2014 03-15 業務アプリinsider ソフトウェア方面の先進テクノロジー2014 03-15 業務アプリinsider ソフトウェア方面の先進テクノロジー
2014 03-15 業務アプリinsider ソフトウェア方面の先進テクノロジーHub DotnetDeveloper
 
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale nightDeep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale nightRescale Japan株式会社
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門Daiyu Hatakeyama
 
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編Daiyu Hatakeyama
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...NTT DATA Technology & Innovation
 
Microsoft AI Solution Update / DLL community Update
Microsoft AI Solution Update / DLL community UpdateMicrosoft AI Solution Update / DLL community Update
Microsoft AI Solution Update / DLL community UpdateHirono Jumpei
 
Quick Overview of Upcoming Spark 3.0 + α
Quick Overview of Upcoming Spark 3.0 + αQuick Overview of Upcoming Spark 3.0 + α
Quick Overview of Upcoming Spark 3.0 + αTakeshi Yamamuro
 

Ähnlich wie The Future of Apache Spark (20)

Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance Tuning
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
 
Apache spark 2.3 and beyond
Apache spark 2.3 and beyondApache spark 2.3 and beyond
Apache spark 2.3 and beyond
 
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
GTC Japan 2016 Rescaleセッション資料「クラウドHPC ではじめるDeep Learning」- Oct/5/2016 at GTC ...
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
 
Javaヂカラ #Java最新動向 -Java 11 の新機能やOracle Code One 2018 発の最新技術トレンドを一気にキャッチアップ-
Javaヂカラ #Java最新動向 -Java 11 の新機能やOracle Code One 2018 発の最新技術トレンドを一気にキャッチアップ-Javaヂカラ #Java最新動向 -Java 11 の新機能やOracle Code One 2018 発の最新技術トレンドを一気にキャッチアップ-
Javaヂカラ #Java最新動向 -Java 11 の新機能やOracle Code One 2018 発の最新技術トレンドを一気にキャッチアップ-
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
 
Spark on sql server?
Spark on sql server?Spark on sql server?
Spark on sql server?
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
 
2014 03-15 業務アプリinsider ソフトウェア方面の先進テクノロジー
2014 03-15 業務アプリinsider ソフトウェア方面の先進テクノロジー2014 03-15 業務アプリinsider ソフトウェア方面の先進テクノロジー
2014 03-15 業務アプリinsider ソフトウェア方面の先進テクノロジー
 
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale nightDeep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale night
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
 
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
 
Microsoft AI Solution Update / DLL community Update
Microsoft AI Solution Update / DLL community UpdateMicrosoft AI Solution Update / DLL community Update
Microsoft AI Solution Update / DLL community Update
 
Quick Overview of Upcoming Spark 3.0 + α
Quick Overview of Upcoming Spark 3.0 + αQuick Overview of Upcoming Spark 3.0 + α
Quick Overview of Upcoming Spark 3.0 + α
 

Mehr von Hadoop / Spark Conference Japan

機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)Hadoop / Spark Conference Japan
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best PracticeHadoop / Spark Conference Japan
 
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたってHadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたってHadoop / Spark Conference Japan
 
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...Hadoop / Spark Conference Japan
 
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...Hadoop / Spark Conference Japan
 
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)Hadoop / Spark Conference Japan
 
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...Hadoop / Spark Conference Japan
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境Hadoop / Spark Conference Japan
 
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)Hadoop / Spark Conference Japan
 
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)Hadoop / Spark Conference Japan
 
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)Hadoop / Spark Conference Japan
 
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)Hadoop / Spark Conference Japan
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)Hadoop / Spark Conference Japan
 

Mehr von Hadoop / Spark Conference Japan (15)

機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
 
What makes Apache Spark?
What makes Apache Spark?What makes Apache Spark?
What makes Apache Spark?
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
 
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたってHadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
 
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
 
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
 
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
 
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
 
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
 
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
 
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
 

Kürzlich hochgeladen

UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 

Kürzlich hochgeladen (7)

UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 

The Future of Apache Spark

  • 1. The Future of Apache Spark Patrick Wendell
  • 2. First Things First… Recruit Technologies, NTT Data and #HCJ2104, thank you for your hospitality This slide – I managed to translate myself! Recruit Technologies, NTT Data とHadoop Conference Japanのおもてなしをありがとうございました。 このスライドは、私がトランスレートした。
  • 3. A Week in Spark Development 500 patch updates 200 updates to our issue tracker 140 user list e-mails 80 merged patches Spark開発コミュニティの1週間のアクティビティ パッチの投稿や修正など : 500件 JIRA/GitHub上でのコメントなど : 200件 ユーザメーリングリスト上でのやり取り : 140スレッド マージされるパッチの数 : 80件
  • 4. Spark’s Future Spark has seen rapid growth in the last year… where are we going now? Spark releases and developer process Technical roadmap over future releases Sparkのリリースや開発プロセス 将来のリリースにわたってのテクニカルロードマップを紹介します Spark の将来 ここ1年でSparkは急速に成長しました 現在どこに向かっているのでしょうか?
  • 5. Goal of the Spark project Empower data scientists and engineers Expressive, clean APIs Unified runtime across many environments Powerful standard libraries Spark プロジェクトの目的 データサイエンティストやエンジニアの能力拡張 表現力のある、クリーンなAPIの提供 多様な環境にわたって統合されたランタイム 強力な標準ライブラリ群
  • 6. API stability In 1.0+ Spark has well defined public API’s and well defined experimental API’s Apps written against Spark API will be portable in new versions Patches that break our API automatically fail our build Spark1.0以降、標準APIと試験的APIが提供されている Spark APIに沿って書かれたアプリは新しいバージョンでも 動作する API互換の無いパッチはビルド時に自動的に失敗する API の安定性について
  • 7. Developer-friendly release cadence Minor releases every 3 months 1.1 (August), 1.2, 1.3 Maintenance releases with fixes as necessary 1.0.1, 1.0.2, etc Extremely conservative about patch releases マイナーリリースは3ヶ月毎に提供 必要に応じてメンテナンスリリースを提供 ただし、パッチリリースに関しては極めて慎重に 開発者にやさしいリリースサイクル
  • 8. The Spark Stack Spark Runtime YARN, Mesos, AWS HDFS, S3, Cassandra, Hana Cluster Managers Data Sources Spark Streaming real-time Spark SQL Relational operators GraphX Graph processing MLLib machine learning
  • 9. The Spark Stack Spark Runtime Spark Streaming real-time Spark SQL Relational operators GraphX Graph processing MLLib machine learning More mature, focus on optimization and pluggability Newer, focused on adding capabilities 新しいコンポーネントで、ケーパビリティの追加に集中 より完成度の高いコンポーネントで、最適化やパーツの可換性に集中
  • 10. The future of Spark is libraries Critical component of any successful runtime Packaged and distributed with Spark to provide full inter-operability Lead by experts in respective fields, highly curated and integrated with Spark core API Spark の未来は「ライブラリ」 成功するランタイムの最重要コンポーネント パッケージ化,ディストリビューション化して,相互運用性を提供 各分野の専門家たちによってリードされ、精選されて、Spark core API に統合される
  • 11. The Spark Stack Spark Runtime Spark Streaming real-time Spark SQL Relational operators GraphX Graph processing MLLib machine learning More mature, focus on optimization and pluggability Newer, focused on adding capabilities 新しいコンポーネントで、ケーパビリティの追加に集中 より完成度の高いコンポーネントで、最適化やパーツの可換性に集中
  • 12. Spark SQL Growing faster than any other component Support for SQL language and notion of typed schema RDDs Focuses going forward: - Optimization (code gen, faster joins, etc) - Language extensions (towards SQL92) - Integration (next slide…) 他のコンポーネントよりも急速に成長 SQL言語と型付きスキーマRDDの考えをサポート 現在優先的に取り組んでいる課題 - クエリ最適化 / 言語の拡張 / インテグレーション
  • 13. Spark SQL and SchemaRDD Spark Runtime Spark SQL Hadoop NoSQL RDBMS Will facilitate deeper integration with other systems Parquet JSON 他のシステムとの深いインテグレーションをひきつける
  • 14. Spark SQL and Shark Spark 0.9Shark 0.9 Spark 1.0 Spark 1.1 Shark 0.8 Spark 0.8 Spark 1.0.1 + JDBC Spark 1.1+ will provide a JDBC/ODBC Server allowing direct upgrade for Shark users. Preview release packaged with Spark 1.0.1 このサーバソフトウェアのプレ ビューリリース版がSpark 1.0.1に 同梱されている。 Spark 1.1以上のバージョンでは、 JDBC/ODBC接続用のサーバソ フトウェアの提供を予定している。 これによりSharkを使用している ユーザが直接アップグレードする ことができる。
  • 15. The Spark Stack Spark Runtime Spark Streaming real-time GraphX Graph processing MLLib machine learning More mature, focus on optimization and plugability Newer, focused on adding capabilities Spark SQL Relational operators 新しいコンポーネントで、ケーパビリティの追加に集中 より完成度の高いコンポーネントで、最適化やパーツの可換性に集中
  • 16. MLlib Second fastest growing component  MLLib 1.0 has about ~15 algorithms MLLib 1.1 should roughly double that… traditional descriptive statistics: sampling, correlation, estimators, tests learning algorithms: NMF, Sparse SVD, LDA… 2番目に成長の早いコンポーネント MLLib1.0では15のアルゴリズムが利用可能 MLLib1.1ではざっと2倍のアルゴリズムが利用可能となる予定 伝統的な記述統計 学習アルゴリズム
  • 17. SparkR Make SparkR “production ready” (Alteryx and Databricks). Integration with Mllib. Consolidating the the data frame and RDD concepts. Fast Scalable Expressive Numerical Interactive Packages SparkR を “production ready” にする Mllib とのインテグレーション データフレームと RDD のコンセプトを統合
  • 18. The Spark Stack Spark Runtime Spark Streaming real-time Spark SQL Relational operators GraphX Graph processing MLLib machine learning More mature, focus on optimization and pluggability Newer, focused on adding capabilities 新しいコンポーネントで、ケーパビリティの追加に集中 より完成度の高いコンポーネントで、最適化やパーツの可換性に集中
  • 19. Notable trends Hardware Memory prices continue to fall, 256+GB machines not uncommon SSD’s becoming widely deployed Software Tachyon and other cluster memory managers 注目すべきトレンド メモリの容量単価が下がり続け、256GB以上のメモリを搭載するハードウェ アも珍しくない SSD が広く普及しはじめている Tachyon や他にもクラスタ全体でメモリを管理するソフトウェアが登場
  • 20. Spark Core Allow extension/innovation by defining internal API’s: Internal storage API Support for SSDs Shared memory systems like Tachyon, and (eventually) HDFS caching/DDMs. Spark shuffle API Sort-based shuffle Pipelined shuffle 内部APIの定義により、拡張/革新が可能になった SSDのサポート Tachyonのような共有型のメモリシステムや、 HDFS caching / 分散データマネジメントへの対応 Sort-based shuffle や Pipelined shuffle など、 shuffle 時の挙動をプラガブルに
  • 21. Timeline Spark 1.0.1 JSON support in Spark SQL Spark 1.1 Generalized shuffle interface MLLib stats algorithms JDBC server Sort-based shuffle* Spark 1.2 Refactored storage support Spark 1.3+ SparkR
  • 22. I’ve only scratched the surface… Streaming: new data sources and tighter flume integration Graphx: optimizations and API stability Core: Elastic scaling on YARN, user-defined metrics and counters [Your work here] 詳細には触れていない内容... Streaming : 新しいデータソースや、Flumeとのより強い統合 GraphX: 最適化とAPIの安定化 Core: YARNによる柔軟なスケーリング、ユーザー定義メトリク ス/カウンタ [あなたのワークもここに含まれるかも]
  • 23. Should also mention: Databricks Cloud Provision a Spark cluster instantly in the cloud Interactive workspace with full power of Spark: notebooks, dashboards, and scheduled jobs In private beta now, you can sign up at databricks.com/cloud (or find me!) もう一つ伝えておくべきこと:Databricks Cloud クラウドですぐに Spark クラスタを提供 Sparkのフルパワーを備えたインタラクティブなワークスペース notebooks, ダッシュボードとスケジューリングされたジョブ Sparkのフルパワーを備えたインタラクティブなワークスペース
  • 24. Wrapping it all up Spark will grow substantially in the next year Focus is on libraries and improving core internals for future innovation Release process and cadence provides users with stable releases despite fast growth まとめ Sparkは次の1年についても十分な成長を遂げる予定 将来的な革新に向けライブラリやコア機能の改良にフォーカス リリースプロセスとサイクル化により、急速な成長を遂げるつ つも安定したリリースをユーザーに提供する