20190517 Spark+AI Summit2019最新レポート

株式会社ジール
永田亮磨
Spark + AI Summit 2019
最新レポート

自己紹介
永田亮磨(Ryoma Nagata)
• BI専業ベンダー
（株式会社ジール）勤務
• Microsoft AzureのData Platform
関連の導入・開発やワーク
ショップの講師をやってます
Twitter:@ryomaru0825
Linkedin:ryoma-nagata-0825

Databricks社の主催する
『Spark + AI Summit 2019 』行ってきました！

そもそも
SparkとかDatabricksって何？

Sparkとは
• OSSの並列分散処理フレーム
ワーク
• 2010 年にオープンソース化、
2013 年に Apache へ移行
• 特徴
• インメモリ型の高速演算処理
• 処理モデルの組み合わせが容易
• 複数の開発言語をサポート
• 様々な動作環境、データソース
https://spark.apache.org/

インメモリ型の高速演算処理
• 大規模データを扱うための分散
処理フレームワーク「Hadoop」
の処理方式を改良し、Hadoopの
100倍高速な大規模データ処理を
実現
• ディスク I/Oがボトルネック
だったHadoopに対して、Spark
はインメモリ上で処理
© Databricks 2018

処理モデルの組み合わせが容易
Spark SQL
Spark
Streaming
MLlib GraphX
構造化データリアルタイム分析機械学習グラフ分析
Spark SQL
Spark
Streaming
MLlib

• Python、Scala、R、SQL、JavaのAPIをサポート
• エンジンはScala
複数の開発言語をサポート

様々な動作環境、データソース
S3Blob
データソースへの接続
スタンドアロン PC

Spark プロジェクトのモチベーション
1. 以下の2つの解析ユースケースにより適合するようMapReduceを拡
張すること。
• 反復アルゴリズム(機械学習、グラフ描画)
• 対話式のデータマイニング(R, Excel, Python)
2. 開発を容易にすること
• Scalaを軸に複数の開発言語をサポート
なぜSparkか？
http://spark.apache.org/talks/overview.pdf
データ解析のためにHadoopの処理方式「MapReduce」を拡張しよう！ということ

重要なライブラリ
Spark SQL
• SQL
DataFrameに対してSQL記述が可能
• DataFrame
RやPythonのData Frameと同等機能
Spark ML
• 基本的な統計
• 分類と回帰
• 協調フィルタリング
• クラスタリング
• 次元削除
• 特徴量抽出及び変形
etc..
どちらも分散処理が効きます！

ロジスティック回帰分析のパフォーマンス
http://spark.apache.org/talks/overview.pdf
Hadoop
毎回ディスクから読み書き
Spark
１回目にメモリキャッシュしたデータを再利用

Sparkを取り入れる近道は？

Databricksは会社名=サービス名です
• Apache Spark の開発チームに
よって 2013 年に設立
• DatabricksはSparkをサービスと
して提供し、ユーザーは動作環
境の準備なしにSparkを実行でき
る（Spark-as-a-service）

合言葉は
Unified Analytics

フルマネージドなSpark環境を提供
Databricks Workspace
Databricks Runtime
Databricks Cloud Service
JobNotebook
データサイエンスとデータエンジニアリングを統合
大規模データとMLを統合
複雑なインフラ要素を軽減

Spark、Databricks まとめ
Spark
• 大規模データセットによる機械
学習のためのフレームワーク
Databricks
• Spark利用からインフラの要素を
軽減し、
エンジニアリング×サイエンス、
データ処理×機械学習を統合す
るためのサービス

レポート

Apache Sparkコミュニティのための世界最大のイベント
日時:2019/4/23～25
場所:Moscone West Convention Center @San Francisco
参加者数:5000人超
１日目：トレーニング
２～３日目：Keynote＋170超のセッション

会場の様子
やたらスタイリッシュなKeynote会場 Expo会場は常に満員御礼
参加者全員で作るレゴ作品

セッション内訳
Data
Engineering
15%
Productionizing
ML
10%
Developer
9%
Sponsored
Sessions
8%
Enterprise
8%
Databricks Tech
Talks
8%
Technical Deep
dives
8%
Tutorials
7%
Streaming
6%
Research
5%
Data Science
4%
Python &
Advanced
Analytics
4%
AI
4%
Deep Learning
Techniques
4%
• Data Engineeringのセッションが
多め
• Best Practice系や、Tutorial、中の
人による講演に来場者が集中して
いる印象でした
• セッションはこちらで公開されて
います
• https://databricks.com/sparkaisummit/north-america/schedule
• https://databricks.com/sparkaisummit/north-america/2019-spark-
summit-ai-
keynotes?utm_source=databricks&utm_medium=SAIS_main_menu
_CTA

• Databricks Deltaを使用したSparkデータパイプライン構築
• Sparkによるデータサイエンス
• Kelas,Tensorflow,Sparkによる深層学習ハンズオン
• Databricks Deltaを使用したSparkチューニングとベストプラクティ
ス
• SparkプログラミングとDatabricks Delta
• 機械学習開発：MLflowとモデルデプロイ
トレーニングメニュー
これを受けてきました

機械学習開発：MLflowとモデルデプロイ
• MLflowを使用した実験～モデル
デプロイ方法のハンズオン
• 参加者はデータエンジニア:デー
タサイエンティスト=4:6くらい
講義中はSlackでQA対応

Pickup:MLflow
• 機械学習における一連のライフ
サイクルを支援するOSS
• 機能
• Tracking:実験、コードの管理
• Projects:コード、またはパイプラ
インのパッケージ化
• Models:モデル管理
• Azure MLやSageMaker、
Kubernetesにデプロイ可能
• Azure Machine Learning Servicesに近い。
mlflow.azuremlがありAPIが動く

• Spark 3.0
• Koalas
• Delta Lake
• MLflow 1.0
Keynoteのホットトピック

Spark 3.0
• 今年中にSpark 3.0がリリースされることをアナウンス

Unify Data + AI
Deep Learningフレームワークと
の統合の強化
• 「Project Hydrogen」のリリー
ス
単一のSpark クラスター上で、
Data EngineeringからDeep
Learningを実現させる

Project Hydrogen
• Spark MLの課題：深層学習フレームワークとの仕組みの違いから、
LoadとFitの役割のそれぞれのクラスタを別々に立てる必要があった
→１台の統一クラスタで完結させることが目標
Pickup : Project Hydrogen
https://www.slideshare.net/databricks/updates-from-project-
hydrogen-unifying-stateoftheart-ai-and-big-data-in-apache-spark
DWH Load Fit Model
GPUクラスターを準備
→Tensorflowなど
Hive, Parquetなどのデータを処理可能なクラスターを準備
→Spark
よくある深層学習パイプライン
ファイル
授受

Project Hydrogen
• Spark MLの課題：深層学習フレームワークとの仕組みの違いから、
LoadとFitの役割のそれぞれのクラスタを別々に立てる必要があった
→１台の統一クラスタで完結させることが目標
Pickup : Project Hydrogen
https://www.slideshare.net/databricks/updates-from-project-
hydrogen-unifying-stateoftheart-ai-and-big-data-in-apache-spark
DWH Load Fit Model
よくある深層学習パイプライン
Load & Fitが
一元的に実行可能なクラスター

Run Everywhere
k8sサポートの強化
• 驚異的に増加するCloudと
Kubernetesの組み合わせを踏ま
え、Spark 3.xではより機能を追
加する

Easy-to-use APIs
プログラミング性改善
• 過去の推移
2013年:Scala,Java,Pythonを使
用して分散処理のコード行数を
改善
2015:データエンジニア、サイエ
ンティストのための
API=DataFrameへの対応

データサイエンティストが使用するDataFrame APIのユースケース
• 教育（ムック、書籍、教育機関）→ Pandas
• 小規模データセット分析→ Pandas
• 大規模データセット分析→ DataFrame @Spark
Pandas DataFrame と Spark DataFrame

• Pandasと全く同じ文法でSpark DataFrameの操作を可能に
• 単一処理→分散処理の切り替えはImport koalasするだけ
新OSSプロジェクト『Koalas』
🐼
🐨

新OSSプロジェクト『Delta Lake』
• Databricksの機能であったDelta
をOSS化
• UPDATE,DELETE,MERGEをサ
ポート
• タイムトラベル:履歴の復元機能
• Stream処理とBatch処理の両方
に対応
• Databricksの機能であったDelta
をOSS化(実態はParquet)
• UPDATE,DELETE,MERGEをサ
ポート
• タイムトラベル:履歴の復元機能
• Stream処理とBatch処理の両方
に対応
このアイコン、どこかで見たことが・・・！

Delta Lake によるラムダアーキテクチャ
標準的なSparkラムダアーキテクチャ Delta Lakeラムダアーキテクチャ

Comcast社のDeltaLake活用事例
• Exabyte級のデータセットを使用
したMLのアーキテクチャについ
て講演
• 複雑化しがちなビッグデータ
アーキテクチャをDeltaLakeで
シンプルに

MLflow 1.0
MLflow Model Registry
• 作成したモデルをバージョン管
理
※現在はExperiment 1=Model 1
となっている
• GUIでAzureML、SageＭaker、
k8sにデプロイ可能に

MLflow 1.0
MLflow Workflows
• Codeでパイプラインを定義した
あとはGUIで編集可能
• パイプラインの段階的キャッ
シュ
左図のようなパイプラインを作
成し、trainの学習コードを変更
→前処理はインメモリにキャッ
シュされた状態からtrainだけを
実施可能

• .NET support for Apache Spark
→Spark上で.NETが動くようになり、アプリケーションエンジニアと
の統合が可能に
• Microsoftによる ML Opsのデモ
→AIアプリで盲目のエンジニアの目の代わりに写真を読む、紙幣を認
識
• Managed MLflow on Databricks がGA
→Databricks上のUIでMLflowの機能が利用可能に。
MLflowプロジェクトのDatabricks上でのリモート実行が可能になり、
Databricks基準のアクセス制御を追加
その他Keynote

次回は9/15-17@アムステルダム
https://databricks.com/sparkaisummit/europe

ご清聴ありがとうございました。

20190517 Spark+AI Summit2019最新レポート

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 20190517 Spark+AI Summit2019最新レポート

Ähnlich wie 20190517 Spark+AI Summit2019最新レポート (20)

20190517 Spark+AI Summit2019最新レポート