SlideShare ist ein Scribd-Unternehmen logo
1 von 43
Downloaden Sie, um offline zu lesen
株式会社ジール
永田 亮磨
Spark + AI Summit 2019
最新レポート
自己紹介
永田 亮磨(Ryoma Nagata)
• BI専業ベンダー
(株式会社ジール)勤務
• Microsoft AzureのData Platform
関連の導入・開発やワーク
ショップの講師をやってます
Twitter:@ryomaru0825
Linkedin:ryoma-nagata-0825
Databricks社の主催する
『Spark + AI Summit 2019 』行ってきました!
そもそも
SparkとかDatabricksって何?
Sparkとは
• OSSの並列分散処理フレーム
ワーク
• 2010 年にオープンソース化、
2013 年に Apache へ移行
• 特徴
• インメモリ型の高速演算処理
• 処理モデルの組み合わせが容易
• 複数の開発言語をサポート
• 様々な動作環境、データソース
https://spark.apache.org/
インメモリ型の高速演算処理
• 大規模データを扱うための分散
処理フレームワーク「Hadoop」
の処理方式を改良し、Hadoopの
100倍高速な大規模データ処理を
実現
• ディスク I/Oがボトルネック
だったHadoopに対して、Spark
はインメモリ上で処理
© Databricks 2018
処理モデルの組み合わせが容易
Spark SQL
Spark
Streaming
MLlib GraphX
構造化データ リアルタイム分析 機械学習 グラフ分析
Spark SQL
Spark
Streaming
MLlib
• Python、Scala、R、SQL、JavaのAPIをサポート
• エンジンはScala
複数の開発言語をサポート
様々な動作環境、データソース
S3Blob
データソースへの接続
スタンドアロン PC
Spark プロジェクトのモチベーション
1. 以下の2つの解析ユースケースにより適合するようMapReduceを拡
張すること。
• 反復アルゴリズム(機械学習、グラフ描画)
• 対話式のデータマイニング(R, Excel, Python)
2. 開発を容易にすること
• Scalaを軸に複数の開発言語をサポート
なぜSparkか?
http://spark.apache.org/talks/overview.pdf
データ解析のためにHadoopの処理方式「MapReduce」を拡張しよう!ということ
重要なライブラリ
Spark SQL
• SQL
DataFrameに対してSQL記述が可能
• DataFrame
RやPythonのData Frameと同等機能
Spark ML
• 基本的な統計
• 分類と回帰
• 協調フィルタリング
• クラスタリング
• 次元削除
• 特徴量抽出及び変形
etc..
どちらも分散処理が効きます!
ロジスティック回帰分析のパフォーマンス
http://spark.apache.org/talks/overview.pdf
Hadoop
毎回ディスクから読み書き
Spark
1回目にメモリキャッシュしたデータを再利用
Sparkを取り入れる近道は?
Databricksは会社名=サービス名です
• Apache Spark の開発チームに
よって 2013 年に設立
• DatabricksはSparkをサービスと
して提供し、ユーザーは動作環
境の準備なしにSparkを実行でき
る(Spark-as-a-service)
合言葉は
Unified Analytics
フルマネージドなSpark環境を提供
Databricks Workspace
Databricks Runtime
Databricks Cloud Service
JobNotebook
データサイエンスとデータエンジニアリングを統合
大規模データとMLを統合
複雑なインフラ要素を軽減
Spark、Databricks まとめ
Spark
• 大規模データセットによる機械
学習のためのフレームワーク
Databricks
• Spark利用からインフラの要素を
軽減し、
エンジニアリング×サイエンス、
データ処理×機械学習を統合す
るためのサービス
Spark + AI Summit 2019
レポート
Apache Sparkコミュニティのための世界最大のイベント
日時:2019/4/23~25
場所:Moscone West Convention Center @San Francisco
参加者数:5000人超
1日目:トレーニング
2~3日目:Keynote+170超のセッション
Spark + AI Summit 2019
主要なスポンサー
会場の様子
やたらスタイリッシュなKeynote会場 Expo会場は常に満員御礼
参加者全員で作るレゴ作品
セッション内訳
Data
Engineering
15%
Productionizing
ML
10%
Developer
9%
Sponsored
Sessions
8%
Enterprise
8%
Databricks Tech
Talks
8%
Technical Deep
dives
8%
Tutorials
7%
Streaming
6%
Research
5%
Data Science
4%
Python &
Advanced
Analytics
4%
AI
4%
Deep Learning
Techniques
4%
• Data Engineeringのセッションが
多め
• Best Practice系や、Tutorial、中の
人による講演に来場者が集中して
いる印象でした
• セッションはこちらで公開されて
います
• https://databricks.com/sparkaisummit/north-america/schedule
• https://databricks.com/sparkaisummit/north-america/2019-spark-
summit-ai-
keynotes?utm_source=databricks&utm_medium=SAIS_main_menu
_CTA
• Databricks Deltaを使用したSparkデータパイプライン構築
• Sparkによるデータサイエンス
• Kelas,Tensorflow,Sparkによる深層学習ハンズオン
• Databricks Deltaを使用したSparkチューニングとベストプラクティ
ス
• SparkプログラミングとDatabricks Delta
• 機械学習開発:MLflowとモデルデプロイ
トレーニングメニュー
これを受けてきました
機械学習開発:MLflowとモデルデプロイ
• MLflowを使用した実験~モデル
デプロイ方法のハンズオン
• 参加者はデータエンジニア:デー
タサイエンティスト=4:6くらい
講義中はSlackでQA対応
Pickup:MLflow
• 機械学習における一連のライフ
サイクルを支援するOSS
• 機能
• Tracking:実験、コードの管理
• Projects:コード、またはパイプラ
インのパッケージ化
• Models:モデル管理
• Azure MLやSageMaker、
Kubernetesにデプロイ可能
• Azure Machine Learning Servicesに近い。
mlflow.azuremlがありAPIが動く
• Spark 3.0
• Koalas
• Delta Lake
• MLflow 1.0
Keynoteのホットトピック
Spark 3.0
• 今年中にSpark 3.0がリリースされることをアナウンス
Sparkのデザイン3原則
Unify Data + AI
Deep Learningフレームワークと
の統合の強化
• 「Project Hydrogen」のリリー
ス
単一のSpark クラスター上で、
Data EngineeringからDeep
Learningを実現させる
Project Hydrogen
• Spark MLの課題:深層学習フレームワークとの仕組みの違いから、
LoadとFitの役割のそれぞれのクラスタを別々に立てる必要があった
→1台の統一クラスタで完結させることが目標
Pickup : Project Hydrogen
https://www.slideshare.net/databricks/updates-from-project-
hydrogen-unifying-stateoftheart-ai-and-big-data-in-apache-spark
DWH Load Fit Model
GPUクラスターを準備
→Tensorflowなど
Hive, Parquetなどのデータを処理可能なクラスターを準備
→Spark
よくある深層学習パイプライン
ファイル
授受
Project Hydrogen
• Spark MLの課題:深層学習フレームワークとの仕組みの違いから、
LoadとFitの役割のそれぞれのクラスタを別々に立てる必要があった
→1台の統一クラスタで完結させることが目標
Pickup : Project Hydrogen
https://www.slideshare.net/databricks/updates-from-project-
hydrogen-unifying-stateoftheart-ai-and-big-data-in-apache-spark
DWH Load Fit Model
よくある深層学習パイプライン
Load & Fitが
一元的に実行可能なクラスター
Run Everywhere
k8sサポートの強化
• 驚異的に増加するCloudと
Kubernetesの組み合わせを踏ま
え、Spark 3.xではより機能を追
加する
Easy-to-use APIs
プログラミング性改善
• 過去の推移
2013年:Scala,Java,Pythonを使
用して分散処理のコード行数を
改善
2015:データエンジニア、サイエ
ンティストのための
API=DataFrameへの対応
データサイエンティストが使用するDataFrame APIのユースケース
• 教育(ムック、書籍、教育機関)→ Pandas
• 小規模データセット分析→ Pandas
• 大規模データセット分析→ DataFrame @Spark
Pandas DataFrame と Spark DataFrame
• Pandasと全く同じ文法でSpark DataFrameの操作を可能に
• 単一処理→分散処理の切り替えはImport koalasするだけ
新OSSプロジェクト『Koalas』
🐼
🐨
新OSSプロジェクト『Delta Lake』
• Databricksの機能であったDelta
をOSS化
• UPDATE,DELETE,MERGEをサ
ポート
• タイムトラベル:履歴の復元機能
• Stream処理とBatch処理の両方
に対応
• Databricksの機能であったDelta
をOSS化(実態はParquet)
• UPDATE,DELETE,MERGEをサ
ポート
• タイムトラベル:履歴の復元機能
• Stream処理とBatch処理の両方
に対応
このアイコン、どこかで見たことが・・・!
Delta Lake によるラムダアーキテクチャ
標準的なSparkラムダアーキテクチャ Delta Lakeラムダアーキテクチャ
Comcast社のDeltaLake活用事例
• Exabyte級のデータセットを使用
したMLのアーキテクチャについ
て講演
• 複雑化しがちなビッグデータ
アーキテクチャをDeltaLakeで
シンプルに
MLflow 1.0
MLflow Model Registry
• 作成したモデルをバージョン管
理
※現在はExperiment 1=Model 1
となっている
• GUIでAzureML、SageMaker、
k8sにデプロイ可能に
MLflow 1.0
MLflow Workflows
• Codeでパイプラインを定義した
あとはGUIで編集可能
• パイプラインの段階的キャッ
シュ
左図のようなパイプラインを作
成し、trainの学習コードを変更
→前処理はインメモリにキャッ
シュされた状態からtrainだけを
実施可能
• .NET support for Apache Spark
→Spark上で.NETが動くようになり、アプリケーションエンジニアと
の統合が可能に
• Microsoftによる ML Opsのデモ
→AIアプリで盲目のエンジニアの目の代わりに写真を読む、紙幣を認
識
• Managed MLflow on Databricks がGA
→Databricks上のUIでMLflowの機能が利用可能に。
MLflowプロジェクトのDatabricks上でのリモート実行が可能になり、
Databricks基準のアクセス制御を追加
その他Keynote
次回は9/15-17@アムステルダム
https://databricks.com/sparkaisummit/europe
ご清聴ありがとうございました。

Weitere ähnliche Inhalte

Was ist angesagt?

dstn交流会_data_spider 3.0最新情報とデモ
dstn交流会_data_spider 3.0最新情報とデモdstn交流会_data_spider 3.0最新情報とデモ
dstn交流会_data_spider 3.0最新情報とデモ
dstn
 

Was ist angesagt? (20)

Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkAzure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
 
PySpark Intro Part.2 with SQL Graph
PySpark Intro Part.2 with SQL GraphPySpark Intro Part.2 with SQL Graph
PySpark Intro Part.2 with SQL Graph
 
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
 
Delta Lake with Synapse dataflow
Delta Lake with Synapse dataflowDelta Lake with Synapse dataflow
Delta Lake with Synapse dataflow
 
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
 
Data Factoryの勘所・大事なところ
Data Factoryの勘所・大事なところData Factoryの勘所・大事なところ
Data Factoryの勘所・大事なところ
 
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみたAWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
 
Data Factory V2 新機能徹底活用入門
Data Factory V2 新機能徹底活用入門Data Factory V2 新機能徹底活用入門
Data Factory V2 新機能徹底活用入門
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
 
[DI15] Build 2017 Updates ~ Azure Database for MySQL/PostgreSQL 最速紹介
[DI15] Build 2017 Updates ~ Azure Database for MySQL/PostgreSQL 最速紹介[DI15] Build 2017 Updates ~ Azure Database for MySQL/PostgreSQL 最速紹介
[DI15] Build 2017 Updates ~ Azure Database for MySQL/PostgreSQL 最速紹介
 
おいしいフルマネージドデータベース はじめました
おいしいフルマネージドデータベース はじめましたおいしいフルマネージドデータベース はじめました
おいしいフルマネージドデータベース はじめました
 
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
データサイエンティストが力を発揮できるアジャイルデータ活用基盤データサイエンティストが力を発揮できるアジャイルデータ活用基盤
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
 
データ分析基盤について
データ分析基盤についてデータ分析基盤について
データ分析基盤について
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
 
【輪読会】実践的データ基盤への処方箋
【輪読会】実践的データ基盤への処方箋【輪読会】実践的データ基盤への処方箋
【輪読会】実践的データ基盤への処方箋
 
Tech Summit 2018 Azure Data Factory 入門ハンズオン
Tech Summit 2018 Azure Data Factory 入門ハンズオンTech Summit 2018 Azure Data Factory 入門ハンズオン
Tech Summit 2018 Azure Data Factory 入門ハンズオン
 
dstn交流会_data_spider 3.0最新情報とデモ
dstn交流会_data_spider 3.0最新情報とデモdstn交流会_data_spider 3.0最新情報とデモ
dstn交流会_data_spider 3.0最新情報とデモ
 
テックヒルズ Microsoft Azureでソーシャルゲームを作ってみた話
テックヒルズ Microsoft Azureでソーシャルゲームを作ってみた話テックヒルズ Microsoft Azureでソーシャルゲームを作ってみた話
テックヒルズ Microsoft Azureでソーシャルゲームを作ってみた話
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
 

Ähnlich wie 20190517 Spark+AI Summit2019最新レポート

Ähnlich wie 20190517 Spark+AI Summit2019最新レポート (20)

15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
 
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
 
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTipsAmazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
 
Apache Sparkの紹介
Apache Sparkの紹介Apache Sparkの紹介
Apache Sparkの紹介
 
JPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステム
JPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステムJPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステム
JPC2018[H4]マイクロソフトの Azure オープン ソース戦略とパートナー エコシステム
 
Spark Summit 2015 参加報告
Spark Summit 2015 参加報告Spark Summit 2015 参加報告
Spark Summit 2015 参加報告
 
dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
 
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
 
【OCP Summit 2016】最高のDB基盤Exadataをクラウドで活用しよう
【OCP Summit 2016】最高のDB基盤Exadataをクラウドで活用しよう【OCP Summit 2016】最高のDB基盤Exadataをクラウドで活用しよう
【OCP Summit 2016】最高のDB基盤Exadataをクラウドで活用しよう
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729
 
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめBigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
BigDataUnivercity 2017年改めてApache Sparkとデータサイエンスの関係についてのまとめ
 
What makes Apache Spark?
What makes Apache Spark?What makes Apache Spark?
What makes Apache Spark?
 
IaC化の3つのポイント
IaC化の3つのポイントIaC化の3つのポイント
IaC化の3つのポイント
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
 
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPANSAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
SAIS/SIGMOD参加報告 in SAIS/DWS2018報告会@Yahoo! JAPAN
 
ユーザーデータ基盤を1からScalaでつくった話し
ユーザーデータ基盤を1からScalaでつくった話しユーザーデータ基盤を1からScalaでつくった話し
ユーザーデータ基盤を1からScalaでつくった話し
 
office365にまつわる怖い話し
office365にまつわる怖い話しoffice365にまつわる怖い話し
office365にまつわる怖い話し
 

20190517 Spark+AI Summit2019最新レポート