Weitere ähnliche Inhalte
Ähnlich wie 20190517 Spark+AI Summit2019最新レポート (20)
20190517 Spark+AI Summit2019最新レポート
- 2. 自己紹介
永田 亮磨(Ryoma Nagata)
• BI専業ベンダー
(株式会社ジール)勤務
• Microsoft AzureのData Platform
関連の導入・開発やワーク
ショップの講師をやってます
Twitter:@ryomaru0825
Linkedin:ryoma-nagata-0825
- 23. • Databricks Deltaを使用したSparkデータパイプライン構築
• Sparkによるデータサイエンス
• Kelas,Tensorflow,Sparkによる深層学習ハンズオン
• Databricks Deltaを使用したSparkチューニングとベストプラクティ
ス
• SparkプログラミングとDatabricks Delta
• 機械学習開発:MLflowとモデルデプロイ
トレーニングメニュー
これを受けてきました
- 26. • Spark 3.0
• Koalas
• Delta Lake
• MLflow 1.0
Keynoteのホットトピック
- 29. Unify Data + AI
Deep Learningフレームワークと
の統合の強化
• 「Project Hydrogen」のリリー
ス
単一のSpark クラスター上で、
Data EngineeringからDeep
Learningを実現させる
- 30. Project Hydrogen
• Spark MLの課題:深層学習フレームワークとの仕組みの違いから、
LoadとFitの役割のそれぞれのクラスタを別々に立てる必要があった
→1台の統一クラスタで完結させることが目標
Pickup : Project Hydrogen
https://www.slideshare.net/databricks/updates-from-project-
hydrogen-unifying-stateoftheart-ai-and-big-data-in-apache-spark
DWH Load Fit Model
GPUクラスターを準備
→Tensorflowなど
Hive, Parquetなどのデータを処理可能なクラスターを準備
→Spark
よくある深層学習パイプライン
ファイル
授受
- 31. Project Hydrogen
• Spark MLの課題:深層学習フレームワークとの仕組みの違いから、
LoadとFitの役割のそれぞれのクラスタを別々に立てる必要があった
→1台の統一クラスタで完結させることが目標
Pickup : Project Hydrogen
https://www.slideshare.net/databricks/updates-from-project-
hydrogen-unifying-stateoftheart-ai-and-big-data-in-apache-spark
DWH Load Fit Model
よくある深層学習パイプライン
Load & Fitが
一元的に実行可能なクラスター
- 39. MLflow 1.0
MLflow Model Registry
• 作成したモデルをバージョン管
理
※現在はExperiment 1=Model 1
となっている
• GUIでAzureML、SageMaker、
k8sにデプロイ可能に
- 40. MLflow 1.0
MLflow Workflows
• Codeでパイプラインを定義した
あとはGUIで編集可能
• パイプラインの段階的キャッ
シュ
左図のようなパイプラインを作
成し、trainの学習コードを変更
→前処理はインメモリにキャッ
シュされた状態からtrainだけを
実施可能
- 41. • .NET support for Apache Spark
→Spark上で.NETが動くようになり、アプリケーションエンジニアと
の統合が可能に
• Microsoftによる ML Opsのデモ
→AIアプリで盲目のエンジニアの目の代わりに写真を読む、紙幣を認
識
• Managed MLflow on Databricks がGA
→Databricks上のUIでMLflowの機能が利用可能に。
MLflowプロジェクトのDatabricks上でのリモート実行が可能になり、
Databricks基準のアクセス制御を追加
その他Keynote