SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Downloaden Sie, um offline zu lesen
Vertex AI Pipelinesで
BigQuery MLのモデル作成
デプロイまで
2022/06/18 機械学習の社会実装勉強会第12回
岩澤 幸太朗
Summary
➢ Vertex AI PipelinesでBigQueryのオペレーションが可能に(2022/4 一般提供開始)
➢ 第4回発表のETLジョブの内容をVertex AI Pipelines で置き換え
さらにデプロイまで実施
Vertex AI Pipelines の BigQuery および BigQuery ML 演算子に関するお知らせ(2022/4/13)
【第4回】BigQueryを中心にした ML datapipelineの概要
今回の話の対象
https://cloud.google.com/vertex-ai?hl=ja#section-7
MLOps with Vertex AI
➢ Vertex AI
○ 機械学習ワークフローの統合環境
○ AutoML含む各種MLツールへのアク
セス
➢ Vertex AI Pipelines
○ Vertex AI 上で機械学習パイプライ ン
をフルマネージドで構築するサービ
ス
Kubeflow
➢ Kubeflow
○ Kubernetes上で動くMLOpsツール
群 (Goolge が開発主体)
○ 2020/3 v1.0リリース
➢ Kubeflow Pipelines
○ Kubeflow の一コンポーネント
○ ワークフロー管理
モデル構築・実験 
 Kubeflow notebooks 

ハイパーパラメータ調整 
 Katib

特徴量管理
 Feast

ワークフロー構成 
 Kubeflow Pipelines 

モデルサービング 
 KServe

…
 …

※2022/6時点の名称
参考:2021-12-18 Kubeflow Pipelines概要@機械学習の社会実装勉強会
by 那珂さん
GCPでKubeflowを用いたMLOps
➢ Kubeflow pipelinesをそのまま使用
○ 自前でGKEクラスタを用意する必要がある
➢ AI Platform Pipelines
○ Kubeflow pipelines のマネージドサービス(GKEクラスタの管理必要)
➢ Vertex AI Pipelines
○ Kubeflow pipelinesのフルマネージドサービス(GKEクラスタの管理不要)
Vertex AI Pipelines
➢ 2021年11月一般提供開始
➢ TFX, Kubeflow Pipelines のPython SDKを利用したパイプライン構築
➢ フルマネージドサービス (Kubernetes 管理必要なし)
➢ ML Opsをシンプルに
データ前処理
モデル
トレーニング
モデル評価 モデルデプロイ
データロード
データ抽出
Vertex AI Pipelines
BigqueryQueryJobOp BigQuery クエリを送信
BigqueryCreateModelJobOp BigQuery ML モデルを作成
BigqueryEvaluateModelJobOp BigQuery ML モデルを評価
BigqueryPredictModelJobOp 予測を作成
BigqueryExportModelJobOp BigQuery ML モデルを GCS にエクスポート
今回追加されたコンポーネント
● google_cloud_pipeline_components.v1.bigquery module
https://google-cloud-pipeline-components.readthedocs.io/en/google-cloud-pipeline-components-1
.0.0/google_cloud_pipeline_components.v1.html#components
第4回で発表したETLジョブ
GCS -> 前処理 -> BQでML model 作成・評価・予測
-> エンドポイントのデプロイまで
すべての工程がワークフローで自動化可能に
【第4回】BigQueryを中心とした ML datapipelineの概要
https://www.slideshare.net/ssusere6d3be/bigquery-ml-datapipeline#
使用データセット
https://www.kaggle.com/competitions/titanic/data?select=train.csv
Kaggle のtitanic データ
Vertex AI Pipelineを用いたワークフロー
Cloud
Storage
BigQuery
Store a training
data (titanic
data)
Create dataset using
BigqueryQueryJobOp
Dataflow
Preprocess the data and load to
BigQuery using
DataflowPythonJobOp
BigQuery
Train a classifier with BQML using
BigqueryCreateModelJobOp
BigQuery BigQuery
Predict data using
BigqueryPredictModelJobOp
Evaluate the model with
BigqueryEvaluateModelJobOp
Vertex AI Pipelines
BigQuery
Export the model using
BigqueryExportModelJobOp
Upload the model using
ModelUploadOp
Create API endpoint using
EndpointCreateOp
Create API endpoint using
ModelDeployOp
Vertex AI Vertex AI Vertex AI
1. BigqueryQueryJobOp を使って
BiqQuery でデータセットを作成する
2. Dataflow を使って GCS上のCSVファ
イルの前処理を実施し、 BigQuery
にロードする
3. ロジスティック回帰モデルをトレー
ニングする
4. モデルを評価する
5. テストデータにモデルを適用して、
予測を作成する
6. GCSにモデルをアップロードする
7. モデルをエンドポイントにデプロイ
する
8. 予測リクエスト
Demo
➢ Vertex AI pipelines の実行
○ GCS からファイル取得
○ 前処理、BigQuery へロード
○ モデル学習・評価・予測
○ エンドポイントへのデプロイ
使用したNotebook:
https://github.com/kootr/ml-study-session/tree/main/20220528_vertex_ai_pipelines
まとめ
➢ GCPでMLOpsを実現する有力なサービス
➢ Kubeflow pipelinesに慣れていれば簡単に導入可能
➢ Kubernetesの管理不要は大きなメリット
パイプライン実行結果の一部
Kubeflow パイプライン処理の一部
● SDKで記述される処理
a. Pipeline : データの処理を行うパイプライン全体
b. PCollection : 分散処理対象のデータセットを表す
オブジェクト
c. PTransform : データセット加工
d. IOS transrforms:外部ストレージへの入出力
おまけ:Apache Beam による分散データ処理
Dataflow
- Vertex AI Pipelines の BigQuery および BigQuery ML 演算子に関するお知らせ (2022/4/13)
- Ask the Expert ’21 〜機械学習〜 Google Cloud
- Cloud DataflowでGCS→BQのパイプラインをPythonで試してみる
- Vertex Pipelinesによる機械学習パイプラインの実行
- Vertex Pipelines で動く Kubeflow Pipelines のサンプルを公開しました
- Vertex AI Pipelinesによる機械学習ワークフローの自動化
参考

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦Kubernetesによる機械学習基盤への挑戦
Kubernetesによる機械学習基盤への挑戦
 
MLflowによる機械学習モデルのライフサイクルの管理
MLflowによる機械学習モデルのライフサイクルの管理MLflowによる機械学習モデルのライフサイクルの管理
MLflowによる機械学習モデルのライフサイクルの管理
 
ChatGPTの ビジネス活用とセキュリティ
ChatGPTのビジネス活用とセキュリティChatGPTのビジネス活用とセキュリティ
ChatGPTの ビジネス活用とセキュリティ
 
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
 
MLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめMLflowで学ぶMLOpsことはじめ
MLflowで学ぶMLOpsことはじめ
 
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)
 
サイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtcサイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtc
 
「速」を落とさないコードレビュー
「速」を落とさないコードレビュー「速」を落とさないコードレビュー
「速」を落とさないコードレビュー
 
MLOps入門
MLOps入門MLOps入門
MLOps入門
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
 
MLOpsの概要と初学者が気をつけたほうが良いこと
MLOpsの概要と初学者が気をつけたほうが良いことMLOpsの概要と初学者が気をつけたほうが良いこと
MLOpsの概要と初学者が気をつけたほうが良いこと
 
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~(Kubernetes Meetup Tokyo #33 発表資料)
 
エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織エンジニアの個人ブランディングと技術組織
エンジニアの個人ブランディングと技術組織
 
機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト
 
なぜコンピュータを学ばなければならないのか 21世紀の君主論
なぜコンピュータを学ばなければならないのか 21世紀の君主論なぜコンピュータを学ばなければならないのか 21世紀の君主論
なぜコンピュータを学ばなければならないのか 21世紀の君主論
 
3. Vertex AIを用いた時系列データの解析
3. Vertex AIを用いた時系列データの解析3. Vertex AIを用いた時系列データの解析
3. Vertex AIを用いた時系列データの解析
 
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
 
MLOpsはバズワード
MLOpsはバズワードMLOpsはバズワード
MLOpsはバズワード
 
機械学習モデルのサービングとは?
機械学習モデルのサービングとは?機械学習モデルのサービングとは?
機械学習モデルのサービングとは?
 
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
 

Ähnlich wie Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)

「NIST SP 800-204C サービスメッシュを利用したマイクロサービスベースのアプリケーション向けDevSecOpsの展開」概説
「NIST SP 800-204C  サービスメッシュを利用したマイクロサービスベースのアプリケーション向けDevSecOpsの展開」概説「NIST SP 800-204C  サービスメッシュを利用したマイクロサービスベースのアプリケーション向けDevSecOpsの展開」概説
「NIST SP 800-204C サービスメッシュを利用したマイクロサービスベースのアプリケーション向けDevSecOpsの展開」概説
Eiji Sasahara, Ph.D., MBA 笹原英司
 

Ähnlich wie Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで) (20)

Vertex AI Pipelinesで BigQuery MLのワークフローを管理
Vertex AI Pipelinesで BigQuery MLのワークフローを管理Vertex AI Pipelinesで BigQuery MLのワークフローを管理
Vertex AI Pipelinesで BigQuery MLのワークフローを管理
 
hbstudy#88 5G+MEC時代のシステム設計
hbstudy#88 5G+MEC時代のシステム設計hbstudy#88 5G+MEC時代のシステム設計
hbstudy#88 5G+MEC時代のシステム設計
 
6. Vertex AI Workbench による Notebook 環境.pdf
6. Vertex AI Workbench による Notebook 環境.pdf6. Vertex AI Workbench による Notebook 環境.pdf
6. Vertex AI Workbench による Notebook 環境.pdf
 
Big query and elasticsearch insight at scale
Big query and elasticsearch insight at scaleBig query and elasticsearch insight at scale
Big query and elasticsearch insight at scale
 
20180510_ICON技術セミナー5_芦村
20180510_ICON技術セミナー5_芦村20180510_ICON技術セミナー5_芦村
20180510_ICON技術セミナー5_芦村
 
20180510_ICON技術セミナー5_芦村
20180510_ICON技術セミナー5_芦村20180510_ICON技術セミナー5_芦村
20180510_ICON技術セミナー5_芦村
 
Visual Studio 2019 GA ! ~ 最新情報 & これからの開発スタイル
Visual Studio 2019 GA ! ~ 最新情報 & これからの開発スタイルVisual Studio 2019 GA ! ~ 最新情報 & これからの開発スタイル
Visual Studio 2019 GA ! ~ 最新情報 & これからの開発スタイル
 
[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは
[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは
[OracleCodeTokyo2019] Kubernetesで実現する運用自動化の新しいアプローチとは
 
Pivotal Cloud FoundryによるDevOpsとアジャイル開発の推進
Pivotal Cloud FoundryによるDevOpsとアジャイル開発の推進Pivotal Cloud FoundryによるDevOpsとアジャイル開発の推進
Pivotal Cloud FoundryによるDevOpsとアジャイル開発の推進
 
Migrating tocloudnativeapplicationwithusingelasticapm
Migrating tocloudnativeapplicationwithusingelasticapmMigrating tocloudnativeapplicationwithusingelasticapm
Migrating tocloudnativeapplicationwithusingelasticapm
 
Azure Machine Learning Build 2020
Azure Machine Learning Build 2020Azure Machine Learning Build 2020
Azure Machine Learning Build 2020
 
日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介
日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介
日立ソリューションズの取り組みとプラットフォーム関連セション内容のご紹介
 
【de:code 2020】 ハイブリッド プラットフォームの最新動向を知る
【de:code 2020】 ハイブリッド プラットフォームの最新動向を知る【de:code 2020】 ハイブリッド プラットフォームの最新動向を知る
【de:code 2020】 ハイブリッド プラットフォームの最新動向を知る
 
レガシー Web からの脱却 ~ 開発者が次に目指すべき Web アプリの姿とは?
レガシー Web からの脱却 ~ 開発者が次に目指すべき Web アプリの姿とは?レガシー Web からの脱却 ~ 開発者が次に目指すべき Web アプリの姿とは?
レガシー Web からの脱却 ~ 開発者が次に目指すべき Web アプリの姿とは?
 
Small Language Model Local Launch on AI Tour Tokyo
Small Language Model Local Launch on AI Tour TokyoSmall Language Model Local Launch on AI Tour Tokyo
Small Language Model Local Launch on AI Tour Tokyo
 
Open棟梁概要説明 v02-00
Open棟梁概要説明 v02-00Open棟梁概要説明 v02-00
Open棟梁概要説明 v02-00
 
KustomizeとGitHub Actionsを利用したUbieのデプロイの仕組み
KustomizeとGitHub Actionsを利用したUbieのデプロイの仕組みKustomizeとGitHub Actionsを利用したUbieのデプロイの仕組み
KustomizeとGitHub Actionsを利用したUbieのデプロイの仕組み
 
Microsoft Build 2020: Azure IoT 関連最新情報
Microsoft Build 2020: Azure IoT 関連最新情報Microsoft Build 2020: Azure IoT 関連最新情報
Microsoft Build 2020: Azure IoT 関連最新情報
 
マルチクラウド環境の膨大なAPIトラフィックをリアルタイムに処理するNGINXの仕組み
マルチクラウド環境の膨大なAPIトラフィックをリアルタイムに処理するNGINXの仕組みマルチクラウド環境の膨大なAPIトラフィックをリアルタイムに処理するNGINXの仕組み
マルチクラウド環境の膨大なAPIトラフィックをリアルタイムに処理するNGINXの仕組み
 
「NIST SP 800-204C サービスメッシュを利用したマイクロサービスベースのアプリケーション向けDevSecOpsの展開」概説
「NIST SP 800-204C  サービスメッシュを利用したマイクロサービスベースのアプリケーション向けDevSecOpsの展開」概説「NIST SP 800-204C  サービスメッシュを利用したマイクロサービスベースのアプリケーション向けDevSecOpsの展開」概説
「NIST SP 800-204C サービスメッシュを利用したマイクロサービスベースのアプリケーション向けDevSecOpsの展開」概説
 

Mehr von 幸太朗 岩澤

Mehr von 幸太朗 岩澤 (9)

15. Transformerを用いた言語処理技術の発展.pdf
15. Transformerを用いた言語処理技術の発展.pdf15. Transformerを用いた言語処理技術の発展.pdf
15. Transformerを用いた言語処理技術の発展.pdf
 
14. BigQuery ML を用いた多変量時系列データの解析.pdf
14. BigQuery ML を用いた多変量時系列データの解析.pdf14. BigQuery ML を用いた多変量時系列データの解析.pdf
14. BigQuery ML を用いた多変量時系列データの解析.pdf
 
BigQuery ML for unstructured data
BigQuery ML for unstructured dataBigQuery ML for unstructured data
BigQuery ML for unstructured data
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
行列分解の数学的基礎.pdf
行列分解の数学的基礎.pdf行列分解の数学的基礎.pdf
行列分解の数学的基礎.pdf
 
5. Big Query Explainable AIの紹介
5. Big Query Explainable AIの紹介5. Big Query Explainable AIの紹介
5. Big Query Explainable AIの紹介
 
4. CycleGANの画像変換と現代美術への応用
4. CycleGANの画像変換と現代美術への応用4. CycleGANの画像変換と現代美術への応用
4. CycleGANの画像変換と現代美術への応用
 
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
 
1. BigQueryを中心にした ML datapipelineの概要
1. BigQueryを中心にした ML datapipelineの概要1. BigQueryを中心にした ML datapipelineの概要
1. BigQueryを中心にした ML datapipelineの概要
 

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 

Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)

  • 1. Vertex AI Pipelinesで BigQuery MLのモデル作成 デプロイまで 2022/06/18 機械学習の社会実装勉強会第12回 岩澤 幸太朗
  • 2. Summary ➢ Vertex AI PipelinesでBigQueryのオペレーションが可能に(2022/4 一般提供開始) ➢ 第4回発表のETLジョブの内容をVertex AI Pipelines で置き換え さらにデプロイまで実施 Vertex AI Pipelines の BigQuery および BigQuery ML 演算子に関するお知らせ(2022/4/13) 【第4回】BigQueryを中心にした ML datapipelineの概要
  • 3. 今回の話の対象 https://cloud.google.com/vertex-ai?hl=ja#section-7 MLOps with Vertex AI ➢ Vertex AI ○ 機械学習ワークフローの統合環境 ○ AutoML含む各種MLツールへのアク セス ➢ Vertex AI Pipelines ○ Vertex AI 上で機械学習パイプライ ン をフルマネージドで構築するサービ ス
  • 4. Kubeflow ➢ Kubeflow ○ Kubernetes上で動くMLOpsツール 群 (Goolge が開発主体) ○ 2020/3 v1.0リリース ➢ Kubeflow Pipelines ○ Kubeflow の一コンポーネント ○ ワークフロー管理 モデル構築・実験 
 Kubeflow notebooks 
 ハイパーパラメータ調整 
 Katib
 特徴量管理
 Feast
 ワークフロー構成 
 Kubeflow Pipelines 
 モデルサービング 
 KServe
 …
 …
 ※2022/6時点の名称 参考:2021-12-18 Kubeflow Pipelines概要@機械学習の社会実装勉強会 by 那珂さん
  • 5. GCPでKubeflowを用いたMLOps ➢ Kubeflow pipelinesをそのまま使用 ○ 自前でGKEクラスタを用意する必要がある ➢ AI Platform Pipelines ○ Kubeflow pipelines のマネージドサービス(GKEクラスタの管理必要) ➢ Vertex AI Pipelines ○ Kubeflow pipelinesのフルマネージドサービス(GKEクラスタの管理不要)
  • 6. Vertex AI Pipelines ➢ 2021年11月一般提供開始 ➢ TFX, Kubeflow Pipelines のPython SDKを利用したパイプライン構築 ➢ フルマネージドサービス (Kubernetes 管理必要なし) ➢ ML Opsをシンプルに データ前処理 モデル トレーニング モデル評価 モデルデプロイ データロード データ抽出 Vertex AI Pipelines
  • 7. BigqueryQueryJobOp BigQuery クエリを送信 BigqueryCreateModelJobOp BigQuery ML モデルを作成 BigqueryEvaluateModelJobOp BigQuery ML モデルを評価 BigqueryPredictModelJobOp 予測を作成 BigqueryExportModelJobOp BigQuery ML モデルを GCS にエクスポート 今回追加されたコンポーネント ● google_cloud_pipeline_components.v1.bigquery module https://google-cloud-pipeline-components.readthedocs.io/en/google-cloud-pipeline-components-1 .0.0/google_cloud_pipeline_components.v1.html#components
  • 8. 第4回で発表したETLジョブ GCS -> 前処理 -> BQでML model 作成・評価・予測 -> エンドポイントのデプロイまで すべての工程がワークフローで自動化可能に 【第4回】BigQueryを中心とした ML datapipelineの概要 https://www.slideshare.net/ssusere6d3be/bigquery-ml-datapipeline#
  • 10. Vertex AI Pipelineを用いたワークフロー Cloud Storage BigQuery Store a training data (titanic data) Create dataset using BigqueryQueryJobOp Dataflow Preprocess the data and load to BigQuery using DataflowPythonJobOp BigQuery Train a classifier with BQML using BigqueryCreateModelJobOp BigQuery BigQuery Predict data using BigqueryPredictModelJobOp Evaluate the model with BigqueryEvaluateModelJobOp Vertex AI Pipelines BigQuery Export the model using BigqueryExportModelJobOp Upload the model using ModelUploadOp Create API endpoint using EndpointCreateOp Create API endpoint using ModelDeployOp Vertex AI Vertex AI Vertex AI 1. BigqueryQueryJobOp を使って BiqQuery でデータセットを作成する 2. Dataflow を使って GCS上のCSVファ イルの前処理を実施し、 BigQuery にロードする 3. ロジスティック回帰モデルをトレー ニングする 4. モデルを評価する 5. テストデータにモデルを適用して、 予測を作成する 6. GCSにモデルをアップロードする 7. モデルをエンドポイントにデプロイ する 8. 予測リクエスト
  • 11. Demo ➢ Vertex AI pipelines の実行 ○ GCS からファイル取得 ○ 前処理、BigQuery へロード ○ モデル学習・評価・予測 ○ エンドポイントへのデプロイ 使用したNotebook: https://github.com/kootr/ml-study-session/tree/main/20220528_vertex_ai_pipelines
  • 12. まとめ ➢ GCPでMLOpsを実現する有力なサービス ➢ Kubeflow pipelinesに慣れていれば簡単に導入可能 ➢ Kubernetesの管理不要は大きなメリット
  • 15. ● SDKで記述される処理 a. Pipeline : データの処理を行うパイプライン全体 b. PCollection : 分散処理対象のデータセットを表す オブジェクト c. PTransform : データセット加工 d. IOS transrforms:外部ストレージへの入出力 おまけ:Apache Beam による分散データ処理 Dataflow
  • 16. - Vertex AI Pipelines の BigQuery および BigQuery ML 演算子に関するお知らせ (2022/4/13) - Ask the Expert ’21 〜機械学習〜 Google Cloud - Cloud DataflowでGCS→BQのパイプラインをPythonで試してみる - Vertex Pipelinesによる機械学習パイプラインの実行 - Vertex Pipelines で動く Kubeflow Pipelines のサンプルを公開しました - Vertex AI Pipelinesによる機械学習ワークフローの自動化 参考