15. Copyright(C) 2019 GCPUG All Rights Reserved 15
GCPで機械学習するとき
データフローの
要素
GCPプロダクト プロダクトの用途
データ収集 Cloud IoT Core
Cloud Pub/Sub
Cloud Function
App Engine
センシング
メッセージング
コンピューティング
コンピューティング
データ蓄積 BigQuery
Cloud Datastore
DWH(データ解析)
NoSQL DB
データ整形・整理 Cloud Dataflow データ処理
データ学習・推論 ML Engine 機械学習
16. Copyright(C) 2019 GCPUG All Rights Reserved 16
機械学習の構成
データ
収集
データ
蓄積
データ
整理
モデル
Cloud
Function
Big
Query
Cloud
Dataflow
ML
Cloud Engine
Cloud
Storage
デバイス
など
マイクロ
サービス
構築
クエリ
実行
データ
処理
学習・推論
実行環境
17. Copyright(C) 2019 GCPUG All Rights Reserved 17
・一機能の実現に適した(FaaS)
・マイクロサービスの構築
・APIを利用する時のユーザー認証
・httpで応答するバックエンドサービス
・IoT デバイスからのデータ取り込み
・Cloud Storageへの
ファイルアップロードをトリガーとした
ファイル処理
・ファイルアップロード時の
フォーマット変換
Cloud Faction の主な特徴・用途
Cloud
Function
18. Copyright(C) 2019 GCPUG All Rights Reserved 18
● データが バッチ(定期)or リアルタイム(不定期) に
クラウドへ送信されるかどうか
◇ IoTデバイスから取得する場合
・工場オートメーションでのセンシングデバイス
・コンシューマのスマートデバイス
・データ取得がバッチ(定期)での処理
◇ アプリケーションから取得する場合
・Webサービスなどの送信元多数からのデータ取得
・送信タイミングが不定期、データサイズが様々
・リアルタイム(不定期)での処理
データ収集・蓄積
Cloud
Function
向き
GAE
向き
19. Copyright(C) 2019 GCPUG All Rights Reserved 19
・ビッグデータ解析用のDWH
・ペタバイト級のデータを数分で
フルスキャン
・機械学習用の学習、推論データの
取得、保存、解析、フィードバック
・アクセス権限、データ階層の概念
BigQuery の主な特徴・用途
BigQuery
BigQueryのデータ階層とアクセス権限イメージ
データセット B
プロジェクト A
テーブル C
テーブルセット D
ユーザーX
ユーザーY
プロジェクトAの権限が
全データセットへ継承
データセットDのみの権限
テーブル E
20. Copyright(C) 2019 GCPUG All Rights Reserved 20
データの整理・処理
SQL(BigQuery)での欠損値を埋めるイメージ
● データの整理とは前処理
・データ欠損を埋める
・データを整形する
● SQL(BigQuery)による前処理
・学習に使えるデータのみを抽出
・インデックスを必要としない高速クエリ
A B C A B C
21. Copyright(C) 2019 GCPUG All Rights Reserved 21
・パイプライン処理、分岐
・ETL(データ抽出を変換する工程)
・複数のデータソースから
データをマージ
・データフォーマットを変えて
複数の出力先に出力
・イレギュラーな値が来た時に、
別の専用の処理へ分岐させたり
Cloud Dataflow の主な特徴・用途
Cloud
Dataflow
分岐を持ったパイプラインのイメージ
データ
抽出
処理 A
処理 B
データ
マージ データ
出力
22. Copyright(C) 2019 GCPUG All Rights Reserved 22
・TensorFlow モデル学習、推論を
マネージドな環境で実行できるサービス
・TensorFlow で記述した
独自モデルの学習
・学習済みモデルのAPIサービス化
※ TensorFlow は Google謹製
ML Cloud Engine の主な特徴・用途
ML
Cloud
Engine
23. Copyright(C) 2019 GCPUG All Rights Reserved 23
● 前処理の作業をするときは、
BIツールの Dataprep がオススメ
・もちろん GUI
・コーディング不要
・欠損値、重複データを自動検知
※ データ前処理のツール ※
Data
Prep
https://cloud.google.com/dataprep/?hl=ja
24. Copyright(C) 2019 GCPUG All Rights Reserved 24
● 機械学習は様々なサービスの集合体
● サーバーレス環境だけで機械学習の環境を構築できる
● ほとんどマネージドで構築可能
● GCPならプロダクトの組み合わせは自在
● GCPの機械学習は精度は高いと感じられる
まとめ