Weitere ähnliche Inhalte
Ähnlich wie [Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送 (20)
Mehr von Google Cloud Platform - Japan (20)
Kürzlich hochgeladen (12)
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送
- 6. Cloud OnAir
データ プラットフォーム - クラウドはデータを集約
オンプレ
基幹系システム A
データベース
基幹系システム B
データベース
グループ会社
顧客データベース
顧客
データベース
グループ会社イントラ
可視化
ツール
分析
ツール
レポート
監査
ツール
分析官
ビジネス企画
大量データでもスケール
運用不要でサイロ化しない
- 7. Cloud OnAir
データ プラットフォーム - クラウドはデータを集約
オンプレ
基幹系システム A
データベース
基幹系システム B
データベース
グループ会社
顧客データベース
顧客
データベース
グループ会社イントラ
可視化
ツール
分析
ツール
レポート
監査
ツール
分析官
ビジネス企画
大量データでもスケール
運用不要でサイロ化しない
ここはどうすれば良いの?
● 各データソースで
フォーマットが異なる
● バッチデータもあれば
リアルタイムデータも
● 異なるプラットフォーム
(オンプレ、他社クラウド)
- 15. Cloud OnAir
● No-ops なデータ パイプラインの構築と
管理のための統合サービス
○ CDAP という OSS ベースの
マネージド サービス
● 統一されたバッチとストリーミング処理
● GUI で簡単にフロー (DAG) を作成
● 様々なデータソースに対応
Cloud Data FusionBeta
とは?
- 16. Cloud OnAir
Cloud Data Fusion のアーキテクチャ
Kubernetes
Engine Cloud
Dataproc
Cloud SQL Cloud
Storage
Persistent
Disk
Elasticsearch
Hadoop
Identity-Aware
Proxy
ユーザ
Cloud Data Fusion
UI / 認証
パイプライン実行
メタデータ保存
システム サービス
- 17. Cloud OnAir
Cloud Data Fusion の機能 - パイプライン作成
分かりやすい GUI を使い、ノードと呼ばれるコンポーネントを
繋いでデータ パイプライン (DAG: Directed Acyclic Graph) を
作成できます。
ノード種類
● Sources
● Transforms
● Analytics
● Actions
● Sinks
● Error Handlings
- 18. Cloud OnAir
Cloud Data Fusion の機能 - データ加工 / クレンジング
Built-in の Transform や Analytics を
組み合わせて、ワークロードに合った
データ加工を設計
- 19. Cloud OnAir
Cloud Data Fusion の機能 - データ加工 / クレンジング
Wrangler UI
実際のデータ (1000 個の
データからなるサブセット)
を確認しながら
インタラクティブに変換を
作成可能
作成した一連の変換は
Transform として
パイプラインで利用できる
- 20. Cloud OnAir
Cloud Data Fusion の機能 - メタデータとリネージュ
検索例: <has_pii: true> 条件に合致する
メタデータを持つ
データセット
メタデータ管理
データセットにデータを説明する
メタデータを付与できる
データ リネージュ
データセットがどのパイプラインで
どのように利用されているかを
可視化して追跡可能
- 21. Cloud OnAir
Cloud Data Fusion の機能 - オーケストレーション
プレビュー
各ノードのインプット データと
アウトプット データを
プレビューできる
スケジュール
パイプラインの実行を柔軟に
スケジュール設定可能
- 24. Cloud OnAir
GCP の他のサービスとの比較
Cloud Data Fusion
Google Cloud Platform
データ
パイプライン
作成
データ加工
データ
クレンジング
メタデータ管理
リネージュ
データ
パイプライン
実行
Cloud
Dataflow
Cloud
Dataproc
Cloud
Dataproc
Cloud
Dataprep
Cloud
Composer
Cloud Catalog
オーケスト
レーション
Cloud
Dataflow
Cloud
Dataflow
Cloud
Composer
- 25. Cloud OnAir
2 つのエディション
Basic - 開発 / テスト / PoC Enterprise - 本番環境
ユーザ 制限なし 制限なし
制限 ● 実行は Dataproc 限定
● 同時実行は 2 パイプライン
まで
制限なし
機能 ● GUI
● Control Center
● Wrangler UI
● SDK
● Private IP サポート
● デバッグとテスト
● Basic のすべての機能に加え ……
● ストリーミング パイプライン
● 統合メタデータ リポジトリ
● 統合リネージュ
● HA
● REST API
● トリガー / スケジュール