More Related Content
Similar to [Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 2018年5月10日 放送 (20)
More from Google Cloud Platform - Japan (20)
[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 2018年5月10日 放送
- 14. Cloud OnAir
得意:アクセスログからの MAU (Monthly Access User) 集計
大規模な集計処理
● 大規模なデータ処理
● BigQuery が最も得意とするタイプの処理
● バッチ処理と呼ばれるタイプの処理
アクセスログ
DAU を含む ダッシュボード
(日毎に更新)
?
- 25. Cloud OnAir
GCP で作るデータパイプライン
Cloud Dataflow
データの出力データの入力
Cloud
Storage
BigQuery
Cloud
Pub/Sub
Cloud
Storage
BigQuery
Cloud
Pub/Sub
● Dataflow を介してデータ処理がつながっていく
● 全てマネージドなサービスとして提供されている
● ここで紹介していないデータソースにも数多く対応している
- 26. Cloud OnAir
● Apache Beam によるプログラミングが必要
● Java / Python 向けの SDK を利用
● 詳しく知りたい方は公式ドキュメントへ
パイプラインを実現するためのプログラミング
Beam Model: Fn Runners
Runner A Runner B
Beam Model: Pipeline Construction
Beam Java
Beam
Python
Execution Execution
Cloud
Dataflow
Execution
- 27. Cloud OnAir
ノンプログラミングで Dataflow (1) - Dataprep
● GUI ベースのデータ準備ツール
● GUI の操作結果は Dataflow で実行
● GCS 上のデータと BigQuery を操作可能
● データ型の自動検知や操作のレコメンド
Cloud Dataprep の特徴
e-Learning (次週放送)で説明
- 28. Cloud OnAir
ノンプログラミングで Dataflow (2) - テンプレート
● テンプレートで定義された処理を GUI から簡単に実行可能
● テンプレート例
○ GCS 上のファイルを読み取って BigQuery へ挿入
○ Pub/Sub からのストリームデータを受け取って BigQuery へ挿入
● Google 提供のテンプレートを利用することも、
テンプレートを自作することも可能
Dataflow テンプレート の特徴
- 29. Cloud OnAir
Google Cloud 活用事例
ソニーネットワークコミュニケーションズ様、リクルートライフスタイル様
では、分析基盤として BigQuery, GCS だけではなく Dataflow も
ご活用いただいています。
- 32. Cloud OnAir
まとめ
● BigQuery は非常に強力なサービスだが他のサービスと組み合わせるとより強力
になる
● ストリーム処理を行ってリアルタイムな分析、データ処理を実行
● ストリーム処理を含む一連の処理はデータパイプラインとして実現
● Google Cloud ではデータパイプラインを実現するための各種機能が
フルマネージドなサービスとして提供
リアルタイムな処理を実現するためには
データパイプラインをうまく構築することが必須
機械学習もデータパイプラインに組み込むことが可能