GCPでStreamなデータパイプライン作った

1
GCPでStreamなデータパイプライン作った
{“id”: “@shoe116”, “team”: “Data Platform”}

2
mercariのlog収集の歴史とマイクロサービス化
GCPでStreamなデータパイプライン作った
GCPで作ったStreamなデータパイプラインの概要
AvroとDataFlowを使ったETL処理
今日のまとめ
02
03
04
01

3
- Mercari Data Platform
- Stream/Batch Pipeline Developer
- Scala, Python, Java, Go, etc
- Apache Beam, Kafka, Storm, Hive,
Hadoop…
Shu Suzuki @shoe116

4
指定された区間(data sources - data sinks)で
データパイプライン？
信頼性のあるデータ処理やデータ転送を
安定的に提供する仕組み
2.
3.
1.
今回は「本番環境のlogを、DWH等の分析環境に届ける」ことを
主眼にしたデータパイプラインについて話します。

5
Mercariのlog収集の歴史と
マイクロサービス化

6
既存のlog収集の仕組み
モノリスのWebアプリケーションのlogをﬂuentdで伝搬しbatch処理

7
マイクロサービスのアーキテクチャ
データパイプライン的に言うと、data-sourceが不特定多数になる
??

8
GCPで作った
Streamなデータパイプラインの概要

9
メッセージ志向ミドルウェア（G製Kafka）
使っているGCPのサービス
Beamで記述できる処理エンジン（G製Flink）
Cloud
Dataﬂow
Cloud
Pub/Sub
Cloud
Storage
マルチリージョナルなオブジェクトストレージ
BigQuery 大量データ向けのG製DWH、GCSからも読める。

10
新しい Stream データパイプライン
各MSのRamp TopicからDataHubへ集約、GCSとBigQueryへStore

11
各MSごとに設けられたデータの投入口
各Cloud Pub/SubのTopicの役割
Rampsのデータを1つのTopicに集約したTopic
Raw
DataHub
Ramps
構造化されたSchema付きAvroが流れるTopic
Structured
DataHub

12
Raw DataHubのデータを出力するGCS bucket
各データストアの役割
Structurd Datahubのデータを出力するGCS bucket
Structured
DataLake
Raw
DataLake
Structured DataHubのデータを出力するBig QueryDWH

13
AvroとDataﬂowを使ったETL処理

14
DataHub Avro format
{"type": "record",
"name": "DataHubAvro",
"namespace": "com.mercari.data.model.v3",
"fields": [{
{"name": "uuid", "type": "string"},
{"name": "timestamp",
"type": {
"type": "long",
"logicalType": "timestamp-micros"
}},
{"name": "topic_name", "type": "string"},
{"name": "service_name", "type": "string"},
{"name": "log_name", "type": "string"},
{"name": "content_type", "type": ["null", "string"],
"default": null},
{"name": "user_agent", "type": ["null", "string"],
"default": null},
{"name": "payload","type": "bytes"}
]}
}
パイプラインの共通フォーマット
Avroを採用した理由
- AvroはそのままGCSに書ける
- AvroはそのままBQに書ける
- Avro ﬁleはBQから直接読める
DataHub Avro に含まれるもの
- パイプラインのdestination
- Schemaの引き当て情報
- データ本体

15
Map処理でRampsからデータを読む
Ramps -> Raw DataHubのETL
共通のDataHub Avro formatに変換
全レコードをRaw DataHubにwrite
T
L
E

16
Raw DataHubからデータを読む
Raw DataHub -> Structured DataHub のETL
DataHub Avroのpayloadのbyte[]を、
構造化されたAvroに変換するT
L
E
全レコードをStructured DataHubにwrite

17
サービスのMS化に伴いパイプラインも進化が求められる
今日のまとめ
不特定多数のdata sourceを想定して設計、開発中
Google Cloud Pratformの各サービスとAvroを利用
We are hiring!
02
03
04
01
https://mercari.workable.com/jobs/765272

GCPでStreamなデータパイプライン作った

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie GCPでStreamなデータパイプライン作った

Ähnlich wie GCPでStreamなデータパイプライン作った (20)

Mehr von Shu (shoe116)

Mehr von Shu (shoe116) (9)

GCPでStreamなデータパイプライン作った