Weitere ähnliche Inhalte Ähnlich wie Delta Lake with Synapse dataflow (20) Mehr von Ryoma Nagata (8) Delta Lake with Synapse dataflow1. 【中級者向け】
Delta Lake with Mapping Dataflow
Microsoft MVP for Data Platform 2021
永田 亮磨
Twitter:@ryomaru0825
Linkedin:ryoma-nagata-0825
Qiita:qiita.com/ryoma-nagata
5. Delta Lake ベネフィット例
- CRUDオペレーション
• Update、Delete、 Mergeをサポー
トし、データの修正・削除Upsertを
実行
• ストレージ上で動作するOSSソフト
ウェアなので、RDBMSに対して費用
を払わないでよい
ID eventType timestamp
1 clck 2020/4/1 23:00
2 clck 2020/4/1 23:01
3 conversion 2020/4/1 23:02 UPDATE events
SET eventType = 'click’
WHERE eventType = 'clck'
ID eventType data
1 click AAA
2 click BBB
3 conversion CCC
ID eventType data
3 conversion ccc'
4 conversion DDD
MERGE INTO events
USING updates
ON events.eventId = updates.eventId
WHEN MATCHED THEN
UPDATE SET events.data = updates.data
WHEN NOT MATCHED THEN
INSERT (date, eventId, data) VALUES (date, eventId, data)
ID eventType data
1 clck AAA
2 clck BBB
3 conversion ccc'
4 conversion DDD
8. • シナリオ:過去の映画評価データの統合、可視化
デモ構成
• 参考:Delta Lake ETL とデータ フロー - Azure Data Factory | Microsoft
Docs
Azure Data Lake Storage Gen2
スケジュール実行な
どでAPI負荷をかけな
いように注意
GUIデータ統合
1. ~1999年データ登録
• 列追加(高評価フラグ)
2. 追加/更新/削除処理
1. 不正データ削除
2. 2000年~データ追加
3. 1999年データ更新
データ連携
Azure Databricks
可視化分析
Power BI
Synapse Pipeline Dataflow
Power BI から
Delta Lakeへの
アクセスを仲介
(高速クエリエンジン)
Cluster