Data pipeline 101

單一為多個的組合
Stage 1 Stage 2 Stage 3Input Output

單一
● 獨立的
● 與其他相互依賴
Stage 2Iutput OutputOutput

轉換階段
● 改變資料格式，增加或移除欄位
● 跨數據源的聚合計算
● 為資料建立索引，為使用資料的作業提供更好的特性

不同資料源的資料處理

管線需求及設計考量（一）功能面
● 延遲需要即時處理還是批次處理？
● 資料正確性最少一次僅此一次？資料順序？
● 高可用性容錯、
● 障礙排除所需時間？能不能支援版本回滾？
● 紀錄任務進行時間
● 防止錯誤資料進入生產環境
● 資源監控能否簡單監控甚至預測所需資源？
● 易於開發部署符合你們主要的開發語言？
● 方便維運自動化的維運工具

管線需求及設計考量（二）冪等性
● 資料管線必須能夠被重複執行並產生相同結果：
○ 能不能重新執行過去任一日期時間的排程？
○ 能不能重新執行過去一個月一年的排程？
● 資料面的問題
○ 有沒有留過去的資料？
○ 是還是
○ 最小能重新執行的單位？

管線需求及設計考量（三）二階段轉換
● 當你要確認資料轉換結果時：
○ 將資料轉換結果放入一暫存區
○ 驗證轉換後的資料是否正確
○ 再將資料轉入正式環境

管線需求及設計考量（四）查核點
● 有時候資料管線會非常長：
○ 能不能紀錄單獨一個階段的狀態
○ 如果在某個階段失敗，可以從該階段繼續執行

管線需求及設計考量（五）安全性
● 資料存放的安全性
● 運算時的安全性
● 階段之間的權限
● 運行環境的權限
●

常用的設計模式
● 重複使用程式
○ 對於多個類似的管線採用通用流程，以便於開發或監控
● 微服務模式
○ 讓一個服務做好單一任務

常見管線架構
●
●
●
●
● 固定資源自動縮放

設計原型
● 確認流程
● 選定開發語言
● 做好單元測試

參數設置
● 通常會用參數的地方
○
○
○
○

使用小資料做測試
● 當資料量的大的時候，無法直接使用線上資料做測試
● 可以使用的資料確認整條管線運作通暢

部署到環境
● 如果有個非常接近生產環境的環境非常有幫助
● 在這裡可以驗證
○ 管線效能能不能負擔完整的資料量
○ 新的版本是不是能正確取代舊版本
○ 有沒有其他整合問題

部署方式
● 金絲雀部署
○ 處理正式環境資料，但是不要將資料寫入正式環境
● 部分部署
○ 逐漸增加處理的資料量
● 一些常遇到的問題
○ 輸入資料不正確或延遲
○ 資料處理過程中有
○ 未預想到的輸入資料處理
○ 儲存時發生錯誤
○

正式上線後
● 確保上線後若發生錯誤可以迅速回滾
● 確保失敗的任務可以重新執行
●

定義和測量服務目標
● 資料新鮮度
● 資料正確性
● 任務重要性優先性
● 任務所需資源

的設計與維運
● 當任務之間的依賴關係複雜且長時，以下情況就會變得棘手：
○ 單一任務的變更
○ 上游任務的損壞或延遲

建立並維護相關文件
● 系統圖
● 任務流程
● 還原腳本
● 訂立錯誤處理計畫

其他
● 減少熱點像是運算單元資料倉儲
● 規劃資源
● 訂立資安政策誰可以碰到資料
● 規劃升級方式

衡量管線成熟度
失敗容忍度
不支援錯誤管理自動重試失敗的階段
不支援單一工作節點發生問題提供
可伸縮性
不可自動伸縮可自動可自動伸縮工作節點
監控及除錯
沒有不容易查找可以輕易找到任何時間點的
透明及容易實作
管線不透明清楚看到各個運行狀況
單元與整合測試
易於管理配置（）

管線錯誤的預防以及處理
● 資料延遲
○ 當資料延遲時，相關依賴的會不會跟著等？等多久之後會
● 資料損毀
● 管線的相互依賴
● 配置錯誤
○ 例如或是參數設置錯誤
● 意外的資源消耗
● 區域性故障

背景
某公司需要即時收集使用者使用的資料
收集好的資料需要放到以及放到資料倉儲
需要根據分析師需求將原始資料轉換成統計用報表

搜集事件
● 處理資料之前要確保原始資料都能被保存

● 越靠，資料格式越鬆散，聚合程度較低
● 越靠應用端，資料格式越嚴謹，聚合程度高

● 確認資料生命週期
● 確認工作依賴關係
● 原始資料一定要保留！

補充
有的情況
開著各別的輪詢
將所有要查詢的東西丟到一個裡面，就可以使用單一去輪詢，查不到的話
就再丟回
沒有的情況
送出執行後，即斷掉連線
使用上述方式查詢結果，看結果是否被計算出來
如果超過一定時間或次數還查不到結果即發送告警

補充
● 以最後產出為單位來切割：
○ 優點：方便管理和確認當前有多少產出的資料
○ 缺點：之間的難以管理（管理）
● 以資料源或是來切割，一個裡面包含所有相關連的資料
以及產出：
○ 優點：方便觀察每個產出之間的關聯，如果需要回溯也會比較方便。

Data pipeline 101

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Data pipeline 101

Ähnlich wie Data pipeline 101 (20)

Mehr von Bryan Yang

Mehr von Bryan Yang (15)

Data pipeline 101