fabric-data-pipeline.tsx
Data Engineering2025

菸酒商全公司 Data Pipeline 重構

技術棧

Microsoft FabricOneLakeAzure BlobdbtPower BIApache AirflowPython

專案概述

主導一家菸酒商的全公司資料管線重構專案。在 Microsoft Fabric 上設計現代化 Lakehouse 架構,透過 OneLake Shortcut 直連 Azure Blob,無需搬移資料,同時保留完整原始歷史與稽核可追溯性。採用雙軌調度策略(Fabric Pipeline 原生管線 + Managed Airflow),短期快速交付、中長期可橫向擴充。建立集中式監控(Monitor Hub + Data Activator)實現主動告警與自動修復。以 Fabric Notebook 搭配 dbt 執行轉換與即時除錯,最終將 ML 預測結果回寫至 Warehouse,形成「分析→回寫→再分析」閉環。

架構圖

菸酒商全公司 Data Pipeline 重構 diagram 1
菸酒商全公司 Data Pipeline 重構 diagram 2

架構重點

1

OneLake Shortcut 直接取用(毋需搬資料)

  • 使用 OneLake Shortcut 連 Azure Blob,不搬資料、用邏輯連結直接取用
  • 保留原始資料長期存於 Blob:作為原始落地與歷史留存位置
  • 資料一到 Blob 就可被 Fabric 取用,無需額外 ETL 等待

效益

縮短上線時間:資料一到 Blob 就可被 Fabric 取用

保留可追溯性:原始檔可回溯、稽核更完整(尤其投標加分)

2

Orchestration 雙軌調度

  • Fabric Pipeline(原生):ETL/ELT、Dataflow/Copy、定時更新,上手快、交付快
  • Managed Airflow(Fabric 內建):複雜依賴 DAG、多 job 等待、支援回填歷史資料
  • Airflow 協助觸發 Fabric Pipeline、管理依賴關係
  • 內建資料健康度檢查,支援 Backfill

效益

短期快速交付:先用 Fabric Native 穩定落地

中長期可擴充:未來接外部系統 / 多雲 / 地端不需要推倒重來

3

監控與自動化應對

  • Monitoring Hub:集中監看 Pipeline、Notebook、Dataflow 即時狀況與成敗
  • Data Activator:偵測異常,發訊息、觸發 retry / 補救流程
  • Monitor Hub 自動修復,Data Activator 主動通知並自動處理

效益

可觀測性提升:從「出事才知道」→「即時掌握」

自動化處置:用規則把常見問題變成可重複處理的標準流程

4

Fabric Notebook + dbt 開發與除錯

  • 用 Fabric Notebook 跑 dbt,轉換與資料檢查在同一環境完成
  • 若 dbt run --select 失敗,下一個 cell 直接用 Python 抓資料檢查
  • 需要臨時驗證時,可用 Notebook 直接寫 Python 做快檢

效益

縮短除錯時間:問題發生時快速定位

降低跨工具切換成本:同一工作區完成轉換、驗證與分析

5

語意模型建立 Data Loop

  • Notebook 產出預測回填至 Warehouse / OneLake:銷量 Forecast、流失 Churn Score、商品推薦 Ranking、異常偵測 Anomaly Flag
  • Power BI 報表透過單一 Semantic Model 呈現預測結果
  • 同一套 Semantic Model 服務多報表、多部門,口徑一致

效益

回答業務問題:什麼時候會掉業績、哪店有異常、誰會流失

AI/ML 落地:預測結果回寫後能被業務直接看見與採用

6

AI / ML 回饋閉環

  • Bronze → Raw 落地;Silver → 清洗;Gold → 直接供報表使用
  • AI/ML(Notebook)產出洞察 / 預測 → 回填 Gold / Warehouse / OneLake
  • BI 端透過 Semantic Model 直接製表,形成「資料→模型→決策」循環

效益

AI 不只停在 POC:結果直接進 BI,被看見、被追 KPI

形成閉環:更容易擴到 Copilot / Forecast / Optimization

型別定義

fabric-data-pipeline.tsx
const FabricDataPipeline = {
  title: "菸酒商全公司 Data Pipeline 重構",
  category: "Data Engineering",
  year: "2025",

  tech: [
    "Microsoft Fabric",
    "OneLake",
    "Azure Blob",
    "dbt",
    "Power BI",
    "Apache Airflow",
    "Python"
  ],

  summary:
    // 協助菸酒商完成全公司資料管線重構,整合 Microsoft Fabric、OneLake、dbt 與 Power BI,建立可擴充的現代化資料架構。

} satisfies Project;