關於資料歷程

資料歷程可協助您追蹤資料在系統中的移動方式。您可以查看資料資產的來源、目的地和套用的轉換。

您可以在 Dataplex Universal Catalog、BigQuery 和 Vertex AI 資產的 Google Cloud 控制台中查看沿革資訊,也可以使用 Data Lineage API 擷取這類資訊。

為什麼需要資料歷程

大型資料集通常需要轉換成各種格式,才能用於特定專案,例如文字檔、表格、報表、資訊主頁和模型。

舉例來說,網路商店的資料管道可能包含下列流程:

  1. Dataflow 工作會從 Pub/Sub 主題讀取原始購買事件、從 Cloud Storage 檔案讀取產品詳細資料,以及從 BigQuery 資料表讀取顧客資訊。這項工作會彙整這項資訊,並在 BigQuery 中建立 purchases 資料表。

  2. 後續的 BigQuery 工作會轉換 purchases 資料表,建立較小的匯總資料表,例如 regionbrand,並計算新資料欄,例如 total_profit

  3. 分析師會使用這些資料表,在 Looker 中產生報表和資訊主頁。

這個常見情境可能會帶來多項挑戰:

  • 資料消費者缺乏自助式方法,無法驗證資料是否來自權威來源。

  • 資料工程師無法可靠地追蹤所有資料轉換,因此難以找出問題的根本原因。舉例來說,如果分析師在 total_profit 欄中發現錯誤,很難追溯錯誤的來源。

  • 資料工程師和分析師無法全面評估修改或刪除資料表可能造成的影響。舉例來說,在淘汰 product_id 資料欄之前,他們必須找出所有相依的下游資料欄,以免報表無法正常運作。

  • 資料管理員無法掌握整個機構中機密資料的使用方式,因此難以確保符合法規要求。

資料沿襲會提供資料歷程的清楚視覺化地圖,解決上述問題。有了資料沿襲,您就能執行下列操作:

  • 使用歷程圖瞭解資料的來源和轉換方式。

  • 追蹤資料項目和作業中的錯誤,找出根本原因。

  • 透過影響分析功能,改善變更管理作業,避免服務中斷或發生意料之外的錯誤、瞭解依附元件,並與利害關係人協作。

資料歷程工作流程

資料沿襲工作流程包含下列步驟:

  1. 資料來源和擷取:資料來源的沿襲資訊會啟動整個程序。詳情請參閱「沿襲來源」。

    • Google Cloud 服務:啟用 Data Lineage API 後,BigQuery 和 Dataflow 等支援的服務會在資料移動或轉換時,自動回報沿襲事件。

    • 自訂來源:對於Google Cloud 整合功能未自動支援的任何系統,您可以使用 Data Lineage API 手動記錄歷程資訊。建議您匯入根據 OpenLineage 標準格式化的事件。

  2. 沿襲平台:這個中央平台會擷取、建立模型及儲存所有沿襲資料。詳情請參閱沿襲資訊模型和精細度

    • Data Lineage API:這個 API 是所有傳入歷程資訊的單一進入點。它使用階層式資料模型,由程序、執行和事件這三個核心概念組成。

    • 處理和儲存:平台會處理傳入的資料,並儲存在經過查詢最佳化的可靠資料庫中。

  3. 使用者體驗:您可以透過兩種主要方式與儲存的沿襲資訊互動:

    • 視覺化探索:在 Google Cloud 控制台中,前端服務會擷取並將沿襲資料呈現為互動式圖表或清單。Dataplex Universal Catalog、BigQuery 和 Vertex AI (適用於模型、資料集、特徵儲存庫檢視畫面和特徵群組) 皆支援這項功能。非常適合以視覺化方式探索資料歷程。詳情請參閱控制台中的沿襲檢視畫面 Google Cloud

    • 程式輔助存取:使用 API 用戶端,您可以直接與 Data Lineage API 通訊,自動管理歷程。您可藉此從自訂來源寫入沿襲資訊。您也可以讀取及查詢儲存的沿襲資料,以便在其他應用程式中使用,或建構自訂報表。

歷程來源

您可以使用下列方式,在 Dataplex Universal Catalog 中填入歷程資訊:

  • 自動從整合式服務 Google Cloud 匯入
  • 手動,使用自訂來源的 Data Lineage API
  • 從 OpenLineage 匯入事件

自動追蹤資料歷程

啟用 Data Lineage API 後,支援資料歷程的系統就會開始回報資料移動情形。 Google Cloud 每個整合系統都可以提交不同範圍資料來源的沿襲資訊。

BigQuery

在 BigQuery 專案中啟用資料歷程後,Dataplex Universal Catalog 會自動記錄下列項目的歷程資訊:

BigQuery 複製、查詢和載入工作會以程序表示。

如要查看程序詳細資料,請在沿襲圖上按一下

每個程序都包含最新 BigQuery 工作的 attributes 清單中的 BigQuery job_id

其他服務

資料沿襲支援與下列Google Cloud 服務整合:

自訂資料來源的資料歷程

如果整合系統不支援某個資料來源,您可以使用 Data Lineage API 手動記錄該來源的歷程資訊。

如果您使用與現有 Dataplex Universal Catalog 項目完整名稱相符的 fullyQualifiedName,Dataplex Universal Catalog 就能為手動記錄的沿襲建立沿襲圖。如要記錄自訂資料來源的沿襲,請先建立自訂項目

自訂資料來源的每個程序都可以在屬性清單中包含 sql 鍵。這個鍵的值可用於在資料沿襲圖的詳細資料面板中,算繪程式碼醒目顯示效果。系統會顯示您提供的 SQL 陳述式。您必須負責濾除機密資訊。金鑰名稱 sql 區分大小寫。

OpenLineage

如果您已使用 OpenLineage 從其他資料來源收集沿襲資訊,可以將 OpenLineage 事件匯入 Dataplex Universal Catalog,並在 Google Cloud 控制台中查看這些事件。詳情請參閱「與 OpenLineage 整合」。

限制

資料沿襲有以下限制:

  • 系統只會保留所有沿襲資訊 30 天。

  • 即使刪除相關資料來源,沿襲資訊仍會保留。舉例來說,如果您刪除 BigQuery 資料表,最多 30 天內仍可透過 API 和控制台查看其沿襲。

資料欄層級歷程限制

資料欄層級沿襲有下列額外限制:

  • 系統不會收集 BigQuery 載入工作或常式的資料欄層級沿襲資訊。

  • 系統不會收集外部資料表的上游資料欄層級沿襲。

  • 如果工作建立超過 1,500 個資料欄層級連結,系統就不會收集資料欄層級歷程。在這些情況下,系統只會收集表格層級的沿襲資訊。

  • 沒有 API 可用於建立、讀取、更新、刪除或搜尋資料欄層級的沿襲。

  • 由於沿襲圖中無法辨識 _PARTITIONDATE_PARTITIONTIME 等分區資料欄,因此分區資料表支援功能有限。

  • 控制台限制:

    • 譜系圖的遍歷深度上限為 20 個層級,且每個方向的連結數上限為 10,000 個。

    • 系統只會從根表格所在的區域擷取資料欄層級的沿襲資訊。圖表檢視畫面不支援跨區域沿襲。

定價

  • Dataplex Universal Catalog 會使用進階處理作業 SKU,針對資料歷程收費。詳情請參閱「定價」一文。

  • 如要在 Dataplex Universal Catalog 進階處理 SKU 中,將資料沿襲費用與其他費用分開,請在 Cloud 帳單報表中使用標籤 goog-dataplex-workload-type,並將值設為 LINEAGE

  • 如果您使用 CUSTOM 以外的值呼叫 Data Lineage API Origin sourceType,就會產生額外費用。

後續步驟