關於資料歷程

資料歷程是追蹤資料整個生命週期的視覺化地圖。顯示資料來源、去向,以及過程中的所有變更或轉換。

您可以在 Dataplex Universal Catalog、BigQuery 和 Vertex AI 等產品中建立資產,並直接在Google Cloud 控制台中查看資料歷程的完整地圖。進階使用者也可以使用 Data Lineage API 擷取這項資訊。

為什麼需要資料歷程

現代企業會不斷移動及變更大量資料。舉例來說,將原始顧客購買資料轉換為報表、資訊主頁和機器學習模型。這種複雜性為您的團隊帶來重大挑戰:

  • 信任和驗證:資料使用者經常難以確認所見的報表和數字是否準確,以及是否來自可信來源。

  • 疑難排解:如果最終報告中出現錯誤,資料團隊可能難以追溯每個步驟,找出根本原因,而且會耗費大量時間。

  • 變更管理:變更或刪除資料 (例如資料表中的資料欄) 前,團隊必須瞭解所有依附於該資料的下游報表或模型,以免重要系統發生錯誤。

  • 法規遵循:領導者需要掌握整個機構中機密資料 (例如客戶或財務資訊) 的使用方式,以符合法規要求。

資料沿襲會提供清楚、視覺化且有記錄的資料歷程,解決上述問題。這項功能可協助您快速瞭解資料來源、追蹤錯誤、評估變更的影響,以及維持法規遵循狀態。

資料歷程工作流程

資料歷程工作流程包含下列步驟:

  1. 資料來源和擷取:資料來源的沿襲資訊會啟動整個程序。詳情請參閱「沿襲來源」。

    • Google Cloud 服務:啟用 Data Lineage API 後,BigQuery 和 Dataflow 等支援的服務會在資料移動或轉換時,自動回報沿襲事件。

    • 自訂來源:對於整合功能未自動支援的任何系統,您可以使用 Data Lineage API 手動記錄歷程資訊。Google Cloud 建議您匯入符合 OpenLineage 標準格式的事件。

  2. 歷程平台:這個中央平台會擷取、模擬及儲存所有歷程資料。詳情請參閱沿襲資訊模型和精細度

    • Data Lineage API:這個 API 是所有傳入歷程資訊的單一進入點。它使用階層式資料模型,包含程序、執行作業和事件這三項核心概念。

    • 處理和儲存:平台會處理傳入的資料,並儲存在經過查詢最佳化的可靠資料庫中。

  3. 使用者體驗:您可以透過兩種主要方式與儲存的沿襲資訊互動:

    • 視覺化探索:在 Google Cloud 控制台中,前端服務會擷取並以互動式圖表或清單的形式,呈現沿襲資料。Dataplex Universal Catalog、BigQuery 和 Vertex AI (適用於模型、資料集、特徵儲存庫檢視畫面和特徵群組) 皆支援這項功能。非常適合以視覺化方式探索資料歷程。詳情請參閱控制台中的沿革檢視畫面 Google Cloud

    • 程式輔助存取:使用 API 用戶端,您可以直接與 Data Lineage API 通訊,自動管理歷程。您可以藉此從自訂來源寫入沿襲資訊。您也可以讀取及查詢儲存的沿襲資料,以便在其他應用程式中使用,或建構自訂報表。

歷程來源

您可以使用下列方式,在 Dataplex Universal Catalog 中填入歷程資訊:

  • 自動從整合式服務 Google Cloud 匯入
  • 手動,使用自訂來源的 Data Lineage API
  • 從 OpenLineage 匯入事件

自動追蹤資料歷程

啟用 Data Lineage API 後,支援資料歷程的系統就會開始回報資料移動情形。 Google Cloud 每個整合系統都可以為不同範圍的資料來源提交沿革資訊。

BigQuery

在 BigQuery 專案中啟用資料歷程後,Dataplex Universal Catalog 會自動記錄下列項目的歷程資訊:

BigQuery 複製、查詢和載入工作會以程序表示。

如要查看程序詳細資料,請在沿襲圖上按一下

每個程序都包含最新 BigQuery 工作的 attributes 清單中的 BigQuery job_id

其他服務

資料沿襲支援與下列Google Cloud 服務整合:

自訂資料來源的資料歷程

如果整合系統不支援某個資料來源,您可以使用 Data Lineage API 手動記錄該來源的沿襲資訊。

如果您使用與現有 Dataplex Universal Catalog 項目完整名稱相符的 fullyQualifiedName,Dataplex Universal Catalog 就能為手動記錄的沿襲建立沿襲圖。如要記錄自訂資料來源的沿襲,請先建立自訂項目

自訂資料來源的每個程序都可以在屬性清單中包含 sql 鍵。這個鍵的值可用於在資料沿襲圖的詳細資料面板中,算繪程式碼螢光標註。系統會顯示您提供的 SQL 陳述式。您必須負責濾除機密資訊。金鑰名稱 sql 區分大小寫。

OpenLineage

如果您已使用 OpenLineage 從其他資料來源收集歷程資訊,可以將 OpenLineage 事件匯入 Dataplex Universal Catalog,並在 Google Cloud 控制台中查看這些事件。詳情請參閱「與 OpenLineage 整合」。

限制

資料歷程有以下限制:

  • 系統只會保留所有沿襲資訊 30 天。

  • 刪除相關資料來源後,歷程資訊仍會保留。舉例來說,如果您刪除 BigQuery 資料表,最多 30 天內仍可透過 API 和控制台查看其沿襲。

  • 資料歷程不會自動記錄 BigQuery 常式的直接歷程資訊。如果查詢中使用常式,資料沿襲會記錄常式讀取的資料表之間的沿襲,做為查詢寫入的資料表依附元件。

資料欄層級歷程限制

資料欄層級沿襲有下列額外限制:

  • 系統不會收集 BigQuery 載入工作或常式的資料欄層級沿襲資訊。

  • 系統不會收集外部資料表的上游資料欄層級沿襲。

  • 如果工作建立超過 1,500 個資料欄層級連結,系統就不會收集資料欄層級歷程。在這種情況下,系統只會收集表格層級的沿襲資訊。

  • 沒有 API 可用於建立、讀取、更新、刪除或搜尋資料欄層級的沿襲。

  • 由於沿襲圖中無法辨識 _PARTITIONDATE_PARTITIONTIME 等分區資料欄,因此分區資料表支援功能有限。

  • 控制台限制:

    • 沿襲圖表遍歷的深度上限為 20 個層級,每個方向的連結上限為 10,000 個。

    • 系統只會從根表格所在的區域擷取資料欄層級的沿襲資訊。圖表檢視畫面不支援跨區域沿襲。

定價

  • Dataplex Universal Catalog 會使用付費處理 SKU,針對資料歷程收費。詳情請參閱「定價」一文。

  • 如要在 Cloud 帳單報表中,將資料沿革費用與 Dataplex Universal Catalog 付費處理 SKU 的其他費用分開,請使用標籤 goog-dataplex-workload-type,並將值設為 LINEAGE

  • 如果您使用 CUSTOM 以外的值呼叫 Data Lineage API Origin sourceType,就會產生額外費用。

後續步驟