自 2026 年 4 月 10 日起，Dataplex Universal Catalog 將更名為 Knowledge Catalog。API、用戶端程式庫、CLI 和 IAM 名稱維持不變。詳情請參閱「隆重推出 Google Cloud Knowledge Catalog」。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

關於資料歷程

資料歷程是追蹤資料整個生命週期的視覺化地圖，可顯示資料來源、傳輸目的地，以及沿途發生的所有變更或轉換。

您可以在Google Cloud 控制台中，直接查看資料歷程的完整地圖，瞭解在 Knowledge Catalog (原稱 Dataplex Universal Catalog)、BigQuery (包括為 Iceberg REST Catalog 建立的外部資料表) 和 Vertex AI 等產品中建立的資產。由於工作流程通常會跨越多個區域，因此 Knowledge Catalog 支援多區域歷程，可提供全球 Google Cloud 生態系統中資料歷程的整合式資料檢視。進階使用者也可以使用 Data Lineage API 擷取這項資訊。

資料歷程的重要性

現代企業會不斷移動及變更大量資料。舉例來說，將原始顧客購買資料轉換為報表、資訊主頁和機器學習模型。這種複雜性會為您的團隊帶來重大挑戰：

信任和驗證：資料使用者通常難以確認他們看到的報表和數字是否準確，以及是否來自可信來源。
疑難排解：如果最終報表出現錯誤，資料團隊可能難以追溯每個步驟，找出問題的根本原因，而且會耗費大量時間。
變更管理：變更或刪除資料 (例如資料表中的資料欄) 前，團隊必須瞭解所有依附於該資料的下游報表或模型，以免重要系統發生錯誤。
法規遵循：領導者需要掌握整個機構中機密資料 (例如客戶或財務資訊) 的使用方式，以符合法規要求。

資料沿襲會提供清楚、視覺化且有記錄的資料歷程，解決上述問題。這項功能可協助您快速瞭解資料來源、追蹤錯誤、評估變更的影響，以及維持法規遵循狀態。

資料歷程工作流程

資料沿襲工作流程包含下列步驟：

資料來源和擷取：資料來源的沿襲資訊會啟動整個程序。詳情請參閱沿襲來源。
- Google Cloud 服務：啟用 Data Lineage API 後，BigQuery 和 Dataflow 等支援的服務會在資料移動或轉換時，自動回報沿襲事件。
- 自訂來源：對於整合功能未自動支援的任何系統，您可以使用 Data Lineage API 手動記錄歷程資訊。Google Cloud 建議您匯入根據 OpenLineage 標準格式化的事件。
沿襲平台：這個中央平台會擷取、建立模型及儲存所有沿襲資料。詳情請參閱「沿襲資訊模型和精細度」。
- Data Lineage API：這個 API 是所有傳入歷程資訊的單一進入點。它使用階層式資料模型，包含程序、執行作業和事件這三項核心概念。
- 處理和儲存：平台會處理傳入的資料，並儲存在可靠且經過查詢最佳化的資料庫中。
使用者體驗：您可以透過兩種主要方式與儲存的沿襲資訊互動：
- 視覺化探索：在 Google Cloud 控制台中，前端服務會擷取並將沿襲資料呈現為互動式圖表或清單。這項功能支援 Knowledge Catalog、BigQuery、Lakehouse (適用於 Iceberg REST Catalog 資料表)、實體層 (Cloud Storage) 和 Vertex AI (適用於模型、資料集，透過管道；以及特徵商店檢視區塊和特徵群組)。這非常適合以視覺化方式探索資料歷程。詳情請參閱「在 Google Cloud 控制台中查看沿襲圖」。
- 程式輔助存取：使用 API 用戶端，您可以直接與 Data Lineage API 通訊，自動管理歷程。這樣一來，您就能從自訂來源寫入歷程資訊，也能讀取及查詢儲存的歷程資料，以供其他應用程式使用，或用於建構自訂報表。

選擇合適的 API 來擷取歷程

視用途而定，請在 Data Lineage API 中選取下列其中一種方法：

功能	`SearchLinks`	`SearchLineageStreaming`
深度	1 個層級 (直接鄰點)	最多 100 個等級
執行作業	同步	即時串流
用途	輕鬆查詢直接來源或目標	建構完整的歷程圖或執行影響分析

找出方向

上游 (來源)：
- 在 SearchLinks 中，將 target 欄位設為資產的 FQN。
- 在 SearchLineageStreaming 中，將 direction 設為 UPSTREAM。
下游 (目的地)：
- 在 SearchLinks 中，將 source 欄位設為資產的 FQN。
- 在 SearchLineageStreaming 中，將 direction 設為 DOWNSTREAM。

歷程來源

您可以使用下列方式，在 Knowledge Catalog 中填入歷程資訊：

自動從整合式服務 Google Cloud 匯入
手動，使用自訂來源的 Data Lineage API
從 OpenLineage 匯入事件

BigQuery

在 BigQuery 專案中啟用資料沿襲功能後，Knowledge Catalog 會自動記錄下列項目的沿襲資訊：

下列 BigQuery 工作建立的新資料表：
- 複製工作
- 使用 Cloud Storage URI 的載入工作
- 使用 GoogleSQL 中的下列資料定義語言 (DDL) 查詢工作：
  - CREATE TABLE
  - CREATE TABLE AS SELECT
  - CREATE TABLE COPY
  - CREATE TABLE CLONE
  - CREATE TABLE FUNCTION
  - CREATE TABLE LIKE
  - CREATE VIEW
  - CREATE MATERIALIZED VIEW
在 GoogleSQL 中使用下列資料操縱語言 (DML) 陳述式時，現有資料表：
- SELECT 與下列任一資料表類型相關：
- INSERT SELECT
- MERGE
- UPDATE
- DELETE

BigQuery 複製、查詢和載入工作會以程序表示。

如要查看程序詳細資料，請在沿襲圖中按一下「程序詳細資料」圖示。

每個程序都包含最新 BigQuery 工作的 attributes 清單中的 BigQuery job_id。

其他服務

資料歷程支援與下列Google Cloud 服務整合：

Cloud Data Fusion
Dataflow
Iceberg REST 目錄資料表的 Lakehouse

注意： Iceberg 格式的資料表和資料欄層級都支援沿襲。包括：使用 Lakehouse 執行階段目錄的 Lakehouse Iceberg REST 目錄資料表、 Lakehouse 執行階段目錄中的 Apache Iceberg REST 目錄或 Lakehouse 執行階段目錄中適用於 BigQuery 的自訂 Iceberg 目錄，適用於 Managed Service for Apache Spark (1.10 和 1.9)。
Looker (Google Cloud Core) (搶先版)
Managed Service for Apache Airflow
Managed Service for Apache Spark：Apache Hive 叢集
Managed Service for Apache Spark：Apache Spark 叢集
Managed Service for Apache Spark：無伺服器部署作業
Vertex AI 特徵儲存庫
Vertex AI Pipelines

自訂資料來源的資料歷程

如果整合系統不支援某個資料來源，您可以使用 Data Lineage API 手動記錄該來源的歷程資訊。

如果您使用與現有 Knowledge Catalog 項目完整名稱相符的 fullyQualifiedName，Knowledge Catalog 就能為手動記錄的沿襲建立沿襲圖。如要記錄自訂資料來源的沿襲，請先建立自訂項目。

自訂資料來源的每個程序都可以在屬性清單中包含 sql 鍵。這個鍵的值會用於在資料沿襲圖的詳細資料面板中，顯示程式碼醒目顯示效果。系統會顯示您提供的 SQL 陳述式。您有責任濾除敏感資訊。鍵名 sql 區分大小寫。

OpenLineage

如果您已使用 OpenLineage 從其他資料來源收集歷程資訊，可以將 OpenLineage 事件匯入 Knowledge Catalog，並在 Google Cloud 控制台中查看這些事件。詳情請參閱「與 OpenLineage 整合」。

自動追蹤資料歷程

啟用 Data Lineage API 後， Google Cloud 支援資料歷程的系統就會開始回報資料移動情形。每個整合系統都可以為不同範圍的資料來源提交沿襲資訊。

控管沿襲擷取作業

您可以為特定整合啟用或停用沿襲資料擷取功能，藉此控管哪些 Google Cloud 服務會產生沿襲資料。您可以在機構、資料夾和專案層級控管沿襲資料的擷取作業。在預先發布期間，這項功能僅支援為 Managed Service for Apache Spark 設定沿襲資料擷取作業。

知識目錄會評估資源階層 (專案、資料夾，然後是機構)，判斷有效設定。在向上遍歷過程中，系統會採用在任何層級明確設定的第一個設定。

如果您在專案層級設定設定，Knowledge Catalog 就會使用該設定。
如果專案層級未設定任何項目，Knowledge Catalog 會使用最接近的父項資料夾設定。
如果專案或資料夾層級未設定任何設定，Knowledge Catalog 會使用機構層級的設定。
如果未在任何層級設定，Knowledge Catalog 會使用整合的系統預設值。預設的沿襲啟用設定可以是「已啟用」或「已停用」。對於 Managed Service for Apache Spark，如果 Data Lineage API 處於啟用狀態，系統預設會啟用沿襲資料擷取功能。

舉例來說，假設機構 test-org 具有下列 Managed Service for Apache Spark 沿襲設定：

機構 test-org：已啟用
- 資料夾 folder-a：已停用
  - 專案 project-a：未設定任何設定
- 資料夾 folder-b：已啟用
  - 專案 project-b：已停用

在這個情境中，適用下列設定：

對於 project-a，沿襲資料擷取功能為「已停用」。 Knowledge Catalog 會從 project-a 開始評估，但找不到任何設定，因此會移至 folder-a，並套用 folder-a 中的「已停用」設定。
對於 project-b，沿襲資料擷取功能為「已停用」。 Knowledge Catalog 會從 project-b 開始評估，並套用「已停用」設定，覆寫 folder-b 和 test-org 的設定。

控管沿襲資料的產生方式，有助於管理成本和治理政策。舉例來說，您可以針對不需要沿襲追蹤的開發專案或大量工作負載，停用沿襲收集功能。

如要瞭解如何設定及控管沿襲資料擷取作業，請參閱「控管服務的沿襲資料擷取作業」。

多區域資料歷程

資料沿襲是本質上屬於區域性的服務。系統會安全地記錄歷程中繼資料 (包括連結、程序和事件)，並將其隔離在發生基礎資料轉換或資產修改的特定地理位置。

隨著現代企業資料架構擴展，管道工作流程經常會跨越專案和區域界線。舉例來說，在 us-central1 中執行的 BigQuery 轉換管道可能會讀取 us-east1 中的來源資料表，並將匯總指標輸出至位於 europe-west1 的 Cloud Storage bucket。

如要全面掌握資料在這些獨立地理空間的生命週期，請使用多區域歷程搜尋方法。

詳情請參閱「關於多區域沿襲搜尋」。

限制

資料沿襲具有下列限制：

系統只會保留所有沿襲資訊 30 天。
刪除相關資料來源後，沿襲資訊仍會保留。舉例來說，如果您刪除 BigQuery 資料表，最多 30 天內仍可透過 API 和控制台查看沿襲資訊。
資料歷程不會自動記錄 BigQuery 常式的直接歷程資訊。如果查詢中使用常式，資料沿襲會記錄常式讀取的資料表之間的沿襲，做為查詢寫入資料表的依附元件。

資料欄層級歷程限制

資料欄層級沿襲有下列額外限制：

系統不會收集 BigQuery 載入工作或常式的資料欄層級沿襲資訊。
系統不會收集外部資料表的上游資料欄層級沿襲。
如果工作建立超過 1,500 個資料欄層級連結，系統就不會收集資料欄層級歷程。在這種情況下，系統只會收集表格層級的沿襲資訊。
CLL 僅支援 BigQuery 資料表中的頂層資料欄，不支援複雜類型 (例如 STRUCT 或 JSON) 中的巢狀欄位。
使用欄位參數的搜尋功能只會處理明確定義欄對欄關係的連結，不會傳回結果或遍歷僅在資料表層級定義的連結。系統不支援在資料表層級連結和資料欄層級連結之間搜尋 (例如，尋找與資料表層級連結相關的所有資料欄，反之亦然)。API 只會傳回來源和目標都指定欄位的連結。
由於沿襲圖中無法辨識 _PARTITIONDATE 和 _PARTITIONTIME 等分區資料欄，因此分區資料表支援功能有限。
控制台限制：
- 譜系圖的遍歷深度上限為 20 個層級，且每個方向的連結數上限為 10,000 個。

定價

Knowledge Catalog 會使用進階處理 SKU，針對資料歷程收費。詳情請參閱這篇文章，瞭解定價相關資訊。
如要在 Knowledge Catalog 進階處理 SKU 中，將資料沿革費用與其他費用分開，請在 Cloud 帳單報表中使用標籤 goog-dataplex-workload-type，並將值設為 LINEAGE。
如果您使用 CUSTOM 以外的值呼叫 Data Lineage API Origin sourceType，就會產生額外費用。