在 Google Cloud 系統中使用資料系譜

查看資料歷程,瞭解專案資源與建立這些資源的程序之間的關係。這些關係會顯示資料資產 (例如資料表和資料集) 如何透過查詢和管道等程序轉換。本指南說明如何在 Dataplex Universal Catalog、BigQuery 和 Vertex AI 中存取歷程圖。

您可以在 Google Cloud 控制台中查看資料歷程詳細資料,也可以使用 Data Lineage API 擷取這些資料。

角色和權限

啟用 Data Lineage API 後,資料歷程功能會自動追蹤歷程資訊。您不需要任何管理員或編輯者角色,即可擷取資料資產的沿襲。

如要查看資料沿襲,您需要具備特定的 Identity and Access Management (IAM) 權限。系統會擷取多個專案的沿襲資訊,因此您需要多個專案的權限。

  • 在 Dataplex Universal Catalog、BigQuery 或 Vertex AI 中查看歷程時,您必須具備在查看歷程的專案中查看歷程資訊的權限。

  • 查看其他專案中記錄的沿襲時:您需要有權限,才能查看這些專案中記錄的沿襲資訊。

如要取得查看資料歷程所需的權限,請要求管理員授予您下列 IAM 角色:

  • 資料歷程檢視者 (roles/datalineage.viewer) 在記錄歷程的專案和查看歷程的專案中
  • 查看 BigQuery 資料表詳細資料: 資料表儲存空間專案的「BigQuery 資料檢視者」 (roles/bigquery.dataViewer)
  • 查看 BigQuery 工作詳細資料: 工作運算專案的 BigQuery 資源檢視器 (roles/bigquery.resourceViewer)
  • 查看其他編目資產的詳細資料: 在儲存目錄項目的專案中,Dataplex Catalog 檢視者 (roles/dataplex.catalogViewer)

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。

這些預先定義的角色具備查看資料沿襲所需的權限。如要查看確切的必要權限,請展開「Required permissions」(必要權限) 部分:

所需權限

如要查看資料沿襲,必須具備下列權限:

  • 查看 BigQuery 資料表詳細資料: bigquery.tables.get - 資料表的儲存專案
  • 查看 BigQuery 工作詳細資料: bigquery.jobs.get - 工作運算專案

您或許還可透過自訂角色或其他預先定義的角色取得這些權限。

啟用 Data Lineage API 後,資料歷程功能會自動追蹤歷程資訊。您不需要任何管理員或編輯者角色,即可擷取資料資產的沿襲。

資料歷程檢視畫面類型

您可以透過圖表或清單查看沿襲資訊。 系統預設會顯示資料表層級的沿襲圖。如果是 BigQuery 工作,您可以在圖表和清單檢視畫面中查看資料欄層級歷程。

可用的檢視畫面類型如下:

  • 圖表檢視畫面:以互動式圖表顯示歷程,展開節點即可探索資料資產和資料欄之間的關係。

  • 清單檢視畫面:以表格格式顯示歷程,提供資料表和資料欄層級歷程的簡化和詳細表示方式。您可以在這個檢視畫面中自訂欄,並匯出沿襲資料。

圖中的主要元素說明如下:

  • 節點:代表資料實體。在資料表層級的檢視畫面中,節點會顯示資料表名稱和資料欄。在資料欄層級檢視畫面中,每個節點代表特定資料表及其具有沿襲的資料欄。

  • 邊緣:連接節點的線條,代表節點間發生的程序。邊緣可以顯示圖示或標籤,提供更多有關轉換的資訊:

    • Icons:在表格層級檢視畫面中,邊緣會顯示圖示,代表轉換程序。手動探索圖表時,邊緣上的圖示代表程序的來源系統 (例如 BigQuery 或 Vertex AI)。如果涉及多個程序,系統會顯示「多個程序」圖示。如果程序來源系統不明,則會使用齒輪圖示。套用篩選器時,所有程序都會使用齒輪圖示。
    • 標籤:在資料欄層級檢視畫面中,邊緣會標示資料欄之間的依附元件類型,例如 Exact copyOther

啟用資料歷程

啟用資料歷程,即可開始自動追蹤支援系統的歷程資訊。根據預設,啟用 API 後,系統會為大多數支援的服務啟動歷程追蹤功能。如要控管 Dataproc 沿襲資料的擷取作業,請參閱「控管服務的沿襲資料擷取作業」。

您必須在查看歷程的專案,以及記錄歷程的專案中,啟用 Data Lineage API。詳情請參閱「專案類型」。

  1. 如要擷取沿襲資訊,請完成下列步驟:
    1. 在 Google Cloud 控制台的「專案選取器」頁面中,選取要記錄歷程的專案。

      前往專案選取器

    2. 啟用 Data Lineage API。

      啟用 Data Lineage API

    3. 針對要記錄沿襲的每個專案,重複上述步驟。
  2. 在您查看歷程的專案中,啟用 Data Lineage API 和 Dataplex API。

    啟用 API

控管服務的沿襲資料擷取作業

啟用 Data Lineage API 後,這項服務會開始自動追蹤大多數支援服務的沿襲。然後在專案、資料夾或機構層級,選擇性啟用或停用特定整合的沿襲資料擷取功能。在預先發布階段,這項功能僅支援設定 Dataproc 的擷取作業。如果停用 Dataproc 的歷程資料擷取功能,Dataproc Serverless for Apache Spark 的歷程資料擷取功能也會停用。

設定是階層式的。系統會優先採用最明確的設定。舉例來說,專案層級的設定會覆寫資料夾層級的設定。如未設定,系統會使用服務的預設行為。Dataproc 預設為「已啟用」

設定變更最多可能需要 24 小時才會傳播,但通常會在兩小時內生效。

如果是 Dataproc 和 Dataproc Serverless for Apache Spark,只有在 Dataproc 中也啟用歷程時,系統才會傳送歷程資料。詳情請參閱「Dataproc Spark 沿襲」和「Dataproc Serverless for Apache Spark 資料沿襲」。

如要進一步瞭解如何控管沿襲資料擷取作業,包括如何以階層方式套用設定,請參閱「控管沿襲資料擷取作業」。

必要條件

如要控管歷程擷取作業,必須使用 Data Lineage API。 請確認您已為用戶端專案設定計費和配額,因為 Data Lineage API 是以用戶端為基礎的 API

  1. 在用戶端專案中啟用 datalineage.googleapis.com API。詳情請參閱「啟用資料沿襲」。

  2. 設定用戶端專案。在下列範例中,請使用 X-Goog-User-Project 標頭。詳情請參閱「系統參數」。

取得目前設定

如要查看目前的沿襲設定,請使用 projects.locations.config.get 方法。您可以擷取專案、資料夾或機構的設定。

以下範例說明如何取得專案的設定:

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json" \
     -H "X-Goog-User-Project: CLIENT_PROJECT_ID" \
     -X GET \
     "https://datalineage.googleapis.com/v1/projects/PROJECT_ID/locations/global/config"

替換下列值:

  • CLIENT_PROJECT_ID:用於帳單或配額的用戶端專案 ID。
  • PROJECT_ID:要查看設定的專案 ID。

如要取得資料夾或機構的設定,請將 projects/PROJECT_ID 替換為 folders/FOLDER_IDorganizations/ORGANIZATION_ID

指令會傳回下列其中一個輸出內容:

  • 如果未設定任何項目,輸出內容會包含空白的 ingestion 物件:
      {
        "name": "projects/123456789012/locations/global/config",
        "ingestion": {}
      }
      

    在本例中,Dataproc 沿襲資料擷取作業會使用預設設定 enabled

  • 如果明確啟用 Dataproc 沿襲資料擷取功能,您會看到下列輸出內容:
      {
        "name": "projects/123456789012/locations/global/config",
        "ingestion": {
          "rules": [
            {
              "integrationSelector": {
                "integration": "DATAPROC"
              },
              "lineageEnablement": {
                "enabled": true
              }
            }
          ]
        },
        "etag": "Wb35wDxTTLd6Z+QAL+Yd4g=="
      }
      
  • 如果停用 Dataproc 資料歷程擷取功能,您會看到以下輸出內容:
      {
        "name": "projects/123456789012/locations/global/config",
        "ingestion": {
          "rules": [
            {
              "integrationSelector": {
                "integration": "DATAPROC"
              },
              "lineageEnablement": {
                "enabled": false
              }
            }
          ]
        },
        "etag": "Wb35wDxTTLd6Z+QAL+Yd4g=="
      }
      

回應中的 etag 欄位是伺服器根據目前的設定值產生的檢查碼。使用 patch 方法更新設定時,您可以在要求主體中加入最近 get 要求傳回的 etag 值。如果您提供 etag,Dataplex Universal Catalog 會使用該值驗證自上次讀取要求以來,設定是否有所變更。如果兩者不符,更新要求就會失敗。這樣一來,您就不會在讀取-修改-寫入情境中,意外覆寫其他使用者所做的設定。如果您未在 patch 要求中提供 etag,Dataplex Universal Catalog 會無條件覆寫設定。

停用服務的歷程資料擷取功能

如要為特定服務停用沿襲資料擷取功能,請使用 projects.locations.config.patch 方法,並搭配將特定 integrationlineageEnablement.enabled 設為 false 的擷取規則。

為避免在讀取-修改-寫入情境中,意外覆寫其他使用者所做的設定,您可以在要求主體中加入 etag 欄位。詳情請參閱「取得目前設定」。

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json" \
     -H "X-Goog-User-Project: CLIENT_PROJECT_ID" \
     -X PATCH \
     "https://datalineage.googleapis.com/v1/projects/PROJECT_ID/locations/global/config" \
     --data-binary @- << EOF
{
  "ingestion": {
    "rules": [{
      "integrationSelector": {
        "integration": "DATAPROC"
      },
      "lineageEnablement": {
        "enabled": false
      }
    }]
  },
  "etag": "ETAG"
}
EOF

更改下列內容:

  • CLIENT_PROJECT_ID:用於帳單或配額的用戶端專案 ID。
  • PROJECT_ID:要更新設定的專案 ID。
  • ETAG:最近一次 get 要求傳回的 etag 值。

如要為資料夾或機構停用服務的沿襲資料擷取功能,請將 projects/PROJECT_ID 替換為 folders/FOLDER_IDorganizations/ORGANIZATION_ID

為服務啟用歷程資料擷取功能

如要為特定服務啟用沿襲資料擷取功能,請使用 projects.locations.config.patch 方法,並搭配將特定 integrationlineageEnablement.enabled 設為 true 的擷取規則。

為避免在讀取-修改-寫入情境中,意外覆寫其他使用者所做的設定,您可以在要求主體中加入 etag 欄位。詳情請參閱「取得目前設定」。

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json" \
     -H "X-Goog-User-Project: CLIENT_PROJECT_ID" \
     -X PATCH \
     "https://datalineage.googleapis.com/v1/projects/PROJECT_ID/locations/global/config" \
     --data-binary @- << EOF
{
  "ingestion": {
    "rules": [{
      "integrationSelector": {
        "integration": "DATAPROC"
      },
      "lineageEnablement": {
        "enabled": true
      }
    }]
  },
  "etag": "ETAG"
}
EOF

更改下列內容:

  • CLIENT_PROJECT_ID:用於帳單或配額的用戶端專案 ID。
  • PROJECT_ID:要更新設定的專案 ID。
  • ETAG:最近一次 get 要求傳回的 etag 值。

如要為資料夾或機構啟用服務的沿襲資料擷取功能,請將 projects/PROJECT_ID 替換為 folders/FOLDER_IDorganizations/ORGANIZATION_ID

在 Dataplex Universal Catalog 中查看歷程

您可以在 Dataplex Universal Catalog 網頁介面中查看資料歷程資訊。

如要查看沿襲,請按照下列操作說明進行:

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「Search」(搜尋) 頁面。

    前往「Search」(搜尋) 頁面

  2. 選取「Dataplex Universal Catalog」做為搜尋模式。

  3. 搜尋並點選要查看的項目。詳情請參閱「在 Dataplex Universal Catalog 中搜尋資源」。

  4. 按一下「歷程」分頁標籤。

    系統會開啟預設的「圖表」檢視畫面,顯示系統和區域的資料表層級沿襲。詳情請參閱「沿襲圖表檢視畫面」。

  5. 如要手動探索沿襲圖,請按一下節點旁邊的「展開」,一次載入五個節點。

    詳情請參閱「手動探索沿襲圖」。

  6. 在「圖表」檢視畫面中,點選節點。

    系統會開啟「詳細資料」面板,顯示資產資訊,例如完整名稱和類型。詳情請參閱「節點詳細資料」。

  7. 在「圖表」檢視畫面中,按一下含有程序圖示的邊緣。

    「查詢」面板隨即開啟。詳情請參閱「檢查轉換邏輯」和「稽核及執行記錄」。

    • 如要檢查轉換邏輯,請按一下「詳細資料」分頁標籤。

    • 如要查看稽核記錄和執行作業記錄,請按一下「執行作業」分頁標籤。

  8. 在「沿襲關係探索器」面板中,選取篩選條件,例如「方向」、「依附元件類型」或「時間範圍」,然後按一下「套用」

    這會在特定區域 (預覽) 中開啟焦點檢視畫面。這個檢視畫面會自動展開圖表,最多顯示三層節點。詳情請參閱「套用篩選器,取得焦點式沿革檢視畫面」。

  9. 在聚焦的「圖表」檢視畫面中選取節點,然後在節點的詳細資料面板中,按一下「顯示路徑」,即可顯示從所選節點返回根項目的沿襲路徑 (僅限聚焦檢視畫面)。

    詳情請參閱「沿襲路徑視覺化」。

  10. 如要查看資料欄層級的歷程 (僅適用於 BigQuery 工作),請執行下列任一操作:

    • 在聚焦的「圖表」檢視畫面中,按一下表格中的欄圖示。
      用於切換至資料欄層級歷程的圖示。
      欄圖示
    • 在「歷程探索工具」面板中,依資料欄名稱篩選,然後按一下「套用」

    詳情請參閱資料欄層級歷程

  11. 按一下「重設」

    這項操作會移除所有已套用的篩選條件,並將您帶往圖表檢視畫面的開頭。

  12. 按一下「清單」即可切換至清單檢視畫面。

    「清單」檢視畫面提供簡化且詳細的歷程表格表示法,適用於資料表和資料欄層級的歷程,並與「圖表」檢視畫面同步。根據預設,系統會顯示簡易清單檢視畫面,您可以切換至詳細清單檢視畫面,分析個別來源與目標之間的關係。您可以設定要顯示哪些資料欄,以及匯出沿襲資料。詳情請參閱「沿襲清單檢視畫面」。

在 BigQuery 中查看沿襲

您可以在 BigQuery 網頁介面中查看資料歷程資訊。

如要查看沿襲,請按照下列操作說明進行:

  1. 前往 Google Cloud 控制台的「BigQuery」頁面。BigQuery

    開啟 BigQuery 頁面

  2. 開啟要查看資料歷程的資料表。

  3. 按一下「歷程」分頁標籤。

    系統會開啟預設的「圖表」檢視畫面,顯示系統和區域的資料表層級沿襲。詳情請參閱「沿襲圖表檢視畫面」。

  4. 如要手動探索沿襲圖,請按一下節點旁邊的「展開」,一次載入五個節點。

    詳情請參閱「手動探索沿襲圖」。

  5. 在「圖表」檢視畫面中,點選節點。

    系統會開啟「詳細資料」面板,顯示資產資訊,例如完整名稱和類型。詳情請參閱「節點詳細資料」。

  6. 在「圖表」檢視畫面中,按一下含有程序圖示的邊緣。

    「查詢」面板隨即開啟。詳情請參閱「檢查轉換邏輯」和「稽核及執行記錄」。

    • 如要檢查轉換邏輯,請按一下「詳細資料」分頁標籤。

    • 如要查看稽核記錄和執行作業記錄,請按一下「執行作業」分頁標籤。

  7. 在「沿襲關係探索器」面板中,選取篩選條件,例如「方向」、「依附元件類型」或「時間範圍」,然後按一下「套用」

    這會在特定區域 (預覽) 中開啟焦點檢視畫面。這個檢視畫面會自動展開圖表,最多顯示三層節點。詳情請參閱「套用篩選器,取得焦點式沿革檢視畫面」。

  8. 在聚焦的「圖表」檢視畫面中選取節點,然後在節點的詳細資料面板中,按一下「顯示路徑」,即可顯示從所選節點返回根項目的沿襲路徑 (僅限聚焦檢視畫面)。

    詳情請參閱「沿襲路徑視覺化」。

  9. 如要查看資料欄層級的歷程 (僅適用於 BigQuery 工作),請執行下列任一操作:

    • 在聚焦的「圖表」檢視畫面中,按一下表格中的欄圖示。
      用於切換至資料欄層級歷程的圖示。
      欄圖示
    • 在「歷程探索工具」面板中,依資料欄名稱篩選,然後按一下「套用」

    詳情請參閱資料欄層級歷程

  10. 按一下「重設」

    這項操作會移除所有已套用的篩選條件,並將您帶往圖表檢視畫面的開頭。

  11. 按一下「清單」即可切換至清單檢視畫面。

    「清單」檢視畫面提供簡化且詳細的歷程表格表示法,適用於資料表和資料欄層級的歷程,並與「圖表」檢視畫面同步。根據預設,系統會顯示簡易清單檢視畫面,您可以切換至詳細清單檢視畫面,分析個別來源與目標之間的關係。您可以設定要顯示哪些資料欄,以及匯出沿襲資料。詳情請參閱「沿襲清單檢視畫面」。

在 Vertex AI 中查看沿襲

Vertex AI Pipelines 等系統會為 Vertex AI 模型和資料集產生沿襲資料。您可以在 Vertex AI 網頁介面中查看資料沿襲資訊。

查看 Vertex AI 中代管資料集的沿襲

如要查看資料集的沿襲,請按照下列操作說明進行:

  1. 前往 Google Cloud 控制台的「Datasets」(資料集) 頁面。

    開啟「資料集」頁面

  2. 按一下要查看資料沿革的資料集。

  3. 按一下「歷程」分頁標籤。

    系統會開啟預設的「圖表」檢視畫面,顯示系統和區域的資料表層級沿襲。詳情請參閱「沿襲圖表檢視畫面」。

  4. 如要手動探索沿襲圖,請按一下節點旁邊的「展開」,一次載入五個節點。

    詳情請參閱「手動探索沿襲圖」。

  5. 在「圖表」檢視畫面中,點選節點。

    系統會開啟「詳細資料」面板,顯示資產資訊,例如完整名稱和類型。詳情請參閱「節點詳細資料」。

  6. 在「圖表」檢視畫面中,按一下含有程序圖示的邊緣。

    「查詢」面板隨即開啟。詳情請參閱「檢查轉換邏輯」和「稽核及執行記錄」。

    • 如要檢查轉換邏輯,請按一下「詳細資料」分頁標籤。

    • 如要查看稽核記錄和執行作業記錄,請按一下「執行作業」分頁標籤。

  7. 在「沿襲關係探索器」面板中,選取篩選條件,例如「方向」、「依附元件類型」或「時間範圍」,然後按一下「套用」

    這會在特定區域 (預覽) 中開啟焦點檢視畫面。這個檢視畫面會自動展開圖表,最多顯示三層節點。詳情請參閱「套用篩選器,取得焦點式沿革檢視畫面」。

  8. 在聚焦的「圖表」檢視畫面中選取節點,然後在節點的詳細資料面板中,按一下「顯示路徑」,即可顯示從所選節點返回根項目的沿襲路徑 (僅限聚焦檢視畫面)。

    詳情請參閱「沿襲路徑視覺化」。

  9. 如要查看資料欄層級的歷程 (僅適用於 BigQuery 工作),請執行下列任一操作:

    • 在聚焦的「圖表」檢視畫面中,按一下表格中的欄圖示。
      用於切換至資料欄層級歷程的圖示。
      欄圖示
    • 在「歷程探索工具」面板中,依資料欄名稱篩選,然後按一下「套用」

    詳情請參閱資料欄層級歷程

  10. 按一下「重設」

    這項操作會移除所有已套用的篩選條件,並將您帶往圖表檢視畫面的開頭。

  11. 按一下「清單」即可切換至清單檢視畫面。

    「清單」檢視畫面提供簡化且詳細的歷程表格表示法,適用於資料表和資料欄層級的歷程,並與「圖表」檢視畫面同步。根據預設,系統會顯示簡易清單檢視畫面,您可以切換至詳細清單檢視畫面,分析個別來源與目標之間的關係。您可以設定要顯示哪些資料欄,以及匯出沿襲資料。詳情請參閱「沿襲清單檢視畫面」。

查看 Vertex AI 中模型的沿襲

如要查看模型的沿襲,請按照下列操作說明進行:

  1. 前往 Google Cloud 控制台的「Model Registry」頁面。

    開啟「Model Registry」頁面

  2. 按一下要查看資料沿襲的模型。

  3. 按一下「歷程」分頁標籤。

    系統會開啟預設的「圖表」檢視畫面,顯示系統和區域的資料表層級沿襲。詳情請參閱「沿襲圖表檢視畫面」。

  4. 如要手動探索沿襲圖,請按一下節點旁邊的「展開」,一次載入五個節點。

    詳情請參閱「手動探索沿襲圖」。

  5. 在「圖表」檢視畫面中,點選節點。

    系統會開啟「詳細資料」面板,顯示資產資訊,例如完整名稱和類型。詳情請參閱「節點詳細資料」。

  6. 在「圖表」檢視畫面中,按一下含有程序圖示的邊緣。

    「查詢」面板隨即開啟。詳情請參閱「檢查轉換邏輯」和「稽核及執行記錄」。

    • 如要檢查轉換邏輯,請按一下「詳細資料」分頁標籤。

    • 如要查看稽核記錄和執行作業記錄,請按一下「執行作業」分頁標籤。

  7. 在「沿襲關係探索器」面板中,選取篩選條件,例如「方向」、「依附元件類型」或「時間範圍」,然後按一下「套用」

    這會在特定區域 (預覽) 中開啟焦點檢視畫面。這個檢視畫面會自動展開圖表,最多顯示三層節點。詳情請參閱「套用篩選器,取得焦點式沿革檢視畫面」。

  8. 在聚焦的「圖表」檢視畫面中選取節點,然後在節點的詳細資料面板中,按一下「顯示路徑」,即可顯示從所選節點返回根項目的沿襲路徑 (僅限聚焦檢視畫面)。

    詳情請參閱「沿襲路徑視覺化」。

  9. 如要查看資料欄層級的歷程 (僅適用於 BigQuery 工作),請執行下列任一操作:

    • 在聚焦的「圖表」檢視畫面中,按一下表格中的欄圖示。
      用於切換至資料欄層級歷程的圖示。
      欄圖示
    • 在「歷程探索工具」面板中,依資料欄名稱篩選,然後按一下「套用」

    詳情請參閱資料欄層級歷程

  10. 按一下「重設」

    這項操作會移除所有已套用的篩選條件,並將您帶往圖表檢視畫面的開頭。

  11. 按一下「清單」即可切換至清單檢視畫面。

    「清單」檢視畫面提供簡化且詳細的歷程表格表示法,適用於資料表和資料欄層級的歷程,並與「圖表」檢視畫面同步。根據預設,系統會顯示簡易清單檢視畫面,您可以切換至詳細清單檢視畫面,分析個別來源與目標之間的關係。您可以設定要顯示哪些資料欄,以及匯出沿襲資料。詳情請參閱「沿襲清單檢視畫面」。

後續步驟