在 Knowledge Catalog 中查看歷程

本頁說明如何查看 Cloud Data Fusion 管道產生的資料歷程,以及 Google Cloud中的其他資料遷移情況,藉此探索及管理資料。您可以在控制台的「知識目錄」頁面中,查看支援資料來源的沿襲圖,也可以使用 Data Lineage API 擷取完整的資料沿襲記錄。

支援 Knowledge Catalog 資料歷程的外掛程式

Cloud Data Fusion 和 Knowledge Catalog 支援下列外掛程式的資產層級歷程:

  • Amazon S3
  • BigQuery
  • BigQuery 多資料表接收器 (6.9.1 以上版本)
  • Spanner
  • Cloud Storage
  • MySQL 適用的 Cloud SQL
  • PostgreSQL 適用的 Cloud SQL
  • Knowledge Catalog
  • FTP
  • 一般資料庫
  • HTTP
  • MSSQL/SQL Server
  • 多個資料庫資料表來源 (6.9.1 以上版本)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP 資料表

詳情請參閱 Cloud Data Fusion 外掛程式

事前準備

如要在控制台的「知識目錄」頁面中查看 Cloud Data Fusion 歷程圖,請按照下列步驟操作:

  1. 建立資料管道, 只使用支援的外掛程式

  2. 在包含 Cloud Data Fusion 執行個體的專案中啟用 Data Lineage API

  3. 將資料歷程事件產生者角色 (roles/datalineage.producer) 授予 Cloud Data Fusion 管理的服務帳戶,即 Cloud Data Fusion API 服務代理。如果執行個體執行的是舊版 Cloud Data Fusion,且已啟用 RBAC,則程序會有所不同。

    6.10 以上版本或沒有 RBAC

    如果 Cloud Data Fusion 執行個體使用 6.10.0 以上版本,或執行個體使用較舊版本且未啟用 RBAC,請按照下列步驟操作:

    1. 前往 Google Cloud 控制台的「IAM」(身分與存取權管理) 頁面。

      前往「IAM」(身分與存取權管理) 頁面

    2. 勾選「包含 Google 提供的角色授予項目」核取方塊。

    3. 選取 Cloud Data Fusion API 服務代理服務帳戶,然後按一下「編輯」圖示

    4. 按一下「新增其他角色」,然後選取「資料沿襲事件產生者」角色。

    5. 按一下 [儲存]

    <6.10 with RBAC

    如果 Cloud Data Fusion 執行個體使用的版本低於 6.10.0,且已啟用 RBAC,服務帳戶就不會顯示在 IAM 頁面的主體清單中。您必須手動輸入服務帳戶名稱。

    如要授予必要角色,請按照下列步驟操作:

    1. 前往 Google Cloud 控制台的「IAM」(身分與存取權管理) 頁面。

      前往「IAM」(身分與存取權管理) 頁面

    2. 按一下「授予存取權」

    3. 在「新增主體」欄位中,輸入 Cloud Data Fusion API 服務代理服務帳戶。請使用下列格式: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com

      TENANT_PROJECT_ID 替換為執行個體的房客 ID。如要查看租戶專案 ID,請前往「Instances」(執行個體) 頁面,然後按一下執行個體名稱,查看執行個體詳細資料。

      前往「Instances」(執行個體)

    4. 選取「資料歷程事件產生者」角色。

    5. 按一下 [儲存]

在 Cloud Data Fusion 中啟用 Knowledge Catalog 資料歷程功能

在 Cloud Data Fusion 中,新執行個體預設會關閉 Knowledge Catalog 資料沿襲。如果您在 2024 年 1 月 27 日前建立執行 6.8.0 以上版本的執行個體,完成「事前準備」一節中的步驟後,系統會預設啟用這項功能。

在建立執行個體時啟用 Knowledge Catalog 資料歷程

控制台

如要在建立執行個體時啟用 Knowledge Catalog 資料歷程,請按照下列步驟操作:

  1. 前往 Cloud Data Fusion 的「Instances」(執行個體) 頁面,然後按一下「Create an instance」(建立執行個體)

    建立執行個體

  2. 設定執行個體時,展開「進階選項」部分,然後點選「啟用 Dataplex 資料歷程整合功能」。如要進一步瞭解如何建立執行個體,請參閱「建立公開執行個體」。

REST API

如要在建立執行個體時啟用 Knowledge Catalog 資料歷程,請將選用的 dataplex_data_lineage_integration_enabled 屬性設為 true

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

如要關閉,請將屬性設為 false 或省略屬性,因為建立新例項時,沿襲功能預設為關閉。

在現有執行個體中啟用或停用 Knowledge Catalog 資料歷程

控制台

如要在 Cloud Data Fusion 的現有執行個體中啟用或停用 Knowledge Catalog 資料歷程,請按照下列步驟操作:

  1. 查看執行個體詳細資料:
    1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 頁面。

    2. 按一下「Instances」(執行個體) ,然後點選執行個體名稱,前往「Instance details」(執行個體詳細資料) 頁面。

      前往「Instances」(執行個體)

  2. 在「Dataplex 資料歷程整合」欄位中,按一下「編輯」
  3. 啟用或停用 Knowledge Catalog 資料歷程,然後按一下「儲存」

REST API

如要在 Cloud Data Fusion 的現有執行個體中啟用 Knowledge Catalog 資料歷程,請將 dataplex_data_lineage_integration_enabled 屬性設為 true,並加入 updateMask 參數值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

如要在 Cloud Data Fusion 的現有執行個體中停用 Knowledge Catalog 資料歷程,請將 dataplex_data_lineage_integration_enabled 屬性設為 false,並加入 updateMask 參數值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

查看資料歷程圖

如要查看所有 Google Cloud 服務的實體沿襲圖,請按照下列步驟操作:

  1. 前往 Cloud Data Fusion 中的執行個體,然後執行使用支援外掛程式的資料管道。

  2. 在控制台的「知識目錄」頁面中查看歷程圖表,然後找出要查看歷程資訊的資產。

限制

在 Knowledge Catalog 中查看歷程時,有以下限制:

後續步驟