本頁說明如何查看 Cloud Data Fusion 管道產生的資料歷程,以及 Google Cloud中的其他資料遷移情況,藉此探索及管理資料。您可以在控制台的「知識目錄」頁面中,查看支援資料來源的沿襲圖,也可以使用 Data Lineage API 擷取完整的資料沿襲記錄。
支援 Knowledge Catalog 資料歷程的外掛程式
Cloud Data Fusion 和 Knowledge Catalog 支援下列外掛程式的資產層級歷程:
- Amazon S3
- BigQuery
- BigQuery 多資料表接收器 (6.9.1 以上版本)
- Spanner
- Cloud Storage
- MySQL 適用的 Cloud SQL
- PostgreSQL 適用的 Cloud SQL
- Knowledge Catalog
- FTP
- 一般資料庫
- HTTP
- MSSQL/SQL Server
- 多個資料庫資料表來源 (6.9.1 以上版本)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- SAP 資料表
詳情請參閱 Cloud Data Fusion 外掛程式。
事前準備
如要在控制台的「知識目錄」頁面中查看 Cloud Data Fusion 歷程圖,請按照下列步驟操作:
在包含 Cloud Data Fusion 執行個體的專案中啟用 Data Lineage API。
將資料歷程事件產生者角色 (
roles/datalineage.producer) 授予 Cloud Data Fusion 管理的服務帳戶,即 Cloud Data Fusion API 服務代理。如果執行個體執行的是舊版 Cloud Data Fusion,且已啟用 RBAC,則程序會有所不同。6.10 以上版本或沒有 RBAC
如果 Cloud Data Fusion 執行個體使用 6.10.0 以上版本,或執行個體使用較舊版本且未啟用 RBAC,請按照下列步驟操作:
前往 Google Cloud 控制台的「IAM」(身分與存取權管理) 頁面。
勾選「包含 Google 提供的角色授予項目」核取方塊。
選取 Cloud Data Fusion API 服務代理服務帳戶,然後按一下「編輯」圖示 。
按一下「新增其他角色」,然後選取「資料沿襲事件產生者」角色。
按一下 [儲存]。
<6.10 with RBAC
如果 Cloud Data Fusion 執行個體使用的版本低於 6.10.0,且已啟用 RBAC,服務帳戶就不會顯示在 IAM 頁面的主體清單中。您必須手動輸入服務帳戶名稱。
如要授予必要角色,請按照下列步驟操作:
前往 Google Cloud 控制台的「IAM」(身分與存取權管理) 頁面。
按一下「授予存取權」。
在「新增主體」欄位中,輸入 Cloud Data Fusion API 服務代理服務帳戶。請使用下列格式:
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com。將
TENANT_PROJECT_ID替換為執行個體的房客 ID。如要查看租戶專案 ID,請前往「Instances」(執行個體) 頁面,然後按一下執行個體名稱,查看執行個體詳細資料。選取「資料歷程事件產生者」角色。
按一下 [儲存]。
在 Cloud Data Fusion 中啟用 Knowledge Catalog 資料歷程功能
在 Cloud Data Fusion 中,新執行個體預設會關閉 Knowledge Catalog 資料沿襲。如果您在 2024 年 1 月 27 日前建立執行 6.8.0 以上版本的執行個體,完成「事前準備」一節中的步驟後,系統會預設啟用這項功能。
在建立執行個體時啟用 Knowledge Catalog 資料歷程
控制台
如要在建立執行個體時啟用 Knowledge Catalog 資料歷程,請按照下列步驟操作:
REST API
如要在建立執行個體時啟用 Knowledge Catalog 資料歷程,請將選用的 dataplex_data_lineage_integration_enabled 屬性設為 true:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
如要關閉,請將屬性設為 false 或省略屬性,因為建立新例項時,沿襲功能預設為關閉。
在現有執行個體中啟用或停用 Knowledge Catalog 資料歷程
控制台
如要在 Cloud Data Fusion 的現有執行個體中啟用或停用 Knowledge Catalog 資料歷程,請按照下列步驟操作:
- 查看執行個體詳細資料:
在 Google Cloud 控制台中,前往 Cloud Data Fusion 頁面。
按一下「Instances」(執行個體) ,然後點選執行個體名稱,前往「Instance details」(執行個體詳細資料) 頁面。
- 在「Dataplex 資料歷程整合」欄位中,按一下「編輯」。
- 啟用或停用 Knowledge Catalog 資料歷程,然後按一下「儲存」。
REST API
如要在 Cloud Data Fusion 的現有執行個體中啟用 Knowledge Catalog 資料歷程,請將 dataplex_data_lineage_integration_enabled 屬性設為 true,並加入 updateMask 參數值:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
如要在 Cloud Data Fusion 的現有執行個體中停用 Knowledge Catalog 資料歷程,請將 dataplex_data_lineage_integration_enabled 屬性設為 false,並加入 updateMask 參數值:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
查看資料歷程圖
如要查看所有 Google Cloud 服務的實體沿襲圖,請按照下列步驟操作:
前往 Cloud Data Fusion 中的執行個體,然後執行使用支援外掛程式的資料管道。
在控制台的「知識目錄」頁面中查看歷程圖表,然後找出要查看歷程資訊的資產。
限制
在 Knowledge Catalog 中查看歷程時,有以下限制:
只有在有 BigQuery 實體連結至支援的外掛程式時,才能在 Knowledge Catalog 中探索歷程。如要進一步瞭解資料歷程圖表何時可用,請參閱「關於資料歷程」。
Data Lineage API 不支援客戶自行管理的加密金鑰 (CMEK)。
Cloud Data Fusion 不支援
me-central1或europe-west12位置的這項功能。查看資料歷程注意事項。
後續步驟
- 進一步瞭解資料歷程。