Cloud Data Fusion 提供 Dataplex Universal Catalog Sink 外掛程式,可將資料擷取至任何支援 Dataplex Universal Catalog 的資產。
事前準備
- 如果沒有 Cloud Data Fusion 執行個體,請建立一個。這個外掛程式適用於在 Cloud Data Fusion 6.6 以上版本中執行的執行個體。詳情請參閱「建立 Cloud Data Fusion 公開執行個體」。
- 資料擷取來源的 BigQuery 資料集或 Cloud Storage bucket 必須屬於 Dataplex Universal Catalog 湖泊。
- 如要從 Cloud Storage 實體讀取資料,Dataproc Metastore 必須附加至湖泊。
- 不支援 Cloud Storage 實體中的 CSV 資料。
- 在 Dataplex Universal Catalog 專案中,對子網路啟用私人 Google 存取權,通常會設為
default
,或將internal_ip_only
設為false
。
必要的角色
如要取得管理角色所需的權限,請要求管理員在 Dataproc 服務代理人和 Cloud Data Fusion 服務代理人 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
) 上授予下列 IAM 角色:
-
Dataplex 開發人員 (
roles/dataplex.developer
) -
Dataplex 資料讀取者 (
roles/dataplex.dataReader
) -
Dataproc Metastore 中繼資料使用者 (
roles/metastore.metadataUser
) -
Cloud Dataplex 服務代理程式 (
roles/dataplex.serviceAgent
) -
Dataplex 中繼資料讀取者 (
roles/dataplex.metadataReader
)
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
將外掛程式新增至管道
前往 Google Cloud 控制台的 Cloud Data Fusion「Instances」(執行個體) 頁面。
您可以在這個頁面管理執行個體。
如要開啟執行個體,請按一下「查看執行個體」。
前往「Studio」(工作室) 頁面,展開「Sink」(接收器) 選單,然後按一下「Dataplex」。
設定外掛程式
在「Studio」(工作室) 頁面將這個外掛程式新增至管道後,按一下 Dataplex Universal Catalog 接收器,即可設定並儲存其屬性。
如要進一步瞭解設定,請參閱 Dataplex Sink 參考資料。
選用步驟:開始使用範例管道
我們提供範例管道,包括 SAP 來源到 Dataplex Universal Catalog 接收器管道,以及 Dataplex Universal Catalog 來源到 BigQuery 接收器管道。
如要使用範例管道,請在 Cloud Data Fusion 使用者介面中開啟執行個體,依序點選「Hub」>「Pipelines」,然後選取其中一個 Dataplex Universal Catalog 管道。系統會開啟對話方塊,協助您建立管道。
執行管道
部署管道後,在 Cloud Data Fusion Studio 頁面開啟管道。
依序點選「設定」>「資源」。
選用步驟:根據整體資料大小和管道中使用的轉換次數,變更 Executor CPU 和記憶體。
按一下 [儲存]。
如要啟動資料管道,請按一下「執行」。