自 2026 年 4 月 10 日起，Dataplex Universal Catalog 將更名為 Knowledge Catalog。API、用戶端程式庫、CLI 和 IAM 名稱維持不變。詳情請參閱「隆重推出 Google Cloud Knowledge Catalog」。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 Cloud Data Fusion 擷取資料

Cloud Data Fusion 提供 Knowledge Catalog (舊稱 Dataplex Universal Catalog) Sink 外掛程式，可將資料擷取至任何 Knowledge Catalog 支援的資產。

事前準備

如果沒有 Cloud Data Fusion 執行個體，請建立一個。這個外掛程式適用於在 Cloud Data Fusion 6.6 以上版本中執行的執行個體。詳情請參閱「建立 Cloud Data Fusion 公開執行個體」。
資料擷取來源的 BigQuery 資料集或 Cloud Storage bucket 必須屬於 Knowledge Catalog 湖泊。
如要從 Cloud Storage 實體讀取資料，Dataproc Metastore 必須附加至湖泊。
不支援 Cloud Storage 實體中的 CSV 資料。
在 Knowledge Catalog 專案中，啟用子網路的 Private Google Access，通常會設為 default，或將 internal_ip_only 設為 false。

必要的角色

如要取得管理角色所需的權限，請要求系統管理員在 Dataproc 服務代理和 Cloud Data Fusion 服務代理人 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) 中，授予下列 IAM 角色：

Dataplex 開發人員 (roles/dataplex.developer)
Dataplex 資料讀取者 (roles/dataplex.dataReader)
Dataproc Metastore 中繼資料使用者 (roles/metastore.metadataUser)
Cloud Dataplex 服務代理程式 (roles/dataplex.serviceAgent)
Dataplex 中繼資料讀取者 (roles/dataplex.metadataReader)

如要進一步瞭解如何授予角色，請參閱「管理專案、資料夾和組織的存取權」。

您或許也能透過自訂角色或其他預先定義的角色，取得必要權限。

將外掛程式新增至管道

前往 Google Cloud 控制台的 Cloud Data Fusion「Instances」(執行個體) 頁面。

前往「Instances」(執行個體)

您可以在這個頁面管理執行個體。
如要開啟執行個體，請按一下「查看執行個體」。
前往「Studio」頁面，展開「Sink」(接收器) 選單，然後按一下「Dataplex」。

設定外掛程式

在「Studio」(工作室) 頁面將這個外掛程式新增至管道後，按一下 Knowledge Catalog 接收器，即可設定並儲存其屬性。

如要進一步瞭解設定，請參閱 Dataplex Sink 參考資料。

選用：開始使用範例管道

我們提供範例管道，包括 SAP 來源到 Knowledge Catalog 接收器管道，以及 Knowledge Catalog 來源到 BigQuery 接收器管道。

如要使用範例管道，請在 Cloud Data Fusion UI 中開啟執行個體，依序點選「Hub」> Pipelines，然後選取其中一個 Knowledge Catalog 管道。系統會開啟對話方塊，協助您建立管道。

執行管道

部署管道後，在 Cloud Data Fusion 的「Studio」頁面開啟管道。
依序點選「設定」>「資源」。
選用步驟：根據整體資料大小和管道中使用的轉換次數，變更 Executor CPU 和記憶體。
按一下 [儲存]。
如要啟動資料管道，請按一下「執行」。

後續步驟

使用 Knowledge Catalog 來源外掛程式，透過 Cloud Data Fusion 處理資料。

使用 Cloud Data Fusion 擷取資料 透過集合功能整理內容 你可以依據偏好儲存及分類內容。