使用 Cloud Data Fusion 擷取資料

Cloud Data Fusion 提供 Knowledge Catalog (舊稱 Dataplex Universal Catalog) Sink 外掛程式,可將資料擷取至任何 Knowledge Catalog 支援的資產。

事前準備

  • 如果沒有 Cloud Data Fusion 執行個體,請建立一個。這個外掛程式適用於在 Cloud Data Fusion 6.6 以上版本中執行的執行個體。詳情請參閱「建立 Cloud Data Fusion 公開執行個體」。
  • 資料擷取來源的 BigQuery 資料集或 Cloud Storage bucket 必須屬於 Knowledge Catalog 湖泊。
  • 如要從 Cloud Storage 實體讀取資料,Dataproc Metastore 必須附加至湖泊。
  • 不支援 Cloud Storage 實體中的 CSV 資料。
  • 在 Knowledge Catalog 專案中,啟用子網路的 Private Google Access,通常會設為 default,或將 internal_ip_only 設為 false

必要的角色

如要取得管理角色所需的權限,請要求系統管理員在 Dataproc 服務代理和 Cloud Data Fusion 服務代理人 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) 中,授予下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。

您或許也能透過自訂角色或其他預先定義的角色,取得必要權限。

將外掛程式新增至管道

  1. 前往 Google Cloud 控制台的 Cloud Data Fusion「Instances」(執行個體) 頁面。

    前往「Instances」(執行個體)

    您可以在這個頁面管理執行個體。

  2. 如要開啟執行個體,請按一下「查看執行個體」

  3. 前往「Studio」頁面,展開「Sink」(接收器) 選單,然後按一下「Dataplex」

設定外掛程式

在「Studio」(工作室) 頁面將這個外掛程式新增至管道後,按一下 Knowledge Catalog 接收器,即可設定並儲存其屬性。

如要進一步瞭解設定,請參閱 Dataplex Sink 參考資料。

選用:開始使用範例管道

我們提供範例管道,包括 SAP 來源到 Knowledge Catalog 接收器管道,以及 Knowledge Catalog 來源到 BigQuery 接收器管道。

如要使用範例管道,請在 Cloud Data Fusion UI 中開啟執行個體,依序點選「Hub」> Pipelines,然後選取其中一個 Knowledge Catalog 管道。系統會開啟對話方塊,協助您建立管道。

執行管道

  1. 部署管道後,在 Cloud Data Fusion 的「Studio」頁面開啟管道。

  2. 依序點選「設定」>「資源」

  3. 選用步驟:根據整體資料大小和管道中使用的轉換次數,變更 Executor CPU記憶體

  4. 按一下 [儲存]

  5. 如要啟動資料管道,請按一下「執行」

後續步驟