使用 Cloud Data Fusion 處理資料

Cloud Data Fusion 提供 Knowledge Catalog (舊稱 Dataplex Universal Catalog) 來源外掛程式,可從 Cloud Storage 或 BigQuery 資產中的 Knowledge Catalog 實體 (資料表) 讀取資料。您可以使用 Knowledge Catalog Source 外掛程式,將 Cloud Storage 資產中的資料視為資料表,並透過 SQL 查詢篩選資料。

事前準備

  • 如果沒有 Cloud Data Fusion 執行個體,請建立一個。這個外掛程式適用於在 Cloud Data Fusion 6.6 以上版本中執行的執行個體。

  • 來源資料必須已是 Knowledge Catalog 儲存區資產 (Cloud Storage bucket 或 BigQuery 資料集) 的一部分。

  • 如要使用 Cloud Storage 中的資料表,必須為 Lake 設定 Metastore。

  • 如要從 Cloud Storage 實體讀取資料,Dataproc Metastore 必須附加至湖泊。

  • 不支援 Cloud Storage 實體中的 CSV 資料。

  • 在 Knowledge Catalog 專案中,啟用子網路的私人 Google 存取權,通常會設為 default,或將 internal_ip_only 設為 false

限制

  • 如果是 Cloud Storage 資產,這個外掛程式不支援從 CSV 檔案讀取資料。支援讀取 JSON、Avro、Parquet 和 ORC 格式。

  • 如果是 Cloud Storage 資產,則不適用「分區開始日期」和「分區結束日期」

必要的角色

如要取得管理角色所需的權限,請要求系統管理員在 Dataproc 服務代理和 Cloud Data Fusion 服務代理 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) 中,授予下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。

您或許也能透過自訂角色或其他預先定義的角色,取得必要權限。

將外掛程式新增至管道

  1. 前往 Google Cloud 控制台的 Cloud Data Fusion「Instances」(執行個體) 頁面。

    前往「Instances」(執行個體)

    您可以在這個頁面管理執行個體。

  2. 按一下「查看執行個體」,在 Cloud Data Fusion 使用者介面中開啟執行個體。

  3. 前往「Studio」頁面,展開「Source」選單,然後按一下「Dataplex」

設定外掛程式

在「Studio」(工作室) 頁面將這個外掛程式新增至管道後,按一下 Knowledge Catalog 來源即可設定其屬性。

如要進一步瞭解設定,請參閱 Dataplex 來源參考資料。

選用:開始使用範例管道

我們提供範例管道,包括 SAP 來源到 Knowledge Catalog 接收器管道,以及 Knowledge Catalog 來源到 BigQuery 接收器管道。

如要使用範例管道,請在 Cloud Data Fusion UI 中開啟執行個體,依序點選「Hub」> Pipelines,然後選取其中一個 Knowledge Catalog 管道。系統會開啟對話方塊,協助您建立管道。

後續步驟