Cloud Data Fusion 提供 Knowledge Catalog (舊稱 Dataplex Universal Catalog) 來源外掛程式,可從 Cloud Storage 或 BigQuery 資產中的 Knowledge Catalog 實體 (資料表) 讀取資料。您可以使用 Knowledge Catalog Source 外掛程式,將 Cloud Storage 資產中的資料視為資料表,並透過 SQL 查詢篩選資料。
事前準備
如果沒有 Cloud Data Fusion 執行個體,請建立一個。這個外掛程式適用於在 Cloud Data Fusion 6.6 以上版本中執行的執行個體。
來源資料必須已是 Knowledge Catalog 儲存區和資產 (Cloud Storage bucket 或 BigQuery 資料集) 的一部分。
如要使用 Cloud Storage 中的資料表,必須為 Lake 設定 Metastore。
如要從 Cloud Storage 實體讀取資料,Dataproc Metastore 必須附加至湖泊。
不支援 Cloud Storage 實體中的 CSV 資料。
在 Knowledge Catalog 專案中,啟用子網路的私人 Google 存取權,通常會設為
default,或將internal_ip_only設為false。
限制
如果是 Cloud Storage 資產,這個外掛程式不支援從 CSV 檔案讀取資料。支援讀取 JSON、Avro、Parquet 和 ORC 格式。
如果是 Cloud Storage 資產,則不適用「分區開始日期」和「分區結束日期」。
必要的角色
如要取得管理角色所需的權限,請要求系統管理員在 Dataproc 服務代理和 Cloud Data Fusion 服務代理 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) 中,授予下列 IAM 角色:
- Dataplex 開發人員 (
roles/dataplex.developer) - Dataplex 資料讀取者 (
roles/dataplex.dataReader) - Dataproc Metastore 中繼資料使用者 (
roles/metastore.metadataUser) - Cloud Dataplex 服務代理程式 (
roles/dataplex.serviceAgent) - Dataplex 中繼資料讀取者 (
roles/dataplex.metadataReader)
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。
將外掛程式新增至管道
前往 Google Cloud 控制台的 Cloud Data Fusion「Instances」(執行個體) 頁面。
您可以在這個頁面管理執行個體。
按一下「查看執行個體」,在 Cloud Data Fusion 使用者介面中開啟執行個體。
前往「Studio」頁面,展開「Source」選單,然後按一下「Dataplex」。
設定外掛程式
在「Studio」(工作室) 頁面將這個外掛程式新增至管道後,按一下 Knowledge Catalog 來源即可設定其屬性。
如要進一步瞭解設定,請參閱 Dataplex 來源參考資料。
選用:開始使用範例管道
我們提供範例管道,包括 SAP 來源到 Knowledge Catalog 接收器管道,以及 Knowledge Catalog 來源到 BigQuery 接收器管道。
如要使用範例管道,請在 Cloud Data Fusion UI 中開啟執行個體,依序點選「Hub」> Pipelines,然後選取其中一個 Knowledge Catalog 管道。系統會開啟對話方塊,協助您建立管道。