Cloud Data Fusion 提供了一个 Dataplex Universal Catalog 接收器插件,用于将数据注入 Dataplex Universal Catalog 支持的任何资产。
准备工作
- 如果您没有 Cloud Data Fusion 实例,请创建一个。此插件适用于在 Cloud Data Fusion 6.6 版或更高版本中运行的实例。如需了解详情,请参阅创建 Cloud Data Fusion 公开实例。
- 在其中注入数据的 BigQuery 数据集或 Cloud Storage 存储桶必须是 Dataplex Universal Catalog 数据湖的一部分。
- 如需从 Cloud Storage 实体读取数据,必须将 Dataproc Metastore 附加到数据湖。
- 不支持 Cloud Storage 实体中的 CSV 数据。
- 在 Dataplex Universal Catalog 项目中,对子网启用专用 Google 访问通道,该子网通常设置为
default
,或者将internal_ip_only
设置为false
。
所需的角色
如需获得管理角色所需的权限,请让您的管理员为您授予 Dataproc 服务代理和 Cloud Data Fusion 服务代理 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
) 的以下 IAM 角色:
-
Dataplex Developer (
roles/dataplex.developer
) -
Dataplex Data Reader (
roles/dataplex.dataReader
) -
Dataproc Metastore Metadata User (
roles/metastore.metadataUser
) -
Cloud Dataplex Service Agent (
roles/dataplex.serviceAgent
) -
Dataplex Metadata Reader (
roles/dataplex.metadataReader
)
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
将插件添加到流水线
在 Google Cloud 控制台中,前往 Cloud Data Fusion 实例页面。
该页面可让您管理实例。
如需打开实例,请点击查看实例。
前往 Studio 页面,展开接收器菜单,然后点击 Dataplex。
配置插件
在 Studio 页面上将此插件添加到流水线后,点击 Dataplex Universal Catalog 接收器以配置并保存其属性。
如需详细了解配置,请参阅 Dataplex 接收器参考文档。
可选:开始使用示例流水线
我们提供了示例流水线,包括从 SAP 来源到 Dataplex Universal Catalog 接收器的流水线,以及从 Dataplex Universal Catalog 来源到 BigQuery 接收器的流水线。
如需使用示例流水线,请在 Cloud Data Fusion 界面中打开实例,然后点击 Hub > 流水线,并选择一个 Dataplex Universal Catalog 流水线。系统会打开一个对话框,帮助您创建流水线。
运行流水线
部署流水线后,在 Cloud Data Fusion Studio 页面上打开流水线。
点击配置 > 资源。
可选:根据整体数据大小和流水线中使用的转换数量来更改执行器 CPU 和内存。
点击保存。
如需启动数据流水线,请点击运行。
后续步骤
- 使用 Dataplex Universal Catalog 来源插件通过 Cloud Data Fusion 处理数据。