使用 Cloud Data Fusion 注入数据

Cloud Data Fusion 提供了一个 Dataplex Universal Catalog 接收器插件，用于将数据注入 Dataplex Universal Catalog 支持的任何资产。

准备工作

如果您没有 Cloud Data Fusion 实例，请创建一个。此插件适用于在 Cloud Data Fusion 6.6 版或更高版本中运行的实例。如需了解详情，请参阅创建 Cloud Data Fusion 公开实例。
在其中注入数据的 BigQuery 数据集或 Cloud Storage 存储桶必须是 Dataplex Universal Catalog 数据湖的一部分。
如需从 Cloud Storage 实体读取数据，必须将 Dataproc Metastore 附加到数据湖。
不支持 Cloud Storage 实体中的 CSV 数据。
在 Dataplex Universal Catalog 项目中，对子网启用专用 Google 访问通道，该子网通常设置为 default，或者将 internal_ip_only 设置为 false。

所需的角色

如需获得管理角色所需的权限，请让您的管理员为您授予 Dataproc 服务代理和 Cloud Data Fusion 服务代理 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) 的以下 IAM 角色：

Dataplex Developer (roles/dataplex.developer)
Dataplex Data Reader (roles/dataplex.dataReader)
Dataproc Metastore Metadata User (roles/metastore.metadataUser)
Cloud Dataplex Service Agent (roles/dataplex.serviceAgent)
Dataplex Metadata Reader (roles/dataplex.metadataReader)

如需详细了解如何授予角色，请参阅管理对项目、文件夹和组织的访问权限。

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

将插件添加到流水线

在 Google Cloud 控制台中，前往 Cloud Data Fusion 实例页面。

转到实例

该页面可让您管理实例。
如需打开实例，请点击查看实例。
前往 Studio 页面，展开接收器菜单，然后点击 Dataplex。

配置插件

在 Studio 页面上将此插件添加到流水线后，点击 Dataplex Universal Catalog 接收器以配置并保存其属性。

如需详细了解配置，请参阅 Dataplex 接收器参考文档。

可选：开始使用示例流水线

我们提供了示例流水线，包括从 SAP 来源到 Dataplex Universal Catalog 接收器的流水线，以及从 Dataplex Universal Catalog 来源到 BigQuery 接收器的流水线。

如需使用示例流水线，请在 Cloud Data Fusion 界面中打开实例，然后点击 Hub > 流水线，并选择一个 Dataplex Universal Catalog 流水线。系统会打开一个对话框，帮助您创建流水线。

运行流水线

部署流水线后，在 Cloud Data Fusion Studio 页面上打开流水线。
点击配置 > 资源。
可选：根据整体数据大小和流水线中使用的转换数量来更改执行器 CPU 和内存。
点击保存。
如需启动数据流水线，请点击运行。

后续步骤

使用 Dataplex Universal Catalog 来源插件通过 Cloud Data Fusion 处理数据。

使用 Cloud Data Fusion 注入数据 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。