创建数据流水线
本快速入门向您展示了如何执行以下操作:
- 创建 Cloud Data Fusion 实例。
- 部署随 Cloud Data Fusion 实例一起提供的示例流水线。该流水线执行以下操作:
- 从 Cloud Storage 读取包含《纽约时报》畅销书数据的 JSON 文件。
- 对此文件运行转换,以解析和清理数据。
- 将上周新增的、价格低于 25 美元的高评分图书加载到 BigQuery 中。
准备工作
在创建数据流水线之前,请完成以下步骤。
设置项目
- 登录您的 Google Cloud 账号。如果您是 Google Cloud新手, 请创建一个账号来评估我们的产品在 实际场景中的表现。新客户还可获享 $300 赠金,用于 运行、测试和部署工作负载。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
Enable the Cloud Data Fusion API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
Enable the Cloud Data Fusion API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
所需的角色
如需获得创建 Cloud Data Fusion 实例和管理流水线所需的权限,请让您的管理员为您授予项目的Cloud Data Fusion Admin (roles/datafusion.admin) IAM 角色。如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
您也可以通过自定义 角色或其他预定义 角色来获取所需的权限。
为确保 Compute Engine 默认服务帐号具有运行 Dataproc 作业所需的 权限, 请让您的管理员为 Compute Engine 默认服务帐号授予项目的 以下 IAM 角色:
如果未能向正确的正文授予这些角色,可能会导致权限错误。-
Dataproc Worker (
roles/dataproc.worker) -
Cloud Data Fusion Runner (
roles/datafusion.runner)
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
创建 Cloud Data Fusion 实例
- 点击创建实例。
- 输入实例名称。
- 输入实例的说明 。
- 输入要在其中创建实例的区域 。
- 选择要使用的 Cloud Data Fusion 版本 。
- 选择 Cloud Data Fusion 版本 。
- 对于 Cloud Data Fusion 6.2.3 及更高版本,请在 授权 字段中选择用于在 Dataproc 中运行 Cloud Data Fusion 流水线的 Dataproc 服务账号 。系统会预先选择默认值“Compute Engine 账号”。
- 点击创建。 最长可能需要 30 分钟才能完成实例创建过程。 当 Cloud Data Fusion 创建实例时,实例页面上实例名称的旁边会显示一个进度轮。创建完成后,该进度轮将变成一个绿色对勾标记,指明您可以开始使用实例。
浏览 Cloud Data Fusion 网页界面
使用 Cloud Data Fusion 时,您将同时使用 Google Cloud 控制台 和单独的 Cloud Data Fusion 网页界面。
在 Google Cloud 控制台中,您可以执行以下操作:
- 创建 Google Cloud 控制台项目
- 创建和删除 Cloud Data Fusion 实例
- 查看 Cloud Data Fusion 实例详情
在 Cloud Data Fusion 网页界面中,您可以使用各种页面(例如 Studio 或 Wrangler)来使用 Cloud Data Fusion 功能。
如需浏览 Cloud Data Fusion 界面,请按以下步骤操作:
- 在 Google Cloud 控制台中,打开 实例 页面。
- 在实例的操作 列中,点击查看实例 链接。
- 在 Cloud Data Fusion 网页界面中,使用左侧导航面板导航到所需的页面。
部署示例流水线
示例流水线通过 Cloud Data Fusion Hub 提供, 它可让您共享可重复使用的 Cloud Data Fusion 流水线、插件、 和解决方案。
- 在 Cloud Data Fusion 网页界面中,点击 Hub 。
- 在左侧面板中,点击流水线 。
- 点击 Cloud Data Fusion 快速入门流水线。
- 点击创建 。
- 在 Cloud Data Fusion 快速入门配置面板中,点击完成 。
点击自定义流水线 。
在用于开发数据集成流水线的图形界面“Studio ”页面中,会出现流水线的直观展示。可用的流水线插件列在左侧,您的流水线显示在主画布区域。您可以将鼠标指针放在每个流水线 节点上,然后点击属性 ,来查看流水线。通过每个节点的属性菜单,您可以查看与该节点关联的对象和操作。
点击右上角菜单中的部署 。此步骤会将流水线提交到 Cloud Data Fusion。您将在本快速入门的下一部分中执行此流水线。

查看流水线
已部署的流水线将显示在流水线详情视图中,您可以在其中执行以下操作:
- 查看流水线的结构和配置。
- 手动运行流水线,或者设置时间表或触发器。
- 查看流水线历史运行情况(包括执行时间、日志和指标)的摘要。

执行流水线
在流水线详情视图中,点击运行 以执行流水线。

执行流水线时,Cloud Data Fusion 会执行以下操作:
- 预配临时 Dataproc 集群
- 使用 Apache Spark 在集群上执行流水线
- 删除集群
查看结果
几分钟后,该流水线运行完成。流水线状态将更改为已成功 ,并显示每个节点处理的记录数。

- 转到 BigQuery 网页界面。
如需查看结果示例,请前往项目的
DataFusionQuickstart数据集,点击top_rated_inexpensive表,然后运行一个简单的查询。例如:SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10将 PROJECT_ID 替换为您的项目 ID。

清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
- 删除您的流水线在本快速入门中向其写入数据的 BigQuery 数据集。
可选:删除项目。
- 在 Google Cloud 控制台中,前往 管理资源 页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击 关停 以删除项目。