创建数据流水线
本快速入门介绍了如何执行以下操作:
- 创建 Cloud Data Fusion 实例。
- 部署随 Cloud Data Fusion 实例一起提供的示例流水线。该流水线执行以下操作:
- 从 Cloud Storage 读取包含《纽约时报》畅销书数据的 JSON 文件。
- 对此文件运行转换,以解析和清理数据。
- 将上周新增的、价格低于 25 美元的高评分图书加载到 BigQuery 中。
准备工作
在创建数据流水线之前,请完成以下步骤。
设置项目
- 登录您的 Google Cloud 账号。如果您是 Google Cloud新手,请 创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
Enable the Cloud Data Fusion API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
Enable the Cloud Data Fusion API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
所需的角色
如需获得创建 Cloud Data Fusion 实例和管理流水线所需的权限,请让您的管理员为您授予项目的 Cloud Data Fusion Admin (roles/datafusion.admin) IAM 角色。如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
为确保 Compute Engine 默认服务账号具有运行 Managed Service for Apache Spark 作业所需的权限,请让您的管理员为 Compute Engine 默认服务账号授予项目的以下 IAM 角色:
- Dataproc Worker (
roles/dataproc.worker) - Cloud Data Fusion Runner (
roles/datafusion.runner)
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
创建 Cloud Data Fusion 实例
- 点击创建实例。
- 输入实例名称。
- 输入实例的说明。
- 输入要在其中创建实例的区域。
- 选择要使用的 Cloud Data Fusion 版本。
- 选择 Cloud Data Fusion 版本。
- 对于 Cloud Data Fusion 6.2.3 及更高版本,请在授权字段中选择用于在 Managed Service for Apache Spark 中运行 Cloud Data Fusion 流水线的 Managed Service for Apache Spark 服务账号。系统会预先选择默认值(Compute Engine 引擎账号)。
- 点击创建。 最长可能需要 30 分钟才能完成实例创建过程。 当 Cloud Data Fusion 创建实例时,实例页面上实例名称的旁边会显示一个进度轮。创建完成后,该进度轮将变成一个绿色对勾标记,指明您可以开始使用实例。
浏览 Cloud Data Fusion 网页界面
使用 Cloud Data Fusion 时,您将同时使用 Google Cloud 控制台和单独的 Cloud Data Fusion 网页界面。
在 Google Cloud 控制台中,您可以执行以下操作:
- 创建 Google Cloud 控制台项目
- 创建和删除 Cloud Data Fusion 实例
- 查看 Cloud Data Fusion 实例详细信息
在 Cloud Data Fusion 网页界面中,您可以通过各种页面(例如 Studio 或 Wrangler)来使用 Cloud Data Fusion 功能。
如需浏览 Cloud Data Fusion 界面,请按以下步骤操作:
- 在 Google Cloud 控制台中,打开实例页面。
- 在实例的操作列中,点击查看实例链接。
- 在 Cloud Data Fusion 网页界面中,使用左侧导航面板导航到所需的页面。
部署示例流水线
示例流水线通过 Cloud Data Fusion Hub 提供,它可让您共享可重复使用的 Cloud Data Fusion 流水线、插件和解决方案。
- 在 Cloud Data Fusion 网页界面中,点击 Hub。
- 在左侧面板中,点击流水线。
- 点击 Cloud Data Fusion 快速入门流水线。
- 点击创建。
- 在 Cloud Data Fusion 快速入门配置面板中,点击完成。
点击自定义流水线。
在用于开发数据集成流水线的图形界面“Studio”页面中,会出现流水线的直观展示。可用的流水线插件列在左侧,您的流水线显示在主画布区域。您可以将鼠标指针放在每个流水线节点上,然后点击属性,来查看流水线。通过每个节点的“属性”菜单,您可以查看与相应节点关联的对象和操作。
点击右上角菜单中的部署。此步骤会将流水线提交到 Cloud Data Fusion。您将在本快速入门的下一部分中执行此流水线。

查看流水线
已部署的流水线将显示在流水线详情视图中,您可以在其中执行以下操作:
- 查看流水线的结构和配置。
- 手动运行流水线,或者设置时间表或触发器。
- 查看流水线历史运行情况(包括执行时间、日志和指标)的摘要。

执行流水线
在流水线详情视图中,点击运行以执行流水线。

执行流水线时,Cloud Data Fusion 会执行以下操作:
- 预配临时 Managed Service for Apache Spark 集群
- 使用 Apache Spark 在集群上执行流水线
- 删除集群
查看结果
几分钟后,该流水线运行完成。流水线状态将更改为已成功,并显示每个节点处理的记录数。

- 前往 BigQuery 网页界面。
如需查看结果示例,请前往项目中的
DataFusionQuickstart数据集,点击top_rated_inexpensive表,然后运行一个简单的查询。例如:SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10将 PROJECT_ID 替换为您的项目 ID。

清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
- 删除您的流水线在本快速入门中向其写入数据的 BigQuery 数据集。
可选:删除项目。
- 在 Google Cloud 控制台中,前往管理资源页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关闭以删除项目。