创建数据流水线

本快速入门向您展示了如何执行以下操作:

  1. 创建 Cloud Data Fusion 实例。
  2. 部署随 Cloud Data Fusion 实例一起提供的示例流水线。该流水线执行以下操作:
    1. 从 Cloud Storage 读取包含《纽约时报》畅销书数据的 JSON 文件。
    2. 对此文件运行转换,以解析和清理数据。
    3. 将上周新增的、价格低于 25 美元的高评分图书加载到 BigQuery 中。

准备工作

在创建数据流水线之前,请完成以下步骤。

设置项目

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud新手, 请创建一个账号来评估我们的产品在 实际场景中的表现。新客户还可获享 $300 赠金,用于 运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Enable the Cloud Data Fusion API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Enable the Cloud Data Fusion API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

所需的角色

如需获得创建 Cloud Data Fusion 实例和管理流水线所需的权限,请让您的管理员为您授予项目的Cloud Data Fusion Admin (roles/datafusion.admin) IAM 角色。如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义 角色或其他预定义 角色来获取所需的权限。

为确保 Compute Engine 默认服务帐号具有运行 Dataproc 作业所需的 权限, 请让您的管理员为 Compute Engine 默认服务帐号授予项目的 以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您的管理员也可以通过自定义角色或其他预定义角色为 Compute Engine 默认服务帐号授予所需的权限。

创建 Cloud Data Fusion 实例

  1. 点击创建实例

    转到“实例”

  2. 输入实例名称
  3. 输入实例的说明
  4. 输入要在其中创建实例的区域
  5. 选择要使用的 Cloud Data Fusion 版本
  6. 选择 Cloud Data Fusion 版本
  7. 对于 Cloud Data Fusion 6.2.3 及更高版本,请在 授权 字段中选择用于在 Dataproc 中运行 Cloud Data Fusion 流水线的 Dataproc 服务账号 。系统会预先选择默认值“Compute Engine 账号”。
  8. 点击创建。 最长可能需要 30 分钟才能完成实例创建过程。 当 Cloud Data Fusion 创建实例时,实例页面上实例名称的旁边会显示一个进度轮。创建完成后,该进度轮将变成一个绿色对勾标记,指明您可以开始使用实例。

使用 Cloud Data Fusion 时,您将同时使用 Google Cloud 控制台 和单独的 Cloud Data Fusion 网页界面。

  • 在 Google Cloud 控制台中,您可以执行以下操作:

    • 创建 Google Cloud 控制台项目
    • 创建和删除 Cloud Data Fusion 实例
    • 查看 Cloud Data Fusion 实例详情
  • 在 Cloud Data Fusion 网页界面中,您可以使用各种页面(例如 StudioWrangler)来使用 Cloud Data Fusion 功能。

如需浏览 Cloud Data Fusion 界面,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,打开 实例 页面。

    转到“实例”

  2. 在实例的操作 列中,点击查看实例 链接。
  3. 在 Cloud Data Fusion 网页界面中,使用左侧导航面板导航到所需的页面。

部署示例流水线

示例流水线通过 Cloud Data Fusion Hub 提供, 它可让您共享可重复使用的 Cloud Data Fusion 流水线、插件、 和解决方案。

  1. 在 Cloud Data Fusion 网页界面中,点击 Hub
  2. 在左侧面板中,点击流水线
  3. 点击 Cloud Data Fusion 快速入门流水线。
  4. 点击创建
  5. 在 Cloud Data Fusion 快速入门配置面板中,点击完成
  6. 点击自定义流水线

    在用于开发数据集成流水线的图形界面“Studio ”页面中,会出现流水线的直观展示。可用的流水线插件列在左侧,您的流水线显示在主画布区域。您可以将鼠标指针放在每个流水线 节点上,然后点击属性 ,来查看流水线。通过每个节点的属性菜单,您可以查看与该节点关联的对象和操作。

  7. 点击右上角菜单中的部署 。此步骤会将流水线提交到 Cloud Data Fusion。您将在本快速入门的下一部分中执行此流水线。

部署流水线。

查看流水线

已部署的流水线将显示在流水线详情视图中,您可以在其中执行以下操作:

  • 查看流水线的结构和配置。
  • 手动运行流水线,或者设置时间表或触发器。
  • 查看流水线历史运行情况(包括执行时间、日志和指标)的摘要。

复制服务帐号

执行流水线

在流水线详情视图中,点击运行 以执行流水线。

运行流水线

执行流水线时,Cloud Data Fusion 会执行以下操作:

  1. 预配临时 Dataproc 集群
  2. 使用 Apache Spark 在集群上执行流水线
  3. 删除集群

查看结果

几分钟后,该流水线运行完成。流水线状态将更改为已成功 ,并显示每个节点处理的记录数。

流水线运行完成

  1. 转到 BigQuery 网页界面
  2. 如需查看结果示例,请前往项目的 DataFusionQuickstart 数据集,点击 top_rated_inexpensive 表,然后运行一个简单的查询。例如:

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    PROJECT_ID 替换为您的项目 ID。

查看结果

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

  1. 删除您的流水线在本快速入门中向其写入数据的 BigQuery 数据集。
  2. 删除 Cloud Data Fusion 实例

  3. 可选:删除项目。

  1. 在 Google Cloud 控制台中,前往 管理资源 页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击 关停 以删除项目。

后续步骤

  • 完成 Cloud Data Fusion 教程
  • 了解 Cloud Data Fusion 概念