针对现有 Dataproc 集群运行流水线

本页面介绍了如何针对现有 Dataproc 集群在 Cloud Data Fusion 中运行流水线。

默认情况下，Cloud Data Fusion 会为每个流水线创建临时集群：它会在流水线开始运行时创建集群，然后在流水线运行完成后将其删除。虽然此行为可确保只在需要时创建资源，从而节省费用，但可能在这种情况下并不需要以下默认行为：

如果为每个流水线创建新集群所需的时间对您的使用场景来说过多。
如果您的组织需要集中管理集群创建；例如，当您希望对所有 Dataproc 集群实施特定政策时。

针对这些场景，您需要按照以下步骤在现有集群上运行流水线。

准备工作

您需要具备以下几项：

Cloud Data Fusion 实例。

创建 Cloud Data Fusion 实例
现有 Dataproc 集群。

创建 Dataproc 集群
如果您在 Cloud Data Fusion 6.2 版本中运行流水线，请使用旧版 Dataproc 映像，该映像会使用 Hadoop 2.x（例如 1.5-debian10）运行，或者升级到最新的 Cloud Data Fusion 版本。

连接到现有集群

在 Cloud Data Fusion 6.2.1 版及更高版本中，您可以在创建新的 Compute Engine 配置文件时连接到现有 Dataproc 集群。

前往您的实例：
1. 在 Google Cloud 控制台中，前往 Cloud Data Fusion 页面。
2. 如需在 Cloud Data Fusion Studio 中打开实例，请点击实例，然后点击查看实例。
  
  转到实例
点击系统管理员。
点击配置标签页。
依次点击 System compute profiles（系统计算配置文件）。
点击创建新的付款资料。系统随即会打开预配工具页面。
点击现有 Dataproc (Existing Dataproc)。
输入配置文件、集群和监控信息。
点击创建。

配置流水线以使用自定义配置文件

前往您的实例：
1. 在 Google Cloud 控制台中，前往 Cloud Data Fusion 页面。
2. 如需在 Cloud Data Fusion Studio 中打开实例，请点击实例，然后点击查看实例。
  
  转到实例
在 Studio 页面上前往您的流水线。
点击配置。
点击计算配置 (Compute config)。
点击您创建的配置文件。

图 1：点击自定义配置文件
运行流水线。它会针对现有 Dataproc 集群运行。

后续步骤

详细了解如何配置集群。
排查删除集群时遇到的问题。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2026-02-14。