本页面介绍了如何针对现有 Dataproc 集群在 Cloud Data Fusion 中运行流水线。
默认情况下,Cloud Data Fusion 会为每个流水线创建临时集群:它会在流水线开始运行时创建集群,然后在流水线运行完成后将其删除。虽然此行为可确保只在需要时创建资源,从而节省费用,但可能在这种情况下并不需要以下默认行为:
- 如果为每个流水线创建新集群所需的时间对您的使用场景来说过多。 
- 如果您的组织需要集中管理集群创建;例如,当您希望对所有 Dataproc 集群实施特定政策时。 
针对这些场景,您需要按照以下步骤在现有集群上运行流水线。
准备工作
您需要具备以下几项:
- Cloud Data Fusion 实例。 
- 现有 Dataproc 集群。 
- 如果您在 Cloud Data Fusion 6.2 版本中运行流水线,请使用旧版 Dataproc 映像,该映像会使用 Hadoop 2.x(例如 1.5-debian10)运行,或者升级到最新的 Cloud Data Fusion 版本。 
连接到现有集群
在 Cloud Data Fusion 6.2.1 版及更高版本中,您可以在创建新的 Compute Engine 配置文件时连接到现有 Dataproc 集群。
- 前往您的实例: - 在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。 
- 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例。 
 
- 点击系统管理员。 
- 点击配置标签页。 
- 依次点击 System compute profiles(系统计算配置文件)。 
- 点击创建新的付款资料。系统随即会打开预配工具页面。 
- 点击现有 Dataproc (Existing Dataproc)。 
- 输入配置文件、集群和监控信息。 
- 点击创建。 
配置流水线以使用自定义配置文件
- 前往您的实例: - 在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。 
- 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例。 
 
- 在 Studio 页面上前往您的流水线。 
- 点击配置。 
- 点击计算配置 (Compute config)。 
- 点击您创建的配置文件。   - 图 1:点击自定义配置文件 
- 运行流水线。它会针对现有 Dataproc 集群运行。