计算资源

如果您对 Vertex AI 训练集群感兴趣，请与您的销售代表联系以获取访问权限。

Vertex AI 训练集群支持各种机器类型，以适应不同的工作负载。配置集群节点池时，您可以从以下选项中进行选择：

a4-highgpu-8g
a3-ultragpu-8g
a3-megagpu-8g
n2 CPU 系列

容量预配

选择合适的预配模型对于平衡成本、速度和资源可用性至关重要。请参阅以下预配选项：

RESERVATION：从您预先创建的特定 Compute Engine 预留中分配节点。此模型可确保容量，是高需求资源的推荐选择。
FLEX_START：利用动态工作负载调度器将作业加入队列。一旦请求的计算资源可用，作业就会自动开始，从而提供灵活的开始时间，而无需预留。
SPOT：使用 Spot 虚拟机预配节点池。这是最具成本效益的选项，但仅适用于容错且可处理中断的工作负载，因为虚拟机可能会随时被抢占。
ON_DEMAND：这是仅限 CPU 的节点池的默认选项，最适合不稀缺的机器类型。它提供标准虚拟机实例，采用可预测的随用随付定价模式。

请按照以下指导进行选择：

对于高需求 GPU 资源（例如 A3 和 A4）：强烈建议使用 RESERVATION 模型。这可确保您拥有专用访问权限，以便使用关键训练作业所需的容量。
对于突发性或灵活的工作负载：请考虑使用 FLEX_START 或 SPOT。 FLEX_START 会将作业排队，直到资源可用为止，而 SPOT 可为容错作业大幅节省费用，这些作业可以处理抢占。
对于资源充足的机器类型：建议选择 ON_DEMAND 模型。适用于资源不稀缺且无需立即使用的机器类型。

使用共享预留（可选）

如果您想使用共享预留而非本地预留，则需要先执行一些额外的步骤，然后才能创建集群。

在将共享预留与 Vertex AI 训练集群搭配使用之前，请手动创建一个使用该共享预留的虚拟机，确保共享预留正常运行。如果此虚拟机创建成功，请继续执行下一步。在集群创建配置中，使用以下格式的预留名称：projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME。

后续步骤

为训练集群选择计算和配置选项后，您就可以创建集群并在其中运行工作负载了。

创建 Compute Engine 预留：RESERVATION 模型用于分配 GPU 等高需求资源。了解如何在 Compute Engine 中创建新的预留，以获得对所需资源的专用访问权限。
- 了解如何创建预留
创建训练集群：按照分步指南操作，使用 Vertex AI API 或 gcloud 创建您的第一个持久性训练集群，应用您学到的配置。
- 了解如何创建训练集群
向集群提交训练作业：集群处于活跃状态后，下一步是运行工作负载。提交以您的持久集群为目标执行的 CustomJob。
- 了解如何在训练集群上运行作业
调整代码以进行分布式训练：为了充分利用多节点集群，请调整训练代码以适应分布式环境。
- 了解 Vertex AI 上的分布式训练

计算资源 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

容量预配

使用共享预留（可选）

后续步骤

计算资源