Vertex AI 训练集群支持各种机器类型,以适应不同的工作负载。配置集群节点池时,您可以从以下选项中进行选择:
- a4-highgpu-8g
- a3-ultragpu-8g
- a3-megagpu-8g
- n2 CPU 系列
容量预配
选择合适的预配模型对于平衡成本、速度和资源可用性至关重要。请参阅以下预配选项:
RESERVATION:从您预先创建的特定 Compute Engine 预留中分配节点。此模型可确保容量,是高需求资源的推荐选择。FLEX_START:利用动态工作负载调度器将作业加入队列。一旦请求的计算资源可用,作业就会自动开始,从而提供灵活的开始时间,而无需预留。SPOT:使用 Spot 虚拟机预配节点池。这是最具成本效益的选项,但仅适用于容错且可处理中断的工作负载,因为虚拟机可能会随时被抢占。ON_DEMAND:这是仅限 CPU 的节点池的默认选项,最适合不稀缺的机器类型。它提供标准虚拟机实例,采用可预测的随用随付定价模式。
请按照以下指导进行选择:
对于高需求 GPU 资源(例如 A3 和 A4):强烈建议使用
RESERVATION模型。这可确保您拥有专用访问权限,以便使用关键训练作业所需的容量。对于突发性或灵活的工作负载:请考虑使用
FLEX_START或SPOT。FLEX_START会将作业排队,直到资源可用为止,而SPOT可为容错作业大幅节省费用,这些作业可以处理抢占。对于资源充足的机器类型:建议选择
ON_DEMAND模型。 适用于资源不稀缺且无需立即使用的机器类型。
使用共享预留(可选)
如果您想使用共享预留而非本地预留,则需要先执行一些额外的步骤,然后才能创建集群。
在将共享预留与 Vertex AI 训练集群搭配使用之前,请手动创建一个使用该共享预留的虚拟机,确保共享预留正常运行。如果此虚拟机创建成功,请继续执行下一步。
在集群创建配置中,使用以下格式的预留名称:projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME。
后续步骤
为训练集群选择计算和配置选项后,您就可以创建集群并在其中运行工作负载了。
- 创建 Compute Engine 预留:
RESERVATION模型用于分配 GPU 等高需求资源。了解如何在 Compute Engine 中创建新的预留,以获得对所需资源的专用访问权限。 - 创建训练集群:按照分步指南操作,使用 Vertex AI API 或
gcloud创建您的第一个持久性训练集群,应用您学到的配置。 - 向集群提交训练作业:集群处于活跃状态后,下一步是运行工作负载。提交以您的持久集群为目标执行的
CustomJob。 - 调整代码以进行分布式训练:为了充分利用多节点集群,请调整训练代码以适应分布式环境。