本文档介绍了在 AI Hypercomputer 上获取和使用计算资源的不同方式,称为使用选项。选择最符合您的工作负载、工作负载时长和费用需求的选项。
每种消费选项都指定以下信息:
您如何访问容量来创建虚拟机或集群。
底层配置模型,用于确定虚拟机的可获取性、生命周期和价格。
使用方案比较
下表总结了各种使用选项之间的主要区别:
| 使用选项 | AI Hypercomputer 中的未来预留 | 最长 90 天的未来预留(日历模式) | 灵活启动 | Spot |
|---|---|---|---|---|
| 支持的机器 | A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High | 具有 8 个 GPU 的 A4、A3 Ultra、A3 Mega 或 A3 High | 任何 GPU 机器 (A4X Max 和 A4X 除外) | 任何 GPU 机器 (A4X Max 和 A4X 除外) |
| 生命周期 | 时间不限 | 最长 90 天 | 最长 7 天 | 任何时间(但可能会被抢占) |
| 抢占式 | ||||
| 容量保证 | 非常高。如果 Google Cloud 批准了您的预留请求,您就可以极高地保证 Compute Engine 会预配您请求的容量。 | 非常高。如果 Google Cloud 批准了您的预留请求,您就可以极高地保证 Compute Engine 会预配您请求的容量。 | 尽力而为。Compute Engine 会尽力尝试安排预配您请求的容量。 | 尽力而为。Compute Engine 会尽力尝试预配您请求的容量。 |
| 配额 | 在提供容量之前,配额会自动增加。 | 不收取任何配额费用。 | 系统会收取抢占式配额费用。 | 系统会收取抢占式配额费用。 |
| 价格 |
|
|
|
|
| 资源分配 | 密集 | 密集 |
|
标准(紧凑政策;可选) |
| 预配模型 | 受预留约束 | 受预留约束 | 灵活启动 | Spot |
| 创建方法 | 如需创建虚拟机,您必须执行以下操作:
|
如需创建虚拟机,您必须执行以下操作:
|
如需创建虚拟机,请使用以下方法之一:
当您请求的容量可用时,Compute Engine 会预配该容量。 |
您可以使用部署选项概览中所述的任何方法立即创建虚拟机。 |
选择使用选项
使用以下流程图选择最适合您工作负载的使用选项:

上图中的问题如下所示:
您是否需要超过 90 天的容量?
否:请前往第 2 题。
您是否需要预留容量?
是:请参阅在日历模式下使用未来预留。
否:请前往第 3 题。
您的工作负载是否具有容错能力?
在 AI Hypercomputer 中使用未来预留
如需运行需要密集分配资源的长时间运行的大规模分布式工作负载,您可以申请未来特定时间的计算资源。在该时间段内,您对预留的资源拥有独占访问权限,并且可以使用这些资源来创建虚拟机或集群。在预留期结束时,Compute Engine 会执行以下操作:
- Compute Engine 会删除预留。
- 根据您为虚拟机指定的终止操作,Compute Engine 会停止或删除任何使用该预留的虚拟机。
AI Hypercomputer 中未来预留的理想工作负载
未来预留非常适合以下工作负载:
预训练基础模型
多主机基础模型推断
AI Hypercomputer 中未来预留的关键特征
未来预留具有以下特征:
-
您可以预留 A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High(8 个 GPU)机器类型。 机器密集分配,以最大限度地减少网络延迟。
-
您可以根据需要预留任意数量的虚拟机,预留时长也可以根据需要自行决定,但预留的虚拟机只能在未来日期使用。然后,您可以使用预留的资源创建和运行虚拟机,直至预留期结束为止。 如果您预留资源的时间为一年或更长时间,则必须购买基于资源的承诺并将其附加到预留的资源。
-
预留期开始后,您可以按以下方式修改自动创建的预留:
-
您使用受预留约束的预配模型,该模型具有以下优势:
您更有可能获得 GPU。
除了与虚拟机关联的承诺之外,您还可以享受高达 53% 的 vCPU 和 GPU 折扣。
如何在 AI Hypercomputer 中使用未来预留
如需使用未来预留来创建虚拟机或集群,您必须完成以下步骤:
-
申请预留容量。您需要联系客户支持团队并指定要预留的资源。Google 会根据可用情况为您创建预留请求草稿。如果看起来正确无误,您可以提交该请求。 Google Cloud 会立即批准预留请求。
如需查看相关说明,请参阅预留容量。
-
使用预留资源。在您选择的预留期开始时,您可以使用预留来创建虚拟机或集群。
如需了解创建虚拟机或集群的不同方法,请参阅虚拟机和集群创建概览。
在日历模式下使用未来预留
如需运行需要密集分配资源的短时分布式工作负载,您可以请求最长 90 天的计算资源。在该时间段内,您对预留的资源拥有独占访问权限,并且可以使用这些资源来创建虚拟机或集群。在预留期结束时,Compute Engine 会执行以下操作:
- Compute Engine 会删除预留。
- 根据您为虚拟机指定的终止操作,Compute Engine 会停止或删除任何使用该预留的虚拟机。
日历模式下的未来预留的理想工作负载
日历模式下的未来预留非常适合以下工作负载:
模型预训练
模型微调
模拟
推理
日历模式下的未来预留的主要特征
日历模式下的未来预留具有以下特征:
-
您可以预留 A4、A3 Ultra、A3 Mega 或 A3 High(8 个 GPU)机器类型。这些机器密集分配,以最大限度地缩短网络延迟时间。
-
您可以查看资源的未来可用情况,然后预留最多 80 个虚拟机,预留时间最长为未来 90 天。然后,您可以使用预留的资源创建虚拟机,直至预留期结束为止。
-
预留期开始后,您可以按以下方式修改自动创建的预留:
-
您使用受预留约束的预配模型,该模型具有以下优势:
您更有可能获得 GPU。
您可以享受高达 53% 的 vCPU 和 GPU 折扣。
如何在日历模式下使用未来预留
如需在日历模式下使用未来预留来创建虚拟机或集群,您必须完成以下步骤:
-
查看资源可用情况。您可以查看要预留的资源的未来可用情况。创建预留请求时,您可以指定已确认为可用的资源的数量、类型和预留时长。此操作可提高 Google Cloud 批准您的请求的几率。
如需了解相关说明,请参阅 查看资源的未来可用情况。
-
预留容量。您为未来的日期和时间创建了预留请求。 Google Cloud 在两分钟内批准了该预留请求。如果获得批准,Compute Engine 会为您预留容量。在您选择的交付日期,您可以使用预留的资源创建虚拟机或集群。
如需查看相关说明,请参阅 为 GPU 虚拟机或 TPU 创建预留请求。
-
使用预留资源。在您选择的预留期开始时,您可以使用预留来创建虚拟机或集群。
如需了解创建虚拟机或集群的不同方法,请参阅以下内容:
- 如需创建 A4、A3 Ultra、A3 Mega 或 A3 High(8 个 GPU)虚拟机,请参阅虚拟机和集群创建概览。
- 如需创建启用了 GPUDirect-TCPX 的 A3 Mega 或 A3 High(8 个 GPU)虚拟机,请参阅创建启用了 GPUDirect-TCPX 的 A3 虚拟机。
使用灵活启动
如需运行需要密集分配资源的短时工作负载,您可以使用灵活启动请求最多七天的计算资源。只要资源可用,Compute Engine 就会创建您请求数量的虚拟机。您可以停止独立的灵活启动虚拟机,但无法停止托管式实例组 (MIG) 通过规模调整请求创建的灵活启动虚拟机。灵活启动虚拟机会一直存在,直到您将其删除,或者直到 Compute Engine 在虚拟机的运行时长结束时将其删除。
适合灵活启动的理想工作负载
灵活启动非常适合可以随时启动的工作负载,例如:
小型模型预训练
模型微调
模拟
批量推理
灵活启动的主要特征
灵活启动具有以下特征:
-
您可以请求任何 GPU 机器类型,但 A4X Max 和 A4X 除外。资源分配因创建方法而异:
- 对于独立灵活启动虚拟机,机器使用标准放置。此布置方式会根据可用性分配机器,这可能会导致同一可用区中的虚拟机相距很远。
- 对于所有其他创建方法,机器都会密集分配,以最大限度减少网络延迟。
您使用的是灵活启动预配模型,该模型具有以下优势:
您更有可能获得 GPU。
您可以享受 vCPU、内存和 GPU 最高 53% 的折扣。
如何使用灵活启动
如需使用灵活启动功能创建虚拟机或集群,请选择以下选项之一:
- 创建独立虚拟机
- 创建包含规模调整请求的 MIG
- 创建 Slurm 集群
- 创建 GKE 集群:
使用 Spot
如需运行容错工作负载,您可以根据可用性立即获取计算资源。您可以尽可能以最低的价格获取资源。但是,Compute Engine 可能会随时抢占虚拟机来收回容量。
适合 Spot 的理想工作负载
Spot 非常适合可接受中断的工作负载,例如:
批处理
高性能计算 (HPC)
持续集成和持续部署 (CI/CD)
数据分析
媒体编码
在线推理
Spot 的主要特征
Spot 具有以下特征:
-
您可以创建任何 GPU 机器类型,但 A4X Max 和 A4X 除外。密集分配取决于资源可用性。为确保更紧密的分配,您可以将紧凑布置政策应用于虚拟机。
-
您可以立即创建任意数量的虚拟机。虚拟机会一直运行,直到您停止或删除它们,或者直到 Compute Engine 抢占虚拟机来收回容量。
-
您使用的是 Spot 预配模型,该模型具有以下优势:
您更有可能获得 GPU。
许多机器类型、GPU、TPU 和本地 SSD 磁盘均可享受最高 91% 的折扣。
如何使用 Spot
如需使用 Spot 创建虚拟机或集群,您必须完成以下步骤:
-
可选:创建紧凑布置政策。您可以创建紧凑布置政策,以指定虚拟机彼此之间的靠近程度。您选择的最小距离会影响您可以将该政策应用到的虚拟机数量和类型。
-
创建 Spot 虚拟机。您可以根据可用性创建任意数量的虚拟机。虚拟机会一直运行,直到您停止或删除它们,或者直到 Compute Engine 抢占这些虚拟机来收回容量。
如需查看相关说明,请参阅虚拟机和集群创建概览。