Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

GPU 机器类型

本文档介绍了 AI Hypercomputer 支持的 GPU 机器系列。您可以创建使用这些机器系列的 Compute Engine 实例和集群，以运行人工智能 (AI)、机器学习 (ML) 和高性能计算 (HPC) 工作负载。

如需在 AI Hypercomputer 上使用 GPU，您可以使用加速器优化机器家族中的大多数机器系列。加速器优化机器家族中的每个机器系列都使用特定的 GPU 型号。如需详细了解加速器优化机器家族，请参阅加速器优化机器家族。

以下部分介绍了 AI Hypercomputer 支持的加速器优化机器系列。

A4X Max 和 A4X 系列

本部分概述了 A4X Max 和 A4X 机器系列可用的配置。如需详细了解这些机器系列，请参阅 Compute Engine 文档中的 A4X 和 A4X Max 加速器优化机器系列。

A4X Max（裸金属）

A4X Max 机器类型使用 NVIDIA GB300 Grace Blackwell Ultra 超级芯片 (nvidia-gb300)，非常适合基础模型训练和部署。A4X Max 机器类型以裸金属实例的形式提供。

A4X Max 是基于 NVIDIA GB300 NVL72 的艾级平台。每台机器都有两个搭载了 Arm Neoverse V2 核心的 NVIDIA Grace CPU 插槽。这些 CPU 通过快速芯片间 (NVLink-C2C) 通信连接到四个 NVIDIA B300 Blackwell GPU。

						挂接了 NVIDIA GB300 Grace Blackwell Ultra 超级芯片
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3e)
`a4x-maxgpu-4g-metal`	144	960	12000	6	3600	4	1,116

¹每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
² 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽，请参阅网络带宽。
³GPU 内存是 GPU 设备上的内存，可用于临时存储数据。它与实例的内存分开，专门用于处理图形密集型工作负载的更高带宽需求。

A4X

A4X 机器类型使用 NVIDIA GB200 Grace Blackwell 超级芯片 (nvidia-gb200)，非常适合基础模型训练和部署。

A4X 是基于 NVIDIA GB200 NVL72 的艾级平台。每台机器都有两个搭载了 Arm Neoverse V2 核心的 NVIDIA Grace CPU 插槽。这些 CPU 通过快速芯片间 (NVLink-C2C) 通信连接到四个 NVIDIA B200 Blackwell GPU。

						挂接了 NVIDIA GB200 Grace Blackwell 超级芯片
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3e)
`a4x-highgpu-4g`	140	884	12,000	6	2,000	4	744

A4 系列

本部分概述了 A4 机器系列的可用配置。如需详细了解此机器系列，请参阅 Compute Engine 文档中的 A4 加速器优化机器系列。

A4

A4 机器类型挂接了 NVIDIA B200 Blackwell GPU (nvidia-b200)，非常适合基础模型训练和部署。

						挂接的 NVIDIA B200 Blackwell GPU
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3e)
`a4-highgpu-8g`	224	3,968	12,000	10	3600	8	1,440

A3 系列

本部分概述了 A3 机器系列的可用配置。如需详细了解此机器系列，请参阅 Compute Engine 文档中的 A3 加速器优化机器系列。

A3 Ultra

A3 Ultra 机器类型挂接了 NVIDIA H200 SXM GPU (nvidia-h200-141gb)，是 A3 系列中能够提供最高网络性能的机器类型。A3 Ultra 机器类型非常适合基础模型训练和部署。

						挂接了 NVIDIA H200 GPU
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3e)
`a3-ultragpu-8g`	224	2,952	12,000	10	3600	8	1128

A3 Mega

A3 Mega 机器类型配备 NVIDIA H100 SXM GPU，非常适合大型模型训练和多主机推理。

注意：在预配 a3-megagpu-8g 机器类型时，建议使用这些实例的集群，并使用 Google Kubernetes Engine (GKE) 或 Slurm 等调度器进行部署。如需详细了解任一选项，请查看以下内容：

如需创建 Google Kubernetes Engine 集群，请参阅使用 GKE 部署 A3 Mega 集群。
如需创建 Slurm 集群，请参阅部署 A3 Mega Slurm 集群。

						挂接了 NVIDIA H100 GPU
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3)
`a3-megagpu-8g`	208	1,872	6000	9	1800	8	640

A3 High

A3 High 机器类型配备 NVIDIA H100 SXM GPU，非常适合大型模型推理和模型微调。

注意：在预配 a3-highgpu-1g、a3-highgpu-2g 或 a3-highgpu-4g 机器类型时，您必须使用 Spot 虚拟机或灵活启动虚拟机来创建实例。如需详细了解这些选项，请查看以下内容：

如需创建 Spot 虚拟机，请在创建加速器优化虚拟机时将预配模型设置为 SPOT。
如需创建灵活启动虚拟机，您可以使用以下方法之一：
- 创建独立虚拟机，并在创建加速器优化虚拟机时将预配模型设置为 FLEX_START。
- 在托管式实例组 (MIG) 中创建调整大小请求。如需查看相关说明，请参阅创建具有 GPU 虚拟机的 MIG。

						挂接了 NVIDIA H100 GPU
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3)
`a3-highgpu-1g`	26	234	750	1	25	1	80
`a3-highgpu-2g`	52	468	1,500	1	50	2	160
`a3-highgpu-4g`	104	936	3000	1	100	4	320
`a3-highgpu-8g`	208	1,872	6000	5	1000	8	640

A3 Edge

A3 Edge 机器类型配备 NVIDIA H100 SXM GPU，专为部署而设计，在部分区域提供。

						挂接了 NVIDIA H100 GPU
机器类型	vCPU 数量¹	实例内存 (GB)	已挂接的本地 SSD (GiB)	物理 NIC 数量	网络带宽上限 (Gbps)²	GPU 数量	GPU 内存³ (GB HBM3)
`a3-edgegpu-8g`	208	1,872	6000	5	600：适用于 asia-south1 和 northamerica-northeast2 400：适用于所有其他 A3 Edge 区域	8	640

后续步骤

如需详细了解 GPU，请参阅 Compute Engine 文档中的以下页面：
- 了解 Compute Engine 上的 GPU。
- 查看 GPU 区域和可用区可用性。
- 了解 GPU 价格。
了解 AI Hypercomputer 的网络服务和存储服务。