本文档介绍了 AI Hypercomputer 支持的 GPU 机器系列。您可以创建使用这些机器系列的 Compute Engine 实例和集群,以运行人工智能 (AI)、机器学习 (ML) 和高性能计算 (HPC) 工作负载。
如需在 AI Hypercomputer 上使用 GPU,您可以使用加速器优化机器系列中的大多数机器系列。加速器优化机器家族中的每个机器系列都使用特定的 GPU 型号。如需详细了解加速器优化机器家族,请参阅加速器优化机器家族。
以下部分介绍了 AI Hypercomputer 支持的加速器优化机器系列。
A4X Max 和 A4X 系列
本部分概述了 A4X Max 和 A4X 系列机器的可用配置。 如需详细了解这些机器系列,请参阅 Compute Engine 文档中的 A4X 和 A4X Max 加速器优化机器系列。
A4X Max(裸金属)
A4X Max
机器类型使用 NVIDIA GB300 Grace Blackwell Ultra 超级芯片 (nvidia-gb300),非常适合基础模型训练和部署。A4X Max 机器类型以裸金属实例的形式提供。
A4X Max 是基于 NVIDIA GB300 NVL72 的艾级平台。每台机器都有两个搭载了 Arm Neoverse V2 核心的 NVIDIA Grace CPU 插槽。这些 CPU 通过快速芯片间 (NVLink-C2C) 通信连接到四个 NVIDIA B300 Blackwell GPU。
| 挂接了 NVIDIA GB300 Grace Blackwell Ultra 超级芯片 | |||||||
|---|---|---|---|---|---|---|---|
| 机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3e) |
a4x-maxgpu-4g-metal |
144 | 960 | 12000 | 6 | 3600 | 4 | 1,116 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A4X
A4X 机器类型使用 NVIDIA GB200 Grace Blackwell 超级芯片 (nvidia-gb200),非常适合基础模型训练和部署。
A4X 是基于 NVIDIA GB200 NVL72 的艾级平台。每台机器都有两个搭载了 Arm Neoverse V2 核心的 NVIDIA Grace CPU 插槽。这些 CPU 通过快速芯片间 (NVLink-C2C) 通信连接到四个 NVIDIA B200 Blackwell GPU。
| 挂接了 NVIDIA GB200 Grace Blackwell 超级芯片 | |||||||
|---|---|---|---|---|---|---|---|
| 机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12,000 | 6 | 2,000 | 4 | 744 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A4 系列
本部分概述了 A4 机器系列的可用配置。如需详细了解此机器系列,请参阅 Compute Engine 文档中的 A4 加速器优化机器系列。
A4
A4 机器类型挂接了 NVIDIA B200 Blackwell GPU (nvidia-b200),非常适合基础模型训练和部署。
| 挂接的 NVIDIA B200 Blackwell GPU | |||||||
|---|---|---|---|---|---|---|---|
| 机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3600 | 8 | 1,440 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A3 系列
本部分概述了 A3 机器系列的可用配置。如需详细了解此机器系列,请参阅 Compute Engine 文档中的 A3 加速器优化机器系列。
A3 Ultra
A3 Ultra 机器类型挂接了 NVIDIA H200 SXM GPU (nvidia-h200-141gb),是 A3 系列中能够提供最高网络性能的机器类型。A3 Ultra 机器类型非常适合基础模型训练和部署。
| 挂接了 NVIDIA H200 GPU | |||||||
|---|---|---|---|---|---|---|---|
| 机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3600 | 8 | 1128 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A3 Mega
A3 Mega 机器类型配备 NVIDIA H100 SXM GPU,非常适合大型模型训练和多主机推理。| 挂接了 NVIDIA H100 GPU | |||||||
|---|---|---|---|---|---|---|---|
| 机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6000 | 9 | 1800 | 8 | 640 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A3 High
A3 High 机器类型配备 NVIDIA H100 SXM GPU,非常适合大型模型推理和模型微调。| 挂接了 NVIDIA H100 GPU | |||||||
|---|---|---|---|---|---|---|---|
| 机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6000 | 5 | 1000 | 8 | 640 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A3 Edge
A3 Edge 机器类型配备 NVIDIA H100 SXM GPU,专为部署而设计,在部分区域提供。| 挂接了 NVIDIA H100 GPU | |||||||
|---|---|---|---|---|---|---|---|
| 机器类型 | vCPU 数量1 | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 网络带宽上限 (Gbps)2 | GPU 数量 | GPU 内存3 (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6000 | 5 |
|
8 | 640 |
1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
后续步骤
如需详细了解 GPU,请参阅 Compute Engine 文档中的以下页面:
- 了解 Compute Engine 上的 GPU。
- 查看 GPU 区域和可用区可用性。
- 了解 GPU 价格。