GPU 机器类型

本文档介绍了 AI Hypercomputer 支持的 GPU 机器系列。您可以创建使用这些机器系列的 Compute Engine 实例和集群,以运行人工智能 (AI)、机器学习 (ML) 和高性能计算 (HPC) 工作负载。

如需在 AI Hypercomputer 上使用 GPU,您可以使用加速器优化机器系列中的大多数机器系列。加速器优化机器家族中的每个机器系列都使用特定的 GPU 型号。如需详细了解加速器优化机器家族,请参阅加速器优化机器家族

以下部分介绍了 AI Hypercomputer 支持的加速器优化机器系列。

A4X Max 和 A4X 系列

本部分概述了 A4X Max 和 A4X 系列机器的可用配置。 如需详细了解这些机器系列,请参阅 Compute Engine 文档中的 A4X 和 A4X Max 加速器优化机器系列

A4X Max(裸金属)

A4X Max 机器类型使用 NVIDIA GB300 Grace Blackwell Ultra 超级芯片 (nvidia-gb300),非常适合基础模型训练和部署。A4X Max 机器类型以裸金属实例的形式提供。

A4X Max 是基于 NVIDIA GB300 NVL72 的艾级平台。每台机器都有两个搭载了 Arm Neoverse V2 核心的 NVIDIA Grace CPU 插槽。这些 CPU 通过快速芯片间 (NVLink-C2C) 通信连接到四个 NVIDIA B300 Blackwell GPU。

挂接了 NVIDIA GB300 Grace Blackwell Ultra 超级芯片
机器类型 vCPU 数量1 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 网络带宽上限 (Gbps)2 GPU 数量 GPU 内存3
(GB HBM3e)
a4x-maxgpu-4g-metal 144 960 12000 6 3600 4 1,116

1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

A4X

A4X 机器类型使用 NVIDIA GB200 Grace Blackwell 超级芯片 (nvidia-gb200),非常适合基础模型训练和部署。

A4X 是基于 NVIDIA GB200 NVL72 的艾级平台。每台机器都有两个搭载了 Arm Neoverse V2 核心的 NVIDIA Grace CPU 插槽。这些 CPU 通过快速芯片间 (NVLink-C2C) 通信连接到四个 NVIDIA B200 Blackwell GPU。

挂接了 NVIDIA GB200 Grace Blackwell 超级芯片
机器类型 vCPU 数量1 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 网络带宽上限 (Gbps)2 GPU 数量 GPU 内存3
(GB HBM3e)
a4x-highgpu-4g 140 884 12,000 6 2,000 4 744

1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

A4 系列

本部分概述了 A4 机器系列的可用配置。如需详细了解此机器系列,请参阅 Compute Engine 文档中的 A4 加速器优化机器系列

A4

A4 机器类型挂接了 NVIDIA B200 Blackwell GPU (nvidia-b200),非常适合基础模型训练和部署。

挂接的 NVIDIA B200 Blackwell GPU
机器类型 vCPU 数量1 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 网络带宽上限 (Gbps)2 GPU 数量 GPU 内存3
(GB HBM3e)
a4-highgpu-8g 224 3,968 12,000 10 3600 8 1,440

1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

A3 系列

本部分概述了 A3 机器系列的可用配置。如需详细了解此机器系列,请参阅 Compute Engine 文档中的 A3 加速器优化机器系列

A3 Ultra

A3 Ultra 机器类型挂接了 NVIDIA H200 SXM GPU (nvidia-h200-141gb),是 A3 系列中能够提供最高网络性能的机器类型。A3 Ultra 机器类型非常适合基础模型训练和部署。

挂接了 NVIDIA H200 GPU
机器类型 vCPU 数量1 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 网络带宽上限 (Gbps)2 GPU 数量 GPU 内存3
(GB HBM3e)
a3-ultragpu-8g 224 2,952 12,000 10 3600 8 1128

1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

A3 Mega

A3 Mega 机器类型配备 NVIDIA H100 SXM GPU,非常适合大型模型训练和多主机推理。
挂接了 NVIDIA H100 GPU
机器类型 vCPU 数量1 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 网络带宽上限 (Gbps)2 GPU 数量 GPU 内存3
(GB HBM3)
a3-megagpu-8g 208 1,872 6000 9 1800 8 640

1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

A3 High

A3 High 机器类型配备 NVIDIA H100 SXM GPU,非常适合大型模型推理和模型微调。
挂接了 NVIDIA H100 GPU
机器类型 vCPU 数量1 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 网络带宽上限 (Gbps)2 GPU 数量 GPU 内存3
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1,500 1 50 2 160
a3-highgpu-4g 104 936 3000 1 100 4 320
a3-highgpu-8g 208 1,872 6000 5 1000 8 640

1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

A3 Edge

A3 Edge 机器类型配备 NVIDIA H100 SXM GPU,专为部署而设计,在部分区域提供。
挂接了 NVIDIA H100 GPU
机器类型 vCPU 数量1 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 网络带宽上限 (Gbps)2 GPU 数量 GPU 内存3
(GB HBM3)
a3-edgegpu-8g 208 1,872 6000 5
  • 600:适用于 asia-south1 和 northamerica-northeast2
  • 400:适用于所有其他 A3 Edge 区域
8 640

1每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
2 出站流量带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
3GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

后续步骤

如需详细了解 GPU,请参阅 Compute Engine 文档中的以下页面: