本文档介绍了创建使用 A4X 机器类型的独立虚拟机 (VM) 实例的步骤。如需详细了解此机器类型,请参阅 A4X。
如需了解创建虚拟机或集群的其他方法,请参阅 部署选项概览。
限制
创建独立的 A4X 虚拟机时,适用以下限制:
- 使用此机器类型的实例不会获得持续 使用折扣或灵活承诺使用 使用折扣。
- 您只能在某些区域和可用区中创建实例。
- 您不能使用 Persistent Disk(区域级或可用区级)。您只能使用 Google Cloud Hyperdisk。
- 此机器类型仅在 NVIDIA Grace 平台上提供。
- A4X 不支持更改机器类型。如需切换到此 机器类型或从此 机器类型切换,您必须创建新实例。
- 您不能在此机器类型上运行 Windows 操作系统。如需查看 支持的 Linux 操作系统列表,请查看 GPU 实例支持的操作系统。
- 对于 A4X 实例,当您使用
ethtool -S监控 GPU 网络时,以_phy结尾的物理端口计数器不会更新。对于使用 MRDMA 虚拟功能 (VF) 架构的实例,这是预期行为。如需了解详情,请参阅 MRDMA 功能和网络监控工具。 - A4X 实例不支持以下各项:
- 您无法将 2026 年 2 月 4 日之前创建的 Hyperdisk ML 磁盘挂接到 A4X 机器类型。
准备工作
在创建虚拟机之前,如果您尚未完成以下步骤,请先完成这些步骤:
- 选择使用选项:您选择的使用选项决定了您如何获取
和使用 GPU 资源。
如需了解详情,请参阅选择使用选项。
- 获取容量:每种使用选项的容量获取流程各不相同。
如需了解所选使用选项的容量获取流程,请参阅 容量概览。
选择标签页以了解您打算如何使用本页面上的示例:
控制台
当您使用 Google Cloud 控制台访问 Google Cloud 服务和 API 时,无需设置身份验证。
gcloud
在 Google Cloud 控制台中,激活 Cloud Shell。
Cloud Shell 会话随即会在控制台的底部启动,并显示命令行提示符。 Google Cloud Cloud Shell 是一个已安装 Google Cloud CLI 且已为当前项目设置值的 Shell 环境 。该会话可能需要几秒钟来完成初始化。
REST
如需在本地开发环境中使用本页面上的 REST API 示例,请使用您提供给 gcloud CLI 的 凭证。
安装 Google Cloud CLI。
如果您使用的是外部身份提供方 (IdP),则必须先 使用联合身份登录 gcloud CLI。
如需了解详情,请参阅 身份验证文档中的使用 REST 时进行身份验证 。 Google Cloud
所需的角色
如需获得创建虚拟机所需的权限,请让您的管理员为您授予项目的 Compute Instance Admin (v1) (roles/compute.instanceAdmin.v1) IAM 角色。
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
此预定义角色可提供创建虚拟机所需的权限。如需查看所需的确切权限,请展开所需权限部分:
所需权限
创建虚拟机需要以下权限:
-
针对项目的
compute.instances.create权限 -
使用自定义映像创建虚拟机:针对映像的
compute.images.useReadOnly权限 -
使用快照创建虚拟机:针对快照的
compute.snapshots.useReadOnly权限 -
使用实例模板创建虚拟机:针对实例模板的
compute.instanceTemplates.useReadOnly权限 -
为虚拟机指定子网:针对项目或所选子网的
compute.subnetworks.use权限 -
为虚拟机指定静态 IP 地址:针对项目的
compute.addresses.use权限 -
在使用 VPC 网络时为虚拟机分配外部 IP 地址:针对项目或所选子网的
compute.subnetworks.useExternalIp权限 -
为虚拟机分配旧版网络:针对项目的
compute.networks.use权限 -
使用旧版网络时为虚拟机分配外部 IP 地址:针对项目的
compute.networks.useExternalIp权限 -
为虚拟机设置虚拟机实例元数据:针对项目的
compute.instances.setMetadata权限 -
为虚拟机设置标记:针对虚拟机的
compute.instances.setTags权限 -
为虚拟机设置标签:针对虚拟机的
compute.instances.setLabels权限 -
为虚拟机设置要使用的服务账号:针对虚拟机的
compute.instances.setServiceAccount权限 -
为虚拟机创建新磁盘:针对项目的
compute.disks.create权限 -
以只读或读写模式挂接现有磁盘:针对磁盘的
compute.disks.use权限 -
以只读模式挂接现有磁盘:针对磁盘的
compute.disks.useReadOnly权限
A4X 基础知识
A4X 集群按块和子块的层次结构进行组织,以实现大规模、无阻塞的网络性能。在预留容量和部署工作负载时,了解此拓扑至关重要。
- A4X 实例
- A4X 实例是挂接了 4 个 GPU 的单个 A4X 机器类型。
- 子块
- 子块是 A4X 容量的基本单位。对于 A4X,一个子块包含 18 个 A4X 实例(72 个 GPU);这些实例构成一个 NVLink 网域,并使用 多节点 NVLink 系统进行连接。您可以通过应用指定
1x72拓扑的紧凑布置政策来创建 A4X 子块。 - 区块
- 一个 A4X 块由 25 个子块(NVLink 网域)组成,总共包含多达 450 个 A4X 实例(1,800 个 GPU)。子块采用导轨对齐方式,可实现高效伸缩。每个子块都需要一个紧凑布置政策。 因此,对于单个 A4X 块,您可以创建 25 个紧凑布置政策。
下表显示了 A4X 实例支持的拓扑选项:
拓扑 (gpuTopology) |
GPU 数量 | 实例数 |
|---|---|---|
1x72 |
72 | 18 |
概览
使用 A4X 机器类型创建实例的步骤包括:
创建 VPC 网络
如需为 A4X 机器类型设置网络,请为以下网络接口创建三个 VPC 网络:
- 2 个用于 gVNIC 网络接口 (NIC) 的常规 VPC 网络。这些网络用于主机到主机的通信。
- 创建多个 A4X 子块时,1 个采用 RoCE 网络配置文件 的 VPC 网络用于 CX-7 NIC。 RoCE VPC 网络需要有 4 个子网,每个 CX-7 NIC 各有一个子网。这些 NIC 使用 RDMA over Converged Ethernet (RoCE), 可提供对于扩缩到多个 A4X 子块至关重要的高带宽、低延迟通信。对于单个 A4X 子块, 您可以跳过此 VPC 网络,因为在单个子块中,GPU 到 GPU 的直接通信由多节点 NVLink 处理。
如需详细了解 NIC 配置,请参阅 查看网络带宽和 NIC 配置。
您可以按照说明指南手动创建网络,也可以使用提供的脚本自动创建。
说明指南
如需创建网络,您可以按照以下说明操作:
- 如需为 gVNIC 创建常规 VPC 网络,请参阅创建和管理 Virtual Private Cloud 网络。
- 如需创建 RoCE VPC 网络,请参阅为 RDMA NIC 创建 Virtual Private Cloud 网络。
对于这些 VPC 网络,我们建议将
最大传输单元 (MTU) 设置为更大的值。对于 A4X 机器类型,建议的 MTU 为 8896
字节。
如需查看其他 GPU 机器类型的建议 MTU 设置,请参阅
GPU 机器类型的 MTU 设置。
脚本
如需创建网络,请按照以下步骤操作。
对于这些 VPC 网络,我们建议将
最大传输单元 (MTU) 设置为更大的值。对于 A4X 机器类型,建议的 MTU 为 8896
字节。
如需查看其他 GPU 机器类型的建议 MTU 设置,请参阅
GPU 机器类型的 MTU 设置。
使用以下脚本为 gVNIC 创建常规 VPC 网络。
#!/bin/bash # Create regular VPC networks and subnets for the gVNICs for N in $(seq 0 1); do gcloud compute networks create GVNIC_NAME_PREFIX-net-$N \ --subnet-mode=custom \ --mtu=8896 gcloud compute networks subnets create GVNIC_NAME_PREFIX-sub-$N \ --network=GVNIC_NAME_PREFIX-net-$N \ --region=REGION \ --range=192.168.$N.0/24 gcloud compute firewall-rules create GVNIC_NAME_PREFIX-internal-$N \ --network=GVNIC_NAME_PREFIX-net-$N \ --action=ALLOW \ --rules=tcp:0-65535,udp:0-65535,icmp \ --source-ranges=192.168.0.0/16 done # Create SSH firewall rules gcloud compute firewall-rules create GVNIC_NAME_PREFIX-ssh \ --network=GVNIC_NAME_PREFIX-net-0 \ --action=ALLOW \ --rules=tcp:22 \ --source-ranges=IP_RANGE # Assumes that an external IP is only created for vNIC 0 gcloud compute firewall-rules create GVNIC_NAME_PREFIX-allow-ping-net-0 \ --network=GVNIC_NAME_PREFIX-net-0 \ --action=ALLOW \ --rules=icmp \ --source-ranges=IP_RANGE如果您需要多个 A4X 子块,请使用以下脚本为每个 A4X 实例上的四个 CX-7 NIC 创建 RoCE VPC 网络和子网。
#!/bin/bash # List and make sure network profiles exist in the machine type's zone gcloud compute network-profiles list --filter "location.name=ZONE" # Create network for RDMA NICs gcloud compute networks create RDMA_NAME_PREFIX-mrdma \ --network-profile=ZONE-vpc-roce \ --subnet-mode custom \ --mtu=8896 # Create subnets for N in $(seq 0 3); do gcloud compute networks subnets create RDMA_NAME_PREFIX-mrdma-sub-$N \ --network=RDMA_NAME_PREFIX-mrdma \ --region=REGION \ --range=192.168.$((N+2)).0/24 # offset to avoid overlap with gVNICs done替换以下内容:
GVNIC_NAME_PREFIX:用于 gVNIC 的常规 VPC 网络和子网的自定义名称前缀。RDMA_NAME_PREFIX:用于 CX-7 NIC 的 RoCE VPC 网络和子网的自定义名称前缀。ZONE:指定提供您要使用的机器类型的可用区,例如us-central1-a。如需了解区域,请参阅按区域和可用区划分的 GPU 可用性。REGION:您想要在其中创建子网的区域。此区域必须与指定的可用区相对应。例如,如果可用区为us-central1-a,则区域为us-central1。IP_RANGE:用于 SSH 防火墙规则的 IP 范围。
- 可选:如需验证 VPC 网络资源是否已成功创建,请在 Google Cloud 控制台中检查网络设置:
- 在 Google Cloud 控制台中,前往 VPC 网络页面。
- 在列表中搜索您在上一步中创建的网络。
- 如需查看子网、防火墙规则和其他网络设置,请点击网络的名称。
创建紧凑布置政策
如需创建紧凑布置政策,请选择以下选项之一:gcloud
如需创建紧凑布置政策,请使用
gcloud beta compute resource-policies create group-placement 命令:
gcloud beta compute resource-policies create group-placement POLICY_NAME \
--collocation=collocated \
--gpu-topology=1x72 \
--region=REGION
替换以下内容:
POLICY_NAME:紧凑布置政策的名称。REGION:您要在其中创建紧凑布置政策的区域。 指定提供您要使用的机器类型的区域。如需了解区域,请参阅按区域和可用区划分的 GPU 可用性。
REST
如需创建紧凑布置政策,请向
Beta 版
resourcePolicies.insert 方法发出 POST 请求。
POST https://compute.googleapis.com/compute/beta/projects/PROJECT_ID/regions/REGION/resourcePolicies
{
"name": "POLICY_NAME",
"groupPlacementPolicy": {
"collocation": "COLLOCATED",
"gpuTopology": "1x72"
}
}
替换以下内容:
PROJECT_ID:您的项目 ID。POLICY_NAME:紧凑布置政策的名称。REGION:您要在其中创建紧凑布置政策的区域。 指定提供您要使用的机器类型的区域。如需了解区域,请参阅按区域和可用区划分的 GPU 可用性。
创建 A4X 实例
如需获取 1x72 的 GPU 拓扑,请创建
18 个 A4X 实例。创建实例时,请应用指定 gpuTopology
字段的紧凑布置政策。应用该政策可确保 Compute Engine 在一个子块中创建所有 18 个 A4X
实例,以使用 NVLink 网域。
如果子块缺少 A4X 实例的容量,则创建
实例的请求会失败。
如需创建 A4X 实例,请选择以下选项之一。
以下命令还会设置实例的访问权限范围。为简化权限管理,Google 建议您将实例的访问权限范围设置为cloud-platform 访问权限,然后使用 IAM
角色定义实例可以访问哪些服务。如需了解详情,请参阅
访问权限范围最佳实践。
gcloud
如需创建 A4X 实例,请使用
gcloud compute instances create 命令。
gcloud compute instances create INSTANCE_NAME \
--machine-type=a4x-highgpu-4g \
--image-family=IMAGE_FAMILY \
--image-project=IMAGE_PROJECT \
--zone=ZONE \
--boot-disk-type=hyperdisk-balanced \
--boot-disk-size=DISK_SIZE \
--scopes=cloud-platform \
--network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-0,subnet=GVNIC_NAME_PREFIX-sub-0 \
--network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-1,subnet=GVNIC_NAME_PREFIX-sub-1,no-address
--network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-0,no-address \
--network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-1,no-address \
--network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-2,no-address \
--network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-3,no-address \
--reservation-affinity=specific \
--reservation=RESERVATION \
--provisioning-model=RESERVATION_BOUND \
--instance-termination-action=TERMINATION_ACTION \
--maintenance-policy=TERMINATE \
--restart-on-failure \
--resource-policies=POLICY_NAME
替换以下内容:
INSTANCE_NAME:A4X 实例的名称。IMAGE_FAMILY:您要使用的操作系统映像所属的映像系列。 如需查看受支持的操作系统列表,请参阅操作系统详细信息。IMAGE_PROJECT:操作系统映像的项目 ID。ZONE:您要使用的机器类型在其中可用的可用区。您必须使用与紧凑布置政策位于同一区域的 可用区。 如需了解区域,请参阅 按区域和可用区划分的 GPU 可用性。DISK_SIZE:启动磁盘的大小(以 GB 为单位)。GVNIC_NAME_PREFIX:您在创建使用 gVNIC 的标准 VPC 网络和子网时指定的名称前缀。RDMA_NAME_PREFIX:您在创建使用 RDMA NIC 的 VPC 网络和子网时指定的名称前缀。-
RESERVATION:预留名称、区块或预留中的子区块。如需获取预留名称或可用块,请参阅查看预留容量。-
根据您对实例布置的要求,请按以下方式之一操作:
- 如需在任意单个块上创建 A4X 实例:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME - 如需在特定块上创建 A4X 实例:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME - 如需在特定子块中创建 A4X 实例:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME/reservationSubBlocks/RESERVATION_SUBBLOCK_NAME
- 如需在任意单个块上创建 A4X 实例:
TERMINATION_ACTION:指示在预留期结束时,Compute Engine 是关停 (STOP) 还是删除 (DELETE) A4X 实例。POLICY_NAME:紧凑布置政策的名称。
REST
如需创建 A4X 实例,请向
instances.insert方法发出POST请求。
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances
{
"machineType": "projects/PROJECT_ID/zones/ZONE/machineTypes/a4x-highgpu-4g",
"name": "INSTANCE_NAME",
"disks":[
{
"boot":true,
"initializeParams":{
"diskSizeGb": "DISK_SIZE",
"diskType": "hyperdisk-balanced",
"sourceImage": "projects/IMAGE_PROJECT/global/images/family/IMAGE_FAMILY"
},
"mode": "READ_WRITE",
"type": "PERSISTENT"
}
],
"serviceAccounts": [
{
"email": "default",
"scopes": [
"https://www.googleapis.com/auth/cloud-platform"
]
}
],
"networkInterfaces": [
{
"accessConfigs": [
{
"name": "external-nat",
"type": "ONE_TO_ONE_NAT"
}
],
"network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-0",
"nicType": "GVNIC",
"subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-0"
},
{
"network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-1",
"nicType": "GVNIC",
"subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-1"
},
{
"network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
"nicType": "MRDMA",
"subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-0"
},
{
"network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
"nicType": "MRDMA",
"subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-1"
},
{
"network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
"nicType": "MRDMA",
"subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-2"
},
{
"network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma",
"nicType": "MRDMA",
"subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-3"
}
],
"reservationAffinity":{
"consumeReservationType": "SPECIFIC_RESERVATION",
"key": "compute.googleapis.com/reservation-name",
"values":[
"RESERVATION"
]
},
"scheduling":{
"provisioningModel": "RESERVATION_BOUND",
"instanceTerminationAction": "TERMINATION_ACTION",
"onHostMaintenance": "TERMINATE",
"automaticRestart": true
},
"resourcePolicies": [
"projects/PROJECT_ID/regions/REGION/resourcePolicies/POLICY_NAME"
]
}
替换以下内容:
PROJECT_ID:您要在其中创建 A4X 实例的项目的 ID。ZONE:您要使用的机器类型在其中可用的可用区。您必须使用与紧凑布置政策位于同一区域的 可用区。 如需了解区域,请参阅 按区域和可用区划分的 GPU 可用性。INSTANCE_NAME:A4X 实例的名称。DISK_SIZE:启动磁盘的大小(以 GB 为单位)。IMAGE_PROJECT:操作系统映像的项目 ID。IMAGE_FAMILY:您要使用的操作系统映像所属的映像系列。 如需查看受支持的操作系统列表,请参阅操作系统详细信息。NETWORK_PROJECT_ID:网络的项目 ID。GVNIC_NAME_PREFIX:您在创建使用 gVNIC 的标准 VPC 网络和子网时指定的名称前缀。REGION:子网所在的区域。RDMA_NAME_PREFIX:您在创建使用 RDMA NIC 的 VPC 网络和子网时指定的名称前缀。-
RESERVATION:预留名称、区块或预留中的子区块。如需获取预留名称或可用块,请参阅查看预留容量。-
根据您对实例布置的要求,请按以下方式之一操作:
- 如需在任意单个块上创建 A4X 实例:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME - 如需在特定块上创建 A4X 实例:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME - 如需在特定子块中创建 A4X 实例:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME/reservationSubBlocks/RESERVATION_SUBBLOCK_NAME
- 如需在任意单个块上创建 A4X 实例:
TERMINATION_ACTION:指示在预留期结束时,Compute Engine 是关停 (STOP) 还是删除 (DELETE) A4X 实例。PROJECT_ID:紧凑布置政策的项目 ID。REGION:紧凑布置政策所在的区域。POLICY_NAME:紧凑布置政策的名称。