Crea un MIG optimizado para IA con A4X Max

En este documento, se describe cómo crear un grupo de instancias administrado (MIG) que use tipos de máquinas optimizados para aceleradores A4X Max. Para obtener información sobre las opciones de creación de instancias de procesamiento y clústeres, consulta la página Descripción general de las opciones de implementación.

Tipo de instancia A4X Max

Una instancia de Compute Engine, o instancia de procesamiento, es un recurso de procesamiento alojado en la infraestructura de Google que puede ser una máquina virtual (VM) o una instancia de metal desnudo. Las instancias de A4X Max están disponibles como instancias de Bare Metal, que se diferencian de las instancias de VM porque proporcionan acceso directo y no virtualizado al hardware físico subyacente. Para obtener más información sobre el tipo de máquina A4X Max, consulta la serie A4X Max en la documentación de Compute Engine.

Crea un MIG si deseas administrar varias instancias de A4X Max como una sola entidad. Para obtener más información sobre los MIG, consulta Grupos de instancias administrados en la documentación de Compute Engine.

Limitaciones

Cuando usas los tipos de máquinas A4X Max para crear un MIG, se aplican las siguientes limitaciones:

Si creas un MIG regional que usa redes RDMA, el MIG solo puede crear instancias A4X Max en la zona en la que configuraste el perfil de red para RDMA.
No puedes configurar la flexibilidad de instancias en el MIG.
Si aplicas una política de carga de trabajo a un MIG, no podrás cambiar la política en el MIG cuando el grupo tenga instancias de A4X Max. Para cambiar la política, primero debes cambiar el tamaño del MIG a cero.
No puedes usar una plantilla de instancias que especifique una política de posición para crear un MIG que use una política de carga de trabajo.

Debes usar el modelo de aprovisionamiento vinculado a la reserva. No se admiten otros modelos de aprovisionamiento.
No puedes usar una solicitud de cambio de tamaño para agregar instancias de A4X Max al MIG. Debes establecer el tamaño objetivo del MIG para agregar las instancias.

Antes de comenzar

Antes de crear un MIG, si aún no lo hiciste, completa los siguientes pasos:

Elige una opción de consumo: La opción de consumo que elijas determinará cómo obtendrás y usarás los recursos de GPU. Para obtener más información, consulta Elige una opción de consumo.
Obtención de capacidad: El proceso para obtener capacidad difiere para cada opción de consumo. Para obtener información sobre el proceso para obtener capacidad para la opción de consumo que elegiste, consulta Descripción general de la capacidad.

Roles obligatorios

Para obtener los permisos que necesitas para crear un MIG, pídele a tu administrador que te otorgue el rol de IAM Administrador de instancias de Compute (v1) (roles/compute.instanceAdmin.v1) en el proyecto. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene los permisos necesarios para crear un MIG. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para crear un MIG:

Para crear un MIG, haz lo siguiente: compute.instanceGroupManagers.create en el proyecto

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Conceptos básicos del A4X Max

Un clúster de A4X Max se organiza en una jerarquía de bloques y subbloques para facilitar el rendimiento de la red a gran escala y sin bloqueos. Comprender esta topología es clave a la hora de reservar capacidad y, también, de implementar cargas de trabajo.

Instancia A4X Max: Una instancia de A4X Max es un solo tipo de máquina A4X Max que tiene 4 GPUs conectadas.
En subbloque: Un subbloque es la unidad fundamental de la capacidad máxima de A4X. En el caso de A4X Max, un subbloque consta de 18 instancias de A4X Max (72 GPUs). Estas instancias forman un dominio de NVLink y se conectan a través de un sistema de NVLink de varios nodos. Para crear un subbloque A4X Max, debes aplicar una política de cargas de trabajo que especifique una topología 1x72.
Bloquear: Un bloque A4X Max se compone de 25 subbloques (dominios de NVLink), lo que suma hasta 450 instancias de A4X Max (1,800 GPUs). Los subbloques están alineados con los rieles para lograr un ajuste de escala eficiente. Cada subbloque requiere un MIG. Por lo tanto, para un solo bloque A4X Max, puedes crear 25 MIG.

En la siguiente tabla, se muestran las opciones de topología compatibles para las instancias de A4X Max:

Topología (`acceleratorTopology`)	Cantidad de GPU	Cantidad de instancias
`1x72`	72	18

Descripción general

La creación de un MIG con el tipo de máquina A4X Max incluye los siguientes pasos:

Crea redes de VPC
Crea una política de cargas de trabajo
Crea una plantilla de instancias
Crea un MIG

Crea redes de VPC

Nota: Si configuras una prueba rápida, puedes omitir este paso y especificar una sola NIC --network-interface=nic-type=IDPF.

Para configurar la red para los tipos de máquinas A4X Max, crea dos redes de VPC para las siguientes interfaces de red:

1 red de VPC normal con dos subredes para las interfaces de red (NIC) de IDPF Se usan para la comunicación de host a host.
1 red de VPC con el perfil de red RoCE para las NIC CX-8 cuando se crean varios subbloques A4X Max La red de VPC de RoCE usa una sola subred llamada default-subnet-1-RDMA_NAME_PREFIX-net que se proporciona automáticamente, y todas las ocho NIC CX-8 usan esta subred. Estas NIC usan RDMA a través de Ethernet convergida (RoCE), lo que proporciona la comunicación de alto ancho de banda y baja latencia que es esencial para escalar a varios subbloques A4X Max. En el caso de un solo subbloque A4X Max, puedes omitir esta red de VPC, ya que, dentro de un solo subbloque, la comunicación directa de GPU a GPU se controla con NVLink de varios nodos.

Para obtener más información sobre la disposición de las NIC, consulta Revisa el ancho de banda de la red y la disposición de las NIC.

Crea las redes de forma manual siguiendo las guías de instrucciones o automáticamente con la secuencia de comandos proporcionada.

Guías de instrucciones

Para crear las redes, puedes usar las siguientes instrucciones:

Para crear las redes de VPC normales para las gVNICs, consulta Crea y administra redes de nube privada virtual.
Para crear la red de VPC de RoCE, consulta Crea una red de nube privada virtual para las NIC de RDMA.

Para estas redes de VPC, te recomendamos que establezcas la unidad de transmisión máxima (MTU) en un valor mayor. Para los tipos de máquinas A4X Max, la MTU recomendada es de 8896 bytes. Para revisar la configuración de MTU recomendada para otros tipos de máquinas con GPU, consulta Configuración de MTU para tipos de máquinas con GPU.

Secuencia de comandos

Para crear las redes, sigue estos pasos.

Usa la siguiente secuencia de comandos para crear redes de VPC regulares para las NIC del IDPF.

  
    #!/bin/bash

    # Create regular VPC network for the IDPF NICs
    gcloud compute networks create IDPF_NETWORK_PREFIX-net \
      --subnet-mode=custom \
      --mtu=8896 \
      --enable-ula-internal-ipv6

    # Create subnets for the IDPF NICs
    for N in $(seq 0 1); do
      gcloud compute networks subnets create IDPF_NETWORK_PREFIX-$N \
        --network=IDPF_NETWORK_PREFIX-net \
        --region=REGION \
        --stack-type=IPV6_ONLY \
        --ipv6-access-type=INTERNAL
    done

    gcloud compute firewall-rules create IDPF_NETWORK_PREFIX-internal \
      --network=IDPF_NETWORK_PREFIX-net \
      --action=ALLOW \
      --rules=tcp:0-65535,udp:0-65535,58 \
      --source-ranges=IP_RANGE

Si necesitas varios subbloques A4X Max, usa la siguiente secuencia de comandos para crear la red de VPC y las subredes de RoCE para las cuatro NIC CX-8 en cada instancia de A4X Max.

Importante: Si tu implementación consta de un solo subbloque A4X Max, puedes omitir este paso.
```
  
    #!/bin/bash

    # List and make sure network profiles exist in the machine type's zone
    gcloud compute network-profiles list --filter "location.name=ZONE"

    # Create network for RDMA NICs
    gcloud compute networks create RDMA_NAME_PREFIX-net \
      --network-profile=ZONE-vpc-roce-metal \
      --subnet-mode custom \
      --mtu=8896

    # For RoCE VPC networks for bare metal instances, a single subnet named
    # default-subnet-1-RDMA_NAME_PREFIX-net is automatically provided.
    # For more details, see https://cloud.google.com/vpc/docs/rdma-network-profiles.

  
```
Reemplaza lo siguiente:
- IDPF_NETWORK_PREFIX: Es el prefijo de nombre personalizado que se usará para las subredes y las redes de VPC normales de las NIC de IDPF.
- RDMA_NAME_PREFIX: Es el prefijo de nombre personalizado que se usará para la red de VPC y las subredes de RoCE para las NIC CX-8.
- ZONE: Especifica una zona en la que esté disponible el tipo de máquina que deseas usar, como us-central1-a. Para obtener información sobre las regiones, consulta Disponibilidad de GPU por regiones y zonas.
- REGION: Es la región en la que deseas crear las subredes. Esta región debe corresponder a la zona especificada. Por ejemplo, si tu zona es us-central1-a, tu región es us-central1.
- IP_RANGE: Es el rango de IP que se usará para las reglas de firewall de SSH.
Opcional: Para verificar que los recursos de la red de VPC se hayan creado correctamente, consulta la configuración de la red en la consola de Google Cloud :
1. En la consola de Google Cloud , ve a la página Redes de VPC.
  Ir a las redes de VPC
2. Busca en la lista las redes que creaste en el paso anterior.
3. Para ver las subredes, las reglas de firewall y otros parámetros de configuración de la red, haz clic en el nombre de la red.

Crear una política de cargas de trabajo

Si deseas crear una sola instancia de A4X Max en el MIG para realizar pruebas, omite este paso. De lo contrario, debes crear una política de carga de trabajo para crear un MIG con instancias de A4X Max.

Para crear una política de cargas de trabajo, selecciona una de las siguientes opciones:

gcloud

Para crear una política de cargas de trabajo, usa el comando gcloud compute resource-policies create workload-policy.

Para la configuración de red entre aceleradores, especifica la marca --accelerator-topology en el comando.

Usa el siguiente comando para el tipo de máquina A4X Max. La topología del acelerador de 1x72 indica que hay 72 GPUs conectadas a través de NVLink dentro de un bloque.

gcloud compute resource-policies create workload-policy WORKLOAD_POLICY_NAME \
    --type=high-throughput \
    --accelerator-topology=1x72 \
    --region=REGION

Reemplaza lo siguiente:

WORKLOAD_POLICY_NAME: Es el nombre de la política de carga de trabajo.
REGION: Es la región en la que deseas crear la política de cargas de trabajo. Especifica una región en la que quieras crear el MIG y el tipo de máquina que quieras usar esté disponible. Para obtener información sobre las regiones, consulta Disponibilidad de GPU por regiones y zonas.

REST

Para crear una política de cargas de trabajo, realiza una solicitud POST al método resourcePolicies.insert.

Para la configuración de red entre aceleradores, especifica el campo acceleratorTopology en la solicitud.

Realiza la siguiente solicitud para el tipo de máquina A4X Max. La topología del acelerador de 1x72 indica que hay 72 GPUs conectadas a través de NVLink dentro de un bloque.

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/REGION/resourcePolicies
  {
    "name": "WORKLOAD_POLICY_NAME"
    "workloadPolicy": {
      "type": "HIGH_THROUGHPUT",
      "acceleratorTopology": "1x72"
    }
  }

Reemplaza lo siguiente:

PROJECT_ID: Es el ID del proyecto.
REGION: Es la región en la que deseas crear la política de cargas de trabajo. Especifica una región en la que deseas crear el MIG y el tipo de máquina que deseas usar está disponible. Para obtener información sobre las regiones, consulta Disponibilidad de GPU por regiones y zonas.
WORKLOAD_POLICY_NAME: Es el nombre de la política de carga de trabajo.

Crea una plantilla de instancias

Especifica las propiedades de la instancia para un MIG creando una plantilla de instancias.

Para crear una plantilla de instancias, selecciona una de las siguientes opciones.

Los siguientes comandos también establecen el permiso de acceso para tus instancias. Para simplificar la administración de permisos, Google recomienda que configures el permiso de acceso en una instancia como acceso cloud-platform y, luego, uses roles de IAM para definir a qué servicios puede acceder la instancia. Para obtener más información, consulta Prácticas recomendadas para los permisos.

gcloud

Para crear una plantilla de instancias regional, usa el comando gcloud compute instance-templates create.

gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
    --machine-type=a4x-maxgpu-4g-metal \
    --image-family=IMAGE_FAMILY \
    --image-project=IMAGE_PROJECT \
    --instance-template-region=REGION \
    --boot-disk-type=hyperdisk-balanced \
    --boot-disk-size=DISK_SIZE \
    --scopes=cloud-platform \
    --network-interface=nic-type=IDPF,network=IDPF_NETWORK_PREFIX-net,stack-type=IPV6_ONLY,subnet=IDPF_NETWORK_PREFIX-sub-0 \
    --network-interface=nic-type=IDPF,network=IDPF_NETWORK_PREFIX-net,stack-type=IPV6_ONLY,subnet=IDPF_NETWORK_PREFIX-sub-1,no-address \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --reservation-affinity=specific \
    --reservation=RESERVATION \
    --provisioning-model=RESERVATION_BOUND \
    --instance-termination-action=DELETE \
    --maintenance-policy=TERMINATE \
    --restart-on-failure

Reemplaza lo siguiente:

INSTANCE_TEMPLATE_NAME: el nombre de la plantilla de instancias.
IMAGE_FAMILY: Es la familia de imágenes de la imagen de SO que deseas usar. Para obtener una lista de los sistemas operativos compatibles, consulta Sistemas operativos compatibles.
IMAGE_PROJECT: Es el ID del proyecto de la imagen de SO.
REGION: Es la región en la que deseas crear la plantilla de instancias. Especifica una región en la que esté disponible el tipo de máquina que deseas usar. Para obtener información sobre las regiones, consulta Disponibilidad de GPU por regiones y zonas.
DISK_SIZE: Es el tamaño del disco de arranque en GB.
IDPF_NETWORK_PREFIX: Es el prefijo del nombre que especificaste cuando creaste las redes de VPC y las subredes que usan NIC de IDPF.
RDMA_NAME_PREFIX: Es el prefijo del nombre que especificaste cuando creaste las redes de VPC y las subredes que usan NIC de RDMA.
RESERVATION: Es el nombre de la reserva, un bloque o un subbloque dentro de una reserva. Para obtener el nombre de la reserva o los bloques disponibles, consulta Cómo ver la capacidad reservada. Según tus requisitos de ubicación de la instancia, elige una de las siguientes opciones:
- Para crear instancias de A4X Max en cualquier bloque individual, haz lo siguiente:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME
    
```
- Para crear instancias de A4X Max en un bloque específico, sigue estos pasos:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME
    
```
- Para crear instancias de A4X Max en un subbloque específico, sigue estos pasos:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME/reservationSubBlocks/RESERVATION_SUBBLOCK_NAME
    
```
Nota: Si la reserva existe en el proyecto actual, puedes omitir projects/RESERVATION_OWNER_PROJECT_ID/reservations/ del valor de la reserva.

REST

Para crear una plantilla de instancias regional, realiza una solicitud POST al método regionInstanceTemplates.insert.

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/REGION/instanceTemplates
{
  "name":"INSTANCE_TEMPLATE_NAME",
  "properties":{
    "machineType":"a4x-maxgpu-4g-metal",
    "disks":[
      {
        "boot":true,
        "initializeParams":{
          "diskSizeGb":"DISK_SIZE",
          "diskType":"hyperdisk-balanced",
          "sourceImage":"projects/IMAGE_PROJECT/global/images/family/IMAGE_FAMILY"
        },
        "mode":"READ_WRITE",
        "type":"PERSISTENT"
      }
    ],
    "serviceAccounts": [
      {
        "email": "default",
        "scopes": [
          "https://www.googleapis.com/auth/cloud-platform"
        ]
      }
    ],
    "networkInterfaces": [
    {
      "accessConfigs": [
        {
          "name": "external-nat",
          "type": "ONE_TO_ONE_NAT"
        }
      ],
      "network": "projects/NETWORK_PROJECT_ID/global/networks/IDPF_NETWORK_PREFIX-net",
      "nicType": "IDPF",
      "stackType": "IPV6_ONLY",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/IDPF_NETWORK_PREFIX-sub-0"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/IDPF_NETWORK_PREFIX-net",
      "nicType": "IDPF",
      "stackType": "IPV6_ONLY",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/IDPF_NETWORK_PREFIX-sub-1"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    }
  ],
    "reservationAffinity":{
        "consumeReservationType":"SPECIFIC_RESERVATION",
        "key":"compute.googleapis.com/reservation-name",
        "values":[
          "RESERVATION"
        ]
      },
    "scheduling":{
        "provisioningModel":"RESERVATION_BOUND",
        "instanceTerminationAction":"DELETE",
        "onHostMaintenance": "TERMINATE",
        "automaticRestart":true
      }
  }
}

Reemplaza lo siguiente:

INSTANCE_TEMPLATE_NAME: el nombre de la plantilla de instancias.
IMAGE_FAMILY: Es la familia de imágenes de la imagen de SO que deseas usar. Para obtener una lista de los sistemas operativos compatibles, consulta Sistemas operativos compatibles.
IMAGE_PROJECT: Es el ID del proyecto de la imagen de SO.
REGION: Es la región en la que deseas crear la plantilla de instancias. Especifica una región en la que esté disponible el tipo de máquina que deseas usar. Para obtener información sobre las regiones, consulta Disponibilidad de GPU por regiones y zonas.
DISK_SIZE: Es el tamaño del disco de arranque en GB.
NETWORK_PROJECT_ID: Es el ID del proyecto de la red.
IDPF_NETWORK_PREFIX: Es el prefijo del nombre que especificaste cuando creaste las redes de VPC y las subredes que usan NIC de IDPF.
REGION: Es la región de la subred.
RDMA_NAME_PREFIX: Es el prefijo del nombre que especificaste cuando creaste las redes de VPC y las subredes que usan NIC de RDMA.
RESERVATION: Es el nombre de la reserva, un bloque o un subbloque dentro de una reserva. Para obtener el nombre de la reserva o los bloques disponibles, consulta Cómo ver la capacidad reservada. Según tus requisitos de ubicación de la instancia, elige una de las siguientes opciones:
- Para crear instancias de A4X Max en cualquier bloque individual, haz lo siguiente:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME
    
```
- Para crear instancias de A4X Max en un bloque específico, sigue estos pasos:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME
    
```
- Para crear instancias de A4X Max en un subbloque específico, sigue estos pasos:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME/reservationSubBlocks/RESERVATION_SUBBLOCK_NAME
    
```
Nota: Si la reserva existe en el proyecto actual, puedes omitir projects/RESERVATION_OWNER_PROJECT_ID/reservations/ del valor de la reserva.

Crear un MIG

Cuando crees un MIG con el tipo de máquina A4X Max, especifica el recuento de instancias con el tamaño objetivo del MIG. Puedes establecer el tamaño objetivo durante la creación del MIG en la cantidad requerida de instancias o comenzar con cero y aumentarlo más adelante. Ten en cuenta que no puedes usar solicitudes de cambio de tamaño para agregar instancias a un MIG de A4X Max.

Para obtener una topología de GPU de 1x72, crea un MIG con 18 instancias de A4X Max. Cuando crees el MIG, aplica la política de carga de trabajo que especifica el campo acceleratorTopology. Aplicar la política garantiza que Compute Engine cree las 18 instancias de A4X Max en un subbloque para usar un dominio de NVLink. Si un subbloque no tiene capacidad para las 18 instancias, cualquier instancia administrada que no se pueda crear de inmediato permanecerá en estado CREATING hasta que haya capacidad disponible. Estas instancias administradas representan las instancias de procesamiento que crea el MIG cuando hay capacidad.

Cuando aplicas una política de carga de trabajo con el campo acceleratorTopology establecido en 1x72, no puedes crear más de 18 instancias de A4X Max en un MIG. Si especificas más de 18 instancias, fallará la creación del MIG. Para crear varios dominios de NVLink, crea un MIG independiente para cada dominio y aplica la misma política de carga de trabajo a cada MIG.

Para crear un MIG, selecciona una de las siguientes opciones:

gcloud

Para crear un MIG con un tamaño de destino especificado, usa el comando instance-groups managed create.

Crea un MIG zonal o regional de la siguiente manera:

Para crear un MIG zonal, usa el siguiente comando:

gcloud compute instance-groups managed create MIG_NAME \
  --template=INSTANCE_TEMPLATE_URL \
  --size=TARGET_SIZE \
  --workload-policy=WORKLOAD_POLICY_URL \
  --zone=ZONE

Para crear un MIG regional, usa el siguiente comando:

gcloud compute instance-groups managed create MIG_NAME \
    --template=INSTANCE_TEMPLATE_URL \
    --size=TARGET_SIZE \
    --workload-policy=WORKLOAD_POLICY_URL \
    --region=REGION

Reemplaza lo siguiente:

MIG_NAME: Es el nombre del MIG.
INSTANCE_TEMPLATE_URL: Es la URL de la plantilla de instancias que deseas usar para crear instancias en el MIG. La URL puede contener el ID o el nombre de la plantilla de instancias. Especifica uno de los siguientes valores:
- Para una plantilla de instancias regional: projects/PROJECT_ID/regions/REGION/instanceTemplates/INSTANCE_TEMPLATE_ID
- Para una plantilla de instancias global: INSTANCE_TEMPLATE_ID
TARGET_SIZE: Es la cantidad de instancias que deseas en el MIG. Para la topología del acelerador de 1x72, establece el tamaño objetivo en 18.
WORKLOAD_POLICY_URL: Es la URL de la política de cargas de trabajo, por ejemplo, projects/example-project/regions/us-central1/resourcePolicies/example-workload-policy.
ZONE: Es la zona en la que deseas crear el MIG. Especifica una zona dentro de la región de la política de carga de trabajo.
REGION: la región en la que deseas crear el MIG. Especifica la misma región que la de la política de carga de trabajo. En el caso de un MIG regional, en lugar de una región, puedes especificar las zonas de esa región con la marca --zones.

REST

Para crear un MIG con un tamaño objetivo especificado, realiza una solicitud POST.

Crea un MIG zonal o regional de la siguiente manera:

Para crear un MIG zonal, realiza una solicitud POST al método instanceGroupManagers.insert.

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instanceGroupManagers
{
  "versions": [
    {
      "instanceTemplate": "INSTANCE_TEMPLATE_URL"
    }
  ],
  "name": "MIG_NAME",
  "instanceTemplate": "INSTANCE_TEMPLATE_URL",
  "targetSize": "TARGET_SIZE",
  "resourcePolicies": {
    "workloadPolicy": WORKLOAD_POLICY_URL
  }
}

Para crear un MIG regional, realiza una solicitud POST al método regionInstanceGroupManagers.insert.

  POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/REGION/instanceGroupManagers
  {
    "versions": [
      {
        "instanceTemplate": "INSTANCE_TEMPLATE_URL"
      }
    ],
    "name": "MIG_NAME",
    "instanceTemplate": "INSTANCE_TEMPLATE_URL",
    "targetSize": "TARGET_SIZE",
    "resourcePolicies": {
      "workloadPolicy": WORKLOAD_POLICY_URL
    }
  }

Reemplaza lo siguiente:

PROJECT_ID: Es el ID del proyecto.
ZONE: Es la zona en la que deseas crear el MIG. Especifica una zona dentro de la región de la política de cargas de trabajo.
REGION: la región en la que deseas crear el MIG. Especifica la misma región que la de la política de carga de trabajo.
INSTANCE_TEMPLATE_URL: Es la URL de la plantilla de instancias que deseas usar para crear instancias en el MIG. La URL puede contener el ID o el nombre de la plantilla de instancias. Especifica uno de los siguientes valores:
- Para una plantilla de instancias regional: projects/PROJECT_ID/regions/REGION/instanceTemplates/INSTANCE_TEMPLATE_ID
- Para una plantilla de instancias global: INSTANCE_TEMPLATE_ID
MIG_NAME: Es el nombre del MIG.
TARGET_SIZE: Es la cantidad de instancias que deseas tener en el MIG. Para la topología del acelerador de 1x72, establece el tamaño objetivo en 18.
WORKLOAD_POLICY_URL: Es la URL de la política de carga de trabajo, por ejemplo, projects/example-project/regions/us-central1/resourcePolicies/example-workload-policy.

Crea un MIG optimizado para IA con A4X Max Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Tipo de instancia A4X Max

Limitaciones

Antes de comenzar

Roles obligatorios

Permisos necesarios

Conceptos básicos del A4X Max

Descripción general

Crea redes de VPC

Guías de instrucciones

Secuencia de comandos

Crear una política de cargas de trabajo

gcloud

REST

Crea una plantilla de instancias

gcloud

REST

Crear un MIG

gcloud

REST

Próximos pasos

Crea un MIG optimizado para IA con A4X Max