Criar um MIG otimizado para IA com A4X Max

Neste documento, descrevemos como criar um grupo gerenciado de instâncias (MIG) que usa tipos de máquina otimizados para aceleradores A4X Max. Para saber mais sobre as opções de criação de instâncias de computação e clusters, consulte a página Visão geral das opções de implantação.

Tipo de instância A4X Max

Uma instância do Compute Engine, ou instância de computação, é um recurso de computação hospedado na infraestrutura do Google que pode ser uma máquina virtual (VM) ou uma instância bare metal. As instâncias A4X Max estão disponíveis como instâncias bare metal, que diferem das instâncias de VM por oferecer acesso direto e não virtualizado ao hardware físico subjacente. Para saber mais sobre o tipo de máquina A4X Max, consulte Série A4X Max na documentação do Compute Engine.

Crie um MIG se quiser gerenciar várias instâncias do A4X Max como uma única entidade. Para saber mais sobre MIGs, consulte Grupos gerenciados de instâncias na documentação do Compute Engine.

Limitações

Ao usar tipos de máquina A4X Max para criar um MIG, as seguintes limitações se aplicam:

Se você criar um MIG regional que usa redes RDMA, ele só poderá criar instâncias A4X Max na zona em que você configurou o perfil de rede para RDMA.
Não é possível configurar a flexibilidade de instância no MIG.
Se você aplicar uma política de cargas de trabalho a um MIG, não será possível mudar a política no MIG quando o grupo tiver instâncias A4X Max. Para mudar a política, primeiro é necessário redimensionar o MIG para zero.
Não é possível usar um modelo de instância que especifique uma política de posicionamento para criar um MIG que use uma política de carga de trabalho.

É necessário usar o modelo de provisionamento vinculado à reserva. Outros modelos de provisionamento não são compatíveis.
Não é possível usar uma solicitação de redimensionamento para adicionar instâncias A4X Max ao MIG. É necessário definir o tamanho de destino do MIG para adicionar as instâncias.

Antes de começar

Antes de criar um MIG, se você ainda não tiver feito isso, conclua as etapas a seguir:

Escolha uma opção de consumo: a opção escolhida determina como você recebe e usa os recursos de GPU. Para saber mais, consulte Escolher uma opção de consumo.
Obter capacidade: o processo para obter capacidade varia de acordo com cada opção de consumo. Para saber mais sobre o processo de obtenção de capacidade para a opção de consumo escolhida, consulte Visão geral da capacidade.

Funções exigidas

Para receber as permissões necessárias para criar um MIG, peça ao administrador para conceder a você o papel do IAM de Administrador da instância do Compute (v1) (roles/compute.instanceAdmin.v1) no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esse papel predefinido contém as permissões necessárias para criar um MIG. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para criar um MIG:

Para criar um MIG: compute.instanceGroupManagers.create no projeto

Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.

Fundamentos do A4X Max

Um cluster A4X Max é organizado em uma hierarquia de blocos e sub-blocos para facilitar o desempenho de rede não bloqueador em grande escala. Entender essa topologia é fundamental ao reservar capacidade e implantar cargas de trabalho.

Instância A4X Max: Uma instância A4X Max é um único tipo de máquina A4X Max com quatro GPUs anexadas.
Sub-bloco: Um sub-bloco é a unidade fundamental da capacidade do A4X Max. Para o A4X Max, um subbloco consiste em 18 instâncias A4X Max (72 GPUs). Essas instâncias formam um domínio NVLink e são conectadas usando um sistema NVLink de vários nós. Para criar um sub-bloco A4X Max, aplique uma política de carga de trabalho que especifique uma topologia 1x72.
Bloquear: Um bloco A4X Max é composto de 25 sub-blocos (domínios NVLink), totalizando até 450 instâncias A4X Max (1.800 GPUs). Os sub-blocos são alinhados por rails para escalonamento eficiente. Cada sub-bloco requer um MIG. Portanto, para um único bloco A4X Max, é possível criar 25 MIGs.

A tabela a seguir mostra as opções de topologia compatíveis para instâncias A4X Max:

Topologia (`acceleratorTopology`)	Número de GPUs	Número de instâncias
`1x72`	72	18

Visão geral

A criação de um MIG com o tipo de máquina A4X Max inclui as seguintes etapas:

Criar redes VPC
Criar uma política de carga de trabalho
Criar um modelo de instância
Criar um MIG

Criar redes VPC

Dica: se você estiver configurando um teste rápido, pule esta etapa e especifique uma única NIC --network-interface=nic-type=IDPF.

Para configurar a rede para os tipos de máquina A4X Max, crie duas redes VPC para as seguintes interfaces de rede:

Uma rede VPC regular com duas sub-redes para as interfaces de rede (NICs) do IDPF. Eles são usados para comunicação entre hosts.
1 rede VPC com o perfil de rede RoCE para as NICs CX-8 ao criar vários subblocos A4X Max. A rede VPC RoCE usa uma única sub-rede chamada default-subnet-1-RDMA_NAME_PREFIX-net, que é fornecida automaticamente, e todas as oito NICs CX-8 usam essa sub-rede. Essas NICs usam RDMA em Ethernet convergente (RoCE), fornecendo a comunicação de alta largura de banda e baixa latência essencial para escalonar para vários sub-blocos A4X Max. Para um único subbloco A4X Max, é possível pular essa rede VPC porque, em um único subbloco, a comunicação direta entre GPUs é processada pelo NVLink de vários nós.

Para mais informações sobre o arranjo de NICs, consulte Analisar a largura de banda da rede e o arranjo de NICs.

Crie as redes manualmente seguindo os guias de instruções ou automaticamente usando o script fornecido.

Guias de instruções

Crie as redes, suando as seguintes instruções:

Para criar as redes VPC regulares para as gVNICs, consulte Criar e gerenciar redes de nuvem privada virtual.
Para criar a rede VPC do RoCE, consulte Criar uma rede de nuvem privada virtual para NICs RDMA.

Para essas redes VPC, recomendamos definir a unidade máxima de transmissão (MTU) para um valor maior. Para tipos de máquina A4X Max, o MTU recomendado é de 8896 bytes. Para conferir as configurações de MTU recomendadas para outros tipos de máquina de GPU, consulte Configurações de MTU para tipos de máquina de GPU.

Script

Crie as redes, seguindo estas etapas.

Use o script a seguir para criar redes VPC regulares para as NICs do IDPF.

  
    #!/bin/bash

    # Create regular VPC network for the IDPF NICs
    gcloud compute networks create IDPF_NETWORK_PREFIX-net \
      --subnet-mode=custom \
      --mtu=8896 \
      --enable-ula-internal-ipv6

    # Create subnets for the IDPF NICs
    for N in $(seq 0 1); do
      gcloud compute networks subnets create IDPF_NETWORK_PREFIX-$N \
        --network=IDPF_NETWORK_PREFIX-net \
        --region=REGION \
        --stack-type=IPV6_ONLY \
        --ipv6-access-type=INTERNAL
    done

    gcloud compute firewall-rules create IDPF_NETWORK_PREFIX-internal \
      --network=IDPF_NETWORK_PREFIX-net \
      --action=ALLOW \
      --rules=tcp:0-65535,udp:0-65535,58 \
      --source-ranges=IP_RANGE

Se você precisar de vários subblocos A4X Max, use o script a seguir para criar a rede VPC RoCE e as sub-redes para as quatro NICs CX-8 em cada instância A4X Max.

Importante:se sua implantação consistir apenas em um único subbloco A4X Max, pule esta etapa.
```
  
    #!/bin/bash

    # List and make sure network profiles exist in the machine type's zone
    gcloud compute network-profiles list --filter "location.name=ZONE"

    # Create network for RDMA NICs
    gcloud compute networks create RDMA_NAME_PREFIX-net \
      --network-profile=ZONE-vpc-roce-metal \
      --subnet-mode custom \
      --mtu=8896

    # For RoCE VPC networks for bare metal instances, a single subnet named
    # default-subnet-1-RDMA_NAME_PREFIX-net is automatically provided.
    # For more details, see https://cloud.google.com/vpc/docs/rdma-network-profiles.

  
```
Substitua:
- IDPF_NETWORK_PREFIX: o prefixo de nome personalizado a ser usado para as redes e sub-redes VPC regulares das NICs IDPF.
- RDMA_NAME_PREFIX: o prefixo de nome personalizado a ser usado para a rede VPC e as sub-redes RoCE das NICs CX-8.
- ZONE: especifique uma zona em que o tipo de máquina que você quer usar esteja disponível, como us-central1-a. Para informações sobre regiões, consulte Disponibilidade de GPUs por regiões e zonas.
- REGION: a região em que você quer criar as sub-redes. Essa região precisa corresponder à zona especificada. Por exemplo, se a zona for us-central1-a, a região será us-central1.
- IP_RANGE: o intervalo de IP a ser usado para as regras de firewall SSH.
Opcional: para verificar se os recursos de rede VPC foram criados, confira as configurações de rede no console do Google Cloud :
1. No console do Google Cloud , acesse a página Redes VPC.
  Acessar redes VPC
2. Pesquise na lista as redes que você criou na etapa anterior.
3. Para conferir as sub-redes, regras de firewall e outras configurações de rede, clique no nome da rede.

Criar uma política de carga de trabalho

Se você quiser criar uma única instância A4X Max no MIG para teste, pule esta etapa. Caso contrário, crie uma política de carga de trabalho para criar um MIG com instâncias A4X Max.

Para criar uma política de carga de trabalho, selecione uma das seguintes opções:

gcloud

Para criar uma política de carga de trabalho, use o comando gcloud compute resource-policies create workload-policy.

Para a configuração de rede entre aceleradores, especifique a flag --accelerator-topology no comando.

Use o comando a seguir para o tipo de máquina A4X Max. A topologia do acelerador de 1x72 indica que 72 GPUs estão conectadas por um NVLink em um bloco.

gcloud compute resource-policies create workload-policy WORKLOAD_POLICY_NAME \
    --type=high-throughput \
    --accelerator-topology=1x72 \
    --region=REGION

Substitua:

WORKLOAD_POLICY_NAME: o nome da política de carga de trabalho.
REGION: a região em que você quer criar a política de carga de trabalho. Especifique uma região em que você quer criar o MIG e o tipo de máquina que você quer usar está disponível. Para informações sobre regiões, consulte Disponibilidade de GPUs por regiões e zonas.

REST

Para criar uma política de carga de trabalho, faça uma solicitação POST ao método resourcePolicies.insert.

Para a configuração de rede entre aceleradores, especifique o campo acceleratorTopology na solicitação.

Faça a seguinte solicitação para o tipo de máquina A4X Max. A topologia do acelerador 1x72 indica que 72 GPUs estão conectadas por um NVLink em um bloco.

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/REGION/resourcePolicies
  {
    "name": "WORKLOAD_POLICY_NAME"
    "workloadPolicy": {
      "type": "HIGH_THROUGHPUT",
      "acceleratorTopology": "1x72"
    }
  }

Substitua:

PROJECT_ID: ID do projeto;
REGION: a região em que você quer criar a política de carga de trabalho. Especifique uma região em que você quer criar o MIG e o tipo de máquina que você quer usar está disponível. Para informações sobre regiões, consulte Disponibilidade de GPUs por regiões e zonas.
WORKLOAD_POLICY_NAME: o nome da política de carga de trabalho.

Criar um modelo de instância

Especifique as propriedades de instância de um MIG criando um modelo de instância.

Para criar um modelo de instância, selecione uma das seguintes opções.

Os comandos a seguir também definem o escopo de acesso para suas instâncias. Para simplificar o gerenciamento de permissões, o Google recomenda definir o escopo de acesso de uma instância como cloud-platform e usar papéis do IAM para definir a quais serviços a instância pode acessar. Para mais informações, consulte Práticas recomendadas de escopos.

gcloud

Para criar um modelo de instância regional, use o comando gcloud compute instance-templates create.

gcloud compute instance-templates create INSTANCE_TEMPLATE_NAME \
    --machine-type=a4x-maxgpu-4g-metal \
    --image-family=IMAGE_FAMILY \
    --image-project=IMAGE_PROJECT \
    --instance-template-region=REGION \
    --boot-disk-type=hyperdisk-balanced \
    --boot-disk-size=DISK_SIZE \
    --scopes=cloud-platform \
    --network-interface=nic-type=IDPF,network=IDPF_NETWORK_PREFIX-net,stack-type=IPV6_ONLY,subnet=IDPF_NETWORK_PREFIX-sub-0 \
    --network-interface=nic-type=IDPF,network=IDPF_NETWORK_PREFIX-net,stack-type=IPV6_ONLY,subnet=IDPF_NETWORK_PREFIX-sub-1,no-address \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --network-interface=subnet=default-subnet-1-RDMA_NAME_PREFIX-net,stack-type=IPV6_ONLY,nic-type=mrdma \
    --reservation-affinity=specific \
    --reservation=RESERVATION \
    --provisioning-model=RESERVATION_BOUND \
    --instance-termination-action=DELETE \
    --maintenance-policy=TERMINATE \
    --restart-on-failure

Substitua:

INSTANCE_TEMPLATE_NAME: o nome do modelo de instância.
IMAGE_FAMILY: a família de imagens da imagem do SO que você quer usar. Para uma lista de sistemas operacionais compatíveis, consulte Sistemas operacionais compatíveis.
IMAGE_PROJECT: o ID do projeto da imagem do SO.
REGION: a região em que você quer criar o modelo de instância. Especifique uma região em que o tipo de máquina que você quer usar esteja disponível. Para informações sobre regiões, consulte Disponibilidade de GPUs por regiões e zonas.
DISK_SIZE: o tamanho do disco de inicialização em GB.
IDPF_NETWORK_PREFIX: o prefixo de nome especificado ao criar as redes e sub-redes VPC que usam NICs IDPF.
RDMA_NAME_PREFIX: o prefixo de nome especificado ao criar as redes e sub-redes da VPC que usam NICs RDMA.
RESERVATION: o nome da reserva, um bloco ou um subbloco dentro de uma reserva. Para conferir o nome da reserva ou os blocos disponíveis, consulte Visualizar a capacidade reservada. Com base nos seus requisitos de posicionamento de instâncias, escolha uma das seguintes opções:
- Para criar instâncias do A4X Max em um único bloco:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME
    
```
- Para criar instâncias A4X Max em um bloco específico:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME
    
```
- Para criar instâncias A4X Max em um subbloco específico:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME/reservationSubBlocks/RESERVATION_SUBBLOCK_NAME
    
```
Dica: se a reserva existir no projeto atual, omita projects/RESERVATION_OWNER_PROJECT_ID/reservations/ do valor da reserva.

REST

Para criar um modelo de instância regional, faça uma solicitação POST para o método regionInstanceTemplates.insert.

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/REGION/instanceTemplates
{
  "name":"INSTANCE_TEMPLATE_NAME",
  "properties":{
    "machineType":"a4x-maxgpu-4g-metal",
    "disks":[
      {
        "boot":true,
        "initializeParams":{
          "diskSizeGb":"DISK_SIZE",
          "diskType":"hyperdisk-balanced",
          "sourceImage":"projects/IMAGE_PROJECT/global/images/family/IMAGE_FAMILY"
        },
        "mode":"READ_WRITE",
        "type":"PERSISTENT"
      }
    ],
    "serviceAccounts": [
      {
        "email": "default",
        "scopes": [
          "https://www.googleapis.com/auth/cloud-platform"
        ]
      }
    ],
    "networkInterfaces": [
    {
      "accessConfigs": [
        {
          "name": "external-nat",
          "type": "ONE_TO_ONE_NAT"
        }
      ],
      "network": "projects/NETWORK_PROJECT_ID/global/networks/IDPF_NETWORK_PREFIX-net",
      "nicType": "IDPF",
      "stackType": "IPV6_ONLY",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/IDPF_NETWORK_PREFIX-sub-0"
    },
    {
      "network": "projects/NETWORK_PROJECT_ID/global/networks/IDPF_NETWORK_PREFIX-net",
      "nicType": "IDPF",
      "stackType": "IPV6_ONLY",
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/IDPF_NETWORK_PREFIX-sub-1"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    },
    {
      "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/default-subnet-1-RDMA_NAME_PREFIX-net",
      "nicType": "MRDMA",
      "stackType": "IPV6_ONLY"
    }
  ],
    "reservationAffinity":{
        "consumeReservationType":"SPECIFIC_RESERVATION",
        "key":"compute.googleapis.com/reservation-name",
        "values":[
          "RESERVATION"
        ]
      },
    "scheduling":{
        "provisioningModel":"RESERVATION_BOUND",
        "instanceTerminationAction":"DELETE",
        "onHostMaintenance": "TERMINATE",
        "automaticRestart":true
      }
  }
}

Substitua:

INSTANCE_TEMPLATE_NAME: o nome do modelo de instância.
IMAGE_FAMILY: a família de imagens da imagem do SO que você quer usar. Para uma lista de sistemas operacionais compatíveis, consulte Sistemas operacionais compatíveis.
IMAGE_PROJECT: o ID do projeto da imagem do SO.
REGION: a região em que você quer criar o modelo de instância. Especifique uma região em que o tipo de máquina que você quer usar esteja disponível. Para informações sobre regiões, consulte Disponibilidade de GPUs por regiões e zonas.
DISK_SIZE: o tamanho do disco de inicialização em GB.
NETWORK_PROJECT_ID: o ID do projeto da rede.
IDPF_NETWORK_PREFIX: o prefixo de nome especificado ao criar as redes e sub-redes VPC que usam NICs IDPF.
REGION: a região da sub-rede.
RDMA_NAME_PREFIX: o prefixo de nome especificado ao criar as redes e sub-redes da VPC que usam NICs RDMA.
RESERVATION: o nome da reserva, um bloco ou um subbloco dentro de uma reserva. Para conferir o nome da reserva ou os blocos disponíveis, consulte Visualizar a capacidade reservada. Com base nos seus requisitos de posicionamento de instâncias, escolha uma das seguintes opções:
- Para criar instâncias do A4X Max em um único bloco:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME
    
```
- Para criar instâncias A4X Max em um bloco específico:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME
    
```
- Para criar instâncias A4X Max em um subbloco específico:
```
    projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME/reservationSubBlocks/RESERVATION_SUBBLOCK_NAME
    
```
Dica: se a reserva existir no projeto atual, omita projects/RESERVATION_OWNER_PROJECT_ID/reservations/ do valor da reserva.

Criar um MIG

Ao criar um MIG usando o tipo de máquina A4X Max, especifique a contagem de instâncias usando o tamanho de destino do MIG. É possível definir o tamanho de destino durante a criação do MIG para o número necessário de instâncias ou começar com zero e aumentar depois. Observe que não é possível usar solicitações de redimensionamento para adicionar instâncias a um MIG A4X Max.

Para conseguir uma topologia de GPU de 1x72, crie um MIG com 18 instâncias A4X Max. Ao criar o MIG, aplique a política de carga de trabalho que especifica o campo acceleratorTopology. A aplicação da política garante que o Compute Engine crie todas as 18 instâncias A4X Max em um subbloco para usar um domínio NVLink. Se um subbloco não tiver capacidade para todas as 18 instâncias, qualquer instância gerenciada que não puder ser criada imediatamente vai permanecer no estado CREATING até que a capacidade fique disponível. Essas instâncias gerenciadas representam as instâncias de computação que o MIG cria quando há capacidade.

Quando você aplica uma política de carga de trabalho com o campo acceleratorTopology definido como 1x72, não é possível criar mais de 18 instâncias A4X Max em um MIG. Especificar mais de 18 instâncias causa falha na criação do MIG. Para criar vários domínios do NVLink, crie um MIG separado para cada domínio e aplique a mesma política de carga de trabalho a cada MIG.

Para criar um MIG, selecione uma das seguintes opções:

gcloud

Para criar um MIG com um tamanho de destino especificado, use o comando instance-groups managed create.

Crie um MIG zonal ou regional da seguinte maneira:

Para criar um MIG zonal, use o seguinte comando:

gcloud compute instance-groups managed create MIG_NAME \
  --template=INSTANCE_TEMPLATE_URL \
  --size=TARGET_SIZE \
  --workload-policy=WORKLOAD_POLICY_URL \
  --zone=ZONE

Para criar um MIG regional, use o seguinte comando:

gcloud compute instance-groups managed create MIG_NAME \
    --template=INSTANCE_TEMPLATE_URL \
    --size=TARGET_SIZE \
    --workload-policy=WORKLOAD_POLICY_URL \
    --region=REGION

Substitua:

MIG_NAME: o nome do MIG;
INSTANCE_TEMPLATE_URL: o URL do modelo de instância que você quer usar para criar instâncias no MIG. O URL pode conter o ID ou o nome do modelo de instância. Especifique um dos seguintes valores:
- Para um modelo de instância regional: projects/PROJECT_ID/regions/REGION/instanceTemplates/INSTANCE_TEMPLATE_ID.
- Para um modelo de instância global: INSTANCE_TEMPLATE_ID
TARGET_SIZE: o número de instâncias que você quer no MIG. Para a topologia do acelerador de 1x72, defina o tamanho desejado como 18.
WORKLOAD_POLICY_URL: O URL da política de carga de trabalho, por exemplo, projects/example-project/regions/us-central1/resourcePolicies/example-workload-policy.
ZONE: a zona em que você quer criar o MIG. Especifique uma zona na região da política de carga de trabalho.
REGION: a região em que você quer criar a MIG. Especifique a mesma região da política de carga de trabalho. Para um MIG regional, em vez de uma região, é possível especificar as zonas nessa região usando a flag --zones.

REST

Para criar um MIG com um tamanho de destino especificado, faça uma solicitação POST.

Crie um MIG zonal ou regional da seguinte maneira:

Para criar um MIG zonal, faça uma solicitação POST para o método instanceGroupManagers.insert.

POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instanceGroupManagers
{
  "versions": [
    {
      "instanceTemplate": "INSTANCE_TEMPLATE_URL"
    }
  ],
  "name": "MIG_NAME",
  "instanceTemplate": "INSTANCE_TEMPLATE_URL",
  "targetSize": "TARGET_SIZE",
  "resourcePolicies": {
    "workloadPolicy": WORKLOAD_POLICY_URL
  }
}

Para criar um MIG regional, faça uma solicitação POST para o método regionInstanceGroupManagers.insert.

  POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/regions/REGION/instanceGroupManagers
  {
    "versions": [
      {
        "instanceTemplate": "INSTANCE_TEMPLATE_URL"
      }
    ],
    "name": "MIG_NAME",
    "instanceTemplate": "INSTANCE_TEMPLATE_URL",
    "targetSize": "TARGET_SIZE",
    "resourcePolicies": {
      "workloadPolicy": WORKLOAD_POLICY_URL
    }
  }

Substitua:

PROJECT_ID: o ID do projeto;
ZONE: a zona em que você quer criar o MIG. Especifique uma zona na região da política de carga de trabalho.
REGION: a região em que você quer criar o MIG. Especifique a mesma região da política de carga de trabalho.
INSTANCE_TEMPLATE_URL: o URL do modelo de instância que você quer usar para criar instâncias no MIG. O URL pode conter o ID ou o nome do modelo de instância. Especifique um dos seguintes valores:
- Para um modelo de instância regional: projects/PROJECT_ID/regions/REGION/instanceTemplates/INSTANCE_TEMPLATE_ID.
- Para um modelo de instância global: INSTANCE_TEMPLATE_ID
MIG_NAME: o nome do MIG;
TARGET_SIZE: o número de instâncias que você quer no MIG. Para a topologia do acelerador de 1x72, defina o tamanho desejado como 18.
WORKLOAD_POLICY_URL: O URL da política de carga de trabalho, por exemplo, projects/example-project/regions/us-central1/resourcePolicies/example-workload-policy.

Criar um MIG otimizado para IA com A4X Max Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Tipo de instância A4X Max

Limitações

Antes de começar

Funções exigidas

Permissões necessárias

Fundamentos do A4X Max

Visão geral

Criar redes VPC

Guias de instruções

Script

Criar uma política de carga de trabalho

gcloud

REST

Criar um modelo de instância

gcloud

REST

Criar um MIG

gcloud

REST

A seguir

Criar um MIG otimizado para IA com A4X Max