Rede

Se você tiver interesse nos clusters de treinamento da Vertex AI, entre em contato com seu representante de vendas para ter acesso.

Os clusters de treinamento da Vertex AI são um serviço gerenciado do Google Cloud provisionado como uma instância do Compute Engine na sua VPC. Esse modelo de implantação permite que o serviço se conecte com segurança a outras cargas de trabalho na sua VPC, a serviços gerenciados pelo Google ou a redes multicloud.

Requisito de MTU da rede

Para alcançar o desempenho ideal da rede para a infraestrutura de treinamento, configure a unidade máxima de transmissão (MTU) da rede VPC.

O valor de MTU recomendado depende do tipo de máquina de GPU no seu cluster:

  • Para nós A3 Ultra e A4: use uma MTU de 8.896.
  • Para nós A3 Mega: use uma MTU de 8244.

Você pode criar uma nova VPC ou usar uma já existente.

Implantar clusters de treinamento em uma nova VPC (recomendado)

A abordagem recomendada é implantar o cluster de treinamento em uma rede VPC nova e pré-configurada. Isso garante que a configuração correta de MTU seja aplicada automaticamente e evita afetar as cargas de trabalho atuais.

Há duas etapas principais para implantar clusters de treinamento em uma nova VPC:

  1. Crie a rede VPC: Criar uma rede VPC. Para ativar frames jumbo, defina a MTU como 8896.

  2. Implante o cluster de treinamento na rede recém-configurada.

Seguindo essa ordem, as instâncias de VM do cluster vão herdar automaticamente a configuração de MTU correta na inicialização.

Criar e configurar uma nova VPC

  1. Crie a rede VPC. Para ativar os frames jumbo, defina NETWORK_MTU como 8896.
        # create VPC network
        gcloud compute networks create NETWORK \
          --project=PROJECT_ID \
          --subnet-mode=custom \
          --mtu=NETWORK_MTU
        
  2. Crie a sub-rede usada para implantar o cluster de treinamento e atualize o intervalo com base nos requisitos do seu ambiente. Neste exemplo, a sub-rede 192.168.0.0/19 é usada para a implantação do cluster de treinamento.
        # create VPC subnet
        gcloud compute networks subnets create SUBNETWORK \
          --project=PROJECT_ID \
          --network=NETWORK \
          --region=REGION \
          --enable-private-ip-google-access \
          --range=192.168.0.0/19
        
  3. Crie uma regra de firewall do IAP que permita a conectividade SSH com o cluster de treinamento.
        gcloud compute firewall-rules create allow-ssh-ingress-from-iap \
        --direction=INGRESS   --action=allow   --rules=tcp:22 \
        --source-ranges=35.235.240.0/20 --network NETWORK
        
  4. Crie uma regra de firewall de entrada que permita todas as portas e protocolos para a sub-rede do cluster de treinamento.
       gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \
       --direction=INGRESS --priority=1000 --network=NETWORK \
       --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \
       --source-ranges=192.168.0.0/19 --enable-logging
       

Como implantar clusters de treinamento em uma VPC

Se você estiver implantando o cluster de treinamento em uma rede atual com instâncias do Cloud Storage, recomendamos usar frames enormes (MTU 8896) para garantir o desempenho ideal. Antes de começar, verifique se os sistemas operacionais e aplicativos nas VMs atuais podem aceitar essa mudança.

Para implementar jumbo frames, é necessário atualizar a MTU da VPC, o que deve ser feito durante uma janela de manutenção planejada para evitar instabilidade na rede.

O único procedimento seguro é primeiro interromper todas as instâncias de VM em execução nessa rede. Mudar a MTU enquanto as VMs estão ativas resulta em configurações incompatíveis e conectividade não confiável.

Depois que todas as VMs forem interrompidas, siga estas etapas:

  1. Mude a MTU da rede para a configuração selecionada (por exemplo, 8896).
  2. Reinicie todas as VMs após a conclusão da atualização da rede.
  3. Atualize manualmente as VMs que não são do Linux. Essa reinicialização não é suficiente para todos os sistemas operacionais. Embora as VMs de imagens públicas do Linux adotem automaticamente a nova MTU, é necessário atualizar manualmente a configuração de MTU no SO para todas as VMs do Windows e VMs de imagem personalizada que não usam DHCP para configuração de MTU.

Outros requisitos:

  • Ative o Acesso privado do Google na sub-rede usada para implantar o cluster.
  • Crie uma regra de firewall de entrada para conceder acesso do IAP ao cluster.
  • Crie uma regra de firewall de entrada para permitir todo o tráfego para o cluster.

A seguir

Depois de preparar a rede VPC com as configurações de MTU e as regras de firewall corretas, as próximas etapas são criar e proteger o cluster de treinamento.

  • Verifique a configuração da rede: antes de criar o cluster, execute um teste de conectividade para verificar as configurações de rede VPC e MTU, principalmente se você modificou uma VPC existente.
  • Proteja seu cluster com um perímetro de serviço: para aumentar a segurança de dados, use o VPC Service Controls para criar um perímetro de serviço em torno dos recursos da Vertex AI. Isso ajuda a evitar a exfiltração de dados.
  • Conectar-se de um ambiente híbrido ou multicloud: para acessar seu cluster de treinamento de um data center local ou uma nuvem pública, use as opções de conectividade híbrida doGoogle Cloud.