Os clusters de treinamento da Vertex AI são um serviço gerenciado do Google Cloud provisionado como uma instância do Compute Engine na sua VPC. Esse modelo de implantação permite que o serviço se conecte com segurança a outras cargas de trabalho na sua VPC, a serviços gerenciados pelo Google ou a redes multicloud.
Requisito de MTU da rede
Para alcançar o desempenho ideal da rede para a infraestrutura de treinamento, configure a unidade máxima de transmissão (MTU) da rede VPC.
Configurações de MTU recomendadas
O valor de MTU recomendado depende do tipo de máquina de GPU no seu cluster:
- Para nós A3 Ultra e A4: use uma MTU de 8.896.
- Para nós A3 Mega: use uma MTU de 8244.
Você pode criar uma nova VPC ou usar uma já existente.
Implantar clusters de treinamento em uma nova VPC (recomendado)
A abordagem recomendada é implantar o cluster de treinamento em uma rede VPC nova e pré-configurada. Isso garante que a configuração correta de MTU seja aplicada automaticamente e evita afetar as cargas de trabalho atuais.
Há duas etapas principais para implantar clusters de treinamento em uma nova VPC:
Crie a rede VPC: Criar uma rede VPC. Para ativar frames jumbo, defina a MTU como 8896.
Implante o cluster de treinamento na rede recém-configurada.
Seguindo essa ordem, as instâncias de VM do cluster vão herdar automaticamente a configuração de MTU correta na inicialização.
Criar e configurar uma nova VPC
- Crie a rede VPC. Para ativar os frames jumbo, defina NETWORK_MTU
como 8896.
# create VPC network gcloud compute networks create NETWORK \ --project=PROJECT_ID \ --subnet-mode=custom \ --mtu=NETWORK_MTU - Crie a sub-rede usada para implantar o
cluster de treinamento e
atualize o intervalo com base nos requisitos do seu ambiente. Neste exemplo, a sub-rede 192.168.0.0/19 é usada para a implantação do cluster de treinamento.
# create VPC subnet gcloud compute networks subnets create SUBNETWORK \ --project=PROJECT_ID \ --network=NETWORK \ --region=REGION \ --enable-private-ip-google-access \ --range=192.168.0.0/19
- Crie uma regra de firewall do IAP que permita a conectividade SSH com o cluster de treinamento.
gcloud compute firewall-rules create allow-ssh-ingress-from-iap \ --direction=INGRESS --action=allow --rules=tcp:22 \ --source-ranges=35.235.240.0/20 --network NETWORK - Crie uma regra de firewall de entrada que permita todas as portas e protocolos para a
sub-rede do cluster de treinamento.
gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \ --direction=INGRESS --priority=1000 --network=NETWORK \ --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \ --source-ranges=192.168.0.0/19 --enable-logging
Como implantar clusters de treinamento em uma VPC
Se você estiver implantando o cluster de treinamento em uma rede atual com instâncias do Cloud Storage, recomendamos usar frames enormes (MTU 8896) para garantir o desempenho ideal. Antes de começar, verifique se os sistemas operacionais e aplicativos nas VMs atuais podem aceitar essa mudança.
Para implementar jumbo frames, é necessário atualizar a MTU da VPC, o que deve ser feito durante uma janela de manutenção planejada para evitar instabilidade na rede.
O único procedimento seguro é primeiro interromper todas as instâncias de VM em execução nessa rede. Mudar a MTU enquanto as VMs estão ativas resulta em configurações incompatíveis e conectividade não confiável.
Depois que todas as VMs forem interrompidas, siga estas etapas:
- Mude a MTU da rede para a configuração selecionada (por exemplo, 8896).
- Reinicie todas as VMs após a conclusão da atualização da rede.
- Atualize manualmente as VMs que não são do Linux. Essa reinicialização não é suficiente para todos os sistemas operacionais. Embora as VMs de imagens públicas do Linux adotem automaticamente a nova MTU, é necessário atualizar manualmente a configuração de MTU no SO para todas as VMs do Windows e VMs de imagem personalizada que não usam DHCP para configuração de MTU.
Outros requisitos:
- Ative o Acesso privado do Google na sub-rede usada para implantar o cluster.
- Crie uma regra de firewall de entrada para conceder acesso do IAP ao cluster.
- Crie uma regra de firewall de entrada para permitir todo o tráfego para o cluster.
A seguir
Depois de preparar a rede VPC com as configurações de MTU e as regras de firewall corretas, as próximas etapas são criar e proteger o cluster de treinamento.
- Verifique a configuração da rede: antes de criar o cluster, execute um teste de conectividade para verificar as configurações de rede VPC e MTU, principalmente se você modificou uma VPC existente.
- Proteja seu cluster com um perímetro de serviço: para aumentar a segurança de dados, use o VPC Service Controls para criar um perímetro de serviço em torno dos recursos da Vertex AI. Isso ajuda a evitar a exfiltração de dados.
- Conectar-se de um ambiente híbrido ou multicloud: para acessar seu cluster de treinamento de um data center local ou uma nuvem pública, use as opções de conectividade híbrida doGoogle Cloud.