Trabalho em rede

Se tiver interesse em clusters de preparação do Vertex AI, contacte o seu representante de vendas para aceder.

Os clusters de preparação do Vertex AI são um serviço gerido Google Cloud que é aprovisionado como uma instância do Compute Engine na sua VPC. Este modelo de implementação permite que o serviço se ligue em segurança a outras cargas de trabalho na sua VPC, serviços geridos pela Google ou redes multicloud.

Requisito de MTU de rede

Para alcançar um desempenho ideal da rede para a infraestrutura de preparação, tem de configurar a unidade de transmissão máxima (MTU) da sua rede VPC.

O valor de MTU recomendado depende do tipo de máquina da GPU no seu cluster:

  • Para os nós A3 Ultra e A4: use uma MTU de 8896.
  • Para nós A3 Mega: use uma MTU de 8244.

Pode criar uma nova VPC ou usar uma VPC existente.

Implementar clusters de preparação numa nova VPC (recomendado)

A abordagem recomendada é implementar o cluster de preparação numa rede VPC nova e pré-configurada. Isto garante que a definição de MTU correta é aplicada automaticamente e evita afetar as cargas de trabalho existentes.

Existem dois passos principais para implementar clusters de preparação numa nova VPC:

  1. Crie a rede VPC: crie uma nova rede VPC. Para ativar frames jumbo, defina a respetiva MTU como 8896.

  2. Implemente o cluster: implemente o cluster de preparação nesta rede recém-configurada.

Seguindo esta ordem, as instâncias de VM do cluster herdam automaticamente a definição de MTU correta no arranque inicial.

Crie e configure uma nova VPC

  1. Crie a rede de VPC. Para ativar os frames jumbo, defina NETWORK_MTU como 8896.
        # create VPC network
        gcloud compute networks create NETWORK \
          --project=PROJECT_ID \
          --subnet-mode=custom \
          --mtu=NETWORK_MTU
        
  2. Crie a sub-rede usada para implementar o cluster de preparação e atualize o intervalo com base nos requisitos do seu ambiente. Neste exemplo, a sub-rede 192.168.0.0/19 é usada para a implementação do cluster de preparação.
        # create VPC subnet
        gcloud compute networks subnets create SUBNETWORK \
          --project=PROJECT_ID \
          --network=NETWORK \
          --region=REGION \
          --enable-private-ip-google-access \
          --range=192.168.0.0/19
        
  3. Crie uma regra de firewall do IAP que permita a conetividade SSH ao cluster de preparação.
        gcloud compute firewall-rules create allow-ssh-ingress-from-iap \
        --direction=INGRESS   --action=allow   --rules=tcp:22 \
        --source-ranges=35.235.240.0/20 --network NETWORK
        
  4. Crie uma regra de firewall de entrada que permita todas as portas e protocolos para a sub-rede do cluster de preparação.
       gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \
       --direction=INGRESS --priority=1000 --network=NETWORK \
       --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \
       --source-ranges=192.168.0.0/19 --enable-logging
       

Implementar clusters de preparação numa VPC existente

Se estiver a implementar o cluster de preparação numa rede existente com instâncias do Cloud Storage, recomendamos vivamente que use frames jumbo (MTU 8896) para garantir um desempenho ideal. Antes de começar, verifique se os sistemas operativos e as aplicações nas suas VMs existentes podem suportar esta alteração.

A implementação de frames jumbo requer a atualização da MTU da sua VPC, o que tem de ser feito durante um período de manutenção planeado para evitar a instabilidade da rede.

O único procedimento seguro é parar primeiro todas as instâncias de VM em execução nessa rede. Alterar a MTU enquanto as VMs estão ativas resulta em definições incompatíveis e conetividade não fiável.

Quando todas as VMs estiverem paradas, pode avançar com estes passos:

  1. Altere a MTU da rede para a definição selecionada (por exemplo, 8896).
  2. Reinicie todas as VMs após a conclusão da atualização da rede.
  3. Atualize manualmente as VMs que não são do Linux. Tenha em atenção que este reinício não é suficiente para todos os sistemas operativos. Embora as VMs de imagens Linux públicas adotem automaticamente a nova MTU, tem de atualizar manualmente a definição de MTU no SO para todas as VMs do Windows e quaisquer VMs de imagens personalizadas que não usem DHCP para a configuração de MTU.

Outros requisitos:

  • Ative o acesso privado à Google na sub-rede usada para implementar o cluster.
  • Crie uma regra de firewall de entrada para conceder acesso do IAP ao cluster.
  • Crie uma regra de firewall de entrada para permitir todo o tráfego para o cluster.

O que se segue?

Depois de preparar a rede VPC com as definições de MTU e as regras de firewall corretas, os passos seguintes consistem em criar e proteger o cluster de preparação.

  • Valide a configuração da sua rede: antes de criar o cluster, execute um teste de conetividade para validar a sua rede VPC e as definições de MTU, especialmente se tiver modificado uma VPC existente.
  • Proteja o cluster com um perímetro de serviço: para uma maior segurança dos dados, use os VPC Service Controls para criar um perímetro de serviço em torno dos recursos do Vertex AI. Isto ajuda a evitar a exfiltração de dados.
  • Estabeleça ligação a partir de um ambiente híbrido ou de várias nuvens: para aceder ao cluster de preparação a partir de um centro de dados nas instalações ou de uma nuvem pública, use as opções de conectividade híbrida doGoogle Cloud.