Este documento descreve os serviços de rede que você configura para implantações de clusters e VMs do Hipercomputador de IA. Os serviços de rede específicos que você configura para o Hipercomputador de IA dependem da opção de implantação escolhida para suas VMs ou clusters.
Este documento é destinado a arquitetos, engenheiros de rede e desenvolvedores que querem entender os serviços de rede para as implantações do Hipercomputador de IA. Este documento pressupõe que você tenha um conhecimento básico de conceitos de rede na nuvem e computação distribuída. Para mais informações sobre as opções de implantação, consulte Visão geral da criação de VMs e clusters .
Este documento detalha os serviços de rede que você configura para as seguintes opções de implantação:
- Rede para uma implantação do GKE com uma configuração padrão
- Rede para uma implantação do GKE usando uma configuração personalizada
- Rede para implantação de clusters do Slurm
- Rede para instâncias do Compute Engine
Configurar a rede para implantações padrão do GKE
Ao criar um cluster do GKE otimizado para IA com configurações padrão, você define as configurações de rede no modelo do Cluster Toolkit. O modelo muda com base no tipo de máquina selecionado. Por exemplo, o modelo do Cluster Toolkit implanta um cluster do GKE com uma máquina A4.
O modelo configura a rede das seguintes maneiras:
- Usa a VPC padrão:o modelo usa a rede de nuvem privada virtual padrão para o cluster do GKE principal.
- Cria duas VPCs adicionais:o modelo configura duas redes de nuvem privada virtual distintas. Uma é para uma segunda placa de interface de rede (NIC) do host, e a outra é para tráfego de acesso direto à memória remota (RDMA) de unidade de processamento gráfico (GPU) para GPU. Ao usar essa configuração de várias VPCs, você pode melhorar o isolamento da rede. Para mais informações, consulte Ambiente multi-VPC.
- Define intervalos de endereços IP:o modelo define o espaço de endereços IP privados para os nós do GKE. Ele configura intervalos de IP secundários para pods e serviços. O GKE usa aliases de endereço IP para evitar conflitos de endereço IP.
- Aplica um perfil de rede otimizado para RDMA:o modelo aplica um perfil de rede predefinido e gerenciado pelo Google à VPC usada para tráfego de GPU. Esse perfil configura automaticamente a rede para o desempenho de alta velocidade e baixa latência de que o RDMA precisa. Para mais informações, consulte Perfis de rede para casos de uso específicos.
- Automatiza a criação de sub-redes para RDMA:para garantir o melhor desempenho, o modelo cria automaticamente oito sub-redes dedicadas na VPC RDMA. Ele cria uma sub-rede para cada uma das oito NICs RDMA em uma VM de acelerador.
- Configura regras de firewall:o modelo configura regras de firewall que permitem todo o tráfego do protocolo TCP (TCP), do protocolo de datagramas do usuário (UDP) e do protocolo de mensagens de controle da Internet (ICMP) entre nós no cluster. Isso permite que os nós se comuniquem livremente. Ele também configura um intervalo de roteamento entre domínios sem classe (CIDR, na sigla em inglês) autorizado para limitar o acesso ao plano de controle do cluster do GKE por motivos de segurança.
Rede para implantações do GKE com configuração personalizada
Quando você precisar de um controle mais granular do que os modelos padrão do Cluster Toolkit oferecem, configure manualmente os objetos de rede para um cluster do GKE otimizado para IA. Essa abordagem permite personalizar a configuração de rede para as necessidades específicas da carga de trabalho.
A configuração que você usa depende de você planejar executar cargas de trabalho de IA distribuídas:
- Para cargas de trabalho não distribuídas:crie um cluster do GKE sem o GPUDirect RDMA. Esse método usa uma única rede VPC para todas as comunicações.
- Para cargas de trabalho distribuídas:crie um cluster do GKE com o GPUDirect RDMA ativado. Ativar o GPUDirect RDMA é essencial para alcançar o desempenho ideal em escala. Essa configuração envolve um ambiente multi-VPC que separa o tráfego de uso geral da comunicação de alta largura de banda e baixa latência de GPU para GPU.
Para instruções detalhadas e passo a passo sobre como criar um cluster do GKE personalizado e otimizado para IA nos dois cenários, consulte Criar um cluster do GKE personalizado e otimizado para IA.
Rede para implantações de clusters do Slurm
É possível usar o Cluster Toolkit para implantar cargas de trabalho de computação de alto desempenho (HPC), IA e ML em Google Cloud modelos altamente personalizáveis e extensíveis. Por exemplo, ao criar um cluster do Slurm otimizado para IA com um tipo de máquina A4. Esta seção explica os serviços de rede configurados no modelo A4, que ajuda você a entender as configurações de rede que podem ser alteradas ao criar clusters do Slurm.
Durante a implantação, o modelo do Cluster Toolkit usa Packer para criar automaticamente uma imagem personalizada do sistema operacional (SO). O Packer cria a imagem iniciando uma VM temporária e executando scripts para personalizar o disco de inicialização. É possível personalizar a imagem usando scripts de inicialização, scripts de shell ou playbooks do Ansible. Em seguida, o modelo usa essa imagem personalizada para instalar o software de sistema necessário para o gerenciamento de clusters e cargas de trabalho nos nós do Slurm.
Os componentes de rede que o modelo configura são os seguintes:
- Cria três VPCs distintas:o modelo cria uma VPC principal para o plano de controle do Slurm, uma VPC secundária para tráfego geral no nível do host e uma VPC dedicada de alto desempenho para comunicação de GPU para GPU. Essa separação impede que o tráfego de gerenciamento interfira no plano de dados da carga de trabalho. Para mais informações, consulte Ambiente multi-VPC.
- Aplica um perfil de rede otimizado para RDMA:para o plano de dados da GPU, o modelo aplica um perfil de rede pré-configurado e gerenciado pelo Google otimizado para RoCE. Ele cria automaticamente oito sub-redes, uma para cada NIC RDMA nas VMs do acelerador. Para mais informações, consulte Perfis de rede para casos de uso específicos.
- Reserva um intervalo de endereços IP para armazenamento compartilhado:o modelo define um intervalo de endereços IP dedicado exigido pelo serviço do Filestore.
O Filestore fornece o diretório
/homecompartilhado para o cluster. - Fornece uma rede isolada de criação de imagens:o modelo cria uma VPC temporária usada apenas durante o processo de criação da imagem de VM personalizada para os nós do cluster. Isso fornece um ambiente de rede isolado para operações do Packer.
Para mais opções de implantação, consulte a documentação do Cluster Toolkit.
Rede para instâncias do Compute Engine
Com o Compute Engine, é possível criar VMs independentes, instâncias de VM em massa e grupos de instâncias gerenciados (MIGs) para vários tipos de máquinas otimizados para aceleradores.
Esses tipos de máquinas exigem uma configuração de rede multi-VPC para processar diferentes tipos de tráfego. Essa configuração separa o tráfego geral de host para host da comunicação de alta largura de banda de GPU para GPU. Os requisitos específicos de rede variam de acordo com o tipo de máquina.
Para informações detalhadas sobre as NICs e a configuração de rede do tipo de máquina, consulte Analisar a largura de banda da rede e o arranjo de NICs.
Para instruções detalhadas sobre como criar essas redes VPC, consulte Criar redes VPC.
A seguir
- Para identificar a melhor implantação para sua carga de trabalho, consulte Configurações recomendadas.
- Para entender o caso de uso de cada opção de implantação, consulte Visão geral da criação de VMs e clusters.
- Para criar um cluster do GKE otimizado para IA com configuração padrão, consulte Criar um cluster do GKE otimizado para IA com configuração padrão.
- Para criar um cluster do GKE personalizado e otimizado para IA, consulte Criar um cluster do GKE personalizado e otimizado para IA.
- Para criar um cluster do Slurm otimizado para IA com um tipo de máquina A4, consulte Criar um cluster do Slurm otimizado para IA com um tipo de máquina A4 tipo.
- Para criar uma instância otimizada para IA com A4 ou A3 Ultra, consulte Criar uma instância otimizada para IA com A4 ou A3 Ultra.
- Para criar uma instância otimizada para IA com A3 Mega ou A3 High, consulte Criar uma instância otimizada para IA com A3 Mega ou A3 High.