Este documento descreve os serviços de rede que você configura para implantações de cluster e VM da hipermáquina de IA. Os serviços de rede específicos que você configura para o Hipercomputador de IA dependem da opção de implantação escolhida para suas VMs ou clusters.
Este documento é destinado a arquitetos, engenheiros de rede e desenvolvedores que querem entender os serviços de rede para as implantações de hipercomputador de IA. Neste documento, pressupomos que você tenha uma familiaridade básica com os conceitos de rede na nuvem e computação distribuída. Para mais informações sobre as opções de implantação, consulte Visão geral da criação de VMs e clusters.
Este documento detalha os serviços de rede que você configura para as seguintes opções de implantação:
- Rede para uma implantação do GKE com uma configuração padrão
- Rede para uma implantação do GKE usando uma configuração personalizada
- Rede para implantação de cluster do Slurm
- Rede para instâncias do Compute Engine
Configurar a rede para implantações padrão do GKE
Ao criar um cluster do GKE otimizado para IA com configurações padrão, você define as configurações de rede no blueprint do Cluster Toolkit. O blueprint muda com base no tipo de máquina selecionado. Por exemplo, o modelo do Cluster Toolkit implanta um cluster do GKE com uma máquina A4.
O blueprint configura a rede das seguintes maneiras:
- Usa a VPC padrão:o blueprint usa a rede padrão da nuvem privada virtual para o cluster principal do GKE.
- Cria mais duas VPCs:o blueprint configura duas redes de nuvem privada virtual distintas. Uma é para uma segunda placa de interface de rede (NIC) do host, e a outra é para tráfego de acesso direto à memória (RDMA) remoto de unidade de processamento gráfico (GPU) para GPU. Ao usar essa configuração de várias VPCs, é possível melhorar o isolamento da rede. Para mais informações, consulte Ambiente de várias VPCs.
- Define intervalos de endereços IP:o blueprint define o espaço de endereço IP privado para seus nós do GKE. Ele configura intervalos de IP secundários para pods e serviços. O GKE usa o alias de endereço IP para evitar conflitos de endereço IP.
- Aplica um perfil de rede otimizado para RDMA:o blueprint aplica um perfil de rede predefinido e gerenciado pelo Google à VPC usada para tráfego de GPU. Esse perfil configura automaticamente a rede para o desempenho de alta velocidade e baixo atraso que o RDMA precisa. Para mais informações, consulte Perfis de rede para casos de uso específicos.
- Automatiza a criação de sub-redes para RDMA:para garantir a melhor performance, o blueprint cria automaticamente oito sub-redes dedicadas na VPC do RDMA. Ele cria uma sub-rede para cada uma das oito NICs RDMA em uma VM aceleradora.
- Configura regras de firewall:o blueprint configura regras de firewall que permitem todo o tráfego do protocolo TCP (TCP), do protocolo de datagramas do usuário (UDP) e do protocolo de mensagens de controle da Internet (ICMP) entre os nós do cluster. Isso permite que os nós se comuniquem livremente. Ele também configura um intervalo de roteamento entre domínios sem classe (CIDR) autorizado para limitar o acesso ao plano de controle do cluster do GKE por motivos de segurança.
Rede para implantações do GKE com configuração personalizada
Quando você precisar de um controle mais granular do que os blueprints padrão do Cluster Toolkit oferecem, configure manualmente os objetos de rede para um cluster do GKE otimizado para IA. Essa abordagem permite adaptar a configuração de rede às necessidades específicas da sua carga de trabalho.
A configuração usada depende de você planejar executar cargas de trabalho de IA distribuídas:
- Para cargas de trabalho não distribuídas:crie um cluster do GKE sem GPUDirect RDMA. Esse método usa uma única rede VPC para toda a comunicação.
- Para cargas de trabalho distribuídas:crie um cluster do GKE com o GPUDirect RDMA ativado. Ativar o GPUDirect RDMA é essencial para alcançar a performance ideal em grande escala. Essa configuração envolve um ambiente de várias VPCs que separa o tráfego de uso geral da comunicação de alta largura de banda e baixa latência entre GPUs.
Para instruções detalhadas e passo a passo sobre como criar um cluster do GKE personalizado e otimizado para IA nos dois cenários, consulte Criar um cluster do GKE personalizado e otimizado para IA.
Rede para implantações de clusters do Slurm
É possível usar o Cluster Toolkit para implantar cargas de trabalho de computação de alto desempenho (HPC), IA e ML no Google Cloud usando modelos altamente personalizáveis e extensíveis. Por exemplo, ao criar um cluster Slurm otimizado com IA com um tipo de máquina A4. Esta seção explica os serviços de rede configurados no blueprint A4, que ajuda você a entender as configurações de rede que podem ser alteradas ao criar clusters do Slurm.
Durante a implantação, o blueprint do Cluster Toolkit usa o Packer para criar automaticamente uma imagem personalizada do sistema operacional (SO). O Packer cria a imagem ao iniciar uma VM temporária e executar scripts para personalizar o disco de inicialização. É possível personalizar a imagem usando scripts de inicialização, scripts de shell ou playbooks do Ansible. Em seguida, o blueprint usa essa imagem personalizada para instalar o software de sistema necessário para gerenciamento de cluster e carga de trabalho nos nós do Slurm.
Os componentes de rede que o blueprint configura são os seguintes:
- Cria três VPCs distintas:o blueprint cria uma VPC principal para o plano de controle do Slurm, uma VPC secundária para o tráfego geral no nível do host e uma VPC dedicada de alta performance para comunicação de GPU para GPU. Essa separação impede que o tráfego de gerenciamento interfira no plano de dados da carga de trabalho. Para mais informações, consulte Ambiente de várias VPCs.
- Aplica um perfil de rede otimizado para RDMA:para o plano de dados da GPU, o blueprint aplica um perfil de rede pré-configurado e gerenciado pelo Google otimizado para RoCE. Ele cria automaticamente oito sub-redes, uma para cada NIC RDMA nas VMs aceleradoras. Para mais informações, consulte Perfis de rede para casos de uso específicos.
- Reserva um intervalo de endereços IP para armazenamento compartilhado:o blueprint define um intervalo de endereços IP dedicado exigido pelo serviço Filestore.
O Filestore fornece o diretório
/homecompartilhado para o cluster. - Fornece uma rede isolada de build de imagens:o blueprint cria uma VPC temporária usada apenas durante o processo de build da imagem de VM personalizada para os nós do cluster. Isso fornece um ambiente de rede isolado para operações do Packer.
Para mais opções de implantação, consulte a documentação do Cluster Toolkit.
Rede para instâncias do Compute Engine
Com o Compute Engine, é possível criar VMs autônomas, instâncias de VM em massa e grupos gerenciados de instâncias (MIGs) para vários tipos de máquinas otimizados para aceleradores.
Esses tipos de máquinas exigem uma configuração de rede multi-VPC para processar diferentes tipos de tráfego. Essa configuração separa o tráfego geral de host para host da comunicação de alta largura de banda de GPU para GPU. Os requisitos de rede específicos variam de acordo com o tipo de máquina.
Para informações detalhadas sobre as NICs e a configuração de rede do seu tipo de máquina, consulte Analisar a largura de banda da rede e o arranjo de NICs.
Para instruções detalhadas sobre como criar essas redes VPC, consulte Criar redes VPC.
A seguir
- Para identificar a melhor implantação para sua carga de trabalho, consulte Configurações recomendadas.
- Para entender o caso de uso de cada opção de implantação, consulte Visão geral da criação de VMs e clusters.
- Para criar um cluster do GKE otimizado para IA com configuração padrão, consulte Criar um cluster do GKE otimizado para IA com configuração padrão.
- Para criar um cluster do GKE personalizado e otimizado para IA, consulte Criar um cluster do GKE personalizado e otimizado para IA.
- Para criar um cluster Slurm otimizado com IA com um tipo de máquina A4, consulte Criar um cluster Slurm otimizado com IA com um tipo de máquina A4.
- Para criar uma instância otimizada para IA com A4 ou A3 Ultra, consulte Criar uma instância otimizada para IA com A4 ou A3 Ultra.
- Para criar uma instância otimizada para IA com A3 Mega ou A3 High, consulte Criar uma instância otimizada para IA com A3 Mega ou A3 High.