Criar um cluster do Slurm totalmente gerenciado para cargas de trabalho de IA

Este documento explica como configurar e implantar um cluster Slurm totalmente gerenciado que usa os tipos de máquina A4X, A4, A3 Ultra, A3 Mega ou A3 High. Para saber mais sobre esses tipos de máquinas otimizadas para aceleradores, consulte Tipos de máquinas com GPU.

As etapas neste documento mostram como criar um cluster do Slurm usando o Cluster Director. O Cluster Director é um produto Google Cloud que automatiza a configuração de clusters Slurm. Ele foi criado para administradores de TI e pesquisadores de IA que querem evitar a sobrecarga de gerenciar um cluster e se concentrar na execução das cargas de trabalho. Se você quiser ter mais controle sobre a implantação e o gerenciamento do cluster, crie um usando o Cluster Toolkit.

Limitações

Dependendo do tipo de máquina usado pelas instâncias do Compute Engine no seu cluster, as seguintes limitações se aplicam:

A4X

A4

  • Você não recebe descontos por uso prolongado e descontos por compromisso de uso flexível para instâncias que usam um tipo de máquina A4.
  • Só é possível usar um tipo de máquina A4 em determinadas regiões e zonas.
  • Não é possível usar o Persistent Disk (regional ou zonal). Só é possível usar o Google Cloud Hyperdisk.
  • O tipo de máquina A4 só está disponível na plataforma de CPU Emerald Rapids.
  • Não é possível mudar o tipo de máquina de uma instância para ou de um tipo de máquina A4. É necessário criar uma nova instância com esse tipo de máquina.
  • Os tipos de máquina A4 não são compatíveis com locatário único.
  • Não é possível executar sistemas operacionais Windows em um tipo de máquina A4.
  • Para instâncias A4, quando você usa ethtool -S para monitorar a rede de GPU, os contadores de porta física que terminam em _phy não são atualizados. Esse é o comportamento esperado para instâncias que usam a arquitetura de função virtual (VF) do MRDMA. Para mais informações, consulte Funções do MRDMA e ferramentas de monitoramento de rede.
  • Não é possível anexar discos Hyperdisk ML criados antes de 4 de fevereiro de 2026 aos tipos de máquina A4.

A3 Ultra

  • Você não recebe descontos por uso prolongado e descontos por compromisso de uso flexível para instâncias que usam um tipo de máquina A3 ultra.
  • Só é possível usar um tipo de máquina A3 Ultra em determinadas regiões e zonas.
  • Não é possível usar o Persistent Disk (regional ou zonal). Só é possível usar o Google Cloud Hyperdisk.
  • O tipo de máquina A3 Ultra só está disponível na plataforma de CPU Emerald Rapids.
  • As mudanças de tipo de máquina não são compatíveis com o tipo de máquina A3 Ultra. Para mudar para ou de um tipo de máquina, crie uma nova instância.
  • Não é possível executar sistemas operacionais Windows em um tipo de máquina A3 Ultra.
  • Os tipos de máquina A3 Ultra não são compatíveis com locatário único.
  • Para instâncias A3 Ultra, quando você usa ethtool -S para monitorar a rede de GPU, os contadores de porta física que terminam em _phy não são atualizados. Esse é o comportamento esperado para instâncias que usam a arquitetura de função virtual (VF, na sigla em inglês) do MRDMA. Para mais informações, consulte Funções do MRDMA e ferramentas de monitoramento de rede.

A3 Mega

A3 High

  • Você não recebe descontos por uso prolongado e descontos por compromisso de uso flexível para instâncias que usam um tipo de máquina A3 High.
  • Só é possível usar um tipo de máquina A3 High em determinadas regiões e zonas.
  • Não é possível usar Persistent Disk regional em uma instância que usa um tipo de máquina A3 High.
  • O tipo de máquina A3 High só está disponível na plataforma de CPU Sapphire Rapids.
  • Não é possível mudar o tipo de máquina A3 High. Para mudar para ou de um tipo de máquina, crie uma nova instância.
  • Não é possível executar sistemas operacionais Windows em um tipo de máquina A3 High.
  • Só é possível usar a3-highgpu-8g. Os tipos de máquina A3 High com menos de oito GPUs não são compatíveis.

Antes de começar

Antes de criar um cluster do Slurm, se ainda não tiver feito isso, conclua as seguintes etapas:

  1. Escolha uma opção de consumo: a opção escolhida determina como você recebe e usa os recursos de GPU. Para saber mais, consulte Escolher uma opção de consumo.
  2. Obter capacidade: o processo para obter capacidade varia de acordo com cada opção de consumo. Para saber mais sobre o processo de obtenção de capacidade para a opção de consumo escolhida, consulte Visão geral da capacidade.
  3. Verifique se você tem cota de capacidade do Filestore suficiente: é necessário ter cota do Filestore suficiente na região de destino antes da implantação. A capacidade mínima necessária depende dos tipos de máquina no cluster:
    • A4X Max, A4X, A4, A3 Ultra e A3 Mega: exigem um mínimo de 10 TiB (10.240 GiB) de capacidade HIGH_SCALE_SSD (zonal).
    • A3 High: exige um mínimo de 2,5 TiB (2.560 GiB) de capacidade BASIC_SSD (padrão).

    Para verificar ou solicitar um aumento de cota, consulte o seguinte:

  4. Verifique a política de imagem confiável: se a organização em que seu projeto está inserido tiver uma política de imagem confiável (constraints/compute.trustedImageProjects), verifique se o projeto clusterdirector-public-images está incluído na lista de projetos permitidos. Para saber mais, consulte Como configurar políticas de imagem confiáveis.

Funções exigidas

Para criar um cluster do Slurm, você precisa das seguintes permissões e papéis do IAM:

Criar um cluster do Slurm

Para criar um cluster otimizado para IA usando o Cluster Director, siga estas etapas:

  1. Configurar configurações de recursos de computação

  2. Configurar rede

  3. Configurar recursos de armazenamento

  4. Configurar o ambiente do Slurm

Configurar configurações de recursos de computação

Para configurar as configurações de recursos de computação ao criar um cluster, siga estas etapas:

  1. No console Google Cloud , acesse a página Cluster Director.

    Acessar o Cluster Director

  2. Clique em Criar cluster.

  3. Na caixa de diálogo exibida, clique em Arquitetura de referência. A página Criar um cluster é aberta.

  4. Clique em um dos modelos disponíveis. Você pode editar o modelo para adaptá-lo às necessidades da sua carga de trabalho.

  5. Clique em Personalizar.

  6. Na seção Compute, no campo Nome do cluster, insira um nome para o cluster. O nome pode ter até 10 caracteres e usar apenas números ou letras minúsculas (a-z).

  7. Para adicionar informações à configuração pré-configurada de recursos de computação ou editar o número e o tipo de instâncias de computação que as configurações especificam, faça o seguinte:

    1. Na seção Computação, clique em Editar configuração de recursos. O painel Adicionar configuração de recurso aparece.

    2. Opcional: para mudar o nome da configuração do recurso de computação, insira um novo nome no campo Nome.

    3. Opcional: para mudar o número e o tipo de instâncias de computação usadas pelo cluster, na seção Configuração da máquina, siga as instruções para atualizar os recursos de computação.

    4. Na seção Opções de consumo, especifique a opção que você quer usar para receber recursos:

      • Para criar instâncias de computação usando uma reserva, faça o seguinte:

        1. Clique na guia Usar reserva.

        2. Clique em Selecionar reserva. O painel Escolher uma reserva aparece. Se você quiser usar uma reserva de VMs A4X, poderá escolher opcionalmente o bloco ou o sub-bloco para controlar o posicionamento das VMs.

        3. Selecione a reserva que você quer usar. Em seguida, clique em Escolher. Essa ação define automaticamente a região e a zona dos seus recursos de computação.

      • Para criar VMs de início flexível, faça o seguinte:

        1. Clique na guia Início flexível.

        2. Na seção Limite de tempo para a VM, especifique a duração da execução das instâncias de computação. O valor precisa estar entre 10 minutos e 7 dias.

        3. Na seção Local, selecione a região em que você quer criar VMs de início flexível. O console do Google Cloud filtra automaticamente as regiões disponíveis para mostrar apenas aquelas que oferecem suporte a VMs de início flexível para o tipo de máquina selecionado.

      • Para criar VMs spot, faça o seguinte:

        1. Clique na guia Usar spot.

        2. Na lista No encerramento da VM, selecione uma das seguintes opções:

          • Para excluir as VMs Spot na preempção, selecione Excluir.

          • Para interromper as VMs spot na preempção, selecione Parar.

        3. Na seção Local, selecione a Região e a Zona em que você quer criar VMs spot. O console Google Cloud filtra automaticamente as regiões disponíveis para mostrar apenas aquelas que oferecem suporte a VMs spot para o tipo de máquina selecionado.

    5. Clique em Concluído.

    6. Opcional: para criar outras configurações de recursos de computação para uma partição, clique em Adicionar configuração de recurso e siga as instruções para especificar os recursos de computação.

  8. Clique em Continuar.

Configurar a rede

Para configurar a rede usada pelo cluster, siga estas etapas:

  1. Na seção Escolha uma rede de nuvem privada virtual (VPC), faça uma das seguintes ações:

    • Recomendado: para permitir que o Hipercomputador de IA crie automaticamente uma rede VPC pré-configurada para seu cluster, faça o seguinte:

      1. Selecione Criar uma rede VPC.

      2. No campo Nome da rede, insira um nome para a rede VPC.

    • Para usar uma rede VPC ou VPC compartilhada, faça o seguinte:

      1. Selecione Usar uma rede VPC no projeto atual ou Usar uma rede VPC compartilhada hospedada em outro projeto.

      2. Na lista Selecionar rede VPC ou Rede VPC compartilhada, selecione uma rede VPC ou VPC compartilhada que atenda às configurações necessárias.

      3. Na lista Selecionar sub-rede, escolha uma sub-rede.

  2. Clique em Continuar.

Configurar recursos de armazenamento

Para configurar os recursos de armazenamento usados pelo cluster, na seção Armazenamento, siga estas etapas:

  1. Opcional: para editar um recurso de armazenamento, clique em Editar plano de armazenamento e siga as instruções para atualizar a configuração do recurso.

  2. Opcional: para adicionar recursos de armazenamento ao cluster, clique em Adicionar configuração de armazenamento e siga as instruções para especificar a configuração dos recursos de armazenamento.

  3. Clique em Continuar.

Configurar o ambiente do Slurm

Para configurar o ambiente do Slurm no cluster, siga estas etapas:

  1. Opcional: para editar o número e o tipo de instâncias de computação usadas pelo nó de login, expanda a seção Nó de login e siga as instruções para atualizar os recursos de computação.

  2. Opcional: para editar partições do cluster e organizar os recursos de computação, expanda a seção Partições e faça uma das seguintes ações:

    • Para adicionar uma partição, clique em Adicionar partição e faça o seguinte:

      1. No campo Nome da partição, insira um nome para a partição.

      2. Para editar um conjunto de nós, clique em Alternar conjunto de nós. Caso contrário, para adicionar um conjunto de nós, clique em Adicionar conjunto de nós.

      3. No campo Nome do conjunto de nós, insira um nome para o conjunto de nós.

      4. No campo Configuração de recursos, selecione uma configuração de recursos de computação que você criou nas etapas anteriores.

      5. Na lista Imagem de origem, selecione uma das imagens de SO compatíveis com o Hipercomputador de IA.

      6. No campo Contagem estática de nós, insira o número mínimo de instâncias de computação que precisam estar sempre em execução no cluster.

      7. No campo Contagem dinâmica de nós, insira o número máximo de instâncias de computação que o Hipercomputador de IA pode aumentar no cluster durante aumentos no tráfego.

      8. Na lista Tipo de disco de inicialização e no campo Tamanho do disco de inicialização, insira o tipo e o tamanho do disco de inicialização que as instâncias de computação vão usar.

      9. Clique em Concluído.

    • Para remover uma partição, clique em Excluir partição.

  3. Opcional: para adicionar scripts de prólogo ou epílogo ao seu ambiente do Slurm, faça o seguinte:

    1. Abra a seção Configurações avançadas de orquestração.

    2. Na seção Scripts, siga as instruções para adicionar scripts.

  4. Clique em Criar. A página Clusters é exibida. A criação do cluster pode levar algum tempo. O tempo de conclusão depende do número de instâncias de computação solicitadas e da disponibilidade de recursos na zona das instâncias. Se os recursos solicitados não estiverem disponíveis, o Hipercomputador de IA mantém a solicitação de criação até que os recursos fiquem disponíveis. Para conferir o status da operação de criação do cluster, veja os detalhes do cluster.

Conectar-se ao cluster do Slurm

Quando o Hipercomputador de IA cria seu nó de login, o estado do cluster muda para Pronto. Depois, é possível se conectar ao cluster. No entanto, só é possível executar workloads depois que o Hipercomputador de IA criar os nós de computação no cluster.

Para se conectar a um nó de login de um cluster por SSH usando o console doGoogle Cloud , siga estas etapas:

  1. No Google Cloud console, acesse a página Clusters.

    Acessar Clusters

  2. Na tabela Clusters, na coluna Name, clique no nome do cluster que você criou na seção anterior. Uma página com os detalhes do cluster vai aparecer, e a guia Detalhes será selecionada.

  3. Clique na guia Nós.

  4. Na seção Nós de login, na coluna Conectar, localize o nó de login do cluster, que tem o nome CLUSTER_NAME-login-001.

  5. Na coluna Conectar do nó de login, clique no botão SSH. A janela SSH no navegador será aberta.

  6. Se for solicitado, clique em Autorizar. A conexão com o nó pode levar até um minuto para ser concluída.

Verificar a integridade do cluster Slurm

Antes de executar um job em um nó de computação, o Slurm faz automaticamente uma verificação rápida de integridade da GPU no nó. Se o nó falhar na verificação, o Slurm vai drenar o nó e impedir a programação de novos jobs nele.

Para testar melhor a integridade da GPU e a largura de banda da rede nos nós de computação de uma partição de cluster, execute manualmente os testes da NVIDIA Collective Communications Library (NCCL). Se um teste do NCCL identificar nós não íntegros, será possível reparar os nós ou modificar o cluster. Os testes do NCCL ajudam a verificar a integridade de um cluster antes de executar cargas de trabalho críticas. Para mais informações, consulte Verificar a integridade do cluster.

Excluir o cluster do Slurm

Para excluir um cluster Slurm no seu projeto, selecione uma das seguintes opções:

  1. No Google Cloud console, acesse a página Clusters.

    Acessar Clusters

  2. Na tabela Clusters, na coluna Nome, clique no nome do cluster que você quer excluir. Uma página com os detalhes do cluster vai aparecer, e a guia Detalhes será selecionada.

  3. Clique em Excluir.

  4. Na caixa de diálogo exibida, insira o nome do cluster e clique em Excluir para confirmar. A página Clusters é exibida. A exclusão do cluster pode levar algum tempo.

A seguir