Criar um cluster do Slurm totalmente gerenciado com duas VMs A4

Este guia de início rápido explica como criar e se conectar a um cluster do Slurm usando o Cluster Director. O cluster criado usa duas instâncias de máquina virtual (VM) A4, projetadas para ajudar o cluster do Slurm a processar com eficiência cargas de trabalho de treinamento e inferência de modelos em grande escala.

O Cluster Director é um serviço gerenciado que simplifica e automatiza a implantação de clusters, reduzindo o overhead operacional e permitindo que você se concentre na execução da carga de trabalho. Se você quiser mais controle sobre a implantação e o gerenciamento do cluster, então crie um cluster do Slurm usando o Cluster Toolkit.


Para seguir as instruções detalhadas desta tarefa diretamente no Google Cloud console, clique em Orientação:

Orientações


Antes de começar

  1. Faça login na sua Google Cloud conta do. Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Ative a API Hypercompute Cluster, a API Compute Engine, a API Filestore, a API Google Cloud Managed Lustre, a API Cloud Logging e a API Cloud Monitoring:

    Ativar as APIs
  7. Verifique se o projeto e a conta de serviço padrão do Compute Engine têm os seguintes papéis do Identity and Access Management (IAM):
  8. Se a organização em que seu projeto está inserido tiver uma política de imagem confiável (constraints/compute.trustedImageProjects), verifique se o clusterdirector-public-images projeto está incluído na lista de projetos permitidos. Para conferir as políticas de imagem confiável da sua organização, consulte Definir restrições de acesso a imagens.

Custos

Neste guia de início rápido, usamos os seguintesrecursos faturáveis: Google Cloud

  • Compute Engine:

    • Duas VMs com tipos de máquina A4

    • Um volume de disco permanente para o nó de login do Slurm com 100 GB

    • Um volume do Hyperdisk Balanced do Google Cloud com 100 GB para as VMs A4

  • Filestore: uma instância do Filestore com 10 TiB (10.240 GiB)

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.

Criar um cluster do Slurm

Para criar um cluster do Slurm, siga estas etapas:

  1. No Google Cloud console, acesse a página Cluster Director.

    Acessar o Cluster Director

  2. Clique em Criar um cluster.

  3. Na caixa de diálogo exibida, clique em Configuração passo a passo. A página Criar cluster é exibida.

  4. No campo Nome do cluster, insira cluster001.

  5. Na seção Computação, clique em Configurar recursos. No painel Adicionar configuração de recurso que aparece, siga estas etapas:

    1. Na lista Tipo de GPU, selecione NVIDIA B200 180GB.

    2. No campo Número de instâncias, insira 2.

    3. Na seção Opções de consumo, selecione a opção de consumo que você quer usar para receber recursos.

    4. Na seção Local , especifique a Região e a Zona em que você quer criar as VMs A4 ou onde a reserva que você quer usar para criar as VMs existe.

    5. Clique em Concluído.

  6. No menu de navegação, clique em Armazenamento.

  7. Na seção Armazenamento, clique em Editar configuração de armazenamento. No painel Adicionar configuração de armazenamento que aparece, siga estas etapas:

    1. Na seção Capacidade , selecione De 10 a 100 TiB, em incrementos de 2,5 TiB.

    2. Clique em Concluído.

  8. Clique em Criar. A página Clusters é exibida.

    A criação do cluster pode levar algum tempo. O tempo de conclusão depende do número de VMs solicitadas e da disponibilidade de recursos na zona das VMs. Se os recursos solicitados não estiverem disponíveis, o Cluster Director vai manter a solicitação de criação até que eles fiquem disponíveis.

Ver a solicitação de criação de cluster

Para analisar a solicitação de criação de cluster, siga estas etapas:

  1. Na tabela Clusters, na coluna Nome, clique em cluster001. Uma página com os detalhes do cluster aparece, e a guia Detalhes é selecionada.

  2. Na seção Compute, localize a linha Status. Quando o Hipercomputador de IA definir o valor como Pronto, você poderá passar para a próxima seção.

Conectar-se ao cluster por SSH

Para se conectar ao cluster por SSH, siga estas etapas:

  1. Clique na guia Nós.

  2. Na tabela Nós de login, encontre a linha que contém o nó cluster001-login-001. Nessa linha, na coluna Conectar, clique no botão SSH. A janela SSH no navegador vai aparecer.

  3. Se for solicitado, clique em Autorizar. A conexão com o cluster pode levar algum tempo. Quando o terminal estiver pronto, avance para a próxima seção.

Executar jobs de amostra

Na janela SSH no navegador, siga estas etapas:

  1. Para verificar se o Slurm está em execução, execute o seguinte comando:

    sinfo
    
  2. Para enviar um job de teste que retorna o nome do host do nó, execute o seguinte comando:

    srun hostname
    
  3. Para enviar um job em lote que fica inativo por 30 segundos, execute o seguinte comando:

    sbatch --wrap="sleep 30"
    
  4. Para verificar o status dos jobs na fila, execute o seguinte comando:

    squeue
    
  5. Para conferir os dados de faturamento dos jobs, execute o seguinte comando:

    sacct
    

Você criou um cluster do Slurm, se conectou a ele e executou jobs de amostra. Se o Hipercomputador de IA ainda não tiver criado as VMs A4, aguarde a criação ou modifique o cluster para adicionar ou remover VMs ou exclua o cluster para evitar cobranças desnecessárias.

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Google Cloud console, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
  3. Na caixa de diálogo, digite o ID do projeto e clique em Desligar para excluir o projeto.

Excluir seu cluster

Para excluir o cluster e os recursos associados que você criou como parte deste guia de início rápido, siga estas etapas:

  1. Na página que contém os detalhes do cluster, clique em Excluir.

  2. Na caixa de diálogo exibida, insira cluster001 e clique em Excluir para confirmar.

A seguir