Criar um cluster do Slurm totalmente gerenciado com duas VMs A4
Este guia de início rápido explica como criar e se conectar a um cluster do Slurm usando o Cluster Director. O cluster criado usa duas instâncias de máquina virtual (VM) A4, projetadas para ajudar o cluster do Slurm a processar com eficiência cargas de trabalho de treinamento e inferência de modelos em grande escala.
O Cluster Director é um serviço gerenciado que simplifica e automatiza a implantação de clusters, reduzindo o overhead operacional e permitindo que você se concentre na execução da carga de trabalho. Se você quiser mais controle sobre a implantação e o gerenciamento do cluster, então crie um cluster do Slurm usando o Cluster Toolkit.
Para seguir as instruções detalhadas desta tarefa diretamente no Google Cloud console, clique em Orientação:
Antes de começar
- Faça login na sua Google Cloud conta do. Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Ative a API Hypercompute Cluster, a API Compute Engine, a API Filestore, a API Google Cloud Managed Lustre, a API Cloud Logging e a API Cloud Monitoring:
Ativar as APIs- Verifique se o projeto e a conta de serviço padrão do Compute Engine têm os seguintes papéis do Identity and Access Management (IAM):
-
Para conseguir as permissões necessárias a fim de concluir o guia de início rápido, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
-
Para criar e gerenciar um cluster:
Editor do Cluster Director (
roles/hypercomputecluster.editor) -
Para criar e gerenciar VMs em um cluster:
Administrador de instâncias do Compute (v1) (
roles/compute.instanceAdmin.v1) -
Para se conectar ao nó de login em um cluster:
-
Login do SO do Compute (
roles/compute.osLogin) -
Usuário do túnel protegido pelo IAP (
roles/iap.tunnelResourceAccessor)
-
Login do SO do Compute (
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando personalizados papéis ou outros predefinidos papéis.
-
Para criar e gerenciar um cluster:
Editor do Cluster Director (
-
Para conseguir as permissões necessárias a fim de concluir este guia de início rápido, peça ao administrador para conceder a você os seguintes papéis do IAM na conta de serviço padrão do Compute Engine:
-
Para criar um cluster:
Usuário da conta de serviço (
roles/iam.serviceAccountUser) -
Para gerenciar recursos em um cluster:
-
Gravador de registros (
roles/logging.logWriter) -
Gravador de métricas do Monitoring (
roles/monitoring.metricWriter) -
Leitor de objetos do Storage (
roles/storage.objectViewer)
-
Gravador de registros (
-
Para criar um cluster:
Usuário da conta de serviço (
-
- Se a organização em que seu projeto está inserido tiver uma política de imagem confiável
(
constraints/compute.trustedImageProjects), verifique se oclusterdirector-public-imagesprojeto está incluído na lista de projetos permitidos. Para conferir as políticas de imagem confiável da sua organização, consulte Definir restrições de acesso a imagens.
Custos
Neste guia de início rápido, usamos os seguintesrecursos faturáveis: Google Cloud
Compute Engine:
Duas VMs com tipos de máquina A4
Um volume de disco permanente para o nó de login do Slurm com 100 GB
Um volume do Hyperdisk Balanced do Google Cloud com 100 GB para as VMs A4
Filestore: uma instância do Filestore com 10 TiB (10.240 GiB)
Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
Criar um cluster do Slurm
Para criar um cluster do Slurm, siga estas etapas:
No Google Cloud console, acesse a página Cluster Director.
Clique em Criar um cluster.
Na caixa de diálogo exibida, clique em Configuração passo a passo. A página Criar cluster é exibida.
No campo Nome do cluster, insira
cluster001.Na seção Computação, clique em Configurar recursos. No painel Adicionar configuração de recurso que aparece, siga estas etapas:
Na lista Tipo de GPU, selecione NVIDIA B200 180GB.
No campo Número de instâncias, insira
2.Na seção Opções de consumo, selecione a opção de consumo que você quer usar para receber recursos.
Na seção Local , especifique a Região e a Zona em que você quer criar as VMs A4 ou onde a reserva que você quer usar para criar as VMs existe.
Clique em Concluído.
No menu de navegação, clique em Armazenamento.
Na seção Armazenamento, clique em Editar configuração de armazenamento. No painel Adicionar configuração de armazenamento que aparece, siga estas etapas:
Na seção Capacidade , selecione De 10 a 100 TiB, em incrementos de 2,5 TiB.
Clique em Concluído.
Clique em Criar. A página Clusters é exibida.
A criação do cluster pode levar algum tempo. O tempo de conclusão depende do número de VMs solicitadas e da disponibilidade de recursos na zona das VMs. Se os recursos solicitados não estiverem disponíveis, o Cluster Director vai manter a solicitação de criação até que eles fiquem disponíveis.
Ver a solicitação de criação de cluster
Para analisar a solicitação de criação de cluster, siga estas etapas:
Na tabela Clusters, na coluna Nome, clique em cluster001. Uma página com os detalhes do cluster aparece, e a guia Detalhes é selecionada.
Na seção Compute, localize a linha Status. Quando o Hipercomputador de IA definir o valor como Pronto, você poderá passar para a próxima seção.
Conectar-se ao cluster por SSH
Para se conectar ao cluster por SSH, siga estas etapas:
Clique na guia Nós.
Na tabela Nós de login, encontre a linha que contém o nó cluster001-login-001. Nessa linha, na coluna Conectar, clique no botão SSH. A janela SSH no navegador vai aparecer.
Se for solicitado, clique em Autorizar. A conexão com o cluster pode levar algum tempo. Quando o terminal estiver pronto, avance para a próxima seção.
Executar jobs de amostra
Na janela SSH no navegador, siga estas etapas:
Para verificar se o Slurm está em execução, execute o seguinte comando:
sinfoPara enviar um job de teste que retorna o nome do host do nó, execute o seguinte comando:
srun hostnamePara enviar um job em lote que fica inativo por 30 segundos, execute o seguinte comando:
sbatch --wrap="sleep 30"Para verificar o status dos jobs na fila, execute o seguinte comando:
squeuePara conferir os dados de faturamento dos jobs, execute o seguinte comando:
sacct
Você criou um cluster do Slurm, se conectou a ele e executou jobs de amostra. Se o Hipercomputador de IA ainda não tiver criado as VMs A4, aguarde a criação ou modifique o cluster para adicionar ou remover VMs ou exclua o cluster para evitar cobranças desnecessárias.
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.
Excluir o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto:
- No Google Cloud console, acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
- Na caixa de diálogo, digite o ID do projeto e clique em Desligar para excluir o projeto.
Excluir seu cluster
Para excluir o cluster e os recursos associados que você criou como parte deste guia de início rápido, siga estas etapas:
Na página que contém os detalhes do cluster, clique em Excluir.
Na caixa de diálogo exibida, insira
cluster001e clique em Excluir para confirmar.