Comece a usar clusters de treinamento

Se você tiver interesse em clusters de treinamento da Vertex AI, entre em contato com seu representante de vendas para ter acesso.

Antes de implantar seu primeiro cluster nos clusters de treinamento da Vertex AI, configure seu projeto e ambiente doGoogle Cloud . Este guia aborda todos os pré-requisitos necessários, que se enquadram em três categorias principais:

  • Acesso ao projeto: acesso ao serviço, que é feito apenas por convite.

  • Configuração de recursos: ativação de APIs e configuração da rede VPC e dos serviços de armazenamento necessários.

  • Permissões do usuário: conceder os papéis necessários do IAM para gerenciamento de cluster e acesso a recursos.

Concluir essas etapas prepara seu projeto para uma implantação bem-sucedida.

Pré-requisitos

Para usar clusters de treinamento, você precisa:

  1. Coloque seu projeto na lista de permissões entrando em contato com seu representante de vendas para ter acesso.
  2. Obtenha capacidade para clusters de GPU em regiões compatíveis.
  3. Ative as APIs necessárias, incluindo Compute Engine, Filestore, Cloud Storage, Managed Lustre (opcional), Hypercomputer Configuration Service e APIs Vertex AI.
  4. Configure a rede garantindo que uma rede atual atenda a condições específicas (por exemplo, acesso privado do Google, regras de firewall) ou criando uma nova rede e sub-rede VPC.
  5. Configure o armazenamento criando uma instância zonal ou regional do Filestore para servir como o diretório /home e, opcionalmente, configure uma Google Cloud instância gerenciada do Lustre.
  6. Conceda permissões do IAM aos usuários para gerenciamento de cluster, acesso ao armazenamento e acesso SSH aos nós do cluster, conforme descrito na seção Permissões do IAM.

Regiões compatíveis

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

Permissões do IAM

  1. Conceda a função roles/aiplatform.admin aos usuários que vão gerenciar seus clusters de treinamento.
  2. Conceda a função roles/aiplatform.viewer aos usuários que só precisam visualizar clusters e as configurações deles.
  3. Conceda os seguintes papéis do IAM ao usuário ou à conta de serviço que vai gerenciar (criar, excluir e atualizar) clusters de treinamento gerenciado:

    Nome do papel Código do papel
    administrador de instâncias do Compute (v1) roles/compute.instanceAdmin.v1
    Gravador de registros roles/logging.logWriter
    Gravador da métrica de monitoramento roles/monitoring.metricWriter
    Usuário da conta de serviço roles/iam.serviceAccountUser
    Administrador da rede de serviços roles/servicenetworking.networksAdmin
  4. Para permitir que os nós do cluster leiam e gravem em buckets do Cloud Storage usando o Google Cloud Storage FUSE, conceda o papel de usuário do objeto de armazenamento (roles/storage.objectUser) à conta de serviço usada pelas VMs.

  5. Para acesso SSH aos nós de login do Slurm, conceda as seguintes permissões:

    Permissões Descrições Finalidade
    Login do SO do Compute Faça login em uma VM como um usuário padrão (não administrador). Se sudo for necessário, use o login de administrador do SO do Compute. SSH para o nó de login implantado
    Usuário do túnel protegido pelo IAP Acesso a recursos de túnel que usam o Identity-Aware Proxy. SSH para o nó de login implantado

Ativar APIs

  1. Ative a API Google Compute Engine:

       gcloud services enable compute.googleapis.com
    
    
  2. Ative a rede de serviços, já que o Filestore precisa ser implantado antes da criação do cluster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Ative a API Cloud Storage:

        gcloud services enable storage.googleapis.com
    
  4. Ative a API Lustre (se estiver usando o Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. Ative a API HCS:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Ative a API Vertex AI:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Ative a API Cloud Resource Manager:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

A seguir

Para um guia detalhado sobre como criar um cluster de treinamento e executar suas cargas de trabalho de IA/ML, entre em contato com seu representante de vendas.