Comece a usar clusters de treinamento

Se você tiver interesse em clusters de treinamento da Vertex AI, entre em contato com seu representante de vendas para ter acesso.

Antes de implantar seu primeiro cluster nos clusters de treinamento da Vertex AI, é necessário configurar seu Google Cloud projeto e ambiente. Este guia aborda todos os pré-requisitos necessários, que se enquadram em três categorias principais:

  • Acesso ao projeto: acesso ao serviço, que é apenas por convite.

  • Configuração de recursos: ativação de APIs e configuração da rede VPC e dos serviços de armazenamento necessários.

  • Permissões do usuário: concessão dos papéis necessários do IAM para gerenciamento de clusters e acesso a recursos.

Concluir essas etapas prepara seu projeto para uma implantação bem-sucedida.

Pré-requisitos

Para usar clusters de treinamento, é necessário:

  1. Colocar seu projeto na lista de permissões entrando em contato com seu representante de vendas para ter acesso.
  2. Receber capacidade para clusters de GPU em regiões compatíveis.
  3. Ativar as APIs necessárias, incluindo as APIs Compute Engine, Filestore, Cloud Storage, Managed Lustre (opcional), Hypercomputer Configuration Service, e Vertex AI.
  4. Configurar a rede garantindo que uma rede atual atenda a condições específicas (por exemplo, Acesso privado do Google, regras de firewall) ou criando uma nova rede VPC e sub-rede.
  5. Configurar o armazenamento criando uma instância zonal ou regional do Filestore para servir como diretório /home e, opcionalmente, configurar uma Google Cloud instância do Managed Lustre.
  6. Conceder permissões do IAM aos usuários para gerenciamento de clusters, acesso ao armazenamento e acesso SSH aos nós do cluster, conforme descrito na seção Permissões do IAM.

Regiões compatíveis

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

Permissões do IAM

  1. Conceda o papel roles/aiplatform.admin aos usuários que vão gerenciar seus clusters de treinamento.
  2. Conceda o papel roles/aiplatform.viewer aos usuários que só precisam visualizar clusters e configurações.
  3. Conceda os seguintes papéis do IAM ao usuário ou à conta de serviço que vai gerenciar (criar, excluir e atualizar) clusters de treinamento gerenciados:

    Nome do papel Código do papel
    Administrador da instância do Compute (v1) roles/compute.instanceAdmin.v1
    Gravador de registros roles/logging.logWriter
    Gravador da métrica de monitoramento roles/monitoring.metricWriter
    Usuário da conta de serviço roles/iam.serviceAccountUser
    Administrador da rede de serviços roles/servicenetworking.networksAdmin
  4. Para permitir que os nós do cluster leiam e gravem em buckets do Cloud Storage usando o Cloud Storage FUSE, conceda o papel de Usuário do objeto de armazenamento (roles/storage.objectUser) à conta de serviço usada pelas VMs.

  5. Para acesso SSH aos nós de login do Slurm, conceda as seguintes permissões:

    Permissões Descrições Finalidade
    Login do SO do Compute Faça login em uma VM como um usuário padrão (não administrador). Se sudo for necessário, use o Login de administrador no SO do Compute. SSH para o nó de login implantado
    Usuário do túnel protegido pelo IAP Acesso a recursos de túnel que usam o Identity-Aware Proxy. SSH para o nó de login implantado

Ativar APIs

  1. Ative a API Compute Engine:

       gcloud services enable compute.googleapis.com
    
    
  2. Ative a rede de serviços, já que o Filestore precisa ser implantado antes da criação do cluster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Ative a API Storage do Cloud Storage:

        gcloud services enable storage.googleapis.com
    
  4. Ative a API Lustre (se estiver usando o Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. Ative a API HCS:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Ative a API Vertex AI:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Ative a API Resource Manager:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

A seguir

Para um guia detalhado sobre como criar um cluster de treinamento e executar cargas de trabalho de IA/ML, entre em contato com seu representante de vendas.