Começar a usar os clusters de treinamento

Se você tiver interesse em clusters de treinamento da Gemini Enterprise Agent Platform, entre em contato com seu representante de vendas para ter acesso.

Antes de implantar seu primeiro cluster nos clusters de treinamento da plataforma de agentes do Gemini Enterprise, você precisa configurar seu Google Cloud projeto e ambiente. Este guia aborda todos os pré-requisitos necessários, que se enquadram em três categorias principais:

  • Acesso ao projeto: acesso ao serviço, que é apenas por convite.

  • Configuração de recursos: ativação de APIs e configuração da rede VPC e dos serviços de armazenamento necessários.

  • Permissões do usuário: concessão dos papéis do IAM necessários para o gerenciamento de clusters e o acesso a recursos.

Concluir essas etapas prepara seu projeto para uma implantação bem-sucedida.

Pré-requisitos

Para usar clusters de treinamento, você precisa:

  1. Colocar seu projeto na lista de permissões entrando em contato com seu representante de vendas para ter acesso.
  2. Adquirir capacidade para clusters de GPU em regiões compatíveis.
  3. Ativar as APIs necessárias, incluindo as APIs Compute Engine, Filestore, Cloud Storage, Managed Lustre (opcional), Hypercomputer Configuration Service, e Agent Platform.
  4. Configurar a rede garantindo que uma rede atual atenda a condições específicas (por exemplo, Acesso privado do Google, regras de firewall) ou criando uma nova rede VPC e sub-rede.
  5. Configurar o armazenamento criando uma instância zonal ou regional do Filestore para servir como diretório /home e, opcionalmente, configurar uma Google Cloud instância do Lustre gerenciada.
  6. Conceder permissões do IAM aos usuários para gerenciamento de clusters, acesso ao armazenamento e acesso SSH aos nós do cluster, conforme descrito na seção Permissões do IAM.

Regiões compatíveis

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1
  • asia-south2

Permissões do IAM

  1. Conceda o papel roles/aiplatform.admin aos usuários que vão gerenciar seus clusters de treinamento.
  2. Conceda o papel roles/aiplatform.viewer aos usuários que só precisam visualizar clusters e configurações.
  3. Conceda os seguintes papéis do IAM ao usuário ou à conta de serviço que vai gerenciar (criar, excluir e atualizar) clusters de treinamento gerenciados:

    Nome do papel Código do papel
    Administrador da instância do Compute (v1) roles/compute.instanceAdmin.v1
    Gravador de registros roles/logging.logWriter
    Gravador da métrica de monitoramento roles/monitoring.metricWriter
    Usuário da conta de serviço roles/iam.serviceAccountUser
    Administrador da rede de serviços roles/servicenetworking.networksAdmin
  4. Para permitir que os nós do cluster leiam e gravem em buckets do Cloud Storage usando o Google Cloud Storage FUSE, conceda o papel de Usuário de objetos do Storage (roles/storage.objectUser) à conta de serviço usada pelas VMs.

  5. Para acesso SSH aos nós de login do Slurm, conceda as seguintes permissões:

    Permissões Descrições Finalidade
    Login do SO do Compute Faça login em uma VM como um usuário padrão (não administrador). Se sudo for necessário, use o Login de administrador no SO do Compute. SSH para o nó de login implantado
    Usuário do túnel protegido pelo IAP Acesso a recursos de túnel que usam o Identity-Aware Proxy. SSH para o nó de login implantado

Ativar APIs

  1. Ative a API Google Compute Engine:

       gcloud services enable compute.googleapis.com
    
    
  2. Ative a rede de serviços, já que o Filestore precisa ser implantado antes da criação do cluster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Ative a API Storage do Cloud Storage:

        gcloud services enable storage.googleapis.com
    
  4. Ative a API Lustre (se estiver usando o Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. Ative a API HCS:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Ative a API Gemini Enterprise:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Ative a API Cloud Resource Manager:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

A seguir

Para um guia detalhado sobre como criar um cluster de treinamento e executar cargas de trabalho de IA/ML, entre em contato com seu representante de vendas.