Antes de implantar seu primeiro cluster nos clusters de treinamento da Vertex AI, configure seu projeto e ambiente doGoogle Cloud . Este guia aborda todos os pré-requisitos necessários, que se enquadram em três categorias principais:
Acesso ao projeto: acesso ao serviço, que é feito apenas por convite.
Configuração de recursos: ativação de APIs e configuração da rede VPC e dos serviços de armazenamento necessários.
Permissões do usuário: conceder os papéis necessários do IAM para gerenciamento de cluster e acesso a recursos.
Concluir essas etapas prepara seu projeto para uma implantação bem-sucedida.
Pré-requisitos
Para usar clusters de treinamento, você precisa:
- Coloque seu projeto na lista de permissões entrando em contato com seu representante de vendas para ter acesso.
- Obtenha capacidade para clusters de GPU em regiões compatíveis.
- Ative as APIs necessárias, incluindo Compute Engine, Filestore, Cloud Storage, Managed Lustre (opcional), Hypercomputer Configuration Service e APIs Vertex AI.
- Configure a rede garantindo que uma rede atual atenda a condições específicas (por exemplo, acesso privado do Google, regras de firewall) ou criando uma nova rede e sub-rede VPC.
- Configure o armazenamento criando uma instância zonal ou regional do Filestore para servir como o diretório
/homee, opcionalmente, configure uma Google Cloud instância gerenciada do Lustre. - Conceda permissões do IAM aos usuários para gerenciamento de cluster, acesso ao armazenamento e acesso SSH aos nós do cluster, conforme descrito na seção Permissões do IAM.
Regiões compatíveis
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
Permissões do IAM
- Conceda a função
roles/aiplatform.adminaos usuários que vão gerenciar seus clusters de treinamento. - Conceda a função
roles/aiplatform.vieweraos usuários que só precisam visualizar clusters e as configurações deles. Conceda os seguintes papéis do IAM ao usuário ou à conta de serviço que vai gerenciar (criar, excluir e atualizar) clusters de treinamento gerenciado:
Nome do papel Código do papel administrador de instâncias do Compute (v1) roles/compute.instanceAdmin.v1Gravador de registros roles/logging.logWriterGravador da métrica de monitoramento roles/monitoring.metricWriterUsuário da conta de serviço roles/iam.serviceAccountUserAdministrador da rede de serviços roles/servicenetworking.networksAdminPara permitir que os nós do cluster leiam e gravem em buckets do Cloud Storage usando o Google Cloud Storage FUSE, conceda o papel de usuário do objeto de armazenamento (
roles/storage.objectUser) à conta de serviço usada pelas VMs.Para acesso SSH aos nós de login do Slurm, conceda as seguintes permissões:
Permissões Descrições Finalidade Login do SO do Compute Faça login em uma VM como um usuário padrão (não administrador). Se sudofor necessário, use o login de administrador do SO do Compute.SSH para o nó de login implantado Usuário do túnel protegido pelo IAP Acesso a recursos de túnel que usam o Identity-Aware Proxy. SSH para o nó de login implantado
Ativar APIs
Ative a API Google Compute Engine:
gcloud services enable compute.googleapis.comAtive a rede de serviços, já que o Filestore precisa ser implantado antes da criação do cluster.
gcloud services enable servicenetworking.googleapis.comAtive a API Cloud Storage:
gcloud services enable storage.googleapis.comAtive a API Lustre (se estiver usando o Lustre):
gcloud services enable lustre.googleapis.comAtive a API HCS:
gcloud services enable hypercomputecluster.googleapis.comAtive a API Vertex AI:
gcloud services enable aiplatform.googleapis.comAtive a API Cloud Resource Manager:
gcloud services enable cloudresourcemanager.googleapis.com
A seguir
Para um guia detalhado sobre como criar um cluster de treinamento e executar suas cargas de trabalho de IA/ML, entre em contato com seu representante de vendas.