Antes de implantar seu primeiro cluster nos clusters de treinamento da Vertex AI, é necessário configurar seu Google Cloud projeto e ambiente. Este guia aborda todos os pré-requisitos necessários, que se enquadram em três categorias principais:
Acesso ao projeto: acesso ao serviço, que é apenas por convite.
Configuração de recursos: ativação de APIs e configuração da rede VPC e dos serviços de armazenamento necessários.
Permissões do usuário: concessão dos papéis necessários do IAM para gerenciamento de clusters e acesso a recursos.
Concluir essas etapas prepara seu projeto para uma implantação bem-sucedida.
Pré-requisitos
Para usar clusters de treinamento, é necessário:
- Colocar seu projeto na lista de permissões entrando em contato com seu representante de vendas para ter acesso.
- Receber capacidade para clusters de GPU em regiões compatíveis.
- Ativar as APIs necessárias, incluindo as APIs Compute Engine, Filestore, Cloud Storage, Managed Lustre (opcional), Hypercomputer Configuration Service, e Vertex AI.
- Configurar a rede garantindo que uma rede atual atenda a condições específicas (por exemplo, Acesso privado do Google, regras de firewall) ou criando uma nova rede VPC e sub-rede.
- Configurar o armazenamento criando uma instância zonal ou regional do Filestore
para servir como diretório
/homee, opcionalmente, configurar uma Google Cloud instância do Managed Lustre. - Conceder permissões do IAM aos usuários para gerenciamento de clusters, acesso ao armazenamento e acesso SSH aos nós do cluster, conforme descrito na seção Permissões do IAM.
Regiões compatíveis
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
Permissões do IAM
- Conceda o papel
roles/aiplatform.adminaos usuários que vão gerenciar seus clusters de treinamento. - Conceda o papel
roles/aiplatform.vieweraos usuários que só precisam visualizar clusters e configurações. Conceda os seguintes papéis do IAM ao usuário ou à conta de serviço que vai gerenciar (criar, excluir e atualizar) clusters de treinamento gerenciados:
Nome do papel Código do papel Administrador da instância do Compute (v1) roles/compute.instanceAdmin.v1Gravador de registros roles/logging.logWriterGravador da métrica de monitoramento roles/monitoring.metricWriterUsuário da conta de serviço roles/iam.serviceAccountUserAdministrador da rede de serviços roles/servicenetworking.networksAdminPara permitir que os nós do cluster leiam e gravem em buckets do Cloud Storage usando o Cloud Storage FUSE, conceda o papel de Usuário do objeto de armazenamento (
roles/storage.objectUser) à conta de serviço usada pelas VMs.Para acesso SSH aos nós de login do Slurm, conceda as seguintes permissões:
Permissões Descrições Finalidade Login do SO do Compute Faça login em uma VM como um usuário padrão (não administrador). Se sudofor necessário, use o Login de administrador no SO do Compute.SSH para o nó de login implantado Usuário do túnel protegido pelo IAP Acesso a recursos de túnel que usam o Identity-Aware Proxy. SSH para o nó de login implantado
Ativar APIs
Ative a API Compute Engine:
gcloud services enable compute.googleapis.comAtive a rede de serviços, já que o Filestore precisa ser implantado antes da criação do cluster.
gcloud services enable servicenetworking.googleapis.comAtive a API Storage do Cloud Storage:
gcloud services enable storage.googleapis.comAtive a API Lustre (se estiver usando o Lustre):
gcloud services enable lustre.googleapis.comAtive a API HCS:
gcloud services enable hypercomputecluster.googleapis.comAtive a API Vertex AI:
gcloud services enable aiplatform.googleapis.comAtive a API Resource Manager:
gcloud services enable cloudresourcemanager.googleapis.com
A seguir
Para um guia detalhado sobre como criar um cluster de treinamento e executar cargas de trabalho de IA/ML, entre em contato com seu representante de vendas.