Nesta página, mostramos como executar um job de treinamento sem servidor em um recurso permanente usando a Google Cloud CLI, o SDK da Vertex AI para Python e a API REST.
Normalmente, ao criar um job de treinamento sem servidor, você precisa especificar os recursos de computação que ele vai criar e executar. Depois de criar um recurso permanente, configure o trainingjob sem servidor para ser executado em um ou mais pools de recursos desse recurso permanente. A execução de um job de treinamento personalizado em um recurso persistente reduz muito o tempo de inicialização do job necessário para a criação do recurso de computação.
Funções exigidas
Para receber a permissão necessária
para executar jobs de treinamento sem servidor em um recurso permanente,
peça ao administrador para conceder a você o
papel do IAM de Usuário da Vertex AI (roles/aiplatform.user)
no projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esse papel predefinido contém a
permissão
aiplatform.customJobs.create,
que é necessária para
executar trainingjobs sem servidor em um recurso permanente.
Também é possível receber essa permissão com papéis personalizados ou outros papéis predefinidos.
Criar um job de treinamento que seja executado em um recurso permanente
Para criar um job de treinamento sem servidor que seja executado em um recurso permanente, faça as modificações a seguir nas instruções padrão de criação de um job de treinamento sem servidor:
gcloud
- Especifique a sinalização
--persistent-resource-ide defina o valor como o ID do recurso permanente (PERSISTENT_RESOURCE_ID) que você quer usar. - Especifique a sinalização
--worker-pool-specpara que os valores demachine-typeedisk-typecorrespondam exatamente a um pool de recursos correspondente do recurso persistente. Especifique um--worker-pool-specpara treinamento de nó único e vários para treinamento distribuído. - Especifique um
replica-countmenor ou igual aoreplica-countoumax-replica-countdo pool de recursos correspondente.
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
REST
- Especifique o parâmetro
persistent_resource_ide defina o valor como o ID do recurso permanente (PERSISTENT_RESOURCE_ID) que você quer usar. - Especifique o parâmetro
worker_pool_specspara que os valores demachine_specedisk_specpara cada pool de recursos correspondam exatamente a um pool de recursos correspondente do recurso permanente. Especifique ummachine_specpara treinamento de nó único e vários para treinamento distribuído. - Especifique um
replica_countmenor ou igual aoreplica_countoumax_replica_countdo pool de recursos correspondente, excluindo a contagem de réplicas de outros jobs em execução nesse pool de recursos.
A seguir
- Saiba mais sobre recursos persistentes.
- Crie e use um recurso permanente.
- Receba informações sobre um recurso persistente.
- Reinicialize um recurso persistente.
- Exclua um recurso persistente.