Questa pagina mostra come eseguire un job di addestramento serverless su una risorsa permanente utilizzando la Google Cloud CLI, l'SDK Vertex AI Python e l'API REST.
In genere, quando crei un job di addestramento serverless, devi specificare le risorse di calcolo su cui il job viene creato ed eseguito. Dopo aver creato una risorsa permanente, puoi invece configurare il job di addestramento serverless in modo che venga eseguito su uno o più pool di risorse di quella risorsa permanente. L'esecuzione di un job di addestramento personalizzato su una risorsa permanente riduce significativamente il tempo di avvio del job altrimenti necessario per la creazione delle risorse di calcolo.
Ruoli obbligatori
Per ottenere l'autorizzazione necessaria per eseguire job di addestramento serverless su una risorsa permanente, chiedi all'amministratore di concederti il ruolo IAM Utente della piattaforma agente (roles/aiplatform.user) nel progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questo ruolo predefinito contiene l'
aiplatform.customJobs.create
autorizzazione,
necessaria per
eseguire job di addestramento serverless su una risorsa permanente.
Potresti anche ottenere questa autorizzazione con ruoli personalizzati o altri ruoli predefiniti.
Creare un job di addestramento eseguito su una risorsa permanente
Per creare un job di addestramento serverless eseguito su una risorsa permanente, apporta le seguenti modifiche alle istruzioni standard per la creazione di un job di addestramento serverless:
gcloud
- Specifica il flag
--persistent-resource-ide imposta il valore sull'ID della risorsa permanente (PERSISTENT_RESOURCE_ID) che vuoi utilizzare. - Specifica il
--worker-pool-specflag in modo che i valori dimachine-typeedisk-typecorrispondano esattamente a un pool di risorse corrispondente della risorsa permanente. Specifica un--worker-pool-specper l'addestramento con un singolo nodo e più per l'addestramento distribuito. - Specifica un
replica-countminore o uguale areplica-countomax-replica-countdel pool di risorse corrispondente.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
REST
- Specifica il parametro
persistent_resource_ide imposta il valore sull'ID della risorsa permanente (PERSISTENT_RESOURCE_ID) che vuoi utilizzare. - Specifica il parametro
worker_pool_specsin modo che i valori dimachine_specedisk_specper ogni pool di risorse corrispondano esattamente a un pool di risorse corrispondente della risorsa permanente. Specifica unmachine_specper l'addestramento con un singolo nodo e più per l'addestramento distribuito. - Specifica un
replica_countminore o uguale areplica_countomax_replica_countdel pool di risorse corrispondente, escluso il conteggio delle repliche di eventuali altri job in esecuzione su quel pool di risorse.
Passaggi successivi
- Scopri di più sulla risorsa permanente.
- Crea e utilizza una risorsa permanente.
- Recupera informazioni su una risorsa permanente.
- Riavvia una risorsa permanente.
- Elimina una risorsa permanente.