Cette page explique comment exécuter un job d'entraînement sans serveur sur une ressource persistante à l'aide de Google Cloud CLI, du SDK Vertex AI pour Python et de l'API REST.
Normalement, lorsque vous créez un job d'entraînement sans serveur, vous devez spécifier les ressources de calcul que le job créée et sur lesquelles il s'exécute. Une fois que vous avez créé une ressource persistante, vous pouvez configurer le job d'entraînement sans serveur pour qu'il s'exécute sur un ou plusieurs pools de ressources de cette ressource persistante. L'exécution d'un job d'entraînement personnalisé sur une ressource persistante réduit de manière significative le temps de démarrage habituellement nécessaire à la création de la ressource de calcul.
Rôles requis
Pour obtenir l'autorisation dont vous avez besoin pour exécuter des jobs d'entraînement sans serveur sur une ressource persistante, demandez à votre administrateur de vous accorder le rôle IAM Utilisateur Vertex AI (roles/aiplatform.user) sur votre projet.
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Ce rôle prédéfini contient l'autorisation aiplatform.customJobs.create, qui est requise pour exécuter des jobs d'entraînement sans serveur sur une ressource persistante.
Vous pouvez également obtenir cette autorisation avec des rôles personnalisés ou d'autres rôles prédéfinis.
Créer un job d'entraînement qui s'exécute sur une ressource persistante
Pour créer un job d'entraînement sans serveur qui s'exécute sur une ressource persistante, apportez les modifications suivantes aux instructions standards de la section créer un job d'entraînement sans serveur :
gcloud
- Spécifiez le flag
--persistent-resource-id, puis définissez la valeur sur l'ID de la ressource persistante (PERSISTENT_RESOURCE_ID) que vous souhaitez utiliser. - Spécifiez le flag
--worker-pool-specde telle sorte que les valeurs pourmachine-typeetdisk-typecorrespondent exactement à un pool de ressources correspondant de la ressource persistante. Spécifiez un seul--worker-pool-specpour l'entraînement à nœud unique et plusieurs pour l'entraînement distribué. - Spécifiez un
replica-countinférieur ou égal aureplica-countou aumax-replica-countdu pool de ressources correspondant.
Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API Python.
REST
- Spécifiez le paramètre
persistent_resource_idet définissez la valeur sur l'ID de la ressource persistante (PERSISTENT_RESOURCE_ID) que vous souhaitez utiliser. - Spécifiez le paramètre
worker_pool_specsde telle sorte que les valeurs demachine_specetdisk_specpour chaque pool de ressources correspondent exactement à un pool de ressources correspondant de la ressource persistante. Spécifiez un seulmachine_specpour l'entraînement à nœud unique et plusieurs pour l'entraînement distribué. - Spécifiez un
replica_countinférieur ou égal aureplica_countou aumax_replica_countdu pool de ressources correspondant, à l'exclusion du nombre d'instances dupliquées exécutées sur ce pool de ressources.
Étape suivante
- En savoir plus sur les ressources persistantes
- Créer et utiliser une ressource persistante
- Obtenir des informations sur une ressource persistante
- Redémarrer une ressource persistante
- Supprimer une ressource persistante