En esta página se muestra cómo ejecutar una tarea de entrenamiento personalizada en un recurso persistente mediante la CLI de Google Cloud, el SDK de Vertex AI para Python y la API REST.
Normalmente, cuando crea una tarea de entrenamiento personalizada, debe especificar los recursos de computación que la tarea crea y en los que se ejecuta. Después de crear un recurso persistente, puedes configurar el trabajo de entrenamiento personalizado para que se ejecute en uno o varios grupos de recursos de ese recurso persistente. Si ejecutas un trabajo de entrenamiento personalizado en un recurso persistente, se reduce significativamente el tiempo de inicio del trabajo que, de lo contrario, se necesitaría para crear recursos de computación.
Roles obligatorios
Para obtener el permiso que necesitas para ejecutar trabajos de entrenamiento personalizados en un recurso persistente,
pide a tu administrador que te conceda el
rol de gestión de identidades y accesos Usuario de Vertex AI (roles/aiplatform.user)
en tu proyecto.
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
Este rol predefinido contiene el permiso aiplatform.customJobs.create
, que es necesario para ejecutar trabajos de entrenamiento personalizados en un recurso persistente.
También puedes obtener este permiso con roles personalizados u otros roles predefinidos.
Crear una tarea de entrenamiento que se ejecute en un recurso persistente
Para crear una tarea de entrenamiento personalizada que se ejecute en un recurso persistente, haz las siguientes modificaciones en las instrucciones estándar para crear una tarea de entrenamiento personalizada:
gcloud
- Especifica la marca
--persistent-resource-idy asigna el valor al ID del recurso persistente (PERSISTENT_RESOURCE_ID) que quieras usar. - Especifica la marca
--worker-pool-specde forma que los valores demachine-typeydisk-typecoincidan exactamente con un grupo de recursos correspondiente del recurso persistente. Especifica un--worker-pool-specpara el entrenamiento de un solo nodo y varios para el entrenamiento distribuido. - Especifica un
replica-countigual o inferior alreplica-counto almax-replica-countdel grupo de recursos correspondiente.
Python
Para saber cómo instalar o actualizar el SDK de Vertex AI para Python, consulta Instalar el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API Python.
REST
- Especifica el parámetro
persistent_resource_idy asigna el valor al ID del recurso persistente (PERSISTENT_RESOURCE_ID) que quieras usar. - Especifique el parámetro
worker_pool_specsde forma que los valores demachine_specydisk_specde cada grupo de recursos coincidan exactamente con un grupo de recursos correspondiente del recurso persistente. Especifica unmachine_specpara el entrenamiento de un solo nodo y varios para el entrenamiento distribuido. - Especifica un valor de
replica_countinferior o igual alreplica_counto almax_replica_countdel grupo de recursos correspondiente, sin incluir el número de réplicas de ningún otro trabajo que se esté ejecutando en ese grupo de recursos.
Siguientes pasos
- Consulta información sobre los recursos persistentes.
- Crea y usa un recurso persistente.
- Obtener información sobre un recurso persistente.
- Reiniciar un recurso persistente.
- Eliminar un recurso persistente.