Recursos de computación

Si te interesan los clústeres de entrenamiento de Vertex AI, ponte en contacto con tu representante de ventas para obtener acceso.

Los clústeres de entrenamiento de Vertex AI admiten varios tipos de máquinas para adaptarse a diferentes cargas de trabajo. Puedes elegir entre las siguientes opciones al configurar los grupos de nodos de tu clúster:

  • a4-highgpu-8g
  • a3-ultragpu-8g
  • a3-megagpu-8g
  • Familia de CPU n2

Aprovisionamiento de capacidad

Elegir el modelo de aprovisionamiento adecuado es fundamental para equilibrar el coste, la velocidad y la disponibilidad de recursos. Consulta las siguientes opciones de aprovisionamiento:

  • RESERVATION: asigna nodos de una reserva específica de Compute Engine que hayas creado previamente. Este modelo asegura la capacidad y es la opción recomendada para los recursos con mucha demanda.

  • FLEX_START: utiliza Dynamic Workload Scheduler para poner en cola tu trabajo. El trabajo empieza automáticamente en cuanto los recursos de computación solicitados están disponibles, lo que ofrece una hora de inicio flexible sin necesidad de hacer una reserva.

  • SPOT: aprovisiona el grupo de nodos con Spot VMs. Esta es la opción más rentable, pero solo se debe usar en cargas de trabajo tolerantes a fallos y que puedan gestionar interrupciones, ya que las VMs se pueden interrumpir en cualquier momento.

  • ON_DEMAND: esta es la opción predeterminada para los grupos de nodos solo de CPU y es la más adecuada para los tipos de máquinas que no son escasos. Proporciona instancias de VM estándar con precios predecibles de pago por uso.

Siga estas directrices para tomar una decisión:

  • Para recursos de GPU de alta demanda (como A3 y A4), se recomienda encarecidamente el modelo RESERVATION. De esta forma, tendrás acceso exclusivo a la capacidad que necesitas para las tareas de entrenamiento críticas.

  • Para cargas de trabajo flexibles o con picos: considera la opción FLEX_START o SPOT. FLEX_START pone tu trabajo en cola hasta que haya recursos disponibles, mientras que SPOT ofrece un ahorro de costes significativo para los trabajos tolerantes a fallos que pueden gestionar la expropiación.

  • Para tipos de máquinas abundantes: el modelo ON_DEMAND es la opción preferida. Úsalo con tipos de máquinas que no sean escasos y en los que la disponibilidad inmediata no sea un problema.

Usar una reserva compartida (opcional)

Si quieres usar una reserva compartida en lugar de una local, debes seguir algunos pasos adicionales antes de crear un clúster.

Antes de usar una reserva compartida con clústeres de entrenamiento de Vertex AI, asegúrate de que la reserva compartida funciona creando manualmente una VM que la use. Si se crea la máquina virtual, ve al paso siguiente. En la configuración de creación del clúster, usa el nombre de la reserva con el siguiente formato: projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME.

Siguientes pasos

Después de seleccionar las opciones de computación y aprovisionamiento de tu clúster de entrenamiento, puedes crear el clúster y ejecutar una carga de trabajo en él.

  • Crea una reserva de Compute Engine: el modelo RESERVATION se usa para asignar recursos de alta demanda, como las GPUs. Consulta cómo crear una reserva en Compute Engine para obtener acceso exclusivo a los recursos que necesites.
  • Crea tu clúster de entrenamiento: aplica las configuraciones que has aprendido siguiendo la guía paso a paso para crear tu primer clúster de entrenamiento persistente con la API de Vertex AI o gcloud.
  • Envía un trabajo de entrenamiento a tu clúster: una vez que el clúster esté activo, el siguiente paso es ejecutar una carga de trabajo. Envía un CustomJob que tenga como objetivo tu clúster persistente para ejecutarlo.
  • Adapta tu código para el entrenamiento distribuido: para aprovechar al máximo un clúster de varios nodos, adapta tu código de entrenamiento a un entorno distribuido.