Solicitar máquinas virtuales Flex-start de TPU

Las máquinas virtuales de inicio flexible de TPU, que usan Dynamic Workload Scheduler, ofrecen una forma flexible y rentable de acceder a recursos de TPU para cargas de trabajo de IA. Las VMs de inicio flexible te permiten aprovisionar TPUs de forma dinámica según sea necesario, durante un máximo de 7 días, sin reservas a largo plazo ni gestión de cuotas compleja. Con las VMs de inicio flexible de TPU, envías una solicitud de aprovisionamiento de TPU que se mantiene hasta que haya capacidad disponible. Cuando estén disponibles, las VMs de TPU se ejecutarán durante el periodo que hayas especificado en tu solicitud.

Las máquinas virtuales de TPU de inicio flexible son adecuadas para realizar experimentos rápidos, pruebas a pequeña escala, aprovisionamiento dinámico de TPUs para cargas de trabajo de inferencia, ajuste de modelos y ejecuciones de cargas de trabajo que duren menos de 7 días. Para obtener más información sobre otras opciones de consumo de TPU, consulta las opciones de consumo de TPU de Cloud.

Puedes eliminar tus recursos de TPU en cualquier momento para dejar de recibir facturas. Para obtener más información sobre los precios de las TPU, consulta la página Precios de las TPU de Cloud.

Limitaciones

Las VMs Flex-start de TPU tienen las siguientes limitaciones:

  • Puedes solicitar VMs de TPU Flex-start durante un máximo de 7 días.
  • Puedes solicitar las siguientes versiones y zonas de TPU de Cloud:
  • Debes usar la API de recursos en cola para usar las VMs de TPU Flex-start.

Antes de empezar

Antes de solicitar VMs con TPU de inicio flexible, debes hacer lo siguiente:

  • Instalar Google Cloud CLI
  • Crea un Google Cloud proyecto
  • Habilitar la API de Cloud TPU

Para obtener más información, consulta Configurar el entorno de Cloud TPU.

También debes asegurarte de que tienes suficiente cuota de máquinas virtuales interrumpibles para usar las máquinas virtuales de inicio flexible de TPU. Si necesitas más núcleos de TPU que la cantidad que te concede la cuota predeterminada, debes solicitar una asignación de cuota superior. Para obtener más información sobre los valores predeterminados y cómo solicitar más cuota, consulta Cuotas de Cloud TPU.

Solicitar máquinas virtuales Flex-start de TPU

Las VMs de TPU de inicio flexible usan la API de recursos en cola para solicitar recursos de TPU de forma ordenada. Cuando el recurso solicitado esté disponible, se asignará a tu Google Cloud proyecto para que lo uses de forma inmediata y exclusiva. Una vez transcurrido el tiempo de ejecución solicitado, las VMs de TPU se eliminan y el recurso en cola pasa al estado SUSPENDED. Para obtener más información sobre los recursos en cola, consulta Gestionar recursos en cola.

Para solicitar máquinas virtuales de TPU Flex-start, usa el comando gcloud alpha compute tpus queued-resources create con la marca --provisioning-model definida como flex-start y la marca --max-run-duration definida como la duración que quieras que se ejecuten tus TPUs.

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
    --zone=ZONE \
    --accelerator-type=ACCELERATOR_TYPE \
    --runtime-version=RUNTIME_VERSION \
    --node-id=NODE_ID \
    --provisioning-model=flex-start \
    --max-run-duration=RUN_DURATION

Sustituye los siguientes marcadores de posición:

  • QUEUED_RESOURCE_ID: ID asignado por el usuario para la solicitud de recurso en cola.
  • ZONE: la zona en la que se creará la VM de TPU.
  • ACCELERATOR_TYPE: especifica la versión y el tamaño de la TPU de Cloud que se va a crear. Para obtener más información sobre los tipos de aceleradores admitidos para cada versión de TPU, consulta Versiones de TPU.
  • RUNTIME_VERSION: la versión de software de la TPU de Cloud.
  • NODE_ID: ID asignado por el usuario de la TPU que se crea cuando se asigna la solicitud de recurso en cola.
  • RUN_DURATION: cuánto tiempo deben ejecutarse las TPUs. Formatea la duración como el número de días, horas, minutos y segundos seguido de d, h, m y s, respectivamente. Por ejemplo, especifica 72h para una duración de 72 horas o 1d2h3m4s para una duración de 1 día, 2 horas, 3 minutos y 4 segundos. La frecuencia máxima es de 7 días.

Puedes personalizar aún más tu solicitud de recursos en cola para que se ejecute en momentos específicos con marcas adicionales:

  • --valid-after-duration: la duración antes de la cual no se debe aprovisionar la TPU.
  • --valid-after-time: la hora antes de la cual no se debe aprovisionar la TPU.
  • --valid-until-duration: la duración durante la que es válida la solicitud. Si la solicitud no se ha completado en ese tiempo, caducará y pasará al estado FAILED.
  • --valid-until-time: el periodo durante el que es válida la solicitud. Si la solicitud no se ha completado para entonces, caducará y pasará al estado FAILED.

Para obtener más información sobre las marcas opcionales, consulta la documentación de gcloud alpha compute tpus queued-resources create.

Obtener el estado de una solicitud de VMs Flex-start de TPU

Para monitorizar el estado de tu solicitud de máquinas virtuales TPU Flex-start, usa la API de recursos en cola para obtener el estado de la solicitud de recursos en cola mediante el comando gcloud alpha compute tpus queued-resources describe:

gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \
    --zone ZONE

Un recurso en cola puede tener uno de los siguientes estados:

  • WAITING_FOR_RESOURCES: la solicitud ha superado la validación inicial y se ha añadido a la cola.
  • PROVISIONING: la solicitud se ha seleccionado de la cola y se están creando las VMs de TPU.
  • ACTIVE: se ha completado la solicitud y las VMs de TPU están listas.
  • FAILED: No se ha podido completar la solicitud. Usa el comando describe para obtener más información.
  • SUSPENDING: Se están eliminando los recursos asociados a la solicitud.
  • SUSPENDED: Se han eliminado los recursos asociados a la solicitud.

Para obtener más información, consulta Recuperar información de estado y de diagnóstico sobre una solicitud de recurso en cola.

Monitorizar el tiempo de ejecución de las máquinas virtuales de TPU Flex-start

Puedes monitorizar el tiempo de ejecución de las VMs de inicio flexible de TPU consultando la marca de tiempo de finalización de la TPU:

  1. Consulta los detalles de tu solicitud de recursos en cola.
  2. Elige una de las siguientes opciones en función de si se han creado tus TPUs:

    • Si el recurso en cola está esperando recursos: en el resultado, consulta el campo maxRunDuration. Este campo especifica cuánto tiempo se ejecutarán las TPUs una vez creadas.

    • Si se han creado las TPUs asociadas al recurso en cola: en la salida, consulta el campo terminationTimestamp de cada nodo del recurso en cola. Este campo especifica cuándo se cancelará la TPU.

Eliminar un recurso en cola

Para eliminar una solicitud de recursos en cola y las TPUs asociadas a ella, elimina la solicitud de recursos en cola y pasa la marca --force al comando queued-resources delete:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --force

Si eliminas la TPU directamente con el comando gcloud compute tpus tpu-vm delete, también debes eliminar el recurso en cola, como se muestra en el siguiente ejemplo. Cuando eliminas la TPU, la solicitud de recurso en cola pasa al estado SUSPENDED, después del cual puedes eliminarla.

Para eliminar una TPU, usa el comando gcloud compute tpus tpu-vm delete:

gcloud compute tpus tpu-vm delete NODE_ID \
    --zone ZONE

A continuación, para eliminar el recurso en cola, usa el comando gcloud alpha compute tpus queued-resources delete:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --zone ZONE

Para obtener más información, consulta Eliminar una solicitud de recurso en cola.