Solicita VMs de TPU con inicio flexible

Las VMs de la TPU con inicio flexible, que cuentan con la tecnología del programador dinámico de cargas de trabajo, proporcionan una forma flexible y rentable de acceder a los recursos TPU de las cargas de trabajo de IA. Las VMs de inicio flexible permiten aprovisionar las TPU de forma dinámica según sea necesario durante un máximo de 7 días, sin reservas a largo plazo ni administración compleja de cuotas. A través de las VMs de TPU con inicio flexible, envías una solicitud de aprovisionamiento de TPU que persiste hasta que la capacidad esté disponible. Una vez que estén disponibles, las VMs de TPU se ejecutarán durante el período que hayas especificado en la solicitud.

Las VMs de TPU con inicio flexible son una buena opción para la experimentación rápida, las pruebas a pequeña escala, el aprovisionamiento dinámico de TPU destinado a cargas de trabajo de inferencia, el ajuste de modelos y las ejecuciones de cargas de trabajo que tardan menos de 7 días. Para obtener más información sobre otras opciones de consumo de TPU, consulta Opciones de consumo de Cloud TPU.

Puedes borrar los recursos de TPU en cualquier momento para detener la facturación. Para obtener más información sobre los precios de las TPU, consulta Precios de Cloud TPU.

Limitaciones

Las VMs de TPU con inicio flexible tienen las limitaciones que se indican a continuación:

Puedes solicitar VMs de TPU con inicio flexible para un período de hasta 7 días.
Puedes solicitar las versiones y zonas de Cloud TPU que se indican a continuación:
- TPU v6e: asia-northeast1-b, us-east5-a
- TPU v5p: us-east5-a
- TPU v5e: us-west4-a
Debes usar la API de Queued Resources para usar las VMs de TPU con inicio flexible.

Antes de empezar

Antes de solicitar VMs de TPU con inicio flexible, debes seguir los pasos que se indican más abajo:

Instalar la Google Cloud CLI
Crear un proyecto de Google Cloud
Habilitar la API de Cloud TPU

Para obtener más información, consulta Configura el entorno de Cloud TPU.

También debes asegurarte de tener suficiente cuota de recursos interrumpibles para usar las VMs de TPU con inicio flexible. Si necesitas más núcleos de TPU que la cantidad que otorga la cuota predeterminada, debes solicitar una asignación de cuota más alta. Para obtener más información sobre los valores predeterminados y cómo solicitar más cuota, consulta Cuotas de Cloud TPU.

Solicita VMs de TPU con inicio flexible

Las VMs de TPU con inicio flexible usan la API de Queued Resources para solicitar recursos de TPU en colas. Cuando el recurso solicitado está disponible, se asigna a tu proyecto de Google Cloud para que lo uses de forma inmediata y exclusiva. Una vez transcurrida la ejecución solicitada, se borran las VMs de TPU, y el recurso en cola recibe el estado SUSPENDED. Para obtener más información sobre los recursos en cola, consulta Administra recursos en cola.

Para solicitar VMs de TPU con inicio flexible, usa el comando gcloud alpha compute tpus queued-resources create con la marca --provisioning-model establecida en flex-start y la marca --max-run-duration establecida en la duración durante la cual quieres que se ejecuten tus TPU.

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
    --zone=ZONE \
    --accelerator-type=ACCELERATOR_TYPE \
    --runtime-version=RUNTIME_VERSION \
    --node-id=NODE_ID \
    --provisioning-model=flex-start \
    --max-run-duration=RUN_DURATION

Reemplaza los marcadores de posición que se indican más abajo:

QUEUED_RESOURCE_ID: Es un ID asignado al usuario para la solicitud de recursos en cola.
ZONE: Es la zona en la que se creará la VM de TPU.
ACCELERATOR_TYPE: Especifica la versión y el tamaño de la Cloud TPU que se creará. Para obtener más información sobre los tipos de aceleradores compatibles con cada versión de TPU, consulta Versiones de TPU.
RUNTIME_VERSION: Es la versión de software de Cloud TPU.
NODE_ID: Es un ID asignado al usuario para la TPU que se crea cuando se asigna la solicitud de recurso en cola.
RUN_DURATION: Es el tiempo durante el cual deben ejecutarse las TPU. La duración se debe formatear como la cantidad de días, horas, minutos y segundos seguidos de d, h, m y s, respectivamente. Por ejemplo, especifica 72h para una duración de 72 horas o 1d2h3m4s para una duración de 1 día, 2 horas, 3 minutos y 4 segundos. La cantidad máxima es de 7 días.

Puedes personalizar aún más tu solicitud de recursos en cola para que se ejecute en momentos específicos con marcas adicionales:

--valid-after-duration: Es la duración antes de la cual no se debe aprovisionar la TPU.
--valid-after-time: Es la duración antes de la cual no se debe aprovisionar la TPU.
--valid-until-duration: Es la duración durante la cual la solicitud es válida. Si la solicitud no se completó en este período, vencerá y recibirá el estado FAILED.
--valid-until-time: Es la duración durante la cual la solicitud es válida. Si la solicitud no se completó para ese momento, vencerá y recibirá el estado FAILED.

Para obtener más información sobre las marcas opcionales, consulta la documentación de gcloud alpha compute tpus queued-resources create.

Obtén el estado de una solicitud de VMs de TPU con inicio flexible

Para supervisar el estado de tu solicitud de VMs de TPU con inicio flexible, usa la API de Queued Resources para obtener el estado de la solicitud de recursos en cola con el comando gcloud alpha compute tpus queued-resources describe:

gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \
    --zone ZONE

Un recurso en cola puede tener uno de los estados que se indican a continuación:

WAITING_FOR_RESOURCES: La solicitud pasó la validación inicial y se agregó a la cola.
PROVISIONING: Se seleccionó la solicitud de la cola y se están creando las VMs de TPU.
ACTIVE: Se completó la solicitud, y las VMs de TPU están listas.
FAILED: No se pudo completar la solicitud. Usa el comando describe para obtener más detalles.
SUSPENDING: Se están borrando los recursos asociados a la solicitud.
SUSPENDED: Se borraron los recursos asociados a la solicitud.

Para obtener más información, consulta Recupera información sobre el estado y diagnóstico de una solicitud de recursos en cola.

Supervisa el tiempo de ejecución de las VMs de TPU con inicio flexible

Puedes supervisar el tiempo de ejecución de las VMs de TPU con inicio flexible. Para ello, verifica la marca de tiempo de finalización de la TPU:

Obtén los detalles de tu solicitud de recursos en cola.
Elige una de las opciones siguientes según si tus TPU ya se crearon o no:
- Si el recurso en cola está esperando recursos: en el resultado, consulta el campo maxRunDuration. En este campo, se especifica durante cuánto tiempo se ejecutarán las TPU una vez que se creen.
- Si se crearon las TPUs asociadas al recurso en cola: en el resultado, consulta el campo terminationTimestamp que aparece para cada nodo del recurso en cola. En este campo, se especifica cuándo se detendrá la TPU.

Borrar un recurso en cola

Puedes borrar una solicitud de recursos en cola y las TPU asociadas a la solicitud. Para ello, borra la solicitud de recursos en cola y pasa la marca --force al comando queued-resources delete:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --force

Si borras la TPU directamente con el comando gcloud compute tpus tpu-vm delete, también debes borrar el recurso en cola, como se muestra en el ejemplo siguiente. Cuando borres la TPU, la solicitud de recursos en cola recibirá el estado SUSPENDED, después del cual podrás borrar la solicitud de recursos en cola.

Para borrar una TPU, usa el comando gcloud compute tpus tpu-vm delete:

gcloud compute tpus tpu-vm delete NODE_ID \
    --zone ZONE

Luego, para borrar el recurso en cola, usa el comando gcloud alpha compute tpus queued-resources delete:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --zone ZONE

Para obtener más información, consulta Borra una solicitud de recursos en cola.