Programación de colecciones de las TPU para las cargas de trabajo de inferencia

Trillium (v6e) incluye una función llamada “programación de recopilación” que te permite agrupar un conjunto de porciones de la TPU, de un único o de varios hosts, diseñadas para entregar réplicas del mismo modelo. Esta función está disponible para los parámetros de configuración de la Cloud TPU y Google Kubernetes Engine (GKE).

En este documento, se explica cómo usar la programación de recopilación con la API de Cloud TPU. Consulta la documentación de GKE para obtener más información sobre el uso de la programación de recopilación con GKE.

Cuando creas una colección para tu carga de trabajo de inferencia, Google Cloud limita y optimiza las interrupciones en las operaciones de las cargas de trabajo de inferencia. Esto es útil para las cargas de trabajo de inferencia en las que la alta disponibilidad es una preocupación. Google Cloud garantiza la alta disponibilidad de la colección para administrar el tráfico entrante. Una parte de las porciones dentro de una colección siempre está disponible para controlar el tráfico entrante.

Cada porción de la TPU de una colección tendrá el mismo tipo de acelerador y la misma topología.

Crea una colección a partir de la API de Cloud TPU

Cuando solicitas un recurso en cola con la API de Cloud TPU, usas la marca --workload-type=AVAILABILITY-OPTIMIZED para crear una colección. Esta marca indica a la infraestructura de la Cloud TPU que se debe usar para cargas de trabajo enfocadas en la disponibilidad.

El siguiente comando aprovisiona una colección con la API de Cloud TPU:

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

La marca --node-count especifica la cantidad de porciones que deseas en el recurso en cola. Esto crea una colección de porciones de la TPU.

Opcional: La marca --node-prefix especifica un prefijo para los nombres de las porciones.