Programación de colecciones de TPU para las cargas de trabajo de inferencia
Trillium (v6e) incluye una función llamada "programación de recopilación" que te permite agrupar un conjunto de porciones de TPU, de un solo host o de varios hosts, diseñadas para entregar réplicas del mismo modelo. Esta función está disponible para las configuraciones de Cloud TPU y Google Kubernetes Engine (GKE).
En este documento, se explica cómo usar la programación de recopilación con la API de Cloud TPU. Consulta la documentación de GKE para obtener más información sobre el uso de la programación de recopilación con GKE.
Si creas una colección para tu carga de trabajo de inferencia,Google Cloud limitas y optimizas las interrupciones en las operaciones de las cargas de trabajo de inferencia. Esto es útil para las cargas de trabajo de inferencia en las que la alta disponibilidad es una preocupación. Google Cloud garantiza la alta disponibilidad de la colección para administrar el tráfico entrante. Una parte de las segmentaciones dentro de una colección siempre está disponible para controlar el tráfico entrante.
Cada porción de TPU de una colección tendrá el mismo tipo de acelerador y la misma topología.
Crea una colección a partir de la API de Cloud TPU
Cuando solicitas un recurso en cola con la API de Cloud TPU, usas la marca --workload-type=AVAILABILITY-OPTIMIZED para crear una colección. Esta marca indica a la infraestructura de Cloud TPU que se debe usar para cargas de trabajo enfocadas en la disponibilidad.
El siguiente comando aprovisiona una colección con la API de Cloud TPU:
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --project=PROJECT_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-count=NODE_COUNT \ --node-prefix=NODE_PREFIX \ --workload-type=AVAILABILITY-OPTIMIZED
La marca --node-count especifica la cantidad de segmentos que deseas en el recurso en cola. Esto crea una colección de porciones de TPU.
Opcional: La marca --node-prefix especifica un prefijo para los nombres de las segmentaciones.