Planification de la collecte TPU pour les charges de travail d'inférence

Trillium (v6e) inclut une fonctionnalité appelée "planification de la collecte" qui vous permet de regrouper un ensemble de tranches TPU, à hôte unique ou multi-hôtes, destinées à mettre en service des répliques du même modèle. Cette fonctionnalité est disponible pour les configurations Cloud TPU et GKE.

Ce document explique comment utiliser la planification de la collecte avec l'API Cloud TPU. Pour en savoir plus sur l'utilisation de la planification de la collecte avec GKE, consultez la documentation GKE.

En créant un ensemble pour votre charge de travail d'inférence,Google Cloud limite les interruptions et simplifie les opérations des charges de travail d'inférence. Cela est utile pour les charges de travail d'inférence pour lesquelles la haute disponibilité est un critère important. Google Cloud assure la haute disponibilité de l'ensemble pour gérer le trafic entrant. Une partie des tranches au sein d'un ensemble est toujours disponible pour gérer le trafic entrant.

Chaque tranche TPU dans un ensemble aura le même type d'accélérateur et la même topologie.

Créer un ensemble à partir de l'API Cloud TPU

Lorsque vous demandez une ressource en file d'attente à l'aide de l'API Cloud TPU, vous utilisez le flag --workload-type=AVAILABILITY-OPTIMIZED pour créer un ensemble. Ce flag indique à l'infrastructure Cloud TPU qu'elle est destinée à être utilisée pour des charges de travail axées sur la disponibilité.

La commande suivante provisionne un ensemble à l'aide de l'API Cloud TPU :

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

Le flag --node-count spécifie le nombre de tranches désiré dans votre ressource en file d'attente. Un ensemble de tranches TPU est alors créé.

Facultatif : Le flag --node-prefix spécifie un préfixe pour les noms de tranches.