Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Pianificazione della raccolta di TPU per i workload di inferenza

Trillium (v6e) include una funzionalità chiamata "pianificazione della raccolta" che consente di raggruppare un insieme di slice TPU, a host singolo o multiplo, destinati a pubblicare repliche dello stesso modello. Questa funzionalità è disponibile sia per le configurazioni Cloud TPU sia per quelle Google Kubernetes Engine (GKE).

Questo documento riguarda l'utilizzo della pianificazione della raccolta con l'API Cloud TPU. Per saperne di più sull'utilizzo della pianificazione della raccolta con GKE, consulta la documentazione di GKE.

Creando una raccolta per il tuo carico di lavoro di inferenza, Google Cloud limita e semplifica le interruzioni delle operazioni dei carichi di lavoro di inferenza. Ciò è utile per i carichi di lavoro di inferenza in cui l'alta affidabilità è un problema. Google Cloud garantisce l'alta affidabilità per la raccolta per gestire il traffico in entrata. Una parte delle sezioni all'interno di una raccolta è sempre disponibile per gestire il traffico in entrata.

Ogni slice TPU di una raccolta avrà lo stesso tipo di acceleratore e la stessa topologia.

Crea una raccolta dall'API Cloud TPU

Quando richiedi una risorsa in coda utilizzando l'API Cloud TPU, utilizzi il flag --workload-type=AVAILABILITY-OPTIMIZED per creare una raccolta. Questo flag indica all'infrastruttura Cloud TPU che deve essere utilizzata per carichi di lavoro incentrati sulla disponibilità.

Il seguente comando esegue il provisioning di una raccolta utilizzando l'API Cloud TPU:

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

Il flag --node-count specifica il numero di sezioni che vuoi nella risorsa in coda. Viene creata una raccolta di sezioni TPU.

(Facoltativo) Il flag --node-prefix specifica un prefisso per i nomi delle sezioni.