Pianificazione della raccolta TPU per i carichi di lavoro di inferenza
Trillium (v6e) include una funzionalità chiamata "pianificazione della raccolta" che consente di raggruppare un insieme di slice TPU, single-host o multi-host, destinati a pubblicare repliche dello stesso modello. Questa funzionalità è disponibile sia per le configurazioni Cloud TPU che per Google Kubernetes Engine (GKE).
Questo documento riguarda l'utilizzo della pianificazione della raccolta con l'API Cloud TPU. Per saperne di più sull'utilizzo della pianificazione della raccolta con GKE, consulta la documentazione di GKE.
Creando una raccolta per il tuo workload di inferenza,Google Cloud limita e semplifica le interruzioni delle operazioni dei workload di inferenza. Ciò è utile per i carichi di lavoro di inferenza in cui l'alta disponibilità è un problema. Google Cloud garantisce l'alta disponibilità per la raccolta per gestire il traffico in entrata. Una parte delle sezioni all'interno di una raccolta è sempre disponibile per gestire il traffico in entrata.
Ogni slice TPU in una raccolta avrà lo stesso tipo di acceleratore e la stessa topologia.
Crea una raccolta dall'API Cloud TPU
Quando richiedi una risorsa in coda utilizzando l'API Cloud TPU, utilizzi il flag --workload-type=AVAILABILITY-OPTIMIZED per creare una raccolta. Questo flag indica all'infrastruttura Cloud TPU che deve essere
utilizzata per carichi di lavoro incentrati sulla disponibilità.
Il seguente comando esegue il provisioning di una raccolta utilizzando l'API Cloud TPU:
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --project=PROJECT_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-count=NODE_COUNT \ --node-prefix=NODE_PREFIX \ --workload-type=AVAILABILITY-OPTIMIZED
Il flag --node-count specifica il numero di sezioni che vuoi nella risorsa in coda. Viene creata una raccolta di sezioni TPU.
(Facoltativo) Il flag --node-prefix specifica un prefisso per i nomi delle sezioni.