Pianificazione della raccolta di TPU per i workload di inferenza
Trillium (v6e) include una funzionalità chiamata "pianificazione della raccolta" che consente di raggruppare un insieme di slice TPU, a host singolo o multiplo, destinati a pubblicare repliche dello stesso modello. Questa funzionalità è disponibile sia per le configurazioni Cloud TPU sia per quelle Google Kubernetes Engine (GKE).
Questo documento riguarda l'utilizzo della pianificazione della raccolta con l'API Cloud TPU. Per saperne di più sull'utilizzo della pianificazione della raccolta con GKE, consulta la documentazione di GKE.
Creando una raccolta per il tuo carico di lavoro di inferenza, Google Cloud limita e semplifica le interruzioni delle operazioni dei carichi di lavoro di inferenza. Ciò è utile per i carichi di lavoro di inferenza in cui l'alta affidabilità è un problema. Google Cloud garantisce l'alta affidabilità per la raccolta per gestire il traffico in entrata. Una parte delle sezioni all'interno di una raccolta è sempre disponibile per gestire il traffico in entrata.
Ogni slice TPU di una raccolta avrà lo stesso tipo di acceleratore e la stessa topologia.
Crea una raccolta dall'API Cloud TPU
Quando richiedi una risorsa in coda utilizzando l'API Cloud TPU, utilizzi il flag --workload-type=AVAILABILITY-OPTIMIZED per creare una raccolta. Questo flag indica all'infrastruttura Cloud TPU che deve essere
utilizzata per carichi di lavoro incentrati sulla disponibilità.
Il seguente comando esegue il provisioning di una raccolta utilizzando l'API Cloud TPU:
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --project=PROJECT_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-count=NODE_COUNT \ --node-prefix=NODE_PREFIX \ --workload-type=AVAILABILITY-OPTIMIZED
Il flag --node-count specifica il numero di sezioni che vuoi nella risorsa
in coda. Viene creata una raccolta di sezioni TPU.
(Facoltativo) Il flag --node-prefix specifica un prefisso per i nomi delle sezioni.