Richiedere VM TPU con avvio flessibile
Le VM TPU con avvio flessibile, basate su Dynamic Workload Scheduler, offrono un modo flessibile ed economico per accedere alle risorse TPU per i carichi di lavoro AI. Le VM con inizio flessibile ti consentono di eseguire il provisioning dinamico delle TPU in base alle esigenze, fino a 7 giorni, senza prenotazioni a lungo termine o gestione complessa delle quote. Con le VM TPU con avvio flessibile, invii una richiesta di provisioning TPU che rimane attiva finché la capacità non diventa disponibile. Una volta disponibili, le VM TPU vengono eseguite per la durata specificata nella richiesta.
Le VM TPU con avvio flessibile sono adatte per la sperimentazione rapida, i test su piccola scala, il provisioning dinamico delle TPU per i carichi di lavoro di inferenza, il perfezionamento dei modelli e le esecuzioni dei carichi di lavoro che richiedono meno di 7 giorni. Per saperne di più sulle altre opzioni di consumo di TPU, consulta la sezione Opzioni di consumo di Cloud TPU.
Puoi eliminare le risorse TPU in qualsiasi momento per interrompere la fatturazione. Per ulteriori informazioni sui prezzi delle TPU, consulta la pagina Prezzi di Cloud TPU.
Limitazioni
Le VM TPU Flex-start presentano le seguenti limitazioni:
- Puoi richiedere VM TPU con inizio flessibile per una durata massima di 7 giorni.
- Puoi richiedere le seguenti versioni e zone di Cloud TPU:
- Per utilizzare le VM TPU Flex-start, devi utilizzare l'API delle risorse in coda.
Prima di iniziare
Prima di richiedere VM TPU Flex-start, devi:
- Installa Google Cloud CLI
- Crea un progetto Google Cloud
- Abilita l'API Cloud TPU
Per saperne di più, vedi Configurare l'ambiente Cloud TPU.
Devi anche assicurarti di disporre di una quota preemptible sufficiente per utilizzare le VM TPU con avvio flessibile. Se hai bisogno di più core TPU rispetto alla quantità concessa dalla quota predefinita, devi richiedere un'allocazione della quota superiore. Per ulteriori informazioni sui valori predefiniti e sulla richiesta di quote aggiuntive, consulta la sezione Quote di Cloud TPU.
Richiedere VM TPU con avvio flessibile
Le VM TPU Flex-start utilizzano l'API per le risorse in coda per richiedere risorse TPU in coda. Quando la risorsa richiesta diventa disponibile,
viene assegnata al tuo progetto Google Cloud per il tuo utilizzo immediato ed esclusivo.
Al termine della durata di esecuzione richiesta, le VM TPU vengono eliminate e la risorsa in coda passa allo stato SUSPENDED
. Per ulteriori informazioni sulle risorse in coda, vedi Gestire le risorse in coda.
Per richiedere VM TPU Flex-start, utilizza il comando gcloud alpha compute tpus queued-resources create
con il flag --provisioning-model
impostato su flex-start
e il flag --max-run-duration
impostato sulla durata di esecuzione delle TPU.
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-id=NODE_ID \ --provisioning-model=flex-start \ --max-run-duration=RUN_DURATION
Sostituisci i seguenti segnaposto:
- QUEUED_RESOURCE_ID: un ID assegnato dall'utente per la richiesta di risorse in coda.
- ZONE: la zona in cui creare la VM TPU.
- ACCELERATOR_TYPE: specifica la versione e le dimensioni della Cloud TPU da creare. Per ulteriori informazioni sui tipi di acceleratore supportati per ogni versione di TPU, consulta Versioni di TPU.
- RUNTIME_VERSION: la versione software di Cloud TPU.
- NODE_ID: un ID assegnato dall'utente per la TPU creata quando viene allocata la richiesta di risorsa in coda.
- RUN_DURATION: per quanto tempo devono essere eseguite le TPU. Formatta la durata
come numero di giorni, ore, minuti e secondi seguiti rispettivamente da
d
,h
,m
es
. Ad esempio, specifica72h
per una durata di 72 ore o1d2h3m4s
per una durata di 1 giorno, 2 ore, 3 minuti e 4 secondi. Il periodo di tempo massimo è 7 giorni.
Puoi personalizzare ulteriormente la richiesta di risorse in coda per l'esecuzione in orari specifici con flag aggiuntivi:
--valid-after-duration
: la durata prima della quale la TPU non deve essere provisionata.--valid-after-time
: l'ora prima della quale la TPU non deve essere sottoposta a provisioning.--valid-until-duration
: la durata di validità della richiesta. Se la richiesta non è stata soddisfatta entro questo periodo, scade e passa allo statoFAILED
.--valid-until-time
: il periodo di validità della richiesta. Se la richiesta non è stata soddisfatta entro questo orario, scade e passa allo statoFAILED
.
Per saperne di più sui flag facoltativi, consulta la
documentazione di
gcloud alpha compute tpus queued-resources
create
.
Ottieni lo stato di una richiesta di VM TPU Flex-start
Per monitorare lo stato della richiesta di VM TPU Flex-start, utilizza l'API per le risorse in coda per ottenere lo stato della richiesta di risorse in coda utilizzando il comando
gcloud alpha compute tpus queued-resources describe
:
gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \ --zone ZONE
Una risorsa in coda può avere uno dei seguenti stati:
WAITING_FOR_RESOURCES
: la richiesta ha superato la convalida iniziale ed è stata aggiunta alla coda.PROVISIONING
: la richiesta è stata selezionata dalla coda e le VM TPU sono in fase di creazione.ACTIVE
: la richiesta è stata soddisfatta e le VM TPU sono pronte.FAILED
: impossibile completare la richiesta. Utilizza il comandodescribe
per maggiori dettagli.SUSPENDING
: Le risorse associate alla richiesta sono in fase di eliminazione.SUSPENDED
: le risorse associate alla richiesta sono state eliminate.
Per ulteriori informazioni, vedi Recuperare lo stato e le informazioni diagnostiche di una richiesta di risorse in coda.
Monitora il tempo di esecuzione delle VM TPU con inizio flessibile
Puoi monitorare il tempo di esecuzione delle VM TPU con avvio flessibile controllando il timestamp di terminazione della TPU:
- Visualizza i dettagli della richiesta di risorse in coda.
Scegli una delle seguenti opzioni a seconda che le TPU siano state create:
Se la risorsa in coda è in attesa di risorse: nell'output, vedi il campo
maxRunDuration
. Questo campo specifica la durata di esecuzione delle TPU una volta create.Se le TPU associate alla risorsa in coda sono state create: Nell'output, vedi il campo
terminationTimestamp
elencato per ogni nodo nella risorsa in coda. Questo campo specifica quando verrà terminata la TPU.
Elimina una risorsa in coda
Puoi eliminare una richiesta di risorse in coda e le TPU associate alla
richiesta eliminando la richiesta di risorse in coda e passando il flag --force
al comando queued-resources
delete
:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --force
Se elimini la TPU direttamente utilizzando il comando gcloud compute tpus tpu-vm delete
,
devi eliminare anche la risorsa in coda, come mostrato nell'esempio seguente.
Quando elimini la TPU, la richiesta di risorsa in coda passa allo stato
SUSPENDED
, dopodiché puoi eliminare la richiesta di risorsa in coda.
Per eliminare una TPU, utilizza il comando gcloud compute tpus tpu-vm
delete
:
gcloud compute tpus tpu-vm delete NODE_ID \ --zone ZONE
Quindi, per eliminare la risorsa in coda, utilizza il
comando gcloud alpha compute tpus queued-resources delete
:
gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --zone ZONE
Per saperne di più, consulta Eliminare una richiesta di risorse in coda.