Google utilizza la tecnologia AI per tradurre i contenuti nella tua lingua preferita. Le traduzioni generate dall'AI potrebbero contenere errori.

Richiedi VM con avvio flessibile TPU

Le VM con avvio flessibile TPU, basate su Dynamic Workload Scheduler, offrono un modo flessibile ed economico per accedere alle risorse TPU per i workload di AI. Le VM con avvio flessibile ti consentono di eseguire il provisioning dinamico delle TPU in base alle esigenze, per un massimo di 7 giorni, senza prenotazioni a lungo termine o gestione complessa delle quote. Con le VM con avvio flessibile TPU, invii una richiesta di provisioning TPU che rimane attiva finché non diventa disponibile la capacità. Una volta disponibili, le VM TPU vengono eseguite per la durata specificata nella richiesta.

Le VM con avvio flessibile TPU sono adatte per sperimentazioni rapide, test su piccola scala, provisioning dinamico di TPU per workload di inferenza, ottimizzazione dei modelli ed esecuzioni di workload che richiedono meno di 7 giorni. Per saperne di più sulle altre opzioni di consumo TPU, consulta Opzioni di consumo di Cloud TPU.

Puoi eliminare le risorse TPU in qualsiasi momento per interrompere la fatturazione. Per saperne di più sui prezzi delle TPU, consulta Prezzi di Cloud TPU pricing.

Limitazioni

Le VM con avvio flessibile TPU presentano le seguenti limitazioni:

Puoi richiedere VM con avvio flessibile TPU per una durata massima di 7 giorni.
Puoi richiedere le seguenti versioni e zone di Cloud TPU:
- TPU v6e: asia-northeast1-b, us-east5-a, us-south1-ai1b
- TPU v5p: us-east5-a
- TPU v5e: us-west4-a
Per utilizzare le VM con avvio flessibile TPU, devi utilizzare l'API per le risorse in coda.

Prima di iniziare

Prima di richiedere VM con avvio flessibile TPU, devi:

Installare Google Cloud CLI
Creare un Google Cloud progetto
Abilitare l'API Cloud TPU

Per saperne di più, consulta Configurare l'ambiente Cloud TPU environment.

Devi anche assicurarti di avere una quota di risorse preemptive sufficiente per utilizzare le VM con avvio flessibile TPU. Se hai bisogno di più core TPU rispetto alla quantità concessa dalla quota predefinita, devi richiedere un'allocazione di quota più elevata. Per saperne di più sui valori predefiniti e su come richiedere una quota maggiore, consulta Quote di Cloud TPU.

Richiedi VM con avvio flessibile TPU

Le VM con avvio flessibile TPU utilizzano l'API per le risorse in coda per richiedere le risorse TPU in coda. Quando la risorsa richiesta diventa disponibile, viene assegnata al tuo Google Cloud progetto per un utilizzo immediato ed esclusivo. Al termine della durata di esecuzione richiesta, le VM TPU vengono eliminate e la risorsa in coda passa allo stato SUSPENDED. Per saperne di più sulle risorse in coda, consulta Gestire le risorse in coda.

Per richiedere VM con avvio flessibile TPU, utilizza il gcloud alpha compute tpus queued-resources create comando con il --provisioning-model flag impostato su flex-start e il --max-run-duration flag impostato sulla durata di esecuzione delle TPU.

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
    --zone=ZONE \
    --accelerator-type=ACCELERATOR_TYPE \
    --runtime-version=RUNTIME_VERSION \
    --node-id=NODE_ID \
    --provisioning-model=flex-start \
    --max-run-duration=RUN_DURATION

Sostituisci i seguenti segnaposto:

QUEUED_RESOURCE_ID: un ID assegnato dall'utente per la richiesta di risorse in coda.
ZONE: la zona in cui creare la VM TPU.
ACCELERATOR_TYPE: specifica la versione e le dimensioni di Cloud TPU da creare. Per saperne di più sui tipi di acceleratore supportati per ogni versione TPU, consulta Versioni TPU.
RUNTIME_VERSION: la versione software di Cloud TPU.
NODE_ID: un ID assegnato dall'utente per la TPU creata quando viene allocata la richiesta di risorse in coda.
RUN_DURATION: la durata di esecuzione delle TPU. Formatta la durata come numero di giorni, ore, minuti e secondi seguiti rispettivamente da d, h, m e s. Ad esempio, specifica 72h per una durata di 72 ore o 1d2h3m4s per una durata di 1 giorno, 2 ore, 3 minuti e 4 secondi. Il massimo è di 7 giorni.

Puoi personalizzare ulteriormente la richiesta di risorse in coda per l'esecuzione in orari specifici con flag aggiuntivi:

--valid-after-duration: la durata prima della quale la TPU non deve essere sottoposta a provisioning.
--valid-after-time: l'ora prima della quale la TPU non deve essere sottoposta a provisioning.
--valid-until-duration: la durata di validità della richiesta. Se la richiesta non è stata soddisfatta entro questa durata, scade e passa allo stato FAILED.
--valid-until-time: l'ora di validità della richiesta. Se la richiesta non è stata soddisfatta entro questa ora, scade e passa allo stato FAILED.

Per saperne di più sui flag facoltativi, consulta la gcloud alpha compute tpus queued-resources create documentazione.

Visualizza lo stato di una richiesta di VM con avvio flessibile TPU

Per monitorare lo stato della richiesta di VM con avvio flessibile TPU, utilizza l' API per le risorse in coda per visualizzare lo stato della richiesta di risorse in coda utilizzando il gcloud alpha compute tpus queued-resources describe comando:

gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \
    --zone ZONE

Una risorsa in coda può avere uno dei seguenti stati:

WAITING_FOR_RESOURCES: la richiesta ha superato la convalida iniziale ed è stata aggiunta alla coda.
PROVISIONING: la richiesta è stata selezionata dalla coda e le VM TPU sono in fase di creazione.
ACTIVE: la richiesta è stata soddisfatta e le VM TPU sono pronte.
FAILED: non è stato possibile completare la richiesta. Utilizza il comando describe per maggiori dettagli.
SUSPENDING: le risorse associate alla richiesta sono in fase di eliminazione.
SUSPENDED: le risorse associate alla richiesta sono state eliminate.

Per saperne di più, consulta Recuperare lo stato e le informazioni diagnostiche di una richiesta di risorse in coda.

Monitora il tempo di esecuzione delle VM con avvio flessibile TPU

Puoi monitorare il tempo di esecuzione delle VM con avvio flessibile TPU controllando il timestamp di terminazione della TPU:

Visualizza i dettagli della richiesta di risorse in coda.
Scegli una delle seguenti opzioni a seconda che le TPU siano state create o meno:
- Se la risorsa in coda è in attesa di risorse: nell'output, consulta il campo maxRunDuration. Questo campo specifica la durata di esecuzione delle TPU una volta create.
- Se le TPU associate alla risorsa in coda sono state create: Nell'output, consulta il campo terminationTimestamp elencato per ogni nodo nella risorsa in coda. Questo campo specifica quando verrà terminata la TPU.

Elimina una risorsa in coda

Puoi eliminare una richiesta di risorse in coda e le TPU associate alla richiesta eliminando la richiesta di risorse in coda e passando il --force flag al queued-resources delete comando:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --force

Se elimini la TPU direttamente utilizzando il comando gcloud compute tpus tpu-vm delete, devi eliminare anche la risorsa in coda, come mostrato nell'esempio seguente. Quando elimini la TPU, la richiesta di risorse in coda passa allo stato SUSPENDED, dopodiché puoi eliminare la richiesta di risorse in coda.

Per eliminare una TPU, utilizza il gcloud compute tpus tpu-vm delete comando:

gcloud compute tpus tpu-vm delete NODE_ID \
    --zone ZONE

Quindi, per eliminare la risorsa in coda, utilizza il gcloud alpha compute tpus queued-resources delete comando:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --zone ZONE

Per saperne di più, consulta Eliminare una richiesta di risorse in coda.