Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Richiedi VM TPU con avvio flessibile

Le VM TPU con inizio flessibile, con piattaforma Dynamic Workload Scheduler, offrono un modo flessibile ed economico per accedere alle risorse TPU per i workload AI. Le VM con inizio flessibile ti consentono di eseguire il provisioning dinamico delle TPU in base alle esigenze, fino a 7 giorni, senza prenotazioni a lungo termine o gestione complessa delle quote. Con le VM TPU Flex-start, invii una richiesta di provisioning TPU che rimane attiva finché la capacità non diventa disponibile. Una volta disponibili, le VM TPU vengono eseguite per la durata specificata nella richiesta.

Le VM TPU con inizio flessibile sono adatte per esperimenti rapidi, test su piccola scala, provisioning dinamico delle TPU per carichi di lavoro di inferenza, perfezionamento dei modelli ed esecuzioni di workload che richiedono meno di 7 giorni. Per saperne di più sulle altre opzioni di consumo di TPU, consulta la sezione Opzioni di consumo di Cloud TPU.

Puoi eliminare le risorse TPU in qualsiasi momento per interrompere la fatturazione. Per ulteriori informazioni sui prezzi delle TPU, consulta Prezzi di Cloud TPU.

Limitazioni

Le VM TPU Flex-start presentano le seguenti limitazioni:

Puoi richiedere VM TPU con inizio flessibile per una durata massima di 7 giorni.
Puoi richiedere le seguenti versioni e zone di Cloud TPU:
- TPU v6e: asia-northeast1-b, us-east5-a, us-south1-ai1b
- TPU v5p: us-east5-a
- TPU v5e: us-west4-a
Per utilizzare le VM TPU con avvio flessibile, devi utilizzare l'API delle risorse in coda.

Prima di iniziare

Prima di richiedere VM TPU Flex-start, devi:

Installa Google Cloud CLI
Crea un progetto Google Cloud
Abilita l'API Cloud TPU

Per saperne di più, consulta Configurare l'ambiente Cloud TPU.

Devi anche assicurarti di disporre di una quota preemptible sufficiente per utilizzare le VM TPU con avvio flessibile. Se hai bisogno di più core TPU rispetto alla quantità concessa dalla quota predefinita, devi richiedere un'allocazione della quota superiore. Per ulteriori informazioni sui valori predefiniti e sulla richiesta di quote aggiuntive, consulta Quote di Cloud TPU.

Richiedi VM TPU con avvio flessibile

Le VM TPU Flex-start utilizzano l'API per le risorse in coda per richiedere risorse TPU in coda. Quando la risorsa richiesta diventa disponibile, viene assegnata al tuo progetto Google Cloud per il tuo utilizzo immediato ed esclusivo. Al termine della durata di esecuzione richiesta, le VM TPU vengono eliminate e la risorsa in coda passa allo stato SUSPENDED. Per saperne di più sulle risorse in coda, consulta Gestire le risorse in coda.

Per richiedere VM TPU Flex-start, utilizza il comando gcloud alpha compute tpus queued-resources create con il flag --provisioning-model impostato su flex-start e il flag --max-run-duration impostato sulla durata di esecuzione delle TPU.

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
    --zone=ZONE \
    --accelerator-type=ACCELERATOR_TYPE \
    --runtime-version=RUNTIME_VERSION \
    --node-id=NODE_ID \
    --provisioning-model=flex-start \
    --max-run-duration=RUN_DURATION

Sostituisci i seguenti segnaposto:

QUEUED_RESOURCE_ID: un ID assegnato dall'utente per la richiesta di risorse in coda.
ZONE: la zona in cui creare la VM TPU.
ACCELERATOR_TYPE: specifica la versione e le dimensioni della Cloud TPU da creare. Per ulteriori informazioni sui tipi di acceleratore supportati per ogni versione di TPU, consulta Versioni di TPU.
RUNTIME_VERSION: la versione del software Cloud TPU.
NODE_ID: un ID assegnato dall'utente per la TPU creata quando viene allocata la richiesta di risorsa in coda.
RUN_DURATION: per quanto tempo devono essere eseguite le TPU. Formatta la durata come numero di giorni, ore, minuti e secondi seguiti rispettivamente da d, h, m e s. Ad esempio, specifica 72h per una durata di 72 ore o 1d2h3m4s per una durata di 1 giorno, 2 ore, 3 minuti e 4 secondi. Il periodo di tempo massimo è 7 giorni.

Puoi personalizzare ulteriormente la richiesta di risorse in coda per l'esecuzione in orari specifici con flag aggiuntivi:

--valid-after-duration: la durata prima della quale la TPU non deve essere provisionata.
--valid-after-time: l'ora prima della quale la TPU non deve essere sottoposta a provisioning.
--valid-until-duration: la durata di validità della richiesta. Se la richiesta non è stata soddisfatta entro questo periodo, scade e passa allo stato FAILED.
--valid-until-time: il periodo di validità della richiesta. Se la richiesta non è stata soddisfatta entro questo orario, scade e passa allo stato FAILED.

Per saperne di più sui flag facoltativi, consulta la documentazione di gcloud alpha compute tpus queued-resources create.

Ottieni lo stato di una richiesta di VM TPU Flex-start

Per monitorare lo stato della richiesta di VM TPU Flex-start, utilizza l'API per le risorse in coda per ottenere lo stato della richiesta di risorse in coda utilizzando il comando gcloud alpha compute tpus queued-resources describe:

gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \
    --zone ZONE

Una risorsa in coda può avere uno dei seguenti stati:

WAITING_FOR_RESOURCES: la richiesta ha superato la convalida iniziale ed è stata aggiunta alla coda.
PROVISIONING: la richiesta è stata selezionata dalla coda e le VM TPU sono in fase di creazione.
ACTIVE: la richiesta è stata soddisfatta e le VM TPU sono pronte.
FAILED: impossibile completare la richiesta. Utilizza il comando describe per maggiori dettagli.
SUSPENDING: Le risorse associate alla richiesta sono in fase di eliminazione.
SUSPENDED: le risorse associate alla richiesta sono state eliminate.

Per saperne di più, consulta Recuperare lo stato e le informazioni diagnostiche di una richiesta di risorse in coda.

Monitora il tempo di esecuzione delle VM TPU con inizio flessibile

Puoi monitorare il tempo di esecuzione delle VM TPU con avvio flessibile controllando il timestamp di terminazione della TPU:

Visualizza i dettagli della richiesta di risorse in coda.
Scegli una delle seguenti opzioni a seconda che le TPU siano state create:
- Se la risorsa in coda è in attesa di risorse: nell'output, vedi il campo maxRunDuration. Questo campo specifica per quanto tempo verranno eseguite le TPU una volta create.
- Se le TPU associate alla risorsa in coda sono state create: nell'output, vedi il campo terminationTimestamp elencato per ogni nodo nella risorsa in coda. Questo campo specifica quando verrà terminata la TPU.

Elimina una risorsa in coda

Puoi eliminare una richiesta di risorse in coda e le TPU associate alla richiesta eliminando la richiesta di risorse in coda e passando il flag --force al comando queued-resources delete:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --force

Se elimini la TPU direttamente utilizzando il comando gcloud compute tpus tpu-vm delete, devi eliminare anche la risorsa in coda, come mostrato nell'esempio seguente. Quando elimini la TPU, la richiesta di risorsa in coda passa allo stato SUSPENDED, dopodiché puoi eliminarla.

Per eliminare una TPU, utilizza il comando gcloud compute tpus tpu-vm delete:

gcloud compute tpus tpu-vm delete NODE_ID \
    --zone ZONE

Quindi, per eliminare la risorsa in coda, utilizza il comando gcloud alpha compute tpus queued-resources delete:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --zone ZONE

Per saperne di più, vedi Eliminare una richiesta di risorse in coda.