Richiedi VM con avvio flessibile TPU

Le VM con avvio flessibile TPU, basate su Dynamic Workload Scheduler, offrono un modo flessibile ed economico per accedere alle risorse TPU per i workload di AI. Le VM con avvio flessibile consentono di eseguire il provisioning dinamico delle TPU in base alle esigenze, per un massimo di 7 giorni, senza prenotazioni a lungo termine o gestione complessa delle quote. Con le VM con avvio flessibile TPU, invii una richiesta di provisioning TPU che persiste fino a quando la capacità non diventa disponibile. Una volta disponibili, le VM TPU vengono eseguite per la durata specificata nella richiesta.

Le VM con avvio flessibile TPU sono adatte per sperimentazioni rapide, test su piccola scala, provisioning dinamico di TPU per workload di inferenza, ottimizzazione dei modelli ed esecuzioni di workload che richiedono meno di 7 giorni. Per ulteriori informazioni su altre opzioni di consumo di TPU, consulta Opzioni di consumo di Cloud TPU.

Puoi eliminare le risorse TPU in qualsiasi momento per interrompere la fatturazione. Per ulteriori informazioni sui prezzi delle TPU, consulta la pagina dei prezzi di Cloud TPU pricing.

Limitazioni

Le VM con avvio flessibile TPU presentano le seguenti limitazioni:

  • Puoi richiedere VM con avvio flessibile TPU per una durata massima di 7 giorni.
  • Puoi richiedere le seguenti versioni e zone di Cloud TPU:
  • Per utilizzare le VM con avvio flessibile TPU, devi utilizzare l'API per le risorse in coda.

Prima di iniziare

Prima di richiedere VM con avvio flessibile TPU, devi:

  • Installare Google Cloud CLI
  • Creare un Google Cloud progetto
  • Abilitare l'API Cloud TPU

Per ulteriori informazioni, consulta Configurare l'ambiente Cloud TPU.

Assicurati inoltre di disporre di una quota di risorse preemptive sufficiente per utilizzare le VM con avvio flessibile TPU. Se hai bisogno di più core TPU rispetto alla quantità concessa dalla quota predefinita, devi richiedere un'allocazione di quota più elevata. Per ulteriori informazioni sui valori predefiniti e sulla richiesta di ulteriore quota, consulta Quote di Cloud TPU quotas.

Richiedi VM con avvio flessibile TPU

Le VM con avvio flessibile TPU utilizzano l'API per le risorse in coda per richiedere le risorse TPU in coda. Quando la risorsa richiesta diventa disponibile, viene assegnata al tuo Google Cloud progetto per un utilizzo immediato ed esclusivo. Al termine della durata dell'esecuzione richiesta, le VM TPU vengono eliminate e la risorsa in coda passa allo stato SUSPENDED. Per ulteriori informazioni sulle risorse in coda, consulta Gestire le risorse in coda.

Per richiedere VM con avvio flessibile TPU, utilizza il gcloud alpha compute tpus queued-resources create comando con il --provisioning-model flag impostato su flex-start e il --max-run-duration flag impostato sulla durata di esecuzione delle TPU.

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
    --zone=ZONE \
    --accelerator-type=ACCELERATOR_TYPE \
    --runtime-version=RUNTIME_VERSION \
    --node-id=NODE_ID \
    --provisioning-model=flex-start \
    --max-run-duration=RUN_DURATION

Sostituisci i seguenti segnaposto:

  • QUEUED_RESOURCE_ID: un ID assegnato dall'utente per la richiesta di risorse in coda.
  • ZONE: la zona in cui creare la VM TPU.
  • ACCELERATOR_TYPE: specifica la versione e le dimensioni della Cloud TPU da creare. Per ulteriori informazioni sui tipi di acceleratore supportati per ogni versione di TPU, consulta Versioni di TPU.
  • RUNTIME_VERSION: la versione software Cloud TPU.
  • NODE_ID: un ID assegnato dall'utente per la TPU creata quando viene allocata la richiesta di risorse in coda.
  • RUN_DURATION: la durata di esecuzione delle TPU. Formatta la durata come il numero di giorni, ore, minuti e secondi, seguito rispettivamente da d, h, m, e s. Ad esempio, specifica 72h per una durata di 72 ore oppure 1d2h3m4s per una durata di 1 giorno, 2 ore, 3 minuti e 4 secondi. Il valore massimo è 7 giorni.

Puoi personalizzare ulteriormente la richiesta di risorse in coda per l'esecuzione in orari specifici con flag aggiuntivi:

  • --valid-after-duration: la durata prima della quale la TPU non deve essere sottoposta a provisioning.
  • --valid-after-time: l'ora prima della quale la TPU non deve essere sottoposta a provisioning.
  • --valid-until-duration: la durata per cui la richiesta è valida. Se la richiesta non è stata soddisfatta entro questa durata, scade e passa allo stato FAILED.
  • --valid-until-time: l'ora per cui la richiesta è valida. Se la richiesta non è stata soddisfatta entro questa ora, scade e passa allo stato FAILED.

Per ulteriori informazioni sui flag facoltativi, consulta la gcloud alpha compute tpus queued-resources create documentazione.

Visualizza lo stato di una richiesta di VM con avvio flessibile TPU

Per monitorare lo stato della richiesta di VM con avvio flessibile TPU, utilizza l' API per le risorse in coda per ottenere lo stato della richiesta di risorse in coda utilizzando il gcloud alpha compute tpus queued-resources describe comando:

gcloud alpha compute tpus queued-resources describe QUEUED_RESOURCE_ID \
    --zone ZONE

Una risorsa in coda può trovarsi in uno dei seguenti stati:

  • WAITING_FOR_RESOURCES: la richiesta ha superato la convalida iniziale ed è stata aggiunta alla coda.
  • PROVISIONING: la richiesta è stata selezionata dalla coda e le VM TPU sono in fase di creazione.
  • ACTIVE: la richiesta è stata soddisfatta e le VM TPU sono pronte.
  • FAILED: non è stato possibile completare la richiesta. Utilizza il comando describe per ulteriori dettagli.
  • SUSPENDING: le risorse associate alla richiesta sono in fase di eliminazione.
  • SUSPENDED: le risorse associate alla richiesta sono state eliminate.

Per ulteriori informazioni, consulta Recuperare lo stato e le informazioni diagnostiche di una richiesta di risorse in coda.

Monitora il tempo di esecuzione delle VM con avvio flessibile TPU

Puoi monitorare il tempo di esecuzione delle VM con avvio flessibile TPU controllando il timestamp di terminazione della TPU:

  1. Recupera i dettagli della richiesta di risorse in coda.
  2. Scegli una delle seguenti opzioni a seconda che le TPU siano state create o meno:

    • Se la risorsa in coda è in attesa di risorse: nell'output, consulta il campo maxRunDuration. Questo campo specifica la durata di esecuzione delle TPU una volta create.

    • Se le TPU associate alla risorsa in coda sono state create: Nell'output, consulta il campo terminationTimestamp elencato per ogni nodo nella risorsa in coda. Questo campo specifica quando verrà terminata la TPU.

Elimina una risorsa in coda

Puoi eliminare una richiesta di risorse in coda e le TPU associate alla richiesta eliminando la richiesta di risorse in coda e passando il --force flag al queued-resources delete comando:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --force

Se elimini la TPU direttamente utilizzando il comando gcloud compute tpus tpu-vm delete, devi eliminare anche la risorsa in coda, come mostrato nell'esempio seguente. Quando elimini la TPU, la richiesta di risorse in coda passa allo stato SUSPENDED, dopodiché puoi eliminare la richiesta di risorse in coda.

Per eliminare una TPU, utilizza il gcloud compute tpus tpu-vm delete comando:

gcloud compute tpus tpu-vm delete NODE_ID \
    --zone ZONE

Quindi, per eliminare la risorsa in coda, utilizza il gcloud alpha compute tpus queued-resources delete comando:

gcloud alpha compute tpus queued-resources delete QUEUED_RESOURCE_ID \
    --zone ZONE

Per ulteriori informazioni, consulta Eliminare una richiesta di risorse in coda.