Avvia manualmente un evento di manutenzione dell'host

Questa pagina spiega come avviare manualmente un evento di manutenzione dell'host sulle VM TPU supportate. Questo è utile per i workload che potrebbero essere interessati da prestazioni ridotte o tempi di inattività, per i quali è necessario che il periodo di manutenzione inizi a un'ora specifica.

Quando avvii manualmente un evento di manutenzione, questo inizia immediatamente. Non puoi specificare una data o un'ora di inizio per l'evento di manutenzione. Se non utilizzi questa funzionalità, l'evento di manutenzione avviene all'ora indicata nella notifica relativa alla manutenzione imminente.

Per informazioni sull'avvio manuale di una manutenzione per le TPU in GKE, consulta Gestire l'interruzione dei nodi GKE per GPU e TPU.

Limitazioni

Puoi avviare manualmente un evento di manutenzione dell'host solo per le VM TPU con le seguenti configurazioni:

  • Qualsiasi VM TPU v4 o v5p
  • VM TPU v5e o v6e con la configurazione della topologia 2x4 (ad esempio, v6e-8 se utilizzi il campo del tipo di acceleratore nell'API Cloud TPU) o più grandi
  • Pool di nodi multi-host GKE v5e o v6e con VM TPU 2x4 o più grandi

L'avvio immediato della manutenzione dell'host per le sezioni più grandi potrebbe comportare l'indisponibilità della sezione per un massimo di qualche ora. Normalmente, un evento di manutenzione dell'host comporta la riprogrammazione della slice il prima possibile in un altro insieme di host idonei, ma per le richieste di eventi di manutenzione dell'host più grandi, potrebbe non esserci capacità sufficiente per riprogrammare immediatamente la slice, il che comporta un tempo di attesa più lungo.

Inoltre, l'avvio della manutenzione sulla sezione Cloud TPU avvierà la manutenzione per tutte le VM TPU sottostanti. Se esegui la manutenzione direttamente su una delle istanze utilizzando l'API Instances, tutte le istanze all'interno dello slice Cloud TPU verranno sottoposte a manutenzione. Utilizza invece l'API Cloud TPU per specificare i nodi su cui deve essere eseguita la manutenzione.queued-resources

Avvia manualmente un evento di manutenzione dell'host

Puoi utilizzare le notifiche di manutenzione per determinare quando puoi avviare manualmente un evento di manutenzione su una TPU.

Controlla le informazioni sulla notifica

Puoi trovare le notifiche per gli eventi di manutenzione imminenti utilizzando l'API Cloud TPU o eseguendo query sul server di metadati sulla tua VM. Per saperne di più, consulta Visualizzare le notifiche di manutenzione.

Puoi avviare un evento di manutenzione in anticipo quando è presente una notifica di manutenzione dell'host imminente sulla TPU. Per avviare l'evento di manutenzione in anticipo, la notifica di manutenzione dell'host imminente deve avere canReschedule impostato su true e maintenanceStatus impostato su PENDING.

Avvia l'evento di manutenzione

Per avviare un evento di manutenzione dell'host, puoi utilizzare l'API Cloud TPU con il comando perform-maintenance:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Al termine dell'operazione, i campi windowEndTime e windowStartTime vengono modificati in base all'ora in cui hai avviato l'evento di manutenzione e il campo maintenanceStatus viene modificato in ONGOING. L'evento di manutenzione dell'host inizia poco dopo.

Utilizza il comando gcloud alpha compute tpus tpu-vm describe per visualizzare lo stato dell'evento di manutenzione:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

L'output contiene una sezione simile alla seguente:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

La manutenzione è completata quando lo stato della VM TPU è READY e l'output del comando gcloud alpha compute tpus tpu-vm describe non contiene più un campo di metadati upcomingMaintenance.

Per gli ambienti Multislice, puoi avviare manualmente un evento di manutenzione dell'host su slice specifici utilizzando il seguente comando:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES è un elenco separato da virgole di sezioni (nodi) nella risorsa in coda, per le quali vuoi avviare un evento di manutenzione dell'host. Ad esempio, se la risorsa in coda ha nodi denominati my-qr-0, my-qr-1 e my-qr-2, un input valido per il comando perform-maintenance sarebbe --node-names=my-qr-0,my-qr-1.

Passaggi successivi