Avvia manualmente un evento di manutenzione dell'host

In questa pagina viene spiegato come avviare manualmente un evento di manutenzione dell'host sulle VM TPU supportate. Questo è utile per i workload che potrebbero essere interessati da prestazioni ridotte o tempi di inattività, per i quali è necessario che il periodo di manutenzione inizi a un'ora specifica.

Quando avvii manualmente un evento di manutenzione, l'evento di manutenzione dell'host inizia immediatamente. Non puoi specificare una data o un'ora di inizio per l'evento di manutenzione. Se non utilizzi questa funzionalità, l'evento di manutenzione avviene all'ora indicata nella notifica relativa alla manutenzione imminente.

Per informazioni su come avviare manualmente un evento di manutenzione per le TPU in Google Kubernetes Engine (GKE), consulta Gestire l'interruzione dei nodi GKE per GPU e TPU.

Limitazioni

Puoi avviare manualmente un evento di manutenzione dell'host utilizzando l'API Cloud TPU solo per le VM TPU con le seguenti configurazioni:

  • Qualsiasi VM TPU v4 o v5p
  • VM TPU v5e o v6e con la configurazione della topologia 2x4 (ad esempio, v6e-8 se utilizzi il campo del tipo di acceleratore nell'API Cloud TPU) o superiore
  • Node pool multi-host GKE v5e o v6e con VM TPU 2x4 o superiori

L'avvio immediato della manutenzione dell'host per slice più grandi potrebbe comportare l'indisponibilità della slice per un massimo di qualche ora. In genere, un evento di manutenzione dell'host comporta la riprogrammazione della slice il prima possibile in un altro insieme di host idonei, ma per le richieste di eventi di manutenzione dell'host più grandi potrebbe non essere disponibile una capacità sufficiente per riprogrammare immediatamente la slice, con conseguente aumento dei tempi di attesa.

Inoltre, l'avvio della manutenzione sulla slice Cloud TPU avvierà la manutenzione per tutte le VM TPU sottostanti. Se esegui la manutenzione direttamente su una delle istanze utilizzando l'API Instances, tutte le istanze all'interno della slice Cloud TPU verranno messe in manutenzione. Utilizza invece l'API Cloud TPU queued-resources per specificare i nodi su cui eseguire la manutenzione.

Avvia manualmente un evento di manutenzione dell'host

Puoi utilizzare le notifiche di manutenzione per determinare quando puoi avviare manualmente un evento di manutenzione su una TPU.

Controlla le informazioni sulla notifica

Puoi trovare le notifiche per gli eventi di manutenzione imminenti utilizzando l'API Cloud TPU o eseguendo una query sul server di metadati della VM. Per saperne di più, consulta Visualizza le notifiche di manutenzione.

Puoi avviare un evento di manutenzione in anticipo quando è presente una notifica di manutenzione dell'host imminente sulla TPU. Per avviare l'evento di manutenzione in anticipo, la notifica di manutenzione dell'host imminente deve avere canReschedule impostato su true e maintenanceStatus impostato su PENDING.

Avvia l'evento di manutenzione

Per avviare un evento di manutenzione dell'host, puoi utilizzare l'API Cloud TPU con il comando perform-maintenance:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Al termine dell'operazione, i campi windowEndTime e windowStartTime cambiano all'ora in cui hai avviato l'evento di manutenzione e il campo maintenanceStatus cambia in ONGOING. L'evento di manutenzione dell'host inizia poco dopo.

Utilizza il comando gcloud alpha compute tpus tpu-vm describe per visualizzare lo stato dell'evento di manutenzione:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

L'output contiene una sezione simile alla seguente:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

La manutenzione è completata quando lo stato della VM TPU è READY e l'output del comando gcloud alpha compute tpus tpu-vm describe non contiene più un campo di metadati upcomingMaintenance.

Per gli ambienti Multislice, puoi avviare manualmente un evento di manutenzione dell'host su slice specifiche utilizzando il seguente comando:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES è un elenco separato da virgole di slice (nodi) nella risorsa in coda, per cui vuoi avviare un evento di manutenzione dell'host. Ad esempio, se la risorsa in coda ha nodi denominati my-qr-0, my-qr-1 e my-qr-2, un input valido per il comando perform-maintenance sarebbe --node-names=my-qr-0,my-qr-1.

Passaggi successivi