Avvia manualmente un evento di manutenzione dell'host
Questa pagina spiega come avviare manualmente un evento di manutenzione dell'host sulle VM TPU supportate. Questo è utile per i workload che potrebbero essere interessati da prestazioni ridotte o tempi di inattività, per i quali è necessario che il periodo di manutenzione inizi a un'ora specifica.
Quando avvii manualmente un evento di manutenzione, questo inizia immediatamente. Non puoi specificare una data o un'ora di inizio per l'evento di manutenzione. Se non utilizzi questa funzionalità, l'evento di manutenzione avviene all'ora indicata nella notifica relativa alla manutenzione imminente.
Per informazioni sull'avvio manuale di una manutenzione per le TPU in GKE, consulta Gestire l'interruzione dei nodi GKE per GPU e TPU.
Limitazioni
Puoi avviare manualmente un evento di manutenzione dell'host solo per le VM TPU con le seguenti configurazioni:
- Qualsiasi VM TPU v4 o v5p
- VM TPU v5e o v6e con la configurazione della topologia
2x4
(ad esempio,v6e-8
se utilizzi il campo del tipo di acceleratore nell'API Cloud TPU) o più grandi - Pool di nodi multi-host GKE v5e o v6e con VM TPU
2x4
o più grandi
L'avvio immediato della manutenzione dell'host per le sezioni più grandi potrebbe comportare l'indisponibilità della sezione per un massimo di qualche ora. Normalmente, un evento di manutenzione dell'host comporta la riprogrammazione della slice il prima possibile in un altro insieme di host idonei, ma per le richieste di eventi di manutenzione dell'host più grandi, potrebbe non esserci capacità sufficiente per riprogrammare immediatamente la slice, il che comporta un tempo di attesa più lungo.
Inoltre, l'avvio della manutenzione sulla sezione Cloud TPU avvierà
la manutenzione per tutte le VM TPU sottostanti. Se esegui la manutenzione direttamente su
una delle istanze utilizzando l'API
Instances, tutte le
istanze all'interno dello slice Cloud TPU verranno sottoposte a manutenzione. Utilizza invece l'API Cloud TPU per specificare i nodi su cui deve essere eseguita la manutenzione.queued-resources
Avvia manualmente un evento di manutenzione dell'host
Puoi utilizzare le notifiche di manutenzione per determinare quando puoi avviare manualmente un evento di manutenzione su una TPU.
Controlla le informazioni sulla notifica
Puoi trovare le notifiche per gli eventi di manutenzione imminenti utilizzando l'API Cloud TPU o eseguendo query sul server di metadati sulla tua VM. Per saperne di più, consulta Visualizzare le notifiche di manutenzione.
Puoi avviare un evento di manutenzione in anticipo quando è presente una notifica di manutenzione dell'host imminente sulla TPU. Per avviare l'evento di manutenzione in anticipo, la notifica di manutenzione dell'host imminente deve avere canReschedule
impostato su true
e maintenanceStatus
impostato su PENDING
.
Avvia l'evento di manutenzione
Per avviare un evento di manutenzione dell'host, puoi utilizzare l'API Cloud TPU con il
comando perform-maintenance
:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
Al termine dell'operazione, i campi windowEndTime
e windowStartTime
vengono modificati in base all'ora in cui hai avviato l'evento di manutenzione e il
campo maintenanceStatus
viene modificato in ONGOING
. L'evento di manutenzione dell'host
inizia poco dopo.
Utilizza il comando gcloud alpha compute tpus tpu-vm describe
per visualizzare
lo stato dell'evento di manutenzione:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
L'output contiene una sezione simile alla seguente:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
La manutenzione è completata quando lo stato della VM TPU è READY
e l'output del
comando gcloud alpha compute tpus tpu-vm describe
non contiene più un
campo di metadati upcomingMaintenance
.
Per gli ambienti Multislice, puoi avviare manualmente un evento di manutenzione dell'host su slice specifici utilizzando il seguente comando:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
è un elenco separato da virgole di sezioni (nodi) nella risorsa in coda,
per le quali vuoi avviare un evento di manutenzione dell'host. Ad esempio, se la risorsa in coda
ha nodi denominati my-qr-0, my-qr-1
e my-qr-2
, un input valido per il
comando perform-maintenance
sarebbe --node-names=my-qr-0,my-qr-1
.