Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gestire gli eventi di manutenzione per le TPU in modalità di capacità gestita

Le VM TPU sono istanze di VM Compute Engine con hardware TPU collegato. Le VM Compute Engine sono soggette a eventi di manutenzione delle VM Compute Engine. Ogni TPU è collegata a una VM Compute Engine, quindi l'utilizzo di più TPU (ad esempio, in uno slice TPU) aumenta la probabilità che una delle tue VM incontri un evento di manutenzione.

Questo documento illustra gli approcci per gestire gli eventi di manutenzione per i job di addestramento a lunga esecuzione sulle TPU. Per informazioni sulla gestione degli eventi di manutenzione per le TPU in Google Kubernetes Engine (GKE), consulta Gestire l'interruzione dei nodi GKE per GPU e TPU.

Visualizzare le notifiche per la manutenzione imminente

Monitorando i periodi di manutenzione imminenti dell'istanza, puoi preparare in modo proattivo i tuoi workload per gestire la manutenzione imminente con interruzioni minime. Per saperne di più, consulta Monitorare e pianificare un evento di manutenzione dell'host in nella documentazione di Compute Engine.

Utilizzare i checkpoint per un ripristino rapido dagli eventi di manutenzione

I checkpoint sono fondamentali per i ripristini brevi dagli eventi di manutenzione e devono essere salvati di frequente. Ti consigliamo di salvare i checkpoint circa ogni ora. Se non esegui il checkpointing abbastanza spesso, rischi di perdere molti progressi di addestramento a causa di eventi di manutenzione o altre interruzioni dell'addestramento.

I checkpoint in genere si riferiscono a tutti i parametri salvati utilizzati nell'addestramento, ad esempio i pesi del modello. Il tempo necessario per salvare un checkpoint può variare da secondi a minuti.

Sebbene le TPU spesso si riprendano automaticamente dagli eventi di manutenzione, esistono casi limite in cui il job non viene riavviato automaticamente. In questo caso, devi eliminare e ricreare le risorse TPU e riavviare il job di addestramento da un checkpoint salvato.

Esistono meccanismi diversi per salvare e caricare i checkpoint per ogni framework ML. I modelli Cloud TPU supportati in genere hanno il checkpointing integrato. Per saperne di più sul checkpointing, consulta la seguente documentazione:

Rilevare gli eventi di manutenzione

Per verificare se e quando si è verificato un evento di manutenzione sulla tua TPU, controlla i log di audit degli eventi di sistema in Cloud Logging. Per saperne di più, consulta Visualizzare i log degli eventi di manutenzione.

Puoi anche verificare la presenza di eventi di manutenzione imminenti utilizzando il gcloud compute instances describe comando. Per saperne di più, consulta Monitorare e pianificare un evento di manutenzione dell'host in nella documentazione di Compute Engine.

Visualizzare i log degli eventi di manutenzione

Puoi visualizzare i log cronologici degli eventi di manutenzione sulla tua TPU nei log di audit degli eventi di sistema.

Nel menu di navigazione della Google Cloud console, vai alla pagina Esplora log:

Vai a Esplora log
Utilizza la seguente query di ricerca per visualizzare le VM TPU terminate per manutenzione:

"compute.instances.terminateOnHostMaintenance"

I risultati mostrano i log per eventuali interruzioni e riparazioni dei worker TPU nel periodo di ricerca. I log includono:
- La data e l'ora dell'evento
- Il tipo di evento
- Il motivo della terminazione nel campo protoPayload.metadata.terminateReason

Avviare manualmente la manutenzione

Puoi avviare manualmente un evento di manutenzione dell'host in attesa sulla tua VM TPU per gestire in modo proattivo la manutenzione imminente con interruzioni minime. Per saperne di più, consulta Avviare manualmente un evento di manutenzione dell'host nella documentazione di Compute Engine.