Gestire gli eventi di manutenzione per le TPU in modalità di capacità gestita
Le VM TPU sono istanze di VM Compute Engine con hardware TPU collegato. Le VM di Compute Engine sono soggette a eventi di manutenzione delle VM di Compute Engine. Ogni TPU è connessa a una VM Compute Engine, quindi l'utilizzo di più TPU (ad esempio, in uno slice TPU) aumenta la probabilità che una delle tue VM riscontri un evento di manutenzione.
Questo documento descrive gli approcci per gestire gli eventi di manutenzione per i job di training a lunga esecuzione sui TPU. Per informazioni sulla gestione degli eventi di manutenzione per le TPU in Google Kubernetes Engine (GKE), consulta Gestire l'interruzione dei nodi GKE per GPU e TPU.
Visualizzare le notifiche relative alla manutenzione imminente
Monitorando i periodi di manutenzione imminenti dell'istanza, puoi preparare in modo proattivo i tuoi workload per gestire la manutenzione imminente con interruzioni minime. Per saperne di più, consulta Monitorare e pianificare un evento di manutenzione dell'host nella documentazione di Compute Engine.
Utilizzare i checkpoint per un rapido recupero dagli eventi di manutenzione
I checkpoint sono fondamentali per i recuperi brevi dagli eventi di manutenzione e devono essere salvati di frequente. Ti consigliamo di salvare i checkpoint circa ogni ora. Se non vengono creati checkpoint abbastanza spesso, si rischia di perdere gran parte dei progressi di addestramento a causa di eventi di manutenzione o altre interruzioni dell'addestramento.
I checkpoint in genere si riferiscono a tutti i parametri salvati utilizzati nell'addestramento, come i pesi del modello. Il tempo necessario per salvare un checkpoint può variare da secondi a minuti.
Sebbene le TPU spesso si riprendano automaticamente dagli eventi di manutenzione, esistono casi limite in cui il job non viene riavviato automaticamente. In questo caso, devi eliminare e ricreare le risorse TPU e riavviare il job di addestramento da un checkpoint salvato. Per informazioni su come rilevare e risolvere gli errori di ripristino automatico, consulta Rilevare e risolvere gli errori della TPU.
Esistono meccanismi diversi per salvare e caricare i checkpoint per ogni framework ML. I modelli Cloud TPU supportati in genere hanno il checkpointing integrato. Per ulteriori informazioni sul checkpointing, consulta la seguente documentazione:
Rileva eventi di manutenzione
Per rilevare se e quando si è verificato un evento di manutenzione sulla tua TPU, controlla gli audit log degli eventi di sistema in Cloud Logging. Per saperne di più, vedi Visualizzare i log degli eventi di manutenzione.
Puoi anche verificare la presenza di eventi di manutenzione imminenti utilizzando il comando gcloud compute
instances describe.
Per saperne di più, consulta Monitorare e pianificare un evento di manutenzione dell'host nella documentazione di Compute Engine.
Visualizzare i log degli eventi di manutenzione
Puoi visualizzare i log storici degli eventi di manutenzione sulla TPU nei log di controllo Evento di sistema.
Nel menu di navigazione della console Google Cloud , vai alla pagina Esplora log:
Utilizza la seguente query di ricerca per visualizzare le VM TPU terminate per manutenzione:
"compute.instances.terminateOnHostMaintenance"I risultati mostrano i log relativi a eventuali interruzioni e riparazioni dei worker TPU nel periodo di tempo della ricerca. I log includono:
- La data e l'ora dell'evento
- Il tipo di evento
- Il motivo della chiusura nel campo
protoPayload.metadata.terminateReason
Avviare manualmente la manutenzione
Puoi avviare manualmente un evento di manutenzione dell'host in attesa sulla tua VM TPU per gestire in modo proattivo la manutenzione imminente con interruzioni minime. Per saperne di più, consulta Avvia manualmente un evento di manutenzione dell'host nella documentazione di Compute Engine.
Passaggi successivi
- Monitora e pianifica un evento di manutenzione dell'host
- Avvia manualmente un evento di manutenzione dell'host