Questo documento illustra come ridurre al minimo le interruzioni dei workload GPU durante un evento di manutenzione.
Per scoprire come monitorare, pianificare ed eseguire la manutenzione pianificata delle istanze di macchine virtuali (VM) con Cluster Director, consulta invece Gestisci gli eventi sull'host nelle VM.
Quando Compute Engine esegue la manutenzione di una macchina virtuale (VM) con unità di elaborazione grafica (GPU) collegate, la VM deve essere arrestata. Questo perché non è possibile eseguire la migrazione live delle VM con GPU collegate.
Devi impostare queste VM in modo che si arrestino per gli eventi di manutenzione dell'host. Puoi impostare le VM arrestate in modo che si riavviino automaticamente al termine dell'evento di manutenzione.
Gli eventi di manutenzione dell'host si verificano in genere una volta ogni due settimane, ma a volte potrebbero essere eseguiti più di frequente.
Ricevi una notifica in anticipo prima degli eventi di manutenzione
Puoi monitorare la pianificazione della manutenzione per l'istanza della tua macchina virtuale (VM) e preparare i tuoi workload per la transizione durante il riavvio del sistema.
Per ricevere un preavviso degli eventi dell'host, monitora il
valore dei metadati /computeMetadata/v1/instance/maintenance-event.
Se la richiesta al server dei metadati restituisce NONE, l'arresto della VM
non è pianificato. Ad esempio, esegui il seguente comando da una VM:
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
NONESe il server metadati restituisce TERMINATE_ON_HOST_MAINTENANCE,
l'interruzione della VM è pianificata. Compute Engine invia alle VM GPU
un preavviso di arresto di 1 ora, mentre le VM normali ricevono solo
un preavviso di 60 secondi.
Utilizza questi avvisi per configurare l'applicazione in modo che effettui la transizione tramite gli eventi di manutenzione dell'host. Ad esempio, vedi Eseguire la migrazione dei dati temporanei dai dischi SSD locali in questo documento.
Esegui la migrazione dei dati temporanei dai dischi SSD locali
A causa della persistenza dei dati dell'SSD locale, i dati su eventuali dischi SSD locali collegati a una VM non sono recuperabili ogni volta che Compute Engine arresta la VM per eventi di manutenzione dell'host. Se vuoi contribuire a evitare la perdita di dati, configura il tuo workload in modo da eseguire la migrazione dei dati dai dischi SSD locali prima dell'arresto della VM. Ad esempio, puoi utilizzare una delle seguenti tecniche:
Configura l'applicazione in modo da spostare temporaneamente il lavoro in corso in un bucket Cloud Storage, quindi recupera i dati dopo il riavvio della VM.
Scrivi i dati su un disco permanente secondario. Quando la VM si riavvia automaticamente, il disco permanente può essere nuovamente collegato e l'applicazione può riprendere il lavoro.
Passaggi successivi
- Scopri di più sulle piattaforme GPU.
- Per scoprire di più sulla gestione e sull'adattamento alle dimensioni di gruppi di VM, consulta Imposta la dimensione target del gruppo.
- Per monitorare le prestazioni della GPU, vedi Monitora le prestazioni della GPU.
- Per migliorare le prestazioni della rete, consulta Utilizza una larghezza di banda di rete superiore.
- Scopri come risolvere i problemi relativi agli arresti e ai riavvii delle VM.