Questo documento illustra come ridurre al minimo le interruzioni dei workload GPU durante un evento di manutenzione.
Quando Compute Engine esegue la manutenzione di un'istanza Compute Engine con unità di elaborazione grafica (GPU) collegate, l'istanza di calcolo deve essere arrestata. Questo perché non è possibile eseguire la migrazione live delle istanze di Compute con GPU collegate.
Devi impostare queste istanze di computing in modo che si arrestino per gli eventi di manutenzione dell'host. Puoi impostare le istanze di computing arrestate in modo che si riavviino automaticamente al termine dell'evento di manutenzione.
Gli eventi di manutenzione dell'host si verificano in genere una volta ogni due settimane, ma a volte potrebbero essere eseguiti più di frequente. L'interruzione delle istanze di calcolo con GPU collegate può richiedere fino a un'ora a seguito di problemi o errori dell'host.
Ricevi una notifica in anticipo prima degli eventi di manutenzione
Puoi monitorare la pianificazione della manutenzione per l'istanza Compute Engine e preparare i tuoi workload per la transizione durante il riavvio del sistema.
Per ricevere un preavviso degli eventi dell'host, monitora il
valore dei metadati /computeMetadata/v1/instance/maintenance-event.
Se la richiesta al server dei metadati restituisce NONE, l'arresto dell'istanza di calcolo
non è pianificato. Ad esempio, esegui il seguente comando da un'istanza di
calcolo:
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
NONESe il server metadati restituisce TERMINATE_ON_HOST_MAINTENANCE, l'interruzione dell'istanza di calcolo è pianificata. Per le istanze di computing a cui sono collegate GPU, Compute Engine fornisce questa notifica 1 ora prima dell'arresto dell'istanza di computing.
Per alcune serie di macchine GPU, come A3, Compute Engine
fornisce un preavviso della manutenzione imminente con più di un'ora di anticipo tramite l'attributo
di metadati upcoming-maintenance. Per saperne di più, consulta Monitora e pianifica un evento di manutenzione dell'host.
Configura l'applicazione in modo che effettui la transizione tramite l'evento di manutenzione. Ad esempio, puoi utilizzare una delle seguenti tecniche:
Utilizza questi avvisi per configurare l'applicazione in modo che effettui la transizione tramite gli eventi di manutenzione dell'host. Ad esempio, vedi Eseguire la migrazione dei dati temporanei dai dischi SSD locali in questo documento.
Esegui la migrazione dei dati temporanei dai dischi SSD locali
A causa della persistenza dei dati delle unità SSD locali, i dati su tutti i dischi SSD locali collegati a un'istanza di computing non sono recuperabili ogni volta che Compute Engine arresta l'istanza di computing per eventi di manutenzione host. Se vuoi contribuire a prevenire la perdita di dati, configura il tuo workload in modo da migrare i dati dai dischi SSD locali prima che l'istanza di computing venga arrestata. Ad esempio, puoi utilizzare una delle seguenti tecniche:
Configura l'applicazione in modo da spostare temporaneamente il lavoro in corso in un bucket Cloud Storage, quindi recupera i dati dopo il riavvio dell'istanza di calcolo.
Scrivi i dati su un disco permanente secondario. Quando l'istanza di calcolo si riavvia automaticamente, il Persistent Disk può essere ricollegato e l'applicazione può riprendere il lavoro.
Passaggi successivi
- Scopri di più sulle piattaforme GPU.
- Per scoprire di più sulla gestione e sull'adattamento alle dimensioni di gruppi di istanze di computing, consulta Imposta la dimensione target del gruppo.
- Per monitorare le prestazioni della GPU, vedi Monitora le prestazioni della GPU.
- Per migliorare le prestazioni della rete, consulta Utilizza una larghezza di banda di rete superiore.
- Scopri come risolvere i problemi relativi agli arresti e ai riavvii delle VM.