Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gestisci gli eventi di manutenzione degli host GPU

Questo documento illustra come ridurre al minimo le interruzioni dei workload GPU durante un evento di manutenzione.

Quando Compute Engine esegue la manutenzione di un'istanza Compute Engine con unità di elaborazione grafica (GPU) collegate, l'istanza di calcolo deve essere arrestata. Questo perché non è possibile eseguire la migrazione live delle istanze di Compute con GPU collegate.

Devi impostare queste istanze di computing in modo che si arrestino per gli eventi di manutenzione dell'host. Puoi impostare le istanze di computing arrestate in modo che si riavviino automaticamente al termine dell'evento di manutenzione.

Gli eventi di manutenzione dell'host si verificano in genere una volta ogni due settimane, ma a volte potrebbero essere eseguiti più di frequente. L'interruzione delle istanze di calcolo con GPU collegate può richiedere fino a un'ora a seguito di problemi o errori dell'host.

Ricevi una notifica in anticipo prima degli eventi di manutenzione

Puoi monitorare la pianificazione della manutenzione per l'istanza Compute Engine e preparare i tuoi workload per la transizione durante il riavvio del sistema.

Per ricevere un preavviso degli eventi dell'host, monitora il valore dei metadati /computeMetadata/v1/instance/maintenance-event. Se la richiesta al server dei metadati restituisce NONE, l'arresto dell'istanza di calcolo non è pianificato. Ad esempio, esegui il seguente comando da un'istanza di calcolo:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se il server metadati restituisce TERMINATE_ON_HOST_MAINTENANCE, l'interruzione dell'istanza di calcolo è pianificata. Per le istanze di computing a cui sono collegate GPU, Compute Engine fornisce questa notifica 1 ora prima dell'arresto dell'istanza di computing.

Per alcune serie di macchine GPU, come A3, Compute Engine fornisce un avviso di manutenzione imminente con più di un'ora di anticipo tramite l'attributo di metadati upcoming-maintenance. Per saperne di più, consulta Monitora e pianifica un evento di manutenzione dell'host.

Configura l'applicazione in modo che effettui la transizione tramite l'evento di manutenzione. Ad esempio, puoi utilizzare una delle seguenti tecniche:

Utilizza questi avvisi per configurare l'applicazione in modo che effettui la transizione tramite gli eventi di manutenzione dell'host. Ad esempio, consulta la sezione Esegui la migrazione dei dati temporanei dai dischi SSD locali di questo documento.

Esegui la migrazione dei dati temporanei dai dischi SSD locali

A causa della persistenza dei dati dell'SSD locale, i dati su tutti i dischi SSD locali collegati a un'istanza di computing non sono recuperabili ogni volta che Compute Engine arresta l'istanza di computing per eventi di manutenzione dell'host. Se vuoi contribuire a prevenire la perdita di dati, configura il tuo workload in modo da migrare i dati dai dischi SSD locali prima che l'istanza di computing venga arrestata. Ad esempio, puoi utilizzare una delle seguenti tecniche:

Configura l'applicazione in modo da spostare temporaneamente il lavoro in corso in un bucket Cloud Storage, quindi recupera i dati dopo il riavvio dell'istanza di calcolo.
Scrivi i dati su un disco permanente secondario. Quando l'istanza di computing si riavvia automaticamente, il Persistent Disk può essere nuovamente collegato e l'applicazione può riprendere il lavoro.

Passaggi successivi

Scopri di più sulle piattaforme GPU.
Per scoprire di più sulla gestione e sull'adattamento alle dimensioni di gruppi di istanze di computing, consulta Imposta la dimensione target del gruppo.
Per monitorare le prestazioni della GPU, vedi Monitora le prestazioni della GPU.
Per migliorare le prestazioni della rete, consulta Utilizza una larghezza di banda di rete superiore.
Scopri come risolvere i problemi relativi agli arresti e ai riavvii delle VM.