Questa pagina mostra come gestire i cluster Google Kubernetes Engine (GKE) ottimizzati per l'AI delle macchine A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU), inclusi i seguenti eventi comuni pertinenti ai cluster GKE e ai workload AI:
- Manutenzione dell'host
- Upgrade dei cluster
- Segnalazione di host difettosi
Gestire la manutenzione dell'host per i workload AI
I nodi GKE vengono eseguiti su istanze Compute Engine che periodicamente subiscono eventi dell'host che possono interrompere i workload AI. Poiché gli eventi dell'host si verificano nell'infrastruttura sottostante Google Cloud , ignorano i periodi di manutenzione e le esclusioni di GKE . Sebbene la maggior parte delle istanze di computing abbia la policy di manutenzione dell'host impostata sulla migrazione live, che riduce al minimo l'interruzione dei workload, le GPU e le TPU non supportano la migrazione live. Quando questi eventi dell'host interessano i nodi GKE che eseguono workload AI, GKE deve terminare il nodo e i pod in esecuzione sul nodo. Se i pod vengono sottoposti a deployment come parte di un workload più grande, come un job o un deployment, GKE tenta di riavviarli sul nodo interessato.
Per saperne di più sulla gestione della manutenzione dell'host delle istanze di computing, consulta Gestire l'interruzione dei nodi GKE per GPU e TPU.
Monitorare gli eventi di manutenzione dell'host
Per i cluster che eseguono GKE versione 1.31.1-gke.2008000 o successive, puoi visualizzare l'ora di inizio pianificata dell'evento di manutenzione dell'host nel seguente modo. L'ora di inizio è rappresentata dalle etichette dei nodi Kubernetes sul nodo GKE corrispondente per tutte le GPU e le TPU.
Per maggiori dettagli, consulta Monitorare le notifiche di manutenzione.
Con queste etichette dei nodi, puoi:
- Avviare manualmente un evento di manutenzione dell'host
- Utilizzare le informazioni sugli eventi di manutenzione dell'host durante la pianificazione dei workload
Avviare manualmente un evento di manutenzione dell'host
Dopo che Compute Engine invia una notifica relativa a un evento di manutenzione pianificato, puoi avviare manualmente la manutenzione in un momento che si allinea alla tua pianificazione. Ad esempio, puoi scegliere di eseguire la manutenzione durante i periodi di attività ridotta.
Se non avvii manualmente un evento di manutenzione dell'host, Compute Engine completerà automaticamente la manutenzione pianificata regolarmente.
Segui le istruzioni per avviare manualmente un evento di manutenzione dell'host. Inoltre, continua a leggere questa sezione per scoprire quanto segue:
- Configurare GKE per terminare i workload in modo controllato
- Procedura di terminazione controllata
- Monitorare l'avanzamento di una terminazione controllata attiva
Utilizzare le informazioni sulla manutenzione dell'host durante la pianificazione dei workload
Puoi utilizzare le informazioni sulla manutenzione visualizzate tramite le etichette dei nodi GKE insieme all'affinità e all' anti-affinità dei nodi per ridurre al minimo l'interruzione dei workload.
Nelle sezioni seguenti sono riportati esempi di come utilizzare queste informazioni.
Pianificare i pod sui nodi che non hanno eventi di manutenzione pianificati futuri
Puoi indicare a GKE di pianificare i pod solo sui nodi che non hanno eventi di manutenzione pianificati futuri, ad esempio con il seguente snippet:
spec:
affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: cloud.google.com/scheduled-maintenance-time
operator: DoesNotExist
Pianificare i pod sui nodi per cui è pianificata la manutenzione dopo una determinata data
Puoi indicare a GKE di pianificare i pod solo sui nodi per cui è pianificata la manutenzione dopo una determinata data fornendo l'ora dell'epoca di Unix:
spec:
affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: cloud.google.com/scheduled-maintenance-time
operator: Gt
values:
- 1733296000
Gestire gli upgrade dei cluster GKE per i workload AI
I workload AI sono sensibili alle interruzioni.
Durante il ciclo di vita di un cluster GKE, i workload AI devono essere preparati per le interruzioni sia delle istanze di computing sottostanti sia del cluster GKE stesso:
- Manutenzione dell'host: per gestire la manutenzione dell'host delle istanze di computing sottostanti, consulta Gestire l'interruzione dei nodi GKE per GPU e TPU. Questo argomento è trattato anche nelle sezioni precedenti.
- Upgrade dei cluster: per gestire le interruzioni dovute agli
upgrade dei cluster, puoi utilizzare i seguenti
strumenti:
- Periodi di manutenzione: pianifica quando GKE può eseguire gli upgrade dei cluster e altri tipi di operazioni sui cluster.
- Esclusioni di manutenzione: impedisci gli upgrade dei cluster e altri tipi di operazioni sui cluster durante un periodo di tempo specifico.
Ti consigliamo di mantenere il cluster registrato in un canale di rilascio. Per impostazione predefinita, i cluster GKE sono registrati nel canale di rilascio Regular. Per saperne di più sui vantaggi dei canali di rilascio, consulta il Confronto tra cluster registrati e non registrati in un canale di rilascio.
Con i canali di rilascio, hai accesso a più funzionalità, inclusi ambiti di esclusione della manutenzione aggiuntivi. Ti consigliamo l'ambito "Nessun upgrade secondario o dei nodi" per i workload AI.
Segnalare host difettosi tramite GKE
Questa sezione descrive come segnalare, tramite GKE, un host difettoso con istanze di computing di cui è stato eseguito il provisioning utilizzando il modello di provisioning vincolato alla prenotazione. Se vuoi segnalare un host difettoso per un nodo di cui è stato eseguito il provisioning utilizzando il modello di provisioning con avvio flessibile (anteprima), contatta il team dedicato all'account.
Un host è una singola macchina server fisica
nel data center che esegue un'istanza di computing che ospita il
nodo GKE. Puoi segnalare gli host difettosi applicando un'etichetta del nodo fault-behavior al nodo GKE interessato. Dopo aver applicato l'etichetta del nodo a un determinato nodo GKE, GKE esegue i seguenti passaggi:
- Rimuove in modo controllato i workload dal nodo.
- Impedisce la pianificazione di nuovi pod sul nodo.
- Chiama l'API sull'istanza di computing per contrassegnare l'host come difettoso.
- Attende che l'istanza di computing venga ripristinata su una macchina host integra. Per le prenotazioni che utilizzano la modalità operativa di prenotazione all capacity, Compute Engine ripristina l'istanza di computing sullo stesso nodo al termine dell'operazione di riparazione.
- Rimuove l'incompatibilità e l'etichetta
fault-behaviordal nodo.
Dopodiché, il nodo sarà di nuovo pronto per gestire i workload.
Requisiti
Per segnalare un host difettoso, il nodo GKE deve soddisfare i seguenti requisiti:
- Devi eseguire la versione patch GKE 1.32.3-gke.1057001 o successive.
- Devi eseguire uno dei seguenti tipi di macchine GPU: A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPU).
- Devi eseguire i nodi GKE su un'istanza di computing che è vincolata alla prenotazione.
- Il nodo GKE deve essere nello stato
RUNNING. Se provi a segnalare un host difettoso dopo aver eliminato l'istanza di computing, viene restituito un messaggio di errore e la macchina host non viene contrassegnata come difettosa. - Potresti essere soggetto a limitazione di frequenza per il numero di chiamate a questa API per prenotazione al mese in base a una valutazione dell'integrità dei blocchi. Le limitazioni di frequenza non si applicano se la prenotazione utilizza la modalità operativa di prenotazione all capacity.
Segnalare un host difettoso
Per segnalare un host difettoso:
Utilizza gli strumenti di osservabilità di GKE, i tuoi strumenti di monitoraggio o i log per identificare i nodi GKE che presentano problemi di prestazioni. Salva
NODE_NAME.Segnala il nodo come difettoso utilizzando il seguente comando. Puoi fornire un motivo e, con le versioni successive, una descrizione:
kubectl patch node NODE_NAME --type merge -p '{ "metadata": { "labels": { "cloud.google.com/fault-behavior": "FAULT_REASON" }, "annotations": { "cloud.google.com/fault-description": "FAULT_DESCRIPTION" } } }'Modifica il comando nel seguente modo:
- Sostituisci
NODE_NAMEcon il nome del nodo difettoso. - Sostituisci
FAULT_REASONcon il motivo del guasto appropriato utilizzando uno o più dei seguenti valori:PERFORMANCE: utilizza questo valore se le GPU su un'istanza di computing hanno prestazioni inferiori rispetto ad altre GPU nel cluster e non vedi errori XID nei log e non viene rilevato nessuno degli altri pattern di errore comuni, ad esempio il danneggiamento silenzioso dei dati.SDC: utilizza questo valore per il danneggiamento silenzioso dei dati, se vedi il danneggiamento dei dati ma nessun arresto anomalo del sistema. Questo danneggiamento dei dati può essere causato da difetti della CPU, bug software come use-after-free o memory stomping, problemi del kernel o altri difetti. Nella maggior parte dei casi, questo termine viene utilizzato per fare riferimento a difetti indotti dall'hardware.XID: utilizza questo valore se hai identificato un errore GPU non recuperabile con un XID per un'istanza di computing.unspecified: utilizza questo valore se non sai quale comportamento sta causando il problema con l'istanza di computing. Questo è il valore predefinito. Tuttavia, ti consigliamo di specificare uno degli altri valori, se applicabile.
- Modifica il blocco
annotationsin base alla versione del piano di controllo del cluster GKE :- 1.35.6-gke.1017000 o versioni successive oppure 1.36.0-gke.3251000 o versioni successive:
mantieni il blocco delle annotazioni e sostituisci
FAULT_DESCRIPTIONcon una descrizione testuale del guasto osservato. Può includere il codice di errore XID, i sintomi o i timestamp. Questa descrizione viene inoltrata a Compute Engine per facilitare la diagnostica della riparazione ed è rimossa automaticamente dal nodo al termine dell'operazione. Ad esempio:GPU XID 48 observed on device nvidia0 at 2026-06-10T10:30:00Z. - Versioni precedenti: rimuovi l'intero blocco
annotationsda il comando. Il campofault-descriptionnon viene inoltrato a Compute Engine in queste versioni e non viene rimosso automaticamente dal nodo. Contatta invece il team dedicato all'account o l'assistenza clienti Google Cloud per fornire i dettagli del guasto.
- 1.35.6-gke.1017000 o versioni successive oppure 1.36.0-gke.3251000 o versioni successive:
mantieni il blocco delle annotazioni e sostituisci
- Sostituisci
reservationOperationalMode campo nella prenotazione.
La tabella seguente riassume la procedura di host difettoso per le due modalità operative di prenotazione disponibili: modalità all capacity e modalità gestita.
Modalità All capacity (ALL_CAPACITY) |
Modalità gestita (HIGHLY_AVAILABLE_CAPACITY) |
|
|---|---|---|
| Tipi di macchine supportati | A4X Max e A4X | A4, A3 Ultra, A3 Mega e A3 High |
| Limitazione di frequenza dell'API per la segnalazione di host difettosi | Non si applicano limiti di frequenza. | Le chiamate all'API potrebbero essere soggette a limitazione di frequenza. |
| Procedura di segnalazione di host difettosi |
Quando segnali un host difettoso per un nodo in esecuzione in modalità all capacity, si verifica quanto segue: quanto segue:
|
Quando segnali un host difettoso per un nodo in esecuzione in modalità gestita, si verifica quanto segue:
|
Monitorare l'avanzamento dell'operazione
Puoi monitorare l'avanzamento dell'operazione di GKE utilizzando l'etichetta del nodo cloud.google.com/report-and-replace-status sul nodo GKE, che ha uno dei seguenti valori:
PodsEvicted: GKE ha terminato la rimozione dei pod dal nodo interessato.OperationRUNNING: l'operazione per segnalare l'host difettoso è in esecuzione.OperationDone: l'host sottostante è stato segnalato come difettoso e il nodo GKE è pronto per essere spostato su un nuovo host.Error: la chiamata API non è riuscita, per motivi che includono uno dei requisiti descritti nella sezione precedente.
Puoi anche visualizzare l'etichetta del nodo cloud.google.com/report-and-replace-operation
per visualizzare l'ID dell'operazione Compute Engine per monitorare lo stato dell'
operazione.
Puoi visualizzare entrambe queste etichette dei nodi utilizzando il seguente comando:
kubectl get nodes NODE_NAME \
-L cloud.google.com/report-and-replace-status,cloud.google.com/report-and-replace-operation
In caso di errori API, GKE imposta l'etichetta del nodo cloud.google.com/report-and-replace-status=ERROR. GKE cancella le incompatibilità dei nodi e rimuove l'etichetta del nodo cloud.google.com/fault-behavior.
Per scoprire come monitorare lo stato dettagliato di un'operazione di segnalazione di host difettosi, consulta Esaminare le operazioni di segnalazione di host difettosi.
Per riprovare l'operazione in caso di errori temporanei come i limiti di frequenza, applica di nuovo l'etichetta cloud.google.com/fault-behavior al nodo.
Passaggi successivi
Scopri come pianificare i workload GKE con la Topology Aware Scheduling.
Scopri come ottimizzare la rete dei cluster utilizzando NCCL/gIB.
Scopri come risolvere i problemi relativi agli errori dell'API per la segnalazione di host difettosi.