Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gestire l'interruzione dei nodi GKE che non vengono migrati live

Autopilot Standard

Durante il ciclo di vita di un cluster GKE a lunga esecuzione, si verificano interruzioni periodiche dei carichi di lavoro a causa di interruzioni dell'infrastruttura cheGoogle Cloud problemi. Questi eventi automatici possono verificarsi per rispondere alle decisioni di pianificazione (eventi di preemptive) o agli aggiornamenti dei nodi, che includono gli upgrade automatici dei nodi GKE (eventi di manutenzione) o la correzione dei problemi rilevati (eventi di terminazione).

Questo documento ti aiuta a capire cosa significa interruzione dei nodi in GKE, a monitorare le notifiche di manutenzione di Compute Engine e a ridurre al minimo l'impatto dell'interruzione nei nodi GKE.

Questo documento si applica ai seguenti tipi di macchine:

Tipi di macchine con GPU o TPU collegate
Tipi di macchine Z3 con più di 18 TiB di Titanium SSD collegato
Tipi di macchine H4D
c4a-highmem-96-metal (anteprima) della serie di macchine C4A. Per ulteriori informazioni, consulta la sezione Requisiti e limitazioni del documento "Workload Arm su GKE".
Nodi GKE confidenziali che utilizzano tipi di macchine che non supportano la migrazione live.

Questo documento è rivolto agli amministratori e agli operatori della piattaforma che gestiscono il ciclo di vita dell'infrastruttura tecnologica sottostante. Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei contenuti di Google Cloud , consulta Ruoli utente e attività comuni di GKE.

Che cosa significa interruzione dell'infrastruttura in GKE?

I tuoi cluster GKE gestiscono il ciclo di vita dei nodi GKE. Il provisioning di questi nodi viene eseguito su VM Compute Engine, che periodicamente subiscono le seguenti interruzioni:

Correzione dei problemi rilevati (TerminationEvent): questi eventi si verificano perché Google Cloud rileva un problema e interrompe l'infrastruttura del cluster. Gli eventi TerminationEvent non supportano l'arresto controllato. Gli eventi TerminationEvent vengono attivati dai seguenti problemi:
- La riparazione automatica si verifica quando GKE ripara un nodo dopo ripetuti controlli di integrità non riusciti.
- HostError si verifica quando un errore hardware o software sulla macchina fisica causa l'arresto della VM.
Nota:gli eventi di manutenzione di Compute Engine sottostanti sono considerati eventi di manutenzione automatica. Questi eventi ignorano i periodi di manutenzione e le esclusioni di GKE, che controllano solo la manutenzione del cluster GKE e non controllano la manutenzione dei servizi sottostanti, come Compute Engine.
Eventi di manutenzione o upgrade (MaintenanceEvent): questi eventi si verificano quando Google Cloud deve interrompere una VM per eseguire la manutenzione. Gli eventi MaintenanceEvent vengono attivati dalle seguenti attività di manutenzione:
- Gli eventi di manutenzione si verificano quando Google Cloud esegue l'upgrade dell'host sottostante.
- Gli aggiornamenti dei nodi, che includono gli upgrade automatici dei nodi, si verificano quando GKE aggiorna la configurazione del nodo, ad esempio la versione GKE.
Per saperne di più su come tu e GKE gestite le modifiche durante il ciclo di vita di un cluster, consulta Tipi di modifiche.
Risposta alle decisioni di pianificazione (PreemptionEvent): si verificano quando Google Cloud deve prerilasciare le VM per rendere disponibile la capacità per risorse con priorità più elevata. Gli eventi PreemptionEvent possono essere uno dei seguenti:
- Espulsione:si verifica quando l'infrastruttura preemptible o Spot viene prerilasciata per ospitare una VM con priorità più alta.
- Defragmentazione:si verifica quando GKE esegue il preempt di una slice TPU più piccola per ospitare una slice TPU più grande. La deframmentazione si verifica solo sulle sezioni TPU.

Durante il ciclo di vita di un cluster GKE a lunga esecuzione, i nodi potrebbero subire interruzioni periodiche dei carichi di lavoro. Quando queste interruzioni interessano i nodi GKE che eseguono i tuoi workload, GKE deve riavviare sia i workload in esecuzione sia il nodo sottostante.

Perché i nodi senza migrazione live richiedono la gestione delle interruzioni

La maggior parte delle VM di Compute Engine, con alcune eccezioni, ha la policy di manutenzione dell'host impostata su migrazione live, il che significa che i carichi di lavoro in esecuzione in genere subiscono interruzioni minime o nulle. Tuttavia, alcune classi di VM non supportano la migrazione live, incluse le VM con GPU e TPU collegate, i tipi di macchine Z3 con più di 18 TiB di SSD, i tipi di macchine H4D e il tipo di macchina c4a-highmem-96-metal (anteprima). Ad esempio, quando si verifica un evento host nella VM all'interno di uno slice TPU, l'intero slice viene interrotto e poi riprogrammato perché tutti gli eventi di manutenzione vengono coordinati a livello di slice. Pertanto, se crei uno slice TPU con centinaia di VM, tutte riceveranno la stessa pianificazione degli eventi di manutenzione.

Quando si verifica un evento host, GKE termina il nodo e i relativi pod. Se i pod vengono sottoposti a deployment nell'ambito di un workload più grande, come un job o un deployment, GKE riavvia i pod sul nodo interessato.

Spetta a te o ai framework che utilizzi gestire la configurazione del workload per reagire in modo appropriato agli eventi di manutenzione. Ad esempio, puoi salvare lo stato del job di addestramento dell'AI per ridurre la perdita di dati.

Per gestire le interruzioni dei tuoi workload, puoi:

Monitorare le interruzioni di nodi e node pool
Monitorare le notifiche di manutenzione
Ridurre al minimo l'impatto delle interruzioni

Monitorare le interruzioni dei nodi

La seguente metrica di sistema GKE riporta il conteggio delle interruzioni per un nodo GKE dall'ultimo campione (la metrica viene campionata ogni 60 secondi):

kubernetes.io/node/interruption_count

I campi interruption_type (ad esempio TerminationEvent, MaintenanceEvent o PreemptionEvent) e interruption_reason (come HostError, Eviction o AutoRepair) possono contribuire a fornire il motivo per cui un nodo è stato interrotto.

Per ottenere una suddivisione delle interruzioni e delle relative cause nei nodi TPU nei cluster del tuo progetto, utilizza la seguente query PromQL:

  sum by (interruption_type,interruption_reason)(
    sum_over_time(
      kubernetes_io:node_interruption_count{monitored_resource="k8s_node"}[${__interval}]))

Per visualizzare solo gli eventi di manutenzione dell'host, aggiorna la query per filtrare il valore HW/SW Maintenance per interruption_reason. Utilizza la seguente query PromQL:

  sum by (interruption_type,interruption_reason)(
    sum_over_time(
      kubernetes_io:node_interruption_count{monitored_resource="k8s_node", interruption_reason="HW/SW Maintenance"}[${__interval}]))

Per visualizzare il conteggio delle interruzioni aggregato per pool di nodi, utilizza la seguente query PromQL:

  sum by (node_pool_name,interruption_type,interruption_reason)(
    sum_over_time(
      kubernetes_io:node_pool_interruption_count{monitored_resource="k8s_node_pool", interruption_reason="HW/SW Maintenance", node_pool_name=NODE_POOL_NAME }[${__interval}]))

Monitorare le notifiche di manutenzione

Compute Engine invia notifiche quando i nodi e le relative VM sono pianificati per eventi host interruttivi e quando questi eventi diventano attivi. Le notifiche includono informazioni sull'ora di inizio pianificata, sul tipo di evento e altri dettagli.

Su GKE versione 1.31.1-gke.2008000 e successive, puoi monitorare gli eventi di manutenzione imminenti, inclusi quelli descritti in questa sezione.

Puoi monitorare i prossimi eventi con i seguenti tipi di macchina e versioni di GKE:

Per i tipi di macchine con GPU o TPU collegate, 1.31.1-gke.2008000 o versioni successive
Per i tipi di macchine Z3 con più di 18 TiB di SSD, 1.32.4-gke.1376000 o versioni successive
Per i tipi di macchine H4D, 1.32.6-gke.1060000 o versioni successive
Per c4a-highmem-96-metal (anteprima), 1.35.0-gke.2232000 o versioni successive

La manutenzione imminente è pianificata, ma non attiva

Prima che una VM abbia un evento di manutenzione pianificato, Compute Engine invia notifiche a tutte le sue VM. Queste notifiche segnalano l'inizio del periodo di manutenzione di Compute Engine. Quando una manutenzione imminente è pianificata dalla VM, ma non è attiva, GKE aggiunge scheduled-maintenance-time all'etichetta del nodo.

Per eseguire query su queste notifiche a livello di nodo, esegui questo comando:

kubectl get nodes -l cloud.google.com/scheduled-maintenance-time \
    -L cloud.google.com/scheduled-maintenance-time

L'output è simile al seguente:

NAME                         STATUS    SCHEDULED-MAINTENANCE-TIME
<gke-accelerator-node-name>  Ready     1733083200
<gke-accelerator-node-name>  Ready     1733083200
[...]

La colonna SCHEDULED-MAINTENANCE-TIME rappresenta i secondi, visualizzati nel formato ora epoca di Unix.

Per eseguire query su queste notifiche a livello di metadati del nodo, controlla la presenza di una notifica di evento di manutenzione nelle istanze.

Per le famiglie di macchine ottimizzate per l'acceleratore che supportano la manutenzione avanzata, puoi accedere all'endpoint upcoming-maintenance che fornisce informazioni sugli eventi di manutenzione pianificata e avviata.

Ridurre al minimo l'impatto delle interruzioni

Compute Engine invia notifiche relative agli eventi di manutenzione imminenti e pianifica un periodo di manutenzione. Tra l'ora della notifica e l'ora di inizio del periodo di manutenzione, puoi decidere di:

Avvia manualmente un evento di manutenzione dell'host.
Consenti a Compute Engine di avviare l'evento di manutenzione in base alla pianificazione.

GKE supporta la terminazione controllata dei pod durante gli eventi di manutenzione dell'host. Nelle versioni recenti di GKE, questa funzionalità è disattivata per impostazione predefinita. Per utilizzare questa funzionalità, devi attivare manualmente la gestione delle interruzioni. Per saperne di più, consulta Abilitare la gestione delle interruzioni.

Avvia manualmente un evento di manutenzione dell'host

Puoi avviare manualmente la manutenzione ripianificabile quando si adatta alla tua pianificazione, ad esempio durante i periodi di attività ridotta. Per farlo, applica l'etichetta cloud.google.com/perform-maintenance=true se sono soddisfatte le seguenti condizioni:

Compute Engine emette una notifica relativa a un evento di manutenzione pianificata.
L'evento di manutenzione di Compute Engine sottostante è riprogrammabile. Per verificare se l'evento è riprogrammabile, cerca la notifica can_reschedule=TRUE nei metadati dell'evento. Se l'evento non è riprogrammabile, l'impostazione dell'etichetta cloud.google.com/perform-maintenance=true non ha effetto e la manutenzione viene eseguita all'ora originariamente programmata.

Se le condizioni precedenti sono soddisfatte, su un nodo nel pool di nodi, imposta l'etichetta del nodo cloud.google.com/perform-maintenance su true. Ad esempio:

kubectl label nodes <node-name> cloud.google.com/perform-maintenance=true

Se avvii un evento di manutenzione, GKE esegue le seguenti operazioni:

Contamina il nodo.
Esegue l'espulsione controllata dei pod.
Richiede a Compute Engine di avviare immediatamente l'evento di manutenzione, anziché attendere l'ora pianificata.

Compute Engine avvia l'evento di manutenzione come pianificato

Se non avvii un evento di manutenzione dell'host, Compute Engine avvia l'evento di manutenzione pianificato autonomamente. A partire dalla versione 1.33 di GKE, il nodo non è contaminato e i pod non vengono rimossi all'inizio del periodo di manutenzione.

Quando inizia l'evento di manutenzione, un nodo potrebbe spegnersi una o più volte con un breve periodo di notifica prima della sua imminente terminazione. In questi casi, GKE si impegna al massimo per terminare i workload ed espelle i pod in modo controllato.

Inizio della manutenzione pianificata

Quando inizia la manutenzione pianificata, Compute Engine aggiorna i metadati nella directory http://metadata.google.internal/computeMetadata/v1/instance/attributes/. Compute Engine aggiorna le etichette dei metadati nel seguente modo:

Imposta maintenance-event su TERMINATE_ON_HOST_MAINTENANCE.
In upcoming-maintenance, imposta maintenance_status su ONGOING.

GKE rileva e gestisce l'evento di manutenzione dell'host pianificato sia che lo attivi manualmente sia che lasci che GKE proceda automaticamente.

Abilita la gestione delle interruzioni

apiVersion: v1
kind: ConfigMap
metadata:
  name: gke-disruption-handling
  namespace: kube-system
data:
  maintenance-experience.yaml: |
    gracefulTermination: true

Per attivare la gestione delle interruzioni, crea un file denominato maintenance-config.yaml con questo ConfigMap. Applica ConfigMap al cluster con il seguente comando:

kubectl apply -f my-configmap.yaml

Configura GKE per terminare i workload in modo controllato

In questa sezione, configurerai GKE per gestire il ciclo di vita dell'applicazione e ridurre al minimo l'interruzione del workload. Se non configuri un periodo di tolleranza, il valore predefinito è 30 secondi.

GKE si impegna al massimo per terminare questi pod in modo controllato ed eseguire l'azione di terminazione definita, ad esempio il salvataggio di uno stato di addestramento. GKE invia un segnale SIGTERM ai pod all'inizio del periodo di tolleranza. Se i pod non vengono chiusi entro la fine del periodo di tolleranza, GKE invia un segnale SIGKILL di follow-up a tutti i processi ancora in esecuzione in qualsiasi container del pod.

Per configurare il periodo di interruzione normale, imposta il periodo di tolleranza per l'interruzione (in secondi) nel campo spec.terminationGracePeriodSeconds del manifest del pod. Ad esempio, per ricevere una notifica 10 minuti prima, imposta il campo spec.terminationGracePeriodSeconds nel manifest del pod su 600 secondi, come segue:

    spec:
      terminationGracePeriodSeconds: 600

Ti consigliamo di impostare un periodo di tolleranza per la chiusura sufficientemente lungo da consentire il completamento di eventuali attività in corso entro il periodo di tempo della notifica. Se il tuo workload utilizza un framework ML come MaxText, Pax o JAX con Orbax, i workload possono acquisire il segnale di arresto SIGTERM e avviare un processo di creazione di checkpoint. Per saperne di più, consulta TPU Autocheckpoint.

Procedura di arresto controllato

Quando inizia un evento di manutenzione avviato manualmente, Compute Engine segnala l'arresto imminente della macchina aggiornando la chiave di metadati maintenance-event. GKE avvia l'arresto controllato.

Il seguente flusso di lavoro mostra come GKE esegue l'arresto normale del nodo quando è imminente l'arresto del nodo:

Entro 60 secondi, si verifica quanto segue:
1. I componenti di sistema applicano il set di etichette dei nodi cloud.google.com/active-node-maintenance a ONGOING per indicare che i workload vengono arrestati.
2. GKE applica l'incompatibilità del nodo per impedire la pianificazione di nuovi pod sul nodo. L'incompatibilità ha la chiave cloud.google.com/impending-node-termination:NoSchedule. Ti consigliamo di non modificare i tuoi workload per tollerare questo taint a causa dell'interruzione nota che si verifica.
Il componente maintenance-handler inizia a eliminare i pod eliminando prima i pod del workload e poi i pod di sistema (ad esempio kube-system).
GKE invia un segnale di arresto SIGTERM ai pod del workload in esecuzione sul nodo per avvisarli di un arresto imminente. I pod possono utilizzare questo avviso per completare le attività in corso. GKE fa del suo meglio per terminare questi pod in modo controllato.
Al termine dell'espulsione, GKE aggiorna il valore dell'etichetta cloud.google.com/active-node-maintenance a terminating per indicare che il nodo è pronto per la terminazione.

Successivamente, si verifica la terminazione del nodo e viene allocato un nodo sostitutivo. GKE cancella le etichette e i taint al termine della procedura. Per aumentare la finestra di interruzione per i tuoi carichi di lavoro che utilizzano GPU o TPU, completa i passaggi nella sezione Avviare manualmente un evento di manutenzione dell'host.

Monitorare l'avanzamento di una chiusura normale attiva

Puoi filtrare i log GKE in base ai seguenti eventi di terminazione controllata:

Quando la VM rileva un'interruzione dovuta a un'imminente terminazione del nodo, ad esempio un evento di manutenzione dell'host Compute Engine, GKE imposta cloud.google.com/active-node-maintenance su ONGOING quando i workload vengono arrestati e su terminating quando i workload sono terminati e il nodo è pronto per la terminazione.
Quando limita la pianificazione di nuovi workload, GKE applica il taint cloud.google.com/impending-node-termination:NoSchedule.

Ridurre al minimo l'interruzione dei workload in esecuzione con la manutenzione opportunistica

Puoi ridurre al minimo l'interruzione dei workload in esecuzione attivando automaticamente la manutenzione quando GKE rileva che i nodi con GPU o TPU sono inattivi. Per attivare questa funzionalità, crea un nuovo pool di nodi. Non puoi abilitare la manutenzione opportunistica in un pool di nodi esistente.

Crea un nuovo pool di nodi con manutenzione opportunistica

Il seguente comando mostra come creare un pool di nodi con la manutenzione opportunistica abilitata:

gcloud beta container node-pools create NODE_POOL_NAME \
    --cluster CLUSTER_NAME \
    --accelerator ACCELERATOR_ARG \
    --machine-type MACHINE_TYPE \
    --num-nodes NODE_COUNT \
    --zone ZONE \
    --project=PROJECT_ID \
    --opportunistic-maintenance=node-idle-time=NODE_IDLE_TIME,min-nodes=MIN_NODES,window=WINDOW

Sostituisci i seguenti valori:

NODE_POOL_NAME: il nome del pool di nodi GKE.
CLUSTER_NAME : il nome del cluster GKE.
NODE_IDLE_TIME : il periodo di tempo in cui un nodo può rimanere inattivo (ovvero non sono in esecuzione carichi di lavoro che consumano acceleratori) prima che venga attivata la manutenzione. Il valore rappresenta la durata in secondi, con un massimo di nove cifre frazionarie, e termina con il carattere s, ad esempio: 80000s.
MIN_NODES : il numero minimo di nodi che devono essere disponibili in un pool di nodi. Questa opzione blocca la manutenzione se il numero di nodi in esecuzione scende al di sotto di questo valore, ad esempio: 10.
WINDOW : la finestra di tempo, in secondi, in cui può essere eseguita la manutenzione opportunistica. Il valore termina con il carattere s. Ad esempio, un valore di 14 giorni, o 1209600s, implica che la manutenzione opportunistica può essere eseguita solo nelle due settimane precedenti la data di manutenzione pianificata. Un valore di 28 giorni, o 2419200s, consente l'esecuzione della manutenzione opportunistica in qualsiasi momento durante il periodo di manutenzione pianificato. Questa finestra per la manutenzione host di Compute Engine è diversa dai periodi di manutenzione di GKE, che determinano quando può essere eseguita la manutenzione del cluster GKE e vengono configurati separatamente.

Configurazione di esempio per la manutenzione opportunistica

Considera l'esempio seguente. Hai un pool di nodi con quattro nodi e la configurazione della manutenzione opportunistica è impostata su --opportunistic-maintenance=node-idle-time=600s,window=2419200s,min-nodes=3. In questo scenario, si verifica quanto segue:

node1 ha un workload GPU in esecuzione. Questo nodo non è inattivo, quindi viene ignorato.
node2 è inattivo da 60 secondi. Questo nodo non è rimasto inattivo per un periodo di tempo sufficiente, quindi viene ignorato.
node3 è inattivo da 600 secondi. Questo nodo soddisfa il requisito di inattività.
node4 è inattivo da 600 secondi. Questo nodo soddisfa il requisito di inattività.

Sia node3 che node4 soddisfano il requisito di inattività. Tuttavia, solo uno di questi nodi attiverà la manutenzione opportunistica perché il valore dell'opzione min-nodes è impostato su 3.

Controlla la configurazione e lo stato dei nodi con manutenzione opportunistica

Controlla se la manutenzione opportunistica è configurata per un nodo eseguendo il seguente comando:

kubectl describe node NODE_NAME | grep node.gke.io/opportunistic-config

Sostituisci NODE_NAME con il nome del nodo che vuoi controllare.

Controlla se un nodo configurato con la manutenzione opportunistica è in fase di manutenzione:

kubectl describe node NODE_NAME | grep node.gke.io/maintenance-state

Se il nodo viene attivato dalla manutenzione opportunistica, l'annotazione maintenance-state mostra opportunistic-triggered come true.

Limitazioni

Tieni presente le seguenti limitazioni della manutenzione opportunistica:

Questa funzionalità può essere utilizzata solo con i node pool GPU e TPU.
La manutenzione opportunistica non è compatibile con la scalabilità automatica dei cluster perché il gestore della scalabilità automatica dei cluster esegue già lo scale down dei nodi inattivi.
Per i node pool TPU multi-host, il valore dell'impostazione min-nodes-per-pool deve essere 0 perché questi node pool sono atomici.
La versione minima di GKE supportata è 1.33.3-gke.1118000.
È supportata solo la manutenzione pianificata che include la can_reschedule=TRUE notifica.
Per disattivare questa funzionalità, devi ricreare il pool di nodi senza i flag corrispondenti. In alternativa, puoi disattivare manualmente la funzionalità su nodi specifici con cloud.google.com/opportunistic-disable=true.
In rari casi, il completamento della manutenzione di un nodo potrebbe richiedere più tempo. I clienti che utilizzano questa funzionalità potrebbero riscontrare un numero inferiore di nodi disponibili, fino al valore dell'impostazione min-nodes-per-pool, per un periodo di tempo.

Passaggi successivi

Scopri come eseguire il deployment dei carichi di lavoro GPU in Autopilot.
Scopri come eseguire il deployment dei carichi di lavoro TPU su GKE Autopilot.
Scopri di più sul processo di migrazione live durante gli eventi di manutenzione.