Google utilizza la tecnologia AI per tradurre i contenuti nella tua lingua preferita. Le traduzioni generate dall'AI potrebbero contenere errori.

Risoluzione dei problemi di archiviazione in GKE

Autopilot Standard

I problemi di archiviazione nei cluster Google Kubernetes Engine (GKE) possono manifestarsi in vari modi, dai colli di bottiglia delle prestazioni e dagli errori di montaggio dei volumi agli errori durante l'utilizzo di tipi di dischi specifici con determinati tipi di macchine. Questi problemi possono influire sulla statefulness dell'applicazione, sulla persistenza dei dati e sull'integrità complessiva del carico di lavoro.

Utilizza questo documento per risolvere i problemi comuni che interessano la funzionalità di archiviazione nei cluster. Trova indicazioni per la risoluzione dei problemi relativi al provisioning e all'allegato del volume, all'accesso ai dati e alle prestazioni e alla gestione della capacità di archiviazione.

Queste informazioni sono importanti sia per gli amministratori della piattaforma sia per gli operatori che gestiscono l'infrastruttura e lo spazio di archiviazione dei cluster, sia per gli sviluppatori di applicazioni i cui workload si basano sullo spazio di archiviazione permanente. Per saperne di più sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei contenuti di Google Cloud , consulta Ruoli utente e attività comuni di GKE.

Errore 400: impossibile collegare RePD a una VM ottimizzata

L'utilizzo dei dischi permanenti regionali è limitato alle macchine ottimizzate per la memoria o per il calcolo.

Valuta la possibilità di utilizzare una classe di archiviazione di dischi permanenti non regionali se l'utilizzo di un disco permanente regionale non è un requisito rigido. Se l'utilizzo di un disco permanente a livello di regione è un requisito rigido, valuta strategie di pianificazione come taint e tolleranze per assicurarti che i pod che richiedono dischi permanenti a livello di regione vengano pianificati su un pool di nodi che non sono macchine ottimizzate.

Risoluzione dei problemi relativi alle prestazioni del disco

Le prestazioni del disco di avvio sono importanti perché il disco di avvio per i nodi GKE non viene utilizzato solo per il sistema operativo, ma anche per quanto segue:

Immagini Docker.
Il file system del container per ciò che non è montato come volume (ovvero il file system di overlay), che spesso include directory come /tmp.
Volumi emptyDir basati su disco, a meno che il nodo non utilizzi SSD locale.

Le prestazioni del disco sono condivise per tutti i dischi dello stesso tipo di disco su un nodo. Ad esempio, se hai un disco di avvio pd-standard da 100 GB e un PersistentVolume pd-standard da 100 GB con molta attività, le prestazioni del disco di avvio sono quelle di un disco da 200 GB. Inoltre, se c'è molta attività sul PersistentVolume, ciò influisce anche sulle prestazioni del disco di avvio.

Se sui nodi vengono visualizzati messaggi simili ai seguenti, potrebbero essere sintomi di prestazioni del disco scarse:

INFO: task dockerd:2314 blocked for more than 300 seconds.

fs: disk usage and inodes count on following dirs took 13.572074343s

PLEG is not healthy: pleg was last seen active 6m46.842473987s ago; threshold is 3m0s

Per risolvere questi problemi, esamina quanto segue:

Assicurati di aver consultato i confronti tra i tipi di dischi di archiviazione e di aver scelto un tipo di disco permanente adatto alle tue esigenze.
Questo problema si verifica spesso per i nodi che utilizzano dischi permanenti standard con una dimensione inferiore a 200 GB. Valuta la possibilità di aumentare le dimensioni dei dischi o di passare alle unità SSD, soprattutto per i cluster utilizzati in produzione.
Valuta la possibilità di attivare l'SSD locale per l'archiviazione temporanea sui tuoi node pool. Ciò è particolarmente efficace se hai container che utilizzano spesso volumi emptyDir.

Il montaggio di un volume smette di rispondere a causa dell'impostazione `fsGroup`

Un problema che può causare il mancato montaggio di PersistentVolume è un pod configurato con l'impostazione fsGroup. Normalmente, i montaggi vengono ritentati automaticamente e l'errore di montaggio si risolve da solo. Tuttavia, se PersistentVolume contiene un numero elevato di file, kubelet tenterà di modificare la proprietà di ogni file nel file system, il che può aumentare la latenza di montaggio del volume.

Unable to attach or mount volumes for pod; skipping pod ... timed out waiting for the condition

Per verificare se un errore di montaggio non riuscito è dovuto all'impostazione fsGroup, puoi controllare i log del pod. Se il problema è correlato all'impostazione fsGroup, viene visualizzata la seguente voce di log:

Setting volume ownership for /var/lib/kubelet/pods/POD_UUID and fsGroup set. If the volume has a lot of files then setting volume ownership could be slow, see https://github.com/kubernetes/kubernetes/issues/69699

Se PersistentVolume non viene montato entro pochi minuti, prova a seguire questi passaggi per risolvere il problema:

Riduci il numero di file nel Volume.
Non utilizzare più l'impostazione [fsGroup].
Modifica l'applicazione fsGroupChangePolicy in OnRootMismatch.

Le operazioni lente sul disco causano errori di creazione dei pod

Per saperne di più, consulta il problema n. 4604 di containerd.

Versioni nodo GKE interessate:1.18, 1.19, da 1.20.0 a 1.20.15-gke.2100, da 1.21.0 a 1.21.9-gke.2000, da 1.21.10 a 1.21.10-gke.100, da 1.22.0 a 1.22.6-gke.2000, da 1.22.7 a 1.22.7-gke.100, da 1.23.0 a 1.23.3-gke.700, da 1.23.4 a 1.23.4-gke.100

Nei log di k8s_node container-runtime potrebbero essere visualizzati i seguenti errori di esempio:

Error: failed to reserve container name "container-name-abcd-ef12345678-91011_default_12131415-1234-5678-1234-12345789012_0": name "container-name-abcd-ef12345678-91011_default_12131415-1234-5678-1234-12345789012_0" is reserved for "1234567812345678123456781234567812345678123456781234567812345678"

Attenuazione

Se i pod non funzionano, valuta la possibilità di utilizzare restartPolicy:Always o restartPolicy:OnFailure in PodSpec.
Aumenta le IOPS del disco di avvio (ad esempio, esegui l'upgrade del tipo di disco o aumenta le dimensioni del disco).

Correggi

Questo problema è stato risolto in containerd 1.6.0+. Le versioni di GKE con questa correzione sono 1.20.15-gke.2100+, 1.21.9-gke.2000+, 1.21.10-gke.100+, 1.22.6-gke.2000+, 1.22.7-gke.100+, 1.23.3-gke.1700+ e 1.23.4-gke.100+.

Le modifiche all'espansione del volume non vengono riflesse nel file system del contenitore

Quando esegui l'espansione del volume, assicurati sempre di aggiornare PersistentVolumeClaim. La modifica diretta di un PersistentVolume può comportare l'espansione del volume. Ciò potrebbe portare a uno dei seguenti scenari:

Se un oggetto PersistentVolume viene modificato direttamente, sia i valori PersistentVolume che PersistentVolumeClaim vengono aggiornati a un nuovo valore, ma le dimensioni del file system non vengono riflesse nel container e continuano a utilizzare le vecchie dimensioni del volume.
Se un oggetto PersistentVolume viene modificato direttamente, seguito da aggiornamenti all'oggetto PersistentVolumeClaim in cui il campo status.capacity viene aggiornato a una nuova dimensione, ciò può comportare modifiche all'oggetto PersistentVolume, ma non all'oggetto PersistentVolumeClaim o al file system del container.

Per risolvere questo problema, completa i seguenti passaggi:

Mantieni l'oggetto PersistentVolume modificato così com'era.
Modifica l'oggetto PersistentVolumeClaim e imposta spec.resources.requests.storage su un valore superiore a quello utilizzato in PersistentVolume.
Verifica se PersistentVolume è stato ridimensionato al nuovo valore.

Dopo queste modifiche, le dimensioni di PersistentVolume, PersistentVolumeClaim e del file system del container devono essere ridimensionate automaticamente da kubelet.

Verifica se le modifiche sono riportate nel pod.

kubectl exec POD_NAME  -- /bin/bash -c "df -h"

Sostituisci POD_NAME con il pod collegato a PersistentVolumeClaim.

Il tipo di macchina selezionato deve avere SSD locali

Quando crei un cluster o un pool di nodi che utilizza SSD locali, potresti riscontrare il seguente errore:

The selected machine type (c3-standard-22-lssd) has a fixed number of local SSD(s): 4. The EphemeralStorageLocalSsdConfig's count field should be left unset or set to 4, but was set to 1.

Nel messaggio di errore, potresti visualizzare LocalNvmeSsdBlockConfig anziché EphemeralStorageLocalSsdConfig, a seconda di quale hai specificato.

Questo errore si verifica quando il numero di dischi SSD locali specificato non corrisponde al numero di dischi SSD locali inclusi nel tipo di macchina.

Per risolvere il problema, specifica un numero di dischi SSD locali che corrisponda al tipo di macchina che vuoi. Per le serie di macchine di terza generazione, devi omettere il flag count dell'SSD locale e il valore corretto verrà configurato automaticamente.

Pool di archiviazione Hyperdisk: la creazione del cluster o pool di nodi non riesce

Potresti riscontrare l'errore ZONE_RESOURCE_POOL_EXHAUSTED o errori simili delle risorse di Compute Engine quando provi a eseguire il provisioning dei dischi Hyperdisk bilanciato come dischi di avvio o collegati del nodo in un pool di archiviazione Hyperdisk.

Ciò si verifica quando tenti di creare un cluster GKE o un pool di nodi in una zona con risorse in esaurimento, ad esempio:

La zona potrebbe non avere a disposizione un numero sufficiente di dischi Hyperdisk bilanciato.
La zona potrebbe non avere capacità sufficiente per creare i nodi del tipo di macchina specificato, ad esempio c3-standard-4.

Per risolvere il problema:

Seleziona una nuova zona all'interno della stessa regione con capacità sufficiente per il tipo di macchina scelto e in cui sono disponibili i pool di archiviazione Hyperdisk bilanciato.
Elimina il pool di archiviazione esistente e ricrealo nella nuova zona. Questo perché i pool di archiviazione sono risorse di zona.
Crea il cluster o pool di nodi nella nuova zona.

Rilevata pressione elevata dello spazio di archiviazione dei nodi

Se osservi eventi o condizioni dei nodi relativi a StoragePressureRootFileSystem con il motivo StoragePressureDetected, significa che il file system root del nodo o un punto di montaggio dello spazio di archiviazione critico sta registrando un utilizzo elevato del disco, che si sta avvicinando alla sua capacità.

Quando descrivi un nodo utilizzando il comando kubectl describe node NODE_NAME, potresti visualizzare un evento simile a questo:

Events:
  Type     Reason                      Age   From                     Message
  ----     ------                      ----  ----                     -------
  ...
  Warning  StoragePressureDetected     46m   device-capacity-monitor  Node condition StoragePressureRootFileSystem is now: True, reason: StoragePressureDetected, message: "Disk /dev/nvme0n1 usage 89% exceeds threshold 85%"

Causa:

Il motivo StoragePressureDetected indica che l'utilizzo del disco nel file system root del nodo (spesso mnt/stateful_partition o montaggi correlati) ha superato una soglia predefinita (ad esempio, l'85%). Le cause potrebbero essere le seguenti:

Workload che scrivono dati eccessivi nei volumi emptyDir non supportati da SSD locali.
Immagini container di grandi dimensioni vengono estratte nel nodo.
File di log che si accumulano sul nodo.
Altri processi che consumano spazio su disco.

Un utilizzo elevato e continuo del disco può causare instabilità dei nodi, espulsioni dei pod ed errori delle applicazioni.

Debug e risoluzione:

Identifica l'utilizzo del disco: utilizza SSH per connetterti al nodo interessato e utilizza comandi come df -h per controllare l'utilizzo del disco su vari punti di montaggio, prestando particolare attenzione a /mnt/stateful_partition e a eventuali montaggi di spazio di archiviazione temporaneo.

Analizza i pattern di archiviazione dei workload: esamina le richieste di archiviazione e i pattern di utilizzo dei pod in esecuzione sul nodo. Identifica se workload specifici consumano una quantità sproporzionata di spazio di archiviazione temporaneo.

Aumenta la capacità di archiviazione dei nodi: tieni presente che la soluzione principale consiste spesso nell'assicurarsi che i nodi abbiano una capacità di archiviazione adeguata per i carichi di lavoro. Considera quanto segue:

Utilizza dischi di avvio più grandi: quando crei pool di nodi, seleziona una dimensione del disco di avvio più grande se i tuoi carichi di lavoro richiedono più spazio di archiviazione temporanea sul file system root.
Utilizza SSD locali più grandi per l'archiviazione temporanea: per i carichi di lavoro che richiedono un'archiviazione temporanea a bassa latenza e alte prestazioni, configura i node pool in modo che utilizzino gli SSD locali. In questo modo, i volumi emptyDir hanno una capacità separata e maggiore.
Regola le richieste o i limiti dei workload: assicurati che le specifiche dei pod includano richieste e limiti di spazio di archiviazione effimero appropriati per aiutare lo scheduler a posizionare i pod sui nodi con spazio sufficiente e per impedire l'utilizzo incontrollato del disco.
Libera spazio dalle risorse inutilizzate: rimuovi eventuali file non necessari, immagini container precedenti o log dal nodo se contribuiscono all'utilizzo elevato del disco.

Se risolvi i problemi relativi alla capacità di archiviazione e all'utilizzo sul nodo, puoi mitigare i problemi relativi a StoragePressureDetected e facilitare il funzionamento del nodo.

Risolvi i problemi relativi agli eventi di esaurimento della memoria (OOM) di Cloud Storage FUSE

Se i tuoi pod riscontrano un utilizzo elevato della memoria o eventi di esaurimento della memoria (OOM) correlati al driver CSI di Cloud Storage FUSE, puoi raccogliere e analizzare gli snapshot di CPU e memoria utilizzando Cloud Profiler. Configura queste opzioni in Configura il container sidecar del driver CSI di Cloud Storage FUSE.

Quando un pod subisce un arresto OOM, puoi correlare l'evento allo snapshot Cloud Profiler corretto utilizzando il seguente flusso di lavoro:

Controlla Cloud Logging:vai a Cloud Logging per trovare l'evento Kubernetes OOM.
Filtra per nome del pod:esegui la seguente query per individuare i log eventi per il tuo pod specifico, sostituendo POD_NAME con il nome del pod del workload:
```
jsonPayload.involvedObject.name="POD_NAME"
jsonPayload.involvedObject.kind="Pod"
OOMKilled
```
Nota: se il processo di montaggio sidecar o GCSFuse esaurisce la memoria, il nome del pod è il nome del pod del carico di lavoro. Se il driver del nodo esaurisce la memoria, verrà gcsfusecsi-node-*.
Estrai l'UID del pod:espandi il log eventi OOM pertinente e annota il timestamp e l'UID esatto del pod che si trova in jsonPayload.involvedObject.uid.
Analizza in Cloud Profiler:vai a Cloud Profiler, filtra la versione del servizio utilizzando il formato POD_NAME_POD_UID e regola l'intervallo di tempo in modo che corrisponda al timestamp OOM. In questo modo, puoi esaminare il profilo di memoria esatto dell'istanza del container specifica subito prima che venisse terminata.

Passaggi successivi

Se non riesci a trovare una soluzione al tuo problema nella documentazione, consulta la sezione Richiedere assistenza per ulteriore aiuto, inclusi consigli sui seguenti argomenti:
- Aprire una richiesta di assistenza contattando l'assistenza clienti Google Cloud.
- Ricevere assistenza dalla community ponendo domande su StackOverflow e utilizzando il tag google-kubernetes-engine per cercare problemi simili. Puoi anche unirti al canale Slack per ulteriore assistenza della community.#kubernetes-engine
- Apertura di problemi o richieste di funzionalità utilizzando l'Issue Tracker pubblico.