Questa pagina include i passaggi per la risoluzione dei problemi relativi ad alcuni problemi ed errori comuni.
- Problemi noti
- Problemi relativi all'operazione dell'istanza
- Problemi di Compute Engine
- Problemi di GKE
- Problemi di rete VPC
Problemi noti
- Quando non si verificano operazioni di I/O sul file system, i grafici del rendimento mostrano il messaggio "Nessun dato disponibile per l'intervallo di tempo selezionato". Questo perché le metriche sul rendimento vengono generate solo quando si verifica un'operazione di I/O. Per saperne di più sulle metriche, consulta Monitorare istanze e operazioni.
- Le seguenti funzionalità di Lustre non sono supportate:
- Compressione dei dati lato client
- Memorizzazione nella cache persistente del client
- Alcuni comandi di Lustre non sono supportati.
- Esistono alcune eccezioni alla conformità POSIX.
Problemi relativi alle operazioni dell'istanza
Le seguenti sezioni descrivono i problemi relativi alle operazioni sulle istanze.
Impossibile mettere in coda l'operazione
Se visualizzi un errore simile a uno dei seguenti quando tenti di avviare un'operazione:
ERROR: (gcloud.lustre.instances.import-data) ABORTED: unable to queue the operation
ERROR: (gcloud.lustre.instances.export-data) ABORTED: unable to queue the operation
ERROR: (gcloud.lustre.instances.update) ABORTED: unable to queue the operation
Questo errore si verifica quando tenti di avviare un'operazione mentre un'altra operazione dello stesso tipo è già in corso sulla stessa istanza.
- Importazione/esportazione: Managed Lustre supporta una sola operazione di trasferimento attiva per istanza alla volta. L'accodamento non è supportato per le operazioni di trasferimento.
- Aggiornamento dell'istanza: Managed Lustre consente un aggiornamento attivo per istanza alla volta e consente di mettere in coda un'ulteriore operazione di aggiornamento.
Per risolvere il problema, attendi il completamento dell'operazione in corso prima di avviarne una nuova.
Problemi di Compute Engine
Quando riscontri problemi durante il montaggio di un file system Managed Lustre su un'istanza Compute Engine, segui questi passaggi per diagnosticare il problema.
Verifica che l'istanza Managed Lustre sia raggiungibile
Innanzitutto, assicurati che l'istanza Managed Lustre sia raggiungibile dalla tua istanza Compute Engine:
sudo lctl ping IP_ADDRESS@tcp
Per ottenere il valore di IP_ADDRESS, consulta Ottenere un'istanza.
Un ping riuscito restituisce una risposta simile alla seguente:
12345-0@lo
12345-10.115.0.3@tcp
Un ping non riuscito restituisce quanto segue:
failed to ping 10.115.0.3@tcp: Input/output error
Se il ping non va a buon fine:
Assicurati che l'istanza Managed Lustre e l'istanza Compute Engine si trovino nella stessa rete VPC. Confronta l'output dei seguenti comandi:
gcloud compute instances describe VM_NAME \ --zone=VM_ZONE \ --format='get(networkInterfaces[0].network)' gcloud lustre instances describe INSTANCE_NAME \ --location=ZONE --format='get(network)'L'output è simile al seguente:
https://www.googleapis.com/compute/v1/projects/my-project/global/networks/my-network projects/my-project/global/networks/my-networkL'output del comando
gcloud compute instances describeè preceduto dahttps://www.googleapis.com/compute/v1/; tutto ciò che segue questa stringa deve corrispondere all'output del comandogcloud lustre instances describe.Esamina le regole firewall e le configurazioni di routing della tua rete VPC per assicurarti che consentano il traffico tra l'istanza Compute Engine e l'istanza Managed Lustre.
Controlla la porta di accettazione LNet
Le istanze Lustre gestite possono essere configurate per supportare
i client GKE specificando il flag --gke-support-enabled al momento
della creazione.
Se il supporto GKE è stato abilitato, devi configurare LNet su tutte le istanze Compute Engine in modo che utilizzino accept_port 6988. Consulta
Configura LNet per le istanze gke-support-enabled.
Per determinare se l'istanza è stata configurata per supportare i client GKE, esegui il seguente comando:
gcloud lustre instances describe INSTANCE_NAME \
--location=LOCATION | grep gkeSupportEnabled
Se il comando restituisce gkeSupportEnabled: true, devi configurare LNet.
Mancata corrispondenza della versione del kernel Ubuntu con il client Lustre
Per le istanze Compute Engine che eseguono Ubuntu, la versione del kernel Ubuntu deve corrispondere alla versione specifica dei pacchetti client Lustre. Se gli strumenti client Lustre non funzionano, controlla se l'istanza Compute Engine è stata aggiornata automaticamente a un kernel più recente.
Per controllare la versione del kernel:
uname -r
La risposta è simile alla seguente:
6.8.0-1029-gcp
Per controllare la versione del pacchetto client Lustre:
dpkg -l | grep -i lustre
La risposta è simile alla seguente:
ii lustre-client-modules-6.8.0-1029-gcp 2.14.0-ddn198-1 amd64 Lustre Linux kernel module (kernel 6.8.0-1029-gcp)
ii lustre-client-utils 2.14.0-ddn198-1 amd64 Userspace utilities for the Lustre filesystem (client)
Se la versione del kernel elencata da entrambi i comandi non corrisponde, devi reinstallare i pacchetti client Lustre.
Controlla dmesg per errori di Lustre
Molti avvisi ed errori di Lustre vengono registrati nel buffer circolare del kernel Linux. Il comando
dmesg stampa il buffer circolare del kernel.
Per cercare messaggi specifici di Lustre, utilizza grep insieme a dmesg:
dmesg | grep -i lustre
In alternativa, per cercare errori più generici che potrebbero essere correlati:
dmesg | grep -i error
Informazioni da includere in una richiesta di assistenza
Se non riesci a risolvere l'errore di montaggio, raccogli le informazioni diagnostiche prima di creare una richiesta di assistenza.
Esegui sosreport:questa utilità raccoglie i log di sistema e le informazioni di configurazione e genera un file tarball compresso:
sudo sosreport
Allega l'archivio sosreport e qualsiasi output pertinente di dmesg alla tua richiesta di assistenza.
Problemi di GKE
Prima di seguire i passaggi per la risoluzione dei problemi in questa sezione, consulta le limitazioni durante la connessione a Managed Lustre da GKE.
Capacità minima dell'istanza aggiornata
La capacità minima per le istanze Managed Lustre è stata aggiornata a 9000 GiB. Per creare istanze da 9000 GiB tramite il driver CSI Lustre gestito, esegui l'upgrade del cluster alla versione 1.34.0-gke.2285000 o successiva.
Livello di prestazioni errato per le istanze Lustre di cui è stato eseguito il provisioning dinamico
Quando viene eseguito il provisioning dinamico di un'istanza Lustre, la creazione dell'istanza non va a buon fine e viene visualizzato un errore InvalidArgument per PerUnitStorageThroughput, indipendentemente dal valore perUnitStorageThroughput specificato nella richiesta API. Ciò riguarda le versioni di GKE 1.33 precedenti alla 1.33.4-gke.1036000.
Soluzione temporanea:
Esegui l'upgrade del cluster GKE alla versione 1.33.4-gke.1036000 o successive. Se utilizzi il canale stabile, una versione più recente potrebbe non essere ancora disponibile. In questo caso, puoi selezionare manualmente una versione dai canali Regolare o Rapido che include la correzione.
Porte di comunicazione di Managed Lustre
Il driver CSI Managed Lustre utilizza porte diverse per la comunicazione con le istanze Managed Lustre, a seconda della versione del cluster GKE e delle configurazioni Managed Lustre esistenti.
Porta predefinita (988): per i nuovi cluster GKE che eseguono la versione
1.33.2-gke.4780000o successive, il driver utilizza la porta988per la comunicazione Lustre per impostazione predefinita.Porta legacy (6988): il driver utilizza la porta
6988nei seguenti scenari:- Versioni GKE precedenti:se il tuo cluster GKE esegue una versione precedente alla
1.33.2-gke.4780000, è necessario il flag--enable-legacy-lustre-portquando abiliti il driver CSI. L'attivazione di questo flag risolve un conflitto di porte congke-metadata-serversui nodi GKE. - Istanze Managed Lustre esistenti con supporto GKE:se ti connetti a un'istanza Managed Lustre esistente creata con il flag
--gke-support-enabled, devi includere--enable-legacy-lustre-portquando abiliti il driver CSI, indipendentemente dalla versione del cluster. Senza questo flag, il cluster GKE non riuscirà a montare l'istanza Lustre esistente.
Per maggiori dettagli sull'attivazione del driver CSI con la porta legacy, vedi Porte di comunicazione Lustre.
- Versioni GKE precedenti:se il tuo cluster GKE esegue una versione precedente alla
Query sui log
Per controllare i log, esegui la seguente query in Esplora log.
Per restituire i log del server dei nodi del driver CSI Lustre gestito:
resource.type="k8s_container"
resource.labels.pod_name=~"lustre-csi-node*"
Risolvere i problemi relativi al provisioning del volume
Se PersistentVolumeClaim (PVC) rimane nello stato Pending e non viene creato alcun PersistentVolume (PV) dopo 20-30 minuti, potrebbe essersi verificato un errore.
Controlla gli eventi PVC:
kubectl describe pvc PVC_NAMESe l'errore indica problemi di configurazione o argomenti non validi, verifica i parametri StorageClass.
Ricrea la PVC.
Se il problema persiste, contatta l'assistenza clienti Google Cloud.
Risolvere i problemi di montaggio del volume
Dopo che il pod è stato pianificato su un nodo, il volume viene montato. Se l'operazione non va a buon fine, controlla gli eventi del pod e i log di kubelet.
kubectl describe pod POD_NAME
Problemi di attivazione del driver CSI
Sintomo:
MountVolume.MountDevice failed for volume "yyy" : kubernetes.io/csi: attacher.MountDevice failed to create newCsiDriverClient: driver name lustre.csi.storage.gke.io not found in the list of registered CSI drivers
o
MountVolume.SetUp failed for volume "yyy" : kubernetes.io/csi: mounter.SetUpAt failed to get CSI client: driver name lustre.csi.storage.gke.io not found in the list of registered CSI drivers
Causa:il driver CSI non è abilitato o non è ancora in esecuzione.
Risoluzione:
- Verifica che il driver CSI sia abilitato.
- Se il cluster è stato scalato o aggiornato di recente, attendi qualche minuto affinché il driver diventi funzionante.
- Se l'errore persiste, controlla i log di
lustre-csi-nodeper "Operazione non consentita". Ciò indica che la versione del nodo è troppo vecchia per supportare Managed Lustre. Per risolvere il problema, esegui l'upgrade del pool di nodi alla versione1.33.2-gke.1111000o successive. - Se i log mostrano "LNET_PORT mismatch", esegui l'upgrade del pool di nodi per assicurarti che siano installati moduli del kernel Lustre compatibili.
Il punto di montaggio esiste già
Sintomo:
MountVolume.MountDevice failed for volume "yyy" : rpc error: code = AlreadyExists
desc = A mountpoint with the same lustre filesystem name "yyy" already exists on
node "yyy". Please mount different lustre filesystems
Causa: il montaggio di più volumi da diverse istanze Managed Lustre con lo stesso nome del file system su un singolo nodo non è supportato.
Soluzione:utilizza un nome univoco per il file system per ogni istanza Managed Lustre.
Montaggio non riuscito: nessun file o directory corrispondente
Sintomo:
MountVolume.MountDevice failed for volume "yyy" : rpc error: code = Internal desc = Could not mount ... failed: No such file or directory
Causa: il nome del file system specificato non è corretto o non esiste.
Risoluzione:verifica che fs_name nella configurazione di StorageClass o PV corrisponda all'istanza Managed Lustre.
Montaggio non riuscito: errore ingresso/uscita
Sintomo:
MountVolume.MountDevice failed for volume "yyy" : rpc error: code = Internal desc = Could not mount ... failed: Input/output error
Causa: il cluster non può connettersi all'istanza di Managed Lustre.
Risoluzione:
- Verifica l'indirizzo IP dell'istanza Managed Lustre.
- Assicurati che il cluster GKE e l'istanza Managed Lustre si trovino nella stessa rete VPC o che siano in peering corretto.
Errori interni
Sintomo: rpc error: code = Internal desc = ...
Risoluzione:se l'errore persiste, contatta l'assistenza clienti Google Cloud.
Risolvere i problemi di smontaggio del volume
Sintomo:
UnmountVolume.TearDown failed for volume "yyy" : rpc error: code = Internal desc = ...
Risoluzione:
Forza l'eliminazione del pod:
kubectl delete pod POD_NAME --forceSe il problema persiste, contatta l'assistenza clienti Google Cloud.
Risolvere i problemi relativi all'eliminazione del volume
Se il PV rimane nello stato "Rilasciato" per un periodo prolungato (ad es. più di un'ora) dopo l'eliminazione del PVC, contatta l'assistenza clienti Google Cloud.
Risolvere i problemi relativi all'espansione del volume
PVC bloccato in ExternalExpanding
Sintomo:lo stato del PVC non cambia in Resizing e gli eventi mostrano ExternalExpanding.
Causa: il campo allowVolumeExpansion potrebbe essere mancante o impostato su false.
Risoluzione:Assicurati che StorageClass abbia allowVolumeExpansion: true.
kubectl get storageclass STORAGE_CLASS_NAME -o yaml
Espansione non riuscita: argomento non valido
Sintomo: VolumeResizeFailed: rpc error: code = InvalidArgument ...
Causa: la dimensione richiesta non è valida (ad es. non è un multiplo della dimensione del passo o non rientra nei limiti).
Risoluzione:controlla gli intervalli di capacità validi e aggiorna il PVC con una dimensione valida.
L'espansione non riesce: errore interno
Sintomo: VolumeResizeFailed ... rpc error: code = Internal
Risoluzione:Riprova l'espansione riapplicando il PVC. Se l'operazione non riesce ripetutamente, contatta l'assistenza clienti Google Cloud.
Scadenza superata
Sintomo: VolumeResizeFailed con DEADLINE_EXCEEDED.
Causa: l'operazione sta richiedendo più tempo del previsto, ma potrebbe essere ancora in corso.
Risoluzione: Attendi il completamento dell'operazione. Il ridimensionamento verrà ritentato automaticamente. Se rimane bloccato per molto tempo (ad es. > 90 minuti), contatta l'assistenza.
Quota superata
Sintomo: l'espansione non riesce a causa dei limiti di quota.
Risoluzione: Richiedi un aumento della quota o un aumento della capacità inferiore.
Problemi di rete VPC
Le seguenti sezioni descrivono i problemi comuni delle reti VPC.
Impossibile accedere a Managed Lustre da un progetto in peering
Per accedere all'istanza Managed Lustre da una VM in una rete VPC con peering, devi utilizzare Network Connectivity Center (NCC). NCC ti consente di connettere più reti VPC e reti on-premise a un hub centrale, fornendo connettività tra loro.
Per istruzioni su come configurare NCC, consulta la documentazione di Network Connectivity Center.
Il montaggio di Lustre su una VM con più NIC non riesce
Quando una VM ha più controller di interfaccia di rete (NIC) e l'istanza Managed Lustre si trova su un VPC connesso a una NIC secondaria (ad es. eth1), il montaggio dell'istanza potrebbe non riuscire. Per risolvere il problema, segui
le istruzioni per il montaggio utilizzando una NIC
secondaria.
Impossibile connettersi dall'intervallo di subnet 172.17.0.0/16
I client Compute Engine e GKE con un indirizzo IP nello span di subnet 172.17.0.0/16 non possono montare istanze Managed Lustre.
Autorizzazione negata per aggiungere il peering per il servizio servicenetworking.googleapis.com
ERROR: (gcloud.services.vpc-peerings.connect) User [$(USER)] does not have
permission to access services instance [servicenetworking.googleapis.com]
(or it may not exist): Permission denied to add peering for service
'servicenetworking.googleapis.com'.
Questo errore significa che non disponi dell'autorizzazione IAM servicenetworking.services.addPeering
sul tuo account utente.
Consulta la pagina Controllo dell'accesso con IAM per istruzioni su come aggiungere uno dei seguenti ruoli al tuo account:
roles/compute.networkAdminoroles/servicenetworking.networksAdmin
Impossibile modificare gli intervalli allocati in CreateConnection
ERROR: (gcloud.services.vpc-peerings.connect) The operation
"operations/[operation_id]" resulted in a failure "Cannot modify allocated
ranges in CreateConnection. Please use UpdateConnection."
Questo errore viene restituito quando hai già creato un peering VPC su questa rete con intervalli IP diversi. Esistono due possibili soluzioni:
Sostituisci gli intervalli IP esistenti:
gcloud services vpc-peerings update \
--network=NETWORK_NAME \
--ranges=IP_RANGE_NAME \
--service=servicenetworking.googleapis.com \
--force
In alternativa, aggiungi il nuovo intervallo IP alla connessione esistente:
Recupera l'elenco degli intervalli di indirizzi IP esistenti per il peering:
EXISTING_RANGES="$( gcloud services vpc-peerings list \ --network=NETWORK_NAME \ --service=servicenetworking.googleapis.com \ --format="value(reservedPeeringRanges.list())" \ --flatten=reservedPeeringRanges )Quindi, aggiungi il nuovo intervallo al peering:
gcloud services vpc-peerings update \ --network=NETWORK_NAME \ --ranges="${EXISTING_RANGES}",IP_RANGE_NAME \ --service=servicenetworking.googleapis.com
Intervallo di indirizzi IP esaurito
Se la creazione dell'istanza non riesce e viene visualizzato l'errore di esaurimento dell'intervallo:
ERROR: (gcloud.alpha.Google Cloud Managed Lustre.instances.create) FAILED_PRECONDITION: Invalid
resource state for "NETWORK_RANGES_NOT_AVAILABLE": IP address range exhausted
Segui la guida VPC per modificare la connessione privata esistente e aggiungere intervalli di indirizzi IP.
Ti consigliamo una lunghezza del prefisso di almeno /20 (1024 indirizzi).