Risoluzione dei problemi e problemi noti

Questa pagina include i passaggi per la risoluzione dei problemi relativi ad alcuni problemi ed errori comuni.

Problemi noti

  • Quando non si verificano operazioni di I/O sul file system, i grafici del rendimento mostrano il messaggio "Nessun dato disponibile per l'intervallo di tempo selezionato". Questo perché le metriche sul rendimento vengono generate solo quando si verifica un'operazione di I/O. Per saperne di più sulle metriche, consulta Monitorare istanze e operazioni.
  • Le seguenti funzionalità di Lustre non sono supportate:
    • Compressione dei dati lato client
    • Memorizzazione nella cache persistente del client
  • Alcuni comandi di Lustre non sono supportati.
  • Esistono alcune eccezioni alla conformità POSIX.

Problemi relativi alle operazioni dell'istanza

Le seguenti sezioni descrivono i problemi relativi alle operazioni sulle istanze.

Impossibile mettere in coda l'operazione

Se visualizzi un errore simile a uno dei seguenti quando tenti di avviare un'operazione:

ERROR: (gcloud.lustre.instances.import-data) ABORTED: unable to queue the operation
ERROR: (gcloud.lustre.instances.export-data) ABORTED: unable to queue the operation
ERROR: (gcloud.lustre.instances.update) ABORTED: unable to queue the operation

Questo errore si verifica quando tenti di avviare un'operazione mentre un'altra operazione dello stesso tipo è già in corso sulla stessa istanza.

  • Importazione/esportazione: Managed Lustre supporta una sola operazione di trasferimento attiva per istanza alla volta. L'accodamento non è supportato per le operazioni di trasferimento.
  • Aggiornamento dell'istanza: Managed Lustre consente un aggiornamento attivo per istanza alla volta e consente di mettere in coda un'ulteriore operazione di aggiornamento.

Per risolvere il problema, attendi il completamento dell'operazione in corso prima di avviarne una nuova.

Problemi di Compute Engine

Quando riscontri problemi durante il montaggio di un file system Managed Lustre su un'istanza Compute Engine, segui questi passaggi per diagnosticare il problema.

Verifica che l'istanza Managed Lustre sia raggiungibile

Innanzitutto, assicurati che l'istanza Managed Lustre sia raggiungibile dalla tua istanza Compute Engine:

sudo lctl ping IP_ADDRESS@tcp

Per ottenere il valore di IP_ADDRESS, consulta Ottenere un'istanza.

Un ping riuscito restituisce una risposta simile alla seguente:

12345-0@lo
12345-10.115.0.3@tcp

Un ping non riuscito restituisce quanto segue:

failed to ping 10.115.0.3@tcp: Input/output error

Se il ping non va a buon fine:

  • Assicurati che l'istanza Managed Lustre e l'istanza Compute Engine si trovino nella stessa rete VPC. Confronta l'output dei seguenti comandi:

    gcloud compute instances describe VM_NAME \
      --zone=VM_ZONE \
      --format='get(networkInterfaces[0].network)'
    
    gcloud lustre instances describe INSTANCE_NAME \
      --location=ZONE --format='get(network)'
    

    L'output è simile al seguente:

    https://www.googleapis.com/compute/v1/projects/my-project/global/networks/my-network
    projects/my-project/global/networks/my-network
    

    L'output del comando gcloud compute instances describe è preceduto da https://www.googleapis.com/compute/v1/; tutto ciò che segue questa stringa deve corrispondere all'output del comando gcloud lustre instances describe.

  • Esamina le regole firewall e le configurazioni di routing della tua rete VPC per assicurarti che consentano il traffico tra l'istanza Compute Engine e l'istanza Managed Lustre.

Controlla la porta di accettazione LNet

Le istanze Lustre gestite possono essere configurate per supportare i client GKE specificando il flag --gke-support-enabled al momento della creazione.

Se il supporto GKE è stato abilitato, devi configurare LNet su tutte le istanze Compute Engine in modo che utilizzino accept_port 6988. Consulta Configura LNet per le istanze gke-support-enabled.

Per determinare se l'istanza è stata configurata per supportare i client GKE, esegui il seguente comando:

gcloud lustre instances describe INSTANCE_NAME \
  --location=LOCATION | grep gkeSupportEnabled

Se il comando restituisce gkeSupportEnabled: true, devi configurare LNet.

Mancata corrispondenza della versione del kernel Ubuntu con il client Lustre

Per le istanze Compute Engine che eseguono Ubuntu, la versione del kernel Ubuntu deve corrispondere alla versione specifica dei pacchetti client Lustre. Se gli strumenti client Lustre non funzionano, controlla se l'istanza Compute Engine è stata aggiornata automaticamente a un kernel più recente.

Per controllare la versione del kernel:

uname -r

La risposta è simile alla seguente:

6.8.0-1029-gcp

Per controllare la versione del pacchetto client Lustre:

dpkg -l | grep -i lustre

La risposta è simile alla seguente:

ii  lustre-client-modules-6.8.0-1029-gcp 2.14.0-ddn198-1  amd64  Lustre Linux kernel module (kernel 6.8.0-1029-gcp)
ii  lustre-client-utils                  2.14.0-ddn198-1  amd64  Userspace utilities for the Lustre filesystem (client)

Se la versione del kernel elencata da entrambi i comandi non corrisponde, devi reinstallare i pacchetti client Lustre.

Controlla dmesg per errori di Lustre

Molti avvisi ed errori di Lustre vengono registrati nel buffer circolare del kernel Linux. Il comando dmesg stampa il buffer circolare del kernel.

Per cercare messaggi specifici di Lustre, utilizza grep insieme a dmesg:

dmesg | grep -i lustre

In alternativa, per cercare errori più generici che potrebbero essere correlati:

dmesg | grep -i error

Informazioni da includere in una richiesta di assistenza

Se non riesci a risolvere l'errore di montaggio, raccogli le informazioni diagnostiche prima di creare una richiesta di assistenza.

Esegui sosreport:questa utilità raccoglie i log di sistema e le informazioni di configurazione e genera un file tarball compresso:

sudo sosreport

Allega l'archivio sosreport e qualsiasi output pertinente di dmesg alla tua richiesta di assistenza.

Problemi di GKE

Prima di seguire i passaggi per la risoluzione dei problemi in questa sezione, consulta le limitazioni durante la connessione a Managed Lustre da GKE.

Capacità minima dell'istanza aggiornata

La capacità minima per le istanze Managed Lustre è stata aggiornata a 9000 GiB. Per creare istanze da 9000 GiB tramite il driver CSI Lustre gestito, esegui l'upgrade del cluster alla versione 1.34.0-gke.2285000 o successiva.

Livello di prestazioni errato per le istanze Lustre di cui è stato eseguito il provisioning dinamico

Quando viene eseguito il provisioning dinamico di un'istanza Lustre, la creazione dell'istanza non va a buon fine e viene visualizzato un errore InvalidArgument per PerUnitStorageThroughput, indipendentemente dal valore perUnitStorageThroughput specificato nella richiesta API. Ciò riguarda le versioni di GKE 1.33 precedenti alla 1.33.4-gke.1036000.

Soluzione temporanea:

Esegui l'upgrade del cluster GKE alla versione 1.33.4-gke.1036000 o successive. Se utilizzi il canale stabile, una versione più recente potrebbe non essere ancora disponibile. In questo caso, puoi selezionare manualmente una versione dai canali Regolare o Rapido che include la correzione.

Porte di comunicazione di Managed Lustre

Il driver CSI Managed Lustre utilizza porte diverse per la comunicazione con le istanze Managed Lustre, a seconda della versione del cluster GKE e delle configurazioni Managed Lustre esistenti.

  • Porta predefinita (988): per i nuovi cluster GKE che eseguono la versione 1.33.2-gke.4780000 o successive, il driver utilizza la porta 988 per la comunicazione Lustre per impostazione predefinita.

  • Porta legacy (6988): il driver utilizza la porta 6988 nei seguenti scenari:

    • Versioni GKE precedenti:se il tuo cluster GKE esegue una versione precedente alla 1.33.2-gke.4780000, è necessario il flag --enable-legacy-lustre-port quando abiliti il driver CSI. L'attivazione di questo flag risolve un conflitto di porte con gke-metadata-server sui nodi GKE.
    • Istanze Managed Lustre esistenti con supporto GKE:se ti connetti a un'istanza Managed Lustre esistente creata con il flag --gke-support-enabled, devi includere --enable-legacy-lustre-port quando abiliti il driver CSI, indipendentemente dalla versione del cluster. Senza questo flag, il cluster GKE non riuscirà a montare l'istanza Lustre esistente.

    Per maggiori dettagli sull'attivazione del driver CSI con la porta legacy, vedi Porte di comunicazione Lustre.

Query sui log

Per controllare i log, esegui la seguente query in Esplora log.

Per restituire i log del server dei nodi del driver CSI Lustre gestito:

resource.type="k8s_container"
resource.labels.pod_name=~"lustre-csi-node*"

Risolvere i problemi relativi al provisioning del volume

Se PersistentVolumeClaim (PVC) rimane nello stato Pending e non viene creato alcun PersistentVolume (PV) dopo 20-30 minuti, potrebbe essersi verificato un errore.

  1. Controlla gli eventi PVC:

    kubectl describe pvc PVC_NAME
    
  2. Se l'errore indica problemi di configurazione o argomenti non validi, verifica i parametri StorageClass.

  3. Ricrea la PVC.

  4. Se il problema persiste, contatta l'assistenza clienti Google Cloud.

Risolvere i problemi di montaggio del volume

Dopo che il pod è stato pianificato su un nodo, il volume viene montato. Se l'operazione non va a buon fine, controlla gli eventi del pod e i log di kubelet.

kubectl describe pod POD_NAME

Problemi di attivazione del driver CSI

Sintomo:

MountVolume.MountDevice failed for volume "yyy" : kubernetes.io/csi: attacher.MountDevice failed to create newCsiDriverClient: driver name lustre.csi.storage.gke.io not found in the list of registered CSI drivers

o

MountVolume.SetUp failed for volume "yyy" : kubernetes.io/csi: mounter.SetUpAt failed to get CSI client: driver name lustre.csi.storage.gke.io not found in the list of registered CSI drivers

Causa:il driver CSI non è abilitato o non è ancora in esecuzione.

Risoluzione:

  1. Verifica che il driver CSI sia abilitato.
  2. Se il cluster è stato scalato o aggiornato di recente, attendi qualche minuto affinché il driver diventi funzionante.
  3. Se l'errore persiste, controlla i log di lustre-csi-node per "Operazione non consentita". Ciò indica che la versione del nodo è troppo vecchia per supportare Managed Lustre. Per risolvere il problema, esegui l'upgrade del pool di nodi alla versione 1.33.2-gke.1111000 o successive.
  4. Se i log mostrano "LNET_PORT mismatch", esegui l'upgrade del pool di nodi per assicurarti che siano installati moduli del kernel Lustre compatibili.

Il punto di montaggio esiste già

Sintomo:

MountVolume.MountDevice failed for volume "yyy" : rpc error: code = AlreadyExists
desc = A mountpoint with the same lustre filesystem name "yyy" already exists on
node "yyy". Please mount different lustre filesystems

Causa: il montaggio di più volumi da diverse istanze Managed Lustre con lo stesso nome del file system su un singolo nodo non è supportato.

Soluzione:utilizza un nome univoco per il file system per ogni istanza Managed Lustre.

Montaggio non riuscito: nessun file o directory corrispondente

Sintomo:

MountVolume.MountDevice failed for volume "yyy" : rpc error: code = Internal desc = Could not mount ... failed: No such file or directory

Causa: il nome del file system specificato non è corretto o non esiste.

Risoluzione:verifica che fs_name nella configurazione di StorageClass o PV corrisponda all'istanza Managed Lustre.

Montaggio non riuscito: errore ingresso/uscita

Sintomo:

MountVolume.MountDevice failed for volume "yyy" : rpc error: code = Internal desc = Could not mount ... failed: Input/output error

Causa: il cluster non può connettersi all'istanza di Managed Lustre.

Risoluzione:

  1. Verifica l'indirizzo IP dell'istanza Managed Lustre.
  2. Assicurati che il cluster GKE e l'istanza Managed Lustre si trovino nella stessa rete VPC o che siano in peering corretto.

Errori interni

Sintomo: rpc error: code = Internal desc = ...

Risoluzione:se l'errore persiste, contatta l'assistenza clienti Google Cloud.

Risolvere i problemi di smontaggio del volume

Sintomo:

UnmountVolume.TearDown failed for volume "yyy" : rpc error: code = Internal desc = ...

Risoluzione:

  1. Forza l'eliminazione del pod:

    kubectl delete pod POD_NAME --force
    
  2. Se il problema persiste, contatta l'assistenza clienti Google Cloud.

Risolvere i problemi relativi all'eliminazione del volume

Se il PV rimane nello stato "Rilasciato" per un periodo prolungato (ad es. più di un'ora) dopo l'eliminazione del PVC, contatta l'assistenza clienti Google Cloud.

Risolvere i problemi relativi all'espansione del volume

PVC bloccato in ExternalExpanding

Sintomo:lo stato del PVC non cambia in Resizing e gli eventi mostrano ExternalExpanding.

Causa: il campo allowVolumeExpansion potrebbe essere mancante o impostato su false.

Risoluzione:Assicurati che StorageClass abbia allowVolumeExpansion: true.

kubectl get storageclass STORAGE_CLASS_NAME -o yaml

Espansione non riuscita: argomento non valido

Sintomo: VolumeResizeFailed: rpc error: code = InvalidArgument ...

Causa: la dimensione richiesta non è valida (ad es. non è un multiplo della dimensione del passo o non rientra nei limiti).

Risoluzione:controlla gli intervalli di capacità validi e aggiorna il PVC con una dimensione valida.

L'espansione non riesce: errore interno

Sintomo: VolumeResizeFailed ... rpc error: code = Internal

Risoluzione:Riprova l'espansione riapplicando il PVC. Se l'operazione non riesce ripetutamente, contatta l'assistenza clienti Google Cloud.

Scadenza superata

Sintomo: VolumeResizeFailed con DEADLINE_EXCEEDED.

Causa: l'operazione sta richiedendo più tempo del previsto, ma potrebbe essere ancora in corso.

Risoluzione: Attendi il completamento dell'operazione. Il ridimensionamento verrà ritentato automaticamente. Se rimane bloccato per molto tempo (ad es. > 90 minuti), contatta l'assistenza.

Quota superata

Sintomo: l'espansione non riesce a causa dei limiti di quota.

Risoluzione: Richiedi un aumento della quota o un aumento della capacità inferiore.

Problemi di rete VPC

Le seguenti sezioni descrivono i problemi comuni delle reti VPC.

Impossibile accedere a Managed Lustre da un progetto in peering

Per accedere all'istanza Managed Lustre da una VM in una rete VPC con peering, devi utilizzare Network Connectivity Center (NCC). NCC ti consente di connettere più reti VPC e reti on-premise a un hub centrale, fornendo connettività tra loro.

Per istruzioni su come configurare NCC, consulta la documentazione di Network Connectivity Center.

Il montaggio di Lustre su una VM con più NIC non riesce

Quando una VM ha più controller di interfaccia di rete (NIC) e l'istanza Managed Lustre si trova su un VPC connesso a una NIC secondaria (ad es. eth1), il montaggio dell'istanza potrebbe non riuscire. Per risolvere il problema, segui le istruzioni per il montaggio utilizzando una NIC secondaria.

Impossibile connettersi dall'intervallo di subnet 172.17.0.0/16

I client Compute Engine e GKE con un indirizzo IP nello span di subnet 172.17.0.0/16 non possono montare istanze Managed Lustre.

Autorizzazione negata per aggiungere il peering per il servizio servicenetworking.googleapis.com

ERROR: (gcloud.services.vpc-peerings.connect) User [$(USER)] does not have
permission to access services instance [servicenetworking.googleapis.com]
(or it may not exist): Permission denied to add peering for service
'servicenetworking.googleapis.com'.

Questo errore significa che non disponi dell'autorizzazione IAM servicenetworking.services.addPeering sul tuo account utente.

Consulta la pagina Controllo dell'accesso con IAM per istruzioni su come aggiungere uno dei seguenti ruoli al tuo account:

  • roles/compute.networkAdmin o
  • roles/servicenetworking.networksAdmin

Impossibile modificare gli intervalli allocati in CreateConnection

ERROR: (gcloud.services.vpc-peerings.connect) The operation
"operations/[operation_id]" resulted in a failure "Cannot modify allocated
ranges in CreateConnection. Please use UpdateConnection."

Questo errore viene restituito quando hai già creato un peering VPC su questa rete con intervalli IP diversi. Esistono due possibili soluzioni:

Sostituisci gli intervalli IP esistenti:

gcloud services vpc-peerings update \
  --network=NETWORK_NAME \
  --ranges=IP_RANGE_NAME \
  --service=servicenetworking.googleapis.com \
  --force

In alternativa, aggiungi il nuovo intervallo IP alla connessione esistente:

  1. Recupera l'elenco degli intervalli di indirizzi IP esistenti per il peering:

    EXISTING_RANGES="$(
      gcloud services vpc-peerings list \
        --network=NETWORK_NAME \
        --service=servicenetworking.googleapis.com \
        --format="value(reservedPeeringRanges.list())" \
        --flatten=reservedPeeringRanges
    )
    
  2. Quindi, aggiungi il nuovo intervallo al peering:

    gcloud services vpc-peerings update \
      --network=NETWORK_NAME \
      --ranges="${EXISTING_RANGES}",IP_RANGE_NAME \
      --service=servicenetworking.googleapis.com
    

Intervallo di indirizzi IP esaurito

Se la creazione dell'istanza non riesce e viene visualizzato l'errore di esaurimento dell'intervallo:

ERROR: (gcloud.alpha.Google Cloud Managed Lustre.instances.create) FAILED_PRECONDITION: Invalid
resource state for "NETWORK_RANGES_NOT_AVAILABLE": IP address range exhausted

Segui la guida VPC per modificare la connessione privata esistente e aggiungere intervalli di indirizzi IP.

Ti consigliamo una lunghezza del prefisso di almeno /20 (1024 indirizzi).