Quando si verificano problemi durante il montaggio o la connessione a un file system Managed Lustre su una VM o un'istanza client, segui questi passaggi per diagnosticare il problema.
Verifica che l'istanza Managed Lustre sia raggiungibile
Innanzitutto, assicurati che l'istanza Managed Lustre sia raggiungibile dall'istanza client:
sudo lctl ping IP_ADDRESS@tcp
Per ottenere il valore di IP_ADDRESS, consulta Ottenere un'istanza.
Un ping riuscito restituisce una risposta simile alla seguente:
12345-0@lo
12345-10.115.0.3@tcp
Un ping non riuscito restituisce quanto segue:
failed to ping 10.115.0.3@tcp: Input/output error
Se il ping non va a buon fine:
Assicurati che l'istanza Managed Lustre e l'istanza client si trovino nella stessa rete VPC. Confronta l'output dei seguenti comandi:
gcloud compute instances describe VM_NAME \ --zone=VM_ZONE \ --format='get(networkInterfaces[0].network)' gcloud lustre instances describe INSTANCE_NAME \ --location=ZONE --format='get(network)'L'output è simile al seguente:
https://www.googleapis.com/compute/v1/projects/my-project/global/networks/my-network projects/my-project/global/networks/my-networkL'output del comando
gcloud compute instances describeè preceduto dahttps://www.googleapis.com/compute/v1/; tutto ciò che segue questa stringa deve corrispondere all'output del comandogcloud lustre instances describe.Esamina le regole firewall e le configurazioni di routing della rete VPC per assicurarti che consentano il traffico tra l'istanza client e l'istanza Managed Lustre.
Controlla la porta di accettazione LNet (istanze legacy)
Sebbene il flag --gke-support-enabled sia ritirato e non sia più necessario durante la creazione di nuove istanze Managed Lustre, potresti avere istanze precedenti esistenti create con questo flag.
Se ti connetti a un'istanza legacy in cui è stato abilitato il supporto di GKE, devi configurare LNet su tutte le istanze Compute Engine client in modo che utilizzino accept_port 6988. Consulta
Configurare LNet per le istanze.gke-support-enabled
Per determinare se un'istanza esistente è stata configurata con questo flag legacy, esegui il comando seguente:
gcloud lustre instances describe INSTANCE_NAME \
--location=LOCATION | grep gkeSupportEnabled
Se il comando restituisce gkeSupportEnabled: true, devi configurare LNet sulle VM client.
Mancata corrispondenza della versione del kernel Ubuntu con il client Lustre
Per le istanze Compute Engine che eseguono Ubuntu, la versione kernel Ubuntu deve corrispondere alla versione specifica dei pacchetti client Lustre. Se gli strumenti client Lustre non funzionano, controlla se l'istanza Compute Engine è stata sottoposta all'upgrade automatico a un kernel più recente.
Per controllare la versione del kernel:
uname -r
La risposta è simile alla seguente:
6.8.0-1029-gcp
Per controllare la versione del pacchetto client Lustre:
dpkg -l | grep -i lustre
La risposta è simile alla seguente:
ii lustre-client-modules-6.8.0-1029-gcp 2.14.0-ddn198-1 amd64 Lustre Linux kernel module (kernel 6.8.0-1029-gcp)
ii lustre-client-utils 2.14.0-ddn198-1 amd64 Userspace utilities for the Lustre filesystem (client)
Se esiste una mancata corrispondenza tra la versione kernel elencata da entrambi i comandi, devi reinstallare i pacchetti client Lustre.
Controlla dmesg per gli errori di Lustre
Molti avvisi ed errori di Lustre vengono registrati nel buffer circolare del kernel Linux. Il comando dmesg stampa il buffer circolare del kernel.
Per cercare messaggi specifici di Lustre, utilizza grep insieme a dmesg:
dmesg | grep -i lustre
In alternativa, per cercare errori più generali che potrebbero essere correlati:
dmesg | grep -i error
Il montaggio di Lustre su una VM con più NIC non riesce
Quando una VM ha più controller di interfaccia di rete (NIC) e l'istanza Managed Lustre si trova su un VPC connesso a una NIC secondaria (ad esempio, eth1), il montaggio dell'istanza potrebbe non riuscire. Per risolvere il problema,
segui le istruzioni per il montaggio utilizzando una NIC secondaria.
Impossibile connettersi dallo span di subnet 172.17.0.0/16
I client Compute Engine e GKE con un indirizzo IP nello span di subnet 172.17.0.0/16 non possono montare le istanze Managed Lustre.
Impossibile accedere a Managed Lustre da un progetto in peering
Per accedere all'istanza Managed Lustre da una VM in una rete VPC in peering, devi utilizzare Network Connectivity Center (NCC). NCC ti consente di connettere più reti VPC e reti on-premise a un hub centrale, fornendo connettività tra di esse.
Per istruzioni su come configurare NCC, consulta la documentazione di Network Connectivity Center.
Il montaggio non riesce sulle Shielded VM (Avvio protetto)
Managed Lustre non può essere montato sulle
Shielded VM. Il tentativo di caricare il
modulo kernel Lustre in un ambiente Avvio protetto non riesce e viene visualizzato l'errore:
ERROR: could not insert 'lustre': Required key not available.
Informazioni da includere in una richiesta di assistenza
Se non riesci a risolvere l'errore di montaggio, raccogli le informazioni di diagnostica prima di creare una richiesta di assistenza.
Esegui sosreport: questa utility raccoglie i log di sistema e le informazioni di configurazione e genera un file tar compresso:
sudo sosreport
Allega l'archivio sosreport e qualsiasi output pertinente di dmesg alla richiesta di assistenza.