Résoudre les problèmes de connexion client

Si vous rencontrez des problèmes pour installer un système de fichiers Lustre géré ou vous y connecter sur une VM ou une instance cliente, suivez ces étapes pour diagnostiquer le problème.

Vérifier que l'instance Managed Lustre est accessible

Tout d'abord, assurez-vous que votre instance Managed Lustre est accessible depuis votre instance cliente :

sudo lctl ping IP_ADDRESS@tcp

Pour obtenir la valeur de IP_ADDRESS, consultez Obtenir une instance.

Un ping réussi renvoie une réponse semblable à la suivante :

12345-0@lo
12345-10.115.0.3@tcp

En cas d'échec du ping, le message suivant s'affiche :

failed to ping 10.115.0.3@tcp: Input/output error

En cas d'échec de votre ping :

  • Assurez-vous que votre instance Managed Lustre et votre instance cliente se trouvent dans le même réseau VPC. Comparez le résultat des commandes suivantes :

    gcloud compute instances describe VM_NAME \
      --zone=VM_ZONE \
      --format='get(networkInterfaces[0].network)'
    
    gcloud lustre instances describe INSTANCE_NAME \
      --location=ZONE --format='get(network)'
    

    Le résultat ressemble à ceci:

    https://www.googleapis.com/compute/v1/projects/my-project/global/networks/my-network
    projects/my-project/global/networks/my-network
    

    Le résultat de la commande gcloud compute instances describe est précédé de https://www.googleapis.com/compute/v1/. Tout ce qui suit cette chaîne doit correspondre au résultat de la commande gcloud lustre instances describe.

  • Examinez les règles de pare-feu et les configurations de routage de votre réseau VPC pour vous assurer qu'elles autorisent le trafic entre votre instance cliente et l'instance Managed Lustre.

Vérifier le port d'acceptation LNet (anciennes instances)

Bien que l'indicateur --gke-support-enabled soit obsolète et ne soit plus requis lors de la création d'instances Managed Lustre, il est possible que vous disposiez d'anciennes instances créées avec cet indicateur.

Si vous vous connectez à une ancienne instance sur laquelle la compatibilité avec GKE était activée, vous devez configurer LNet sur toutes les instances Compute Engine clientes pour qu'elles utilisent le port 6988 de accept_port. Consultez Configurer LNet pour les instances gke-support-enabled.

Pour déterminer si une instance existante a été configurée avec cet ancien indicateur, exécutez la commande suivante :

gcloud lustre instances describe INSTANCE_NAME \
  --location=LOCATION | grep gkeSupportEnabled

Si la commande renvoie gkeSupportEnabled: true, vous devez configurer LNet sur vos VM clientes.

Incompatibilité de la version de noyau Ubuntu avec le client Lustre

Pour les instances Compute Engine exécutant Ubuntu, la version du noyau Ubuntu doit correspondre à la version spécifique des packages client Lustre. Si vos outils client Lustre échouent, vérifiez si votre instance Compute Engine a été automatiquement mise à niveau vers un noyau plus récent.

Pour vérifier la version de votre noyau :

uname -r

La réponse est semblable à ce qui suit :

6.8.0-1029-gcp

Pour vérifier la version de votre package client Lustre :

dpkg -l | grep -i lustre

La réponse est semblable à ce qui suit :

ii  lustre-client-modules-6.8.0-1029-gcp 2.14.0-ddn198-1  amd64  Lustre Linux kernel module (kernel 6.8.0-1029-gcp)
ii  lustre-client-utils                  2.14.0-ddn198-1  amd64  Userspace utilities for the Lustre filesystem (client)

Si la version du noyau listée par les deux commandes ne correspond pas, vous devez réinstaller les packages clients Lustre.

Vérifier si dmesg contient des erreurs Lustre

De nombreux avertissements et erreurs Lustre sont consignés dans le tampon circulaire du noyau Linux. La commande dmesg affiche le tampon de boucle du noyau.

Pour rechercher des messages spécifiques à Lustre, utilisez grep avec dmesg :

dmesg | grep -i lustre

Vous pouvez également rechercher des erreurs plus générales qui pourraient être liées :

dmesg | grep -i error

L'installation de Lustre sur une VM à plusieurs cartes d'interface réseau échoue

Lorsqu'une VM possède plusieurs cartes d'interface réseau (NIC) et que l'instance Managed Lustre se trouve sur un VPC connecté à une carte d'interface réseau secondaire (par exemple, eth1), le montage de l'instance peut échouer. Pour résoudre ce problème, suivez les instructions pour effectuer le montage à l'aide d'une carte d'interface réseau secondaire.

Impossible de se connecter à partir de la plage de sous-réseaux 172.17.0.0/16

Les clients Compute Engine et GKE dont l'adresse IP se trouve dans la plage de sous-réseau 172.17.0.0/16 ne peuvent pas monter les instances Managed Lustre.

Impossible d'accéder à Managed Lustre depuis un projet appairé

Pour accéder à votre instance Lustre gérée à partir d'une VM dans un réseau VPC appairé, vous devez utiliser Network Connectivity Center (NCC). NCC vous permet de connecter plusieurs réseaux VPC et réseaux sur site à un hub central, ce qui assure la connectivité entre eux.

Pour savoir comment configurer NCC, consultez la documentation Network Connectivity Center.

Échec du montage sur les VM protégées (démarrage sécurisé)

Managed Lustre ne peut pas être installé sur des VM protégées. La tentative de chargement du module de noyau Lustre dans un environnement de démarrage sécurisé échoue avec l'erreur suivante : ERROR: could not insert 'lustre': Required key not available.

Informations à inclure dans une demande d'assistance

Si vous ne parvenez pas à résoudre l'échec du montage, collectez des informations de diagnostic avant de créer une demande d'assistance.

Exécutez sosreport : cet utilitaire collecte les journaux système et les informations de configuration, puis génère un fichier tarball compressé :

sudo sosreport

Joignez l'archive sosreport et toute sortie pertinente de dmesg à votre demande d'assistance.