Soluciona problemas de conexiones de clientes

Cuando tengas problemas para activar un sistema de archivos de Managed Lustre o conectarte a él en una instancia o VM de cliente, sigue estos pasos para diagnosticar el problema.

Verifica que se pueda acceder a la instancia de Managed Lustre

Primero, asegúrate de que se pueda acceder a tu instancia de Managed Lustre desde tu instancia de cliente:

sudo lctl ping IP_ADDRESS@tcp

Para obtener el valor de IP_ADDRESS, consulta Obtén una instancia.

Un ping correcto muestra una respuesta similar a la siguiente:

12345-0@lo
12345-10.115.0.3@tcp

Un ping fallido muestra lo siguiente:

failed to ping 10.115.0.3@tcp: Input/output error

Si falla el ping, haz lo siguiente:

  • Asegúrate de que tu instancia de Managed Lustre y tu instancia de cliente estén en la misma red de VPC. Compara el resultado de los siguientes comandos:

    gcloud compute instances describe VM_NAME \
      --zone=VM_ZONE \
      --format='get(networkInterfaces[0].network)'
    
    gcloud lustre instances describe INSTANCE_NAME \
      --location=ZONE --format='get(network)'
    

    El resultado es similar al siguiente:

    https://www.googleapis.com/compute/v1/projects/my-project/global/networks/my-network
    projects/my-project/global/networks/my-network
    

    El resultado del comando gcloud compute instances describe tiene el prefijo https://www.googleapis.com/compute/v1/; todo lo que sigue a esa cadena debe coincidir con el resultado del comando gcloud lustre instances describe.

  • Revisa las reglas de firewall y las configuraciones de enrutamiento de tu red de VPC para asegurarte de que permitan el tráfico entre tu instancia de cliente y la instancia de Managed Lustre.

Verifica el puerto de aceptación de LNet (instancias heredadas)

Aunque la marca --gke-support-enabled dejó de estar disponible y ya no es necesaria cuando se crean instancias nuevas de Managed Lustre, es posible que tengas instancias anteriores existentes que se crearon con esta marca.

Si te conectas a una instancia heredada en la que se habilitó la compatibilidad con GKE, debes configurar LNet en todas las instancias de Compute Engine del cliente para usar accept_port 6988. Consulta Configura LNet para gke-support-enabled instancias.

Para determinar si una instancia existente se configuró con esta marca heredada, ejecuta el siguiente comando:

gcloud lustre instances describe INSTANCE_NAME \
  --location=LOCATION | grep gkeSupportEnabled

Si el comando muestra gkeSupportEnabled: true, debes configurar LNet en tus VMs de cliente.

Incompatibilidad de la versión del kernel de Ubuntu con el cliente de Lustre

En el caso de las instancias de Compute Engine que ejecutan Ubuntu, la versión del kernel de Ubuntu debe coincidir con la versión específica de los paquetes de cliente de Lustre. Si fallan tus herramientas de cliente de Lustre, verifica si tu instancia de Compute Engine se actualizó automáticamente a un kernel más reciente.

Para verificar la versión del kernel, haz lo siguiente:

uname -r

La respuesta es similar a la siguiente:

6.8.0-1029-gcp

Para verificar la versión del paquete de cliente de Lustre, haz lo siguiente:

dpkg -l | grep -i lustre

La respuesta es similar a la siguiente:

ii  lustre-client-modules-6.8.0-1029-gcp 2.14.0-ddn198-1  amd64  Lustre Linux kernel module (kernel 6.8.0-1029-gcp)
ii  lustre-client-utils                  2.14.0-ddn198-1  amd64  Userspace utilities for the Lustre filesystem (client)

Si hay una falta de coincidencia entre la versión del kernel que se muestra en ambos comandos, debes volver a instalar los paquetes de cliente de Lustre.

Verifica dmesg en busca de errores de Lustre

Muchas advertencias y errores de Lustre se registran en el búfer de anillo del kernel de Linux. El comando dmesg imprime el búfer de anillo del kernel.

Para buscar mensajes específicos de Lustre, usa grep junto con dmesg:

dmesg | grep -i lustre

O bien, para buscar errores más generales que podrían estar relacionados, haz lo siguiente:

dmesg | grep -i error

Falla la activación de Lustre en una VM con varias NIC

Cuando una VM tiene varios controladores de interfaces de red (NIC) y la instancia de Managed Lustre está en una VPC conectada a una NIC secundaria (por ejemplo, eth1), es posible que falle la activación de la instancia. Para resolver este problema, sigue las instrucciones para activar con una NIC secundaria.

No se puede conectar desde el rango de subred 172.17.0.0/16

Los clientes de Compute Engine y GKE con una dirección IP en el rango de subred 172.17.0.0/16 no pueden activar instancias de Managed Lustre.

No se puede acceder a Managed Lustre desde un proyecto con intercambio de tráfico

Para acceder a tu instancia de Managed Lustre desde una VM en una red de VPC con intercambio de tráfico, debes usar Network Connectivity Center (NCC). NCC te permite conectar varias redes de VPC y redes locales a un concentrador central, lo que proporciona conectividad entre ellas.

Para obtener instrucciones sobre cómo configurar NCC, consulta la documentación de Network Connectivity Center.

Falla la activación en VMs protegidas (Inicio seguro)

No se puede activar Managed Lustre en VMs protegidas. Cuando se intenta cargar el módulo del kernel de Lustre en un entorno de Inicio seguro, se produce el siguiente error: ERROR: could not insert 'lustre': Required key not available.

Información que se debe incluir en una solicitud de asistencia

Si no puedes resolver la falla de activación, recopila información de diagnóstico antes de crear un caso de asistencia.

Ejecuta sosreport: Esta utilidad recopila registros del sistema y la información de configuración, y genera un archivo tar comprimido:

sudo sosreport

Adjunta el archivo sosreport y cualquier resultado relevante de dmesg a tu caso de asistencia.