Cuando tengas problemas para activar un sistema de archivos de Managed Lustre o conectarte a él en una instancia o VM de cliente, sigue estos pasos para diagnosticar el problema.
Verifica que se pueda acceder a la instancia de Managed Lustre
Primero, asegúrate de que se pueda acceder a tu instancia de Managed Lustre desde tu instancia de cliente:
sudo lctl ping IP_ADDRESS@tcp
Para obtener el valor de IP_ADDRESS, consulta Obtén una instancia.
Un ping correcto muestra una respuesta similar a la siguiente:
12345-0@lo
12345-10.115.0.3@tcp
Un ping fallido muestra lo siguiente:
failed to ping 10.115.0.3@tcp: Input/output error
Si falla el ping, haz lo siguiente:
Asegúrate de que tu instancia de Managed Lustre y tu instancia de cliente estén en la misma red de VPC. Compara el resultado de los siguientes comandos:
gcloud compute instances describe VM_NAME \ --zone=VM_ZONE \ --format='get(networkInterfaces[0].network)' gcloud lustre instances describe INSTANCE_NAME \ --location=ZONE --format='get(network)'El resultado es similar al siguiente:
https://www.googleapis.com/compute/v1/projects/my-project/global/networks/my-network projects/my-project/global/networks/my-networkEl resultado del comando
gcloud compute instances describetiene el prefijohttps://www.googleapis.com/compute/v1/; todo lo que sigue a esa cadena debe coincidir con el resultado del comandogcloud lustre instances describe.Revisa las reglas de firewall y las configuraciones de enrutamiento de tu red de VPC para asegurarte de que permitan el tráfico entre tu instancia de cliente y la instancia de Managed Lustre.
Verifica el puerto de aceptación de LNet (instancias heredadas)
Aunque la marca --gke-support-enabled dejó de estar disponible y ya no es necesaria cuando se crean instancias nuevas de Managed Lustre, es posible que tengas instancias anteriores existentes que se crearon con esta marca.
Si te conectas a una instancia heredada en la que se habilitó la compatibilidad con GKE, debes configurar LNet en todas las instancias de Compute Engine del cliente para usar accept_port 6988. Consulta
Configura LNet para gke-support-enabled instancias.
Para determinar si una instancia existente se configuró con esta marca heredada, ejecuta el siguiente comando:
gcloud lustre instances describe INSTANCE_NAME \
--location=LOCATION | grep gkeSupportEnabled
Si el comando muestra gkeSupportEnabled: true, debes configurar LNet en tus VMs de cliente.
Incompatibilidad de la versión del kernel de Ubuntu con el cliente de Lustre
En el caso de las instancias de Compute Engine que ejecutan Ubuntu, la versión del kernel de Ubuntu debe coincidir con la versión específica de los paquetes de cliente de Lustre. Si fallan tus herramientas de cliente de Lustre, verifica si tu instancia de Compute Engine se actualizó automáticamente a un kernel más reciente.
Para verificar la versión del kernel, haz lo siguiente:
uname -r
La respuesta es similar a la siguiente:
6.8.0-1029-gcp
Para verificar la versión del paquete de cliente de Lustre, haz lo siguiente:
dpkg -l | grep -i lustre
La respuesta es similar a la siguiente:
ii lustre-client-modules-6.8.0-1029-gcp 2.14.0-ddn198-1 amd64 Lustre Linux kernel module (kernel 6.8.0-1029-gcp)
ii lustre-client-utils 2.14.0-ddn198-1 amd64 Userspace utilities for the Lustre filesystem (client)
Si hay una falta de coincidencia entre la versión del kernel que se muestra en ambos comandos, debes volver a instalar los paquetes de cliente de Lustre.
Verifica dmesg en busca de errores de Lustre
Muchas advertencias y errores de Lustre se registran en el búfer de anillo del kernel de Linux. El comando dmesg imprime el búfer de anillo del kernel.
Para buscar mensajes específicos de Lustre, usa grep junto con dmesg:
dmesg | grep -i lustre
O bien, para buscar errores más generales que podrían estar relacionados, haz lo siguiente:
dmesg | grep -i error
Falla la activación de Lustre en una VM con varias NIC
Cuando una VM tiene varios controladores de interfaces de red (NIC) y la instancia de Managed Lustre está en una VPC conectada a una NIC secundaria (por ejemplo, eth1), es posible que falle la activación de la instancia. Para resolver este problema,
sigue las instrucciones para activar con una NIC secundaria.
No se puede conectar desde el rango de subred 172.17.0.0/16
Los clientes de Compute Engine y GKE con una dirección IP en el rango de subred 172.17.0.0/16 no pueden activar instancias de Managed Lustre.
No se puede acceder a Managed Lustre desde un proyecto con intercambio de tráfico
Para acceder a tu instancia de Managed Lustre desde una VM en una red de VPC con intercambio de tráfico, debes usar Network Connectivity Center (NCC). NCC te permite conectar varias redes de VPC y redes locales a un concentrador central, lo que proporciona conectividad entre ellas.
Para obtener instrucciones sobre cómo configurar NCC, consulta la documentación de Network Connectivity Center.
Falla la activación en VMs protegidas (Inicio seguro)
No se puede activar Managed Lustre en
VMs protegidas. Cuando se intenta cargar el
módulo del kernel de Lustre en un entorno de Inicio seguro, se produce el siguiente error:
ERROR: could not insert 'lustre': Required key not available.
Información que se debe incluir en una solicitud de asistencia
Si no puedes resolver la falla de activación, recopila información de diagnóstico antes de crear un caso de asistencia.
Ejecuta sosreport: Esta utilidad recopila registros del sistema y la información de configuración, y genera un archivo tar comprimido:
sudo sosreport
Adjunta el archivo sosreport y cualquier resultado relevante de dmesg a tu caso de asistencia.