Ao encontrar problemas para montar ou se conectar a um sistema de arquivos Managed Lustre em uma VM ou instância cliente, siga estas etapas para diagnosticar o problema.
Verificar se a instância do Managed Lustre está acessível
Primeiro, verifique se a instância do Managed Lustre pode ser acessada pela instância do cliente:
sudo lctl ping IP_ADDRESS@tcp
Para receber o valor de IP_ADDRESS, consulte Receber uma instância.
Um ping bem-sucedido retorna uma resposta semelhante a esta:
12345-0@lo
12345-10.115.0.3@tcp
Um ping com falha retorna o seguinte:
failed to ping 10.115.0.3@tcp: Input/output error
Se o ping falhar:
Verifique se a instância do Managed Lustre e a instância do cliente estão na mesma rede VPC. Compare a saída dos seguintes comandos:
gcloud compute instances describe VM_NAME \ --zone=VM_ZONE \ --format='get(networkInterfaces[0].network)' gcloud lustre instances describe INSTANCE_NAME \ --location=ZONE --format='get(network)'A saída é semelhante a esta:
https://www.googleapis.com/compute/v1/projects/my-project/global/networks/my-network projects/my-project/global/networks/my-networkA saída do comando
gcloud compute instances describetem o prefixohttps://www.googleapis.com/compute/v1/. Tudo o que segue essa string precisa corresponder à saída do comandogcloud lustre instances describe.Revise as regras de firewall e as configurações de roteamento da rede VPC para garantir que elas permitam o tráfego entre a instância do cliente e a instância do Managed Lustre.
Verificar a porta de aceitação da LNet (instâncias legadas)
Embora a flag --gke-support-enabled esteja descontinuada e não seja mais necessária
ao criar novas instâncias do Managed Lustre, talvez você tenha
instâncias mais antigas que foram criadas com essa flag.
Se você estiver se conectando a uma instância legada em que o suporte do GKE
foi ativado, configure o LNet em todas as instâncias do Compute Engine do cliente
para usar accept_port 6988. Consulte
Configurar LNet para instâncias gke-support-enabled.
Para determinar se uma instância atual foi configurada com essa flag legada, execute o seguinte comando:
gcloud lustre instances describe INSTANCE_NAME \
--location=LOCATION | grep gkeSupportEnabled
Se o comando retornar gkeSupportEnabled: true, configure o LNet nas VMs de cliente.
Incompatibilidade entre a versão do kernel do Ubuntu e o cliente Lustre
Para instâncias do Compute Engine que executam o Ubuntu, a versão do kernel do Ubuntu precisa corresponder à versão específica dos pacotes de cliente do Lustre. Se as ferramentas de cliente do Lustre estiverem falhando, verifique se a instância do Compute Engine foi atualizada automaticamente para um kernel mais recente.
Para verificar a versão do kernel:
uname -r
A resposta é semelhante ao exemplo a seguir:
6.8.0-1029-gcp
Para verificar a versão do pacote de cliente do Lustre:
dpkg -l | grep -i lustre
A resposta é semelhante ao exemplo a seguir:
ii lustre-client-modules-6.8.0-1029-gcp 2.14.0-ddn198-1 amd64 Lustre Linux kernel module (kernel 6.8.0-1029-gcp)
ii lustre-client-utils 2.14.0-ddn198-1 amd64 Userspace utilities for the Lustre filesystem (client)
Se houver uma incompatibilidade entre as versões do kernel listadas nos dois comandos, reinstale os pacotes de cliente do Lustre.
Verificar se há erros do Lustre no dmesg
Muitos avisos e erros do Lustre são registrados no buffer de anel do kernel do Linux. O comando
dmesg imprime o buffer de anel do kernel.
Para pesquisar mensagens específicas do Lustre, use grep com dmesg:
dmesg | grep -i lustre
Ou, para procurar erros mais gerais que possam estar relacionados:
dmesg | grep -i error
A montagem do Lustre em uma VM multi-NIC falha
Quando uma VM tem vários controladores de interface de rede (NICs) e a instância do Managed Lustre está em uma VPC conectada a uma NIC secundária (por exemplo, eth1), a montagem da instância pode falhar. Para resolver esse problema, siga as instruções para fazer a montagem usando uma NIC secundária.
Não é possível se conectar do intervalo de sub-rede 172.17.0.0/16
Os clientes do Compute Engine e do GKE com um endereço IP no intervalo de sub-rede 172.17.0.0/16 não podem montar instâncias do Managed Lustre.
Não é possível acessar o Managed Lustre de um projeto de peering
Para acessar a instância do Managed Lustre de uma VM em uma rede VPC com peering, use o Network Connectivity Center (NCC). Com o NCC, é possível conectar várias redes VPC e locais a um hub central, oferecendo conectividade entre elas.
Para instruções sobre como configurar o NCC, consulte a documentação do Network Connectivity Center.
A montagem falha em VMs protegidas (inicialização segura)
O Managed Lustre não pode ser montado em VMs protegidas. A tentativa de carregar o módulo de kernel do Lustre em um ambiente de inicialização segura falha com o erro: ERROR: could not insert 'lustre': Required key not available.
Informações a serem incluídas em uma solicitação de suporte
Se não for possível resolver a falha de montagem, colete informações de diagnóstico antes de criar um caso de suporte.
Execute o sosreport:esse utilitário coleta registros do sistema e informações de configuração e gera um tarball compactado:
sudo sosreport
Anexe o arquivo sosreport e qualquer saída relevante de dmesg ao seu
caso de suporte.