Este documento explica como criar um relatório de erro da NVIDIA para os seus tipos de máquinas que usam GPUs NVIDIA Blackwell. Se quiser identificar que tipos de máquinas estão a usar a GPU NVIDIA Blackwell, consulte a secção Modelos de GPU.
Se o seu tipo de máquina usar a arquitetura de GPU NVIDIA Blackwell, o relatório de erro da NVIDIA gerado não inclui dados de hardware críticos de baixo nível quando executa o script nvidia-bug-report.sh. Estes dados contêm informações como o estado da camada física das ligações NVLink, os valores de registo da GPU interna e os segmentos de diagnóstico não processados do firmware. Estas informações são essenciais para diagnosticar problemas, especialmente os relacionados com o NVLink, que podem originar erros Xid da GPU ou uma degradação do desempenho não resolvida.
Gere um relatório de erro da NVIDIA
Para gerar um relatório de erro, conclua os seguintes passos:
Ligue-se à sua instância de GPU. Escolha uma das seguintes opções:
Transfira e instale o pacote MFT selecionando uma das seguintes opções:
SO otimizado para contentores
Se a sua instância usar um SO otimizado para contentores (COS) como o sistema operativo convidado, use a ferramenta de código aberto GCE COS NVIDIA Bug Report Collector para gerar o relatório de erro com o MFT. Esta ferramenta injeta automaticamente módulos do kernel MST suportados que correspondem ao kernel do COS, instala a ferramenta do espaço do utilizador, gera o relatório de erro e carrega opcionalmente o resultado para um contentor do Cloud Storage.
Outro SO
Para outros SOs Linux, conclua os seguintes passos:
- Transfira e instale a versão 4.32.0 ou superior do software NVIDIA Firmware Tools (MFT) a partir do Website da NVIDIA.
- Instale a ferramenta. Para mais informações, consulte a secção Compilação e instalação na documentação das ferramentas de firmware da NVIDIA (MFT). Depois de instalar o MFT, o script nvidia-bug-report.sh usa automaticamente as ferramentas do MFT para gerar o relatório. Não precisa de interagir diretamente com as ferramentas MFT.
- Execute o script
nvidia-bug-report.sh
para gerar um relatório de erro. Este processo demora cerca de dois minutos. - Extraia o relatório.
- Verifique se o relatório inclui dados MFT executando o seguinte comando no ficheiro de relatório de erro extraído:
grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT
O resultado é semelhante ao seguinte exemplo:
Starting GPU MST dump.. ... (additional MFT data) ...