Este documento explica como criar um relatório de erro da NVIDIA para os seus tipos de máquinas que usam GPUs NVIDIA Blackwell. Se quiser identificar que tipos de máquinas estão a usar a GPU NVIDIA Blackwell, consulte a secção Modelos de GPU.
Se o seu tipo de máquina usar a arquitetura de GPU NVIDIA Blackwell, o relatório de erro da NVIDIA gerado não inclui dados de hardware críticos de baixo nível quando executa o script nvidia-bug-report.sh. Estes dados contêm informações como o estado da camada física das ligações NVLink, os valores de registo da GPU interna e os segmentos de diagnóstico não processados do firmware. Estas informações são essenciais para diagnosticar problemas, especialmente os relacionados com o NVLink, que podem originar erros Xid da GPU ou degradação do desempenho não resolvida.
Gere um relatório de erro da NVIDIA
Para gerar um relatório de erro, conclua os seguintes passos:
Ligue-se à sua instância de GPU. Escolha uma das seguintes opções:
Transfira e instale o pacote MFT selecionando uma das seguintes opções:
SO otimizado para contentores
Se a sua instância usar um SO otimizado para contentores (COS) como o sistema operativo convidado, use a ferramenta de código aberto COS NVIDIA Bug Report Collector para gerar o relatório de erro com o MFT. Esta ferramenta injeta automaticamente módulos do kernel MST suportados que correspondem ao kernel do COS, instala a ferramenta do espaço do utilizador, gera o relatório de erro e carrega opcionalmente o resultado para um contentor do Cloud Storage.
Outro SO
Para outros SOs Linux, conclua os seguintes passos:
- Transfira e instale a versão 4.32.0 ou superior do software NVIDIA Firmware Tools (MFT) a partir do Website da NVIDIA.
- Instale a ferramenta. Para mais informações, consulte a secção Compilação e instalação na documentação das ferramentas de firmware da NVIDIA (MFT). Depois de instalar o MFT, o script nvidia-bug-report.sh usa automaticamente as ferramentas do MFT para gerar o relatório. Não precisa de interagir diretamente com as ferramentas MFT.
- Execute o script
nvidia-bug-report.shpara gerar um relatório de erro. Este processo demora cerca de dois minutos. - Extraia o relatório.
- Verifique se o relatório inclui dados MFT executando o seguinte comando no ficheiro de relatório de erro extraído:
grep -m 1 -A 30 "Starting GPU MST dump.." PATH_TO_UNZIPPED_BUG_REPORT
O resultado é semelhante ao seguinte exemplo:
Starting GPU MST dump.. ... (additional MFT data) ...