Esta página descreve problemas conhecidos que podem ocorrer ao executar VMs ou clusters otimizados para IA. Para problemas com VMs do Compute Engine, consulte Problemas conhecidos do Compute Engine.
Problemas
A seção a seguir lista problemas conhecidos e soluções alternativas para o Hipercomputador de IA.
Interrupções de carga de trabalho em VMs A4 devido a problemas de firmware para GPUs NVIDIA B200
A NVIDIA identificou dois problemas de firmware para GPUs B200, que são usadas por VMs A4, que estão causando interrupções de carga de trabalho. Especificamente, se você notar interrupções de carga de trabalho em VMs A4, verifique se uma das seguintes condições é verdadeira:
- O tempo de atividade da VM (campo
lastStartTimestamp) excede 65 dias. - Os registros mostram uma mensagem
Xid 149que menciona0x02a.
Para atenuar esse problema, recomendamos redefinir as GPUs. Para ajudar a evitar o problema, recomendamos redefinir as GPUs em VMs A4 pelo menos uma vez a cada 60 dias.
O servidor de metadados pode mostrar metadados de VM physicalHost antigos
Depois de um
erro de host ou
usar a
API report faulty host para
mover uma instância de computação para um novo host, ao
consultar o servidor de metadados,
ele poderá mostrar os metadados physicalHost do host anterior da instância de computação.
Para contornar esse problema, faça uma das seguintes ações:
- Use o
instances.getmétodo ou ogcloud compute instances describecomando para recuperar as informaçõesphysicalHostcorretas. - Interrompa e inicie a
instância. Esse processo atualiza as informações
physicalHostno servidor de metadados. - Aguarde 24 horas para que as informações
physicalHostda instância afetada sejam atualizadas.