Problemas conhecidos

Esta página descreve problemas conhecidos que podem ocorrer ao executar VMs ou clusters otimizados para IA. Para problemas com VMs do Compute Engine, consulte Problemas conhecidos do Compute Engine.

Problemas

A seção a seguir lista problemas conhecidos e soluções alternativas para o Hipercomputador de IA.

Interrupções de carga de trabalho em VMs A4 devido a problemas de firmware para GPUs NVIDIA B200

A NVIDIA identificou dois problemas de firmware para GPUs B200, que são usadas por VMs A4, que estão causando interrupções de carga de trabalho. Especificamente, se você notar interrupções de carga de trabalho em VMs A4, verifique se uma das seguintes condições é verdadeira:

  • O tempo de atividade da VM (campo lastStartTimestamp) excede 65 dias.
  • Os registros mostram uma mensagem Xid 149 que menciona 0x02a.

Para atenuar esse problema, recomendamos redefinir as GPUs. Para ajudar a evitar o problema, recomendamos redefinir as GPUs em VMs A4 pelo menos uma vez a cada 60 dias.

O servidor de metadados pode mostrar metadados de VM physicalHost antigos

Depois de um erro de host ou usar a API report faulty host para mover uma instância de computação para um novo host, ao consultar o servidor de metadados, ele poderá mostrar os metadados physicalHost do host anterior da instância de computação.

Para contornar esse problema, faça uma das seguintes ações: