Problemas conhecidos

Nesta página, descrevemos os problemas conhecidos que você pode encontrar ao executar suas VMs ou clusters otimizados para IA. Para problemas com VMs do Compute Engine, consulte Problemas conhecidos do Compute Engine.

Problemas

A seção a seguir lista problemas conhecidos e soluções alternativas para o Hipercomputador de IA.

Interrupções de carga de trabalho em VMs A4 devido a problemas de firmware em GPUs NVIDIA B200

A NVIDIA identificou dois problemas de firmware para GPUs B200, que são usadas por VMs A4 e causam interrupções na carga de trabalho. Especificamente, se você notar interrupções de carga de trabalho em VMs A4, verifique se uma das seguintes condições é verdadeira:

  • O tempo de atividade da VM (campo lastStartTimestamp) excede 65 dias.
  • Os registros mostram uma mensagem Xid 149 que menciona 0x02a.

Para atenuar esse problema, recomendamos redefinir as GPUs. Para evitar o problema, recomendamos redefinir as GPUs em VMs A4 pelo menos uma vez a cada 60 dias.

Observação:se você estiver executando no GKE, use a ferramenta de redefinição de GPU para redefinir as GPUs. Essa ferramenta automatiza o processo de redefinição e exige apenas o nome do nó de destino.

O servidor de metadados pode mostrar metadados antigos da VM physicalHost.

Depois de um erro de host ou de usar a API report faulty host para mover uma instância para um novo host, ao consultar o servidor de metadados, ele poderá mostrar os metadados physicalHost do host anterior da instância.

Para contornar esse problema, faça uma das seguintes ações: