Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Problemas conhecidos

Esta página descreve problemas conhecidos que podem ocorrer ao executar VMs ou clusters otimizados para IA. Para problemas com VMs do Compute Engine, consulte Problemas conhecidos do Compute Engine.

Problemas

A seção a seguir lista problemas conhecidos e soluções alternativas para o Hipercomputador de IA.

Interrupções de carga de trabalho em VMs A4 devido a problemas de firmware para GPUs NVIDIA B200

A NVIDIA identificou dois problemas de firmware para GPUs B200, que são usadas por VMs A4, que estão causando interrupções de carga de trabalho. Especificamente, se você notar interrupções de carga de trabalho em VMs A4, verifique se uma das seguintes condições é verdadeira:

O tempo de atividade da VM (campo lastStartTimestamp) excede 65 dias.
Os registros mostram uma mensagem Xid 149 que menciona 0x02a.

Para atenuar esse problema, recomendamos redefinir as GPUs. Para evitar o problema, recomendamos redefinir as GPUs em VMs A4 pelo menos uma vez a cada 60 dias.

O servidor de metadados pode mostrar metadados de VM `physicalHost` antigos

Depois de um erro de host ou usar a API report faulty host para mover uma instância de computação para um novo host, ao consultar o servidor de metadados, ele poderá mostrar os metadados physicalHost do host anterior da instância de computação.

Para contornar esse problema, faça uma das seguintes ações:

Use o instances.get método ou o gcloud compute instances describe comando para recuperar as informações physicalHost corretas.
Interrompa e inicie a instância. Esse processo atualiza as informações physicalHost no servidor de metadados.
Aguarde 24 horas para que as informações physicalHost da instância afetada sejam atualizadas.

Problemas conhecidos Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Problemas

Interrupções de carga de trabalho em VMs A4 devido a problemas de firmware para GPUs NVIDIA B200

O servidor de metadados pode mostrar metadados de VM physicalHost antigos

Problemas conhecidos

O servidor de metadados pode mostrar metadados de VM `physicalHost` antigos