Errores conocidos

En esta página, se describen problemas conocidos con los que puedes encontrarte cuando ejecutas tus VMs o clústeres optimizados para IA. Si tienes problemas con las VMs de Compute Engine, consulta Problemas conocidos de Compute Engine.

Problemas

En la siguiente sección, se enumeran los problemas conocidos y las soluciones alternativas para AI Hypercomputer.

Interrupciones de cargas de trabajo en VMs A4 debido a problemas de firmware en las GPU NVIDIA B200

NVIDIA identificó dos problemas de firmware para las GPU B200, que se usan en las VMs A4 y provocan interrupciones en las cargas de trabajo. Específicamente, si observas interrupciones en las cargas de trabajo de las VMs A4, verifica si se cumple alguna de las siguientes condiciones:

Para mitigar este problema, te recomendamos que restablezcas tus GPUs. Para evitar el problema, te recomendamos que restablezcas las GPUs en las VMs de A4 al menos una vez cada 60 días.

Nota: Si ejecutas el proceso en GKE, puedes usar la herramienta de restablecimiento de GPU para restablecer las GPUs. Esta herramienta automatiza el proceso de restablecimiento y solo requiere el nombre del nodo de destino.

Es posible que el servidor de metadatos muestre metadatos de VM physicalHost antiguos

Después de experimentar un error de host o usar la API de informe de host defectuoso para mover una instancia a un host nuevo, cuando consultes el servidor de metadatos, es posible que muestre los metadatos physicalHost del host anterior de la instancia.

Para solucionar este problema, realiza una de las siguientes acciones: