Errores conocidos

En esta página, se describen problemas conocidos con los que puedes encontrarte cuando ejecutas tus VMs o clústeres optimizados para IA. Si tienes problemas con las VMs de Compute Engine, consulta Problemas conocidos de Compute Engine.

Problemas

En la siguiente sección, se enumeran los problemas conocidos y las soluciones alternativas para AI Hypercomputer.

Interrupciones de cargas de trabajo en VMs A4 debido a problemas de firmware en las GPU NVIDIA B200

NVIDIA identificó dos problemas de firmware para las GPU B200, que se usan en las VMs A4 y provocan interrupciones en las cargas de trabajo. Específicamente, si observas interrupciones en las cargas de trabajo de las VMs A4, verifica si se cumple alguna de las siguientes condiciones:

El tiempo de actividad de la VM (campo lastStartTimestamp) supera los 65 días.
En los registros, se muestra un mensaje Xid 149 que menciona 0x02a.

Para mitigar este problema, te recomendamos que restablezcas tus GPUs. Para evitar el problema, te recomendamos que restablezcas las GPUs en las VMs de A4 al menos una vez cada 60 días.

Nota: Si ejecutas el proceso en GKE, puedes usar la herramienta de restablecimiento de GPU para restablecer las GPUs. Esta herramienta automatiza el proceso de restablecimiento y solo requiere el nombre del nodo de destino.

Es posible que el servidor de metadatos muestre metadatos de VM `physicalHost` antiguos

Después de experimentar un error de host o usar la API de informe de host defectuoso para mover una instancia a un host nuevo, cuando consultes el servidor de metadatos, es posible que muestre los metadatos physicalHost del host anterior de la instancia.

Para solucionar este problema, realiza una de las siguientes acciones:

Usa el método instances.get o el comando gcloud compute instances describe para recuperar la información correcta de physicalHost.
Detén y, luego, inicia tu instancia. Este proceso actualiza la información de physicalHost en el servidor de metadatos.
Espera 24 horas para que se actualice la información de physicalHost de la instancia afectada.

Errores conocidos Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Problemas

Interrupciones de cargas de trabajo en VMs A4 debido a problemas de firmware en las GPU NVIDIA B200

Es posible que el servidor de metadatos muestre metadatos de VM physicalHost antiguos

Errores conocidos

Es posible que el servidor de metadatos muestre metadatos de VM `physicalHost` antiguos