En esta página, se describen problemas conocidos con los que puedes encontrarte cuando ejecutas tus VMs o clústeres optimizados para IA. Si tienes problemas con las VMs de Compute Engine, consulta Problemas conocidos de Compute Engine.
Problemas
En la siguiente sección, se enumeran los problemas conocidos y las soluciones alternativas para AI Hypercomputer.
Interrupciones de cargas de trabajo en VMs A4 debido a problemas de firmware en las GPU NVIDIA B200
NVIDIA identificó dos problemas de firmware para las GPU B200, que se usan en las VMs A4 y provocan interrupciones en las cargas de trabajo. Específicamente, si observas interrupciones en las cargas de trabajo de las VMs A4, verifica si se cumple alguna de las siguientes condiciones:
- El tiempo de actividad de la VM (campo
lastStartTimestamp) supera los 65 días. - En los registros, se muestra un mensaje
Xid 149que menciona0x02a.
Para mitigar este problema, te recomendamos que restablezcas tus GPUs. Para evitar el problema, te recomendamos que restablezcas las GPUs en las VMs de A4 al menos una vez cada 60 días.
Nota: Si ejecutas el proceso en GKE, puedes usar la herramienta de restablecimiento de GPU para restablecer las GPUs. Esta herramienta automatiza el proceso de restablecimiento y solo requiere el nombre del nodo de destino.
Es posible que el servidor de metadatos muestre metadatos de VM physicalHost antiguos
Después de experimentar un error de host o usar la API de informe de host defectuoso para mover una instancia a un host nuevo, cuando consultes el servidor de metadatos, es posible que muestre los metadatos physicalHost del host anterior de la instancia.
Para solucionar este problema, realiza una de las siguientes acciones:
- Usa el método
instances.geto el comandogcloud compute instances describepara recuperar la información correcta dephysicalHost. - Detén y, luego, inicia tu instancia. Este proceso actualiza la información de
physicalHosten el servidor de metadatos. - Espera 24 horas para que se actualice la información de
physicalHostde la instancia afectada.