Questa pagina descrive i problemi noti che potresti riscontrare durante l'esecuzione di VM o cluster ottimizzati per l'AI. Per i problemi relativi alle VM Compute Engine, consulta Problemi noti di Compute Engine.
Problemi
La seguente sezione elenca i problemi noti e le soluzioni alternative per AI Hypercomputer.
Interruzioni dei carichi di lavoro sulle VM A4 a causa di problemi del firmware per le GPU NVIDIA B200
NVIDIA ha identificato due problemi del firmware per le GPU B200, utilizzate dalle VM A4, che causano interruzioni dei carichi di lavoro. In particolare, se noti interruzioni dei carichi di lavoro sulle VM A4, controlla se si verifica una delle seguenti condizioni:
- Il tempo di attività della VM (campo
lastStartTimestamp) supera i 65 giorni. - I log mostrano un
Xid 149messaggio che menziona0x02a.
Per attenuare questo problema, ti consigliamo di reimpostare le GPU. Per evitare il problema, ti consigliamo di reimpostare le GPU sulle VM A4 almeno una volta ogni 60 giorni.
Il server di metadati potrebbe mostrare i vecchi metadati physicalHost della VM
Dopo aver riscontrato un
errore relativo all'host o
aver
utilizzato l'
API report faulty host per
spostare un'istanza di computing in un nuovo host, quando
esegui una query sul server dei metadati,
potrebbero essere visualizzati i metadati physicalHost dell'host precedente dell'istanza di computing.
Per risolvere il problema, esegui una delle seguenti operazioni:
- Utilizza il metodo
instances.geto il comandogcloud compute instances describeper recuperare le informazioniphysicalHostcorrette. - Arresta e quindi avvia
l'istanza. Questa procedura aggiorna le informazioni
physicalHostnel server dei metadati. - Attendi 24 ore affinché le informazioni
physicalHostdell'istanza interessata vengano aggiornate.