Problemi noti

Questa pagina descrive i problemi noti che potresti riscontrare durante l'esecuzione di VM o cluster ottimizzati per l'AI. Per i problemi relativi alle VM Compute Engine, consulta Problemi noti di Compute Engine.

Problemi

La seguente sezione elenca i problemi noti e le soluzioni alternative per AI Hypercomputer.

Interruzioni dei carichi di lavoro sulle VM A4 a causa di problemi del firmware per le GPU NVIDIA B200

NVIDIA ha identificato due problemi del firmware per le GPU B200, utilizzate dalle VM A4, che causano interruzioni dei carichi di lavoro. In particolare, se noti interruzioni dei carichi di lavoro sulle VM A4, controlla se si verifica una delle seguenti condizioni:

Per attenuare questo problema, ti consigliamo di reimpostare le GPU. Per evitare il problema, ti consigliamo di reimpostare le GPU sulle VM A4 almeno una volta ogni 60 giorni.

Il server di metadati potrebbe mostrare i vecchi metadati physicalHost della VM

Dopo aver riscontrato un errore relativo all'host o aver utilizzato l' API report faulty host per spostare un'istanza di computing in un nuovo host, quando esegui una query sul server dei metadati, potrebbero essere visualizzati i metadati physicalHost dell'host precedente dell'istanza di computing.

Per risolvere il problema, esegui una delle seguenti operazioni: