Problemi noti

Questa pagina descrive i problemi noti che potresti riscontrare durante l'esecuzione delle VM o dei cluster ottimizzati per l'AI. Per i problemi relativi alle VM di Compute Engine, consulta la pagina Problemi noti di Compute Engine.

Problemi

La sezione seguente elenca i problemi noti e le soluzioni alternative per AI Hypercomputer.

Interruzioni del workload sulle VM A4 a causa di problemi del firmware per le GPU NVIDIA B200

NVIDIA ha identificato due problemi del firmware per le GPU B200, utilizzate dalle VM A4, che causano interruzioni del carico di lavoro. Nello specifico, se noti interruzioni del workload sulle VM A4, verifica se è vera una delle seguenti condizioni:

Per risolvere il problema, ti consigliamo di reimpostare le GPU. Per evitare il problema, ti consigliamo di reimpostare le GPU sulle VM A4 almeno una volta ogni 60 giorni.

Nota:se esegui l'operazione in GKE, puoi utilizzare gpu-reset-tool per ripristinare le GPU. Questo strumento automatizza la procedura di ripristino e richiede solo il nome del nodo di destinazione.

Il server di metadati potrebbe mostrare i vecchi metadati della VM physicalHost

Dopo aver riscontrato un errore relativo all'host o aver utilizzato l'API report faulty host per spostare un'istanza in un nuovo host, quando esegui una query sul server dei metadati, potrebbero essere visualizzati i metadati physicalHost dell'host precedente dell'istanza.

Per risolvere il problema, esegui una delle seguenti operazioni: