Questa pagina descrive i problemi noti che potresti riscontrare durante l'esecuzione delle VM o dei cluster ottimizzati per l'AI. Per i problemi relativi alle VM di Compute Engine, consulta la pagina Problemi noti di Compute Engine.
Problemi
La sezione seguente elenca i problemi noti e le soluzioni alternative per AI Hypercomputer.
Interruzioni del workload sulle VM A4 a causa di problemi del firmware per le GPU NVIDIA B200
NVIDIA ha identificato due problemi del firmware per le GPU B200, utilizzate dalle VM A4, che causano interruzioni del carico di lavoro. Nello specifico, se noti interruzioni del workload sulle VM A4, verifica se è vera una delle seguenti condizioni:
- L'uptime della VM
(campo
lastStartTimestamp) supera i 65 giorni. - I log mostrano un
messaggio
Xid 149che menziona0x02a.
Per risolvere il problema, ti consigliamo di reimpostare le GPU. Per evitare il problema, ti consigliamo di reimpostare le GPU sulle VM A4 almeno una volta ogni 60 giorni.
Nota:se esegui l'operazione in GKE, puoi utilizzare gpu-reset-tool per ripristinare le GPU. Questo strumento automatizza la procedura di ripristino e richiede solo il nome del nodo di destinazione.
Il server di metadati potrebbe mostrare i vecchi metadati della VM physicalHost
Dopo aver riscontrato un
errore relativo all'host o
aver utilizzato l'API report faulty host per
spostare un'istanza in un nuovo host, quando
esegui una query sul server dei metadati,
potrebbero essere visualizzati i
metadati physicalHost dell'host precedente dell'istanza.
Per risolvere il problema, esegui una delle seguenti operazioni:
- Utilizza il metodo
instances.geto il comandogcloud compute instances describeper recuperare le informazioniphysicalHostcorrette. - Arresta e quindi avvia
l'istanza. Questa procedura aggiorna le informazioni
physicalHostnel server dei metadati. - Attendi 24 ore affinché le informazioni
physicalHostdell'istanza interessata vengano aggiornate.