Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Problemi noti

Questa pagina descrive i problemi noti che potresti riscontrare durante l'esecuzione di VM o cluster ottimizzati per l'AI. Per i problemi relativi alle VM Compute Engine, consulta Problemi noti di Compute Engine.

Problemi

La sezione seguente elenca i problemi noti e le soluzioni alternative per AI Hypercomputer.

Interruzioni del carico di lavoro sulle VM A4 a causa di problemi del firmware per le GPU NVIDIA B200

NVIDIA ha identificato due problemi del firmware per le GPU B200, utilizzate dalle VM A4, che causano interruzioni del carico di lavoro. In particolare, se noti interruzioni del carico di lavoro sulle VM A4, controlla se si verifica una delle seguenti condizioni:

Il tempo di attività della VM (campo lastStartTimestamp) supera i 65 giorni.
I log mostrano un Xid 149 messaggio che menziona 0x02a.

Per attenuare il problema, ti consigliamo di reimpostare le GPU. Per evitare il problema, ti consigliamo di reimpostare le GPU sulle VM A4 almeno una volta ogni 60 giorni.

Il server di metadati potrebbe mostrare i vecchi metadati `physicalHost` della VM

Dopo aver riscontrato un errore relativo all'host o aver utilizzato l'API report faulty host per spostare un'istanza di Compute su un nuovo host, quando esegui unaquery sul server dei metadati, potrebbe essere visualizzato il metadato physicalHost dell'host precedente dell'istanza di Compute.

Per risolvere il problema, esegui una delle seguenti operazioni:

Utilizza il metodo instances.get o il comando gcloud compute instances describe per recuperare le informazioni physicalHost corrette.
Arresta e quindi avvia l'istanza. Questa procedura aggiorna le informazioni physicalHost nel server dei metadati.
Attendi 24 ore affinché le informazioni physicalHost dell'istanza interessata vengano aggiornate.

Problemi noti Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Problemi

Interruzioni del carico di lavoro sulle VM A4 a causa di problemi del firmware per le GPU NVIDIA B200

Il server di metadati potrebbe mostrare i vecchi metadati physicalHost della VM

Problemi noti

Il server di metadati potrebbe mostrare i vecchi metadati `physicalHost` della VM