Glossario degli errori di Cloud TPU
Questo documento fornisce un glossario degli errori comuni con le soluzioni del servizio Cloud TPU.
Tipo di acceleratore non valido
Messaggio di errore
generic::invalid_argument: Accelerator type v2-512 as preemptible (false) and reserved (false) is not available in zone us-central1-a, please contact support.
Soluzione
È stato fornito un parametro non valido al comando create. La disponibilità
di un acceleratore in una zona dipende dai seguenti parametri: il tipo, il flag
preemptible, il flag spot e il flag reserved. I flag preemptible, spot
e reserved possono essere modificati includendoli o escludendoli nel comando
di creazione.
Una TPU creata con il flag reserved utilizzerà la capacità riservata. L'inclusione dei flag spot o preemptible consentirà il prerilascio della TPU da parte di TPU con priorità più elevata. Se non viene fornito nessuno di questi flag, la TPU sarà on demand. Non è
una configurazione valida per abilitare più di uno di questi flag. Per saperne di più, consulta la documentazione del comando create.
I tipi di acceleratore disponibili in ogni zona sono riportati nella documentazione relativa a regioni e zone TPU oppure possono essere interrogati utilizzando il comando list accelerator-types. Modifica il comando di creazione in modo che utilizzi uno di questi tipi di acceleratore e riprova o contatta l'assistenza se il problema persiste.
Rete non trovata
Messaggio di errore
Cloud TPU received a bad request. The field "Network" cannot be "NETWORK_NAME": requested resource not found
Soluzione
La rete NETWORK_NAME non è stata trovata. Assicurati che la rete sia stata creata e configurata correttamente. Per saperne di più, consulta Crea e gestisci le reti VPC.
Autorizzazione del service account negata
Messaggio di errore
generic::permission_denied: Cloud TPU got permissions denied when trying to access the customer project. Make sure that the IAM account 'service-[project number]@cloud-tpu.iam.gserviceaccount.com' has the 'Cloud TPU API Service Agent' role by following https://cloud.google.com/iam/docs/manage-access-service-accounts
Soluzione
Questo errore si verifica quando un utente tenta di creare o elencare nodi in un progetto
senza autorizzazione IAM. Una causa probabile di questo problema è che l'account di servizio
dell'API Cloud TPU non dispone del ruolo richiesto per il progetto. La documentazione Gestire gli account di accesso
fornisce una panoramica su come gestire l'accesso. Segui i passaggi per concedere o revocare un singolo ruolo e assegna all'account "service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com" il ruolo di "Agente di servizio API Cloud TPU" (assicurati di sostituire PROJECT_NUMBER con il numero di progetto, che puoi trovare nelle impostazioni del progetto nella console Google Cloud ). Per saperne di più sui service agent, consulta la documentazione sui service agent.
Quota superata
Messaggio di errore
You have reached XXXX limit. Please request an increase for the 'YYYY' quota for Compute Engine API by following https://cloud.google.com/docs/quotas/view-manage#requesting_higher_quota.
Soluzione
Il tuo progetto ha raggiunto un limite di quota. Per saperne di più sull'utilizzo delle quote, consulta la documentazione di Cloud Quotas. Non deve essere confuso con la quota TPU, che regola l'utilizzo dei pod TPU.
Puoi richiedere un aumento del limite appropriato seguendo i passaggi elencati in Richiedere un aggiustamento della quota. Nella pagina delle quote, puoi cercare la quota specificata dalla parte "YYYY" di questo messaggio. Alcune quote sono suddivise in diverse regioni o servizi. Il messaggio di errore indicherà quale deve essere aumentato.
Le parti "XXXX" e "YYYY" del messaggio possono essere una delle seguenti:
- HEALTH_CHECKS - Quota "Controlli di integrità"
- FIREWALL - Quota "Regole firewall"
- NETWORK_ENDPOINT_GROUPS - Quota "Gruppi di endpoint di rete" per questa regione
- READ_REQUESTS: quota "Richieste di lettura al minuto" per il servizio API Compute Engine
- OPERATION_READ_REQUESTS: quota "Richieste di lettura delle operazioni al minuto"
Questa richiesta viene generalmente elaborata entro 2-3 giorni lavorativi. Se la richiesta è urgente, contatta un Customer Engineer o un Technical Account Manager.
Errore irreversibile
Messaggio di errore
!!!! FATAL ERROR !!!! observed errors are: [ERROR_TYPE]. Now taking a TPU core dump...
Soluzione
Questo errore indica un problema critico con il nodo TPU. Il tipo di errore ([ERROR_TYPE]) nel messaggio specifica la natura dell'errore. Il comportamento consigliato dipende dall'errore osservato:
HARDWARE
- Causa: un problema hardware con la TPU, la relativa memoria (HBM) o la macchina host. Alcuni esempi includono errori di memoria non correggibili (ECC HBM) o problemi di qualità dei collegamenti interni. Esempi comuni di problemi hardware sono: errore ECC HBM v6e, errore di qualità intra-link di runtime v6e ed errore ECC HBM v5e.
- Soluzione:anche se Google Cloud spesso rileva e risolve automaticamente questi problemi, gli errori hardware in genere non sono temporanei. Se riscontri questo errore più di una volta sullo stesso nodo TPU, contatta l'assistenzaGoogle Cloud . Se hai una prenotazione in modalità All Capacity, valuta la possibilità di segnalare e sostituire il nodo.
USER
- Causa: un problema all'interno del codice o della configurazione, possibilmente correlato alla gestione della memoria, all'utilizzo errato dell'API o ad altri aspetti del carico di lavoro ML.
- Soluzione:esamina il codice di machine learning e la configurazione del job per rilevare potenziali bug o problemi di risorse. Riprova il workload. Se l'errore persiste sullo stesso nodo, contatta l'assistenzaGoogle Cloud . Se hai una prenotazione in modalità All Capacity, valuta la possibilità di segnalare e sostituire il nodo.
POWER
- Causa: un problema di alimentazione con l'hardware TPU o il relativo firmware.
- Soluzione: Google Cloud gestisce automaticamente questo problema senza richiedere alcun intervento da parte tua. Riprova il workload e contatta l'assistenza se il problema persiste.Google Cloud
NETWORK
- Causa: un problema correlato alla rete all'interno del sistema TPU. Questi problemi possono variare da malfunzionamenti transitori a problemi più persistenti con i collegamenti Inter-Chip Interconnect (ICI).
- Soluzione: Google Cloud tenta automaticamente di risolvere i problemi di rete correlati all'hardware. Riprova a eseguire il carico di lavoro, poiché alcuni problemi relativi alla rete sono temporanei. Se il problema continua a verificarsi su nodi diversi o dopo aver ricreato i nodi, contatta l'Google Cloud assistenza. Se hai una prenotazione in modalità All Capacity, valuta la possibilità di segnalare e sostituire il nodo.