Questa pagina descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili se riscontri problemi durante l'utilizzo di Gemini Enterprise Agent Platform.
I passaggi per la risoluzione dei problemi per alcuni componenti di Agent Platform sono elencati separatamente. Vedi quanto segue:
Per filtrare i contenuti di questa pagina, fai clic su un argomento:
Risoluzione dei problemi con le indagini di Cloud Assist
Quando connetti Agent Platform ad altri Google Cloud prodotti, potresti trovare Cloud Assist Investigations utile per risolvere problemi di integrazione complessi.
- Abilita e configura l'API Cloud Assist Investigations.
- Determina quali dei prodotti da cui dipende il nome del tuo workload vengono visualizzati nell'elenco dei prodotti supportati.
- Crea un'indagine e descrivi i sintomi in dettaglio. Assicurati di menzionare tutte le risorse da cui dipende la pipeline.
- Mentre digiti, noterai che la finestra di dialogo suggerisce le risorse da aggiungere all'indagine. Esamina questo elenco e aggiungi le risorse pertinenti prima di eseguire l'indagine.
Modelli AutoML
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili se riscontri problemi con AutoML.
Etichette mancanti nel set di test, convalida o addestramento
Problema
Quando utilizzi la suddivisione predefinita dei dati durante l'addestramento di un modello di classificazione AutoML, Agent Platform potrebbe assegnare un numero insufficiente di istanze di una classe a un determinato set (test, convalida o addestramento), il che causa un errore durante l'addestramento. Questo problema si verifica più frequentemente quando le classi non sono bilanciate o la quantità di dati di addestramento è ridotta.
Soluzione
Per risolvere il problema, aggiungi altri dati di addestramento, dividi manualmente i dati per assegnare un numero sufficiente di classi a ogni set o rimuovi le etichette meno frequenti dal set di dati. Per saperne di più, consulta la sezione Informazioni sulle suddivisioni dei dati per i modelli AutoML.
Vertex AI Studio
Quando lavori con Vertex AI Studio, potresti ricevere i seguenti errori:
Il tentativo di ottimizzare un modello restituisce Internal error encountered
Problema
Si verifica un errore Internal error encountered quando provi a ottimizzare un modello.
Soluzione
Esegui questo comando curl per creare un set di dati vuoto di Gemini Enterprise Agent Platform. Assicurati di configurare l'ID progetto nel comando.
PROJECT_ID=PROJECT_ID
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
"display_name": "test-name1",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
"saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'
Una volta completato il comando, attendi cinque minuti e riprova a ottimizzare il modello.
Codice di errore: 429
Problema
Si verifica il seguente errore:
429: The online prediction request quota is exceeded for PUBLIC_BASE_MODEL_NAME.
Soluzione
Riprova più tardi con il backoff. Se gli errori persistono, contatta l'assistenza della piattaforma di agenti Gemini Enterprise.
Codice di errore: 410
Problema
Si verifica il seguente errore:
410: The request is missing the required authentication credential. Expected OAuth 2.0 access token, login cookie, or other valid authentication credential.
Soluzione
Per saperne di più, consulta la panoramica sull'autenticazione.
Codice di errore: 403
Problema
Si verifica il seguente errore:
403: Permission denied.
Soluzione
Assicurati che l'account che accede all'API disponga delle autorizzazioni corrette.
Agent Platform Pipelines
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili se riscontri problemi con le pipeline di Agent Platform.
Non hai l'autorizzazione per agire come account di servizio
Problema
Quando esegui il flusso di lavoro di Gemini Enterprise Agent Platform Pipelines, potresti visualizzare il seguente messaggio di errore:
You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).
Soluzione
Questo errore significa che il account di servizio che esegue il flusso di lavoro non ha accesso alle risorse che deve utilizzare.
Per risolvere il problema, concedi all'utente l'autorizzazione iam.serviceAccounts.actAs sul account di servizio.
Errore: gli hash dei pacchetti Python non corrispondono nel componente Pipeline della piattaforma agentica Gemini Enterprise
Problema
Quando esegui il flusso di lavoro di Gemini Enterprise Agent Platform Pipelines, potresti riscontrare il seguente errore:
ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQUIREMENTS FILE. If you have updated the package versions, please update the hashes. Otherwise, examine the package contents carefully; someone may have tampered with them.
Ciò è dovuto a conflitti di versione tra le librerie Python nell'immagine di base per il componente pipeline della Gemini Enterprise Agent Platform e quelle che la pipeline tenta di installare.
Soluzione
Incorpora nell'immagine utilizzata dal componente Gemini Enterprise Agent Platform Pipelines tutte le dipendenze elencate insieme a questo messaggio.
Campo Internal error happened dell'errore
Problema
Se la pipeline non va a buon fine e viene visualizzato un messaggio Internal error happened,
controlla Esplora log e cerca il nome della pipeline. Potresti visualizzare un
errore simile al seguente:
java.lang.IllegalStateException: Failed to validate vpc network projects/PROJECT_ID/global/networks/VPC_NETWORK.APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved range: 'RANGE_NAME' not found for consumer project: 'PROJECT_ID' network: 'VPC_NETWORK'. com.google.api.tenant.error.TenantManagerException: Reserved range: 'RANGE_NAME' not found for consumer project
Ciò significa che il peering VPC per Agent Platform include un intervallo IP che è stato eliminato.
Soluzione
Per risolvere il problema, aggiorna il peering VPC utilizzando il comando update e includi intervalli IP validi.
Ambito OAuth o pubblico del token ID fornito non valido
Problema
Quando esegui il flusso di lavoro di Gemini Enterprise Agent Platform Pipelines, viene visualizzato il seguente messaggio di errore:
google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})
Soluzione
Ciò significa che non hai fornito le credenziali in uno dei componenti della pipeline o non hai utilizzato ai_platform.init() per impostarle.
Per risolvere il problema, imposta le credenziali per il componente della pipeline pertinente o imposta le credenziali dell'ambiente e utilizza ai_platform.init() all'inizio del codice.
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY
I componenti di Agent Platform Pipelines richiedono più di 100 GB di spazio su disco
Problema
Lo spazio su disco predefinito allocato ai componenti di Agent Platform Pipelines è di 100 GB e l'aumento dello spazio su disco non è supportato. Consulta lo strumento Issue Tracker pubblico per questo problema.
Soluzione
Affinché un componente utilizzi più di 100 GB di spazio su disco, convertilo in un job personalizzato utilizzando il metodo components. Con questo operatore, puoi assegnare il tipo di macchina e la dimensione del disco utilizzati dal componente.
Per un esempio di come utilizzare questo operatore, consulta Pipeline di Agent Platform: addestramento personalizzato con componenti pipeline predefiniti Google Cloud nella sezione Convertire il componente in un job personalizzato di Agent Platform.
Problemi di rete di Agent Platform
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili se riscontri problemi con il networking per Agent Platform.
gcloud services vpc-peerings get-vpc-service-controls \
--network YOUR_NETWORK
I carichi di lavoro non possono accedere agli endpoint nella tua rete VPC quando utilizzi intervalli IP pubblici utilizzati privatamente per Gemini Enterprise Agent Platform
Problema
Gli intervalli IP pubblici utilizzati privatamente non vengono importati per impostazione predefinita.
Soluzione
Per utilizzare intervalli IP pubblici utilizzati privatamente, devi abilitare l'importazione di intervalli IP pubblici utilizzati privatamente.
com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project
Problema
Quando esegui i workload o esegui il deployment degli endpoint, ricevi errori del modulo com.google.api.tenant.error.TenantManagerException:
Reserved range: nnn not found for consumer project.
Ciò si verifica quando modifichi le prenotazioni dell'accesso privato ai servizi per i tuoi workload. Gli intervalli eliminati potrebbero non essere stati registrati con l'API Agent Platform.
Soluzione
Esegui gcloud services vpc-peerings update
per servicenetworking dopo aver aggiornato le allocazioni di accesso privato ai servizi.
La pipeline o il job non può accedere agli endpoint all'interno della rete VPC in peering
Problema
La pipeline Gemini Enterprise Agent Platform va in timeout quando tenta di connettersi alle risorse nella tua rete VPC.
Soluzione
Per risolvere il problema, prova quanto segue:
- Assicurati di aver completato tutti i passaggi descritti in Configurare il peering di rete VPC.
Rivedi la configurazione della rete VPC con peering. Assicurati che la tua rete importi le route dall'intervallo di service networking corretto durante l'esecuzione del job.
Assicurati di avere una regola firewall che consenta le connessioni da questo intervallo alla destinazione nella tua rete.
Se la connessione di peering non importa route durante l'esecuzione del job, significa che la configurazione del servizio di rete non viene utilizzata. Ciò è probabilmente dovuto al fatto che hai completato la configurazione del peering con una rete diversa da quella predefinita. In questo caso, assicurati di specificare la rete quando avvii un job. Utilizza il nome di rete completo nel seguente formato:
projects/$PROJECT_ID/global/networks/$NETWORK_NAME.Per saperne di più, consulta la panoramica delle route.
La pipeline o il job non possono accedere agli endpoint in altre reti oltre alla tua
Problema
La pipeline o il job non è in grado di accedere agli endpoint nelle reti al di fuori della tua rete.
Soluzione
Per impostazione predefinita, la configurazione del peering esporta solo le route nelle subnet locali del VPC.
Inoltre, il peering transitivo non è supportato e solo le reti in peering diretto possono comunicare.
- Per consentire a Gemini Enterprise Agent Platform di connettersi tramite la tua rete e raggiungere gli endpoint in altre reti, devi esportare le route di rete nella connessione in peering. Modifica la configurazione della rete VPC in peering e attiva
Export custom routes.
Poiché il peering transitivo non è supportato, Gemini Enterprise Agent Platform non apprende le route verso altri servizi e reti in peering, anche con Export Custom Routes abilitato. Per informazioni sulle soluzioni alternative, consulta Estensione della raggiungibilità di rete delle pipeline di Agent Platform.
No route to host senza conflitti di percorso evidenti nella console Google Cloud
Problema
Le uniche route che puoi visualizzare nella console Google Cloud sono quelle note al tuo VPC e gli intervalli riservati quando completi la configurazione del peering di rete VPC.
In rari casi, un job Gemini Enterprise Agent Platform potrebbe generare un no route to host reclamo
quando tenta di raggiungere un indirizzo IP che il tuo VPC sta esportando nella rete Gemini Enterprise Agent Platform.
Questo potrebbe essere dovuto al fatto che i job di Gemini Enterprise Agent Platform vengono eseguiti all'interno di uno spazio dei nomi di rete in un cluster GKE gestito il cui intervallo IP è in conflitto con l'IP di destinazione. Per ulteriori informazioni, consulta Nozioni di base sul networking GKE.
In queste condizioni, il carico di lavoro tenta di connettersi all'IP all'interno del proprio spazio dei nomi di rete e genera l'errore se non riesce a raggiungerlo.
Soluzione
Crea il tuo workload in modo che restituisca gli indirizzi IP dello spazio dei nomi locale e verifica che non siano in conflitto con le route che esporti tramite la connessione di peering.
In caso di conflitto, trasmetti un elenco di reservedIpRanges[]
nei parametri del job che non si sovrappongono ad alcun intervallo nella tua rete VPC.
Il job utilizza questi intervalli per gli indirizzi IP interni del workload.
RANGES_EXHAUSTED, RANGES_NOT_RESERVED
Problema
Gli errori nel formato RANGES_EXHAUSTED e RANGES_NOT_RESERVED e
RANGES_DELETED_LATER indicano un problema con la configurazione del
peering di rete VPC sottostante. Si tratta di errori di networking
e non di errori del servizio Agent Platform stesso.
Soluzione
In caso di errore RANGES_EXHAUSTED, devi prima valutare se
il reclamo è valido.
Fai riferimento alla tabella Suggerimenti per le subnet per assicurarti che la prenotazione IP per l'accesso privato ai servizi sia sufficientemente ampia da ospitare il tuo workload.
Visita Network Analyzer nella console Google Cloud e cerca gli approfondimenti del modulo "Riepilogo dell'allocazione degli indirizzi IP" nella rete VPC. Se questi indicano che l'allocazione è pari o prossima al 100%, puoi eseguire uno dei seguenti passaggi:
- Aggiungi un nuovo intervallo alla prenotazione o estendi quello esistente. Ricorda che tutti gli intervalli devono essere contigui.
- Se hai intervalli IP non contigui allocati ma non utilizzati, avvia nuovi workload di Gemini Enterprise Agent Platform in una regione diversa.
Considera anche il numero massimo di job paralleli che possono essere eseguiti con una prenotazione di una determinata dimensione.
Per saperne di più, consulta Errori di convalida di Service Infrastructure.
Se l'errore persiste, contatta l'assistenza.
Router status is temporarily unavailable
Problema
Quando avvii le pipeline di Agent Platform, ricevi un messaggio di errore simile al seguente:
Router status is temporarily unavailable. Please try again later
Soluzione
Il messaggio di errore indica che si tratta di una condizione temporanea. Prova ad avviare di nuovo le pipeline di Agent Platform.
Se l'errore persiste, contatta l'assistenza.
I carichi di lavoro non sono in grado di risolvere i nomi host per i domini DNS nel tuo VPC
Problema
I workload di Gemini Enterprise Agent Platform non riescono a connettersi ai nomi host configurati nel tuo VPC. Hai già confermato che questi nomi host sono accessibili dai client all'interno del tuo VPC.
Questo perché i carichi di lavoro vengono eseguiti in un progetto gestito da Google. La VPC in questo ambiente gestito deve essere sottoposta a peering con la tua per utilizzare le tue risorse di rete. Inoltre, tutte le zone DNS a cui questi carichi di lavoro devono accedere devono essere condivise in modo specifico con il VPC gestito da Google.
Soluzione
- Assicurati di aver configurato il peering di rete VPC per Gemini Enterprise Agent Platform nella tua rete VPC.
Completa i passaggi per condividere la tua zona DNS privata con la rete producer di Gemini Enterprise Agent Platform. Tieni presente che la procedura varia a seconda del caso d'uso:
Assicurati che i tuoi workload di Gemini Enterprise Agent Platform vengano avviati con il flag
--networkche specifica la tua rete VPC. In questo modo possono essere eseguiti nella rete gestita da Google e accedere alle zone DNS che hai condiviso.Abilita il logging DNS nella policy del server DNS, riproduci il problema e poi esegui un altro test. Se la risposta DNS del carico di lavoro va a buon fine, un filtro Cloud Logging per
resource.type="dns_query"mostrerà voci di questo tipo:"resource": { "type": "dns_query", "labels": { "location": REGION, "project_id": PROJECT_ID, "source_type": "peering-zone", "target_name": "QUERY_TARGET, "target_type": "forwarding-zone" } }Verifica che una query DNS da un'istanza nella stessa subnet possa risolvere i nomi host utilizzando il tuo server DNS.
Se il server DNS non si trova in Google Cloud, assicurati che le regole firewall remoto consentano le connessioni da
35.199.192.0/19.Esegui un test di connettività dall'istanza di test alla porta
53/UDPsull'indirizzo IP del server DNS. Se, ad esempio, il percorso porta a una regola di forwarding, assicurati che:- Se si tratta di una regola di forwarding regionale, deve trovarsi nella stessa regione del client.
- Accetta le connessioni su
53/UDPe le inoltra al server DNS corretto.
Problemi di connettività causati da comportamenti lato client
Se riscontri problemi di connettività quando tenti di utilizzare le API Google Cloud, la causa principale potrebbe essere lato client. Questa sezione suggerisce soluzioni lato client che potrebbero migliorare la tua esperienza.
Reimpostazioni della connessione e pacchetti eliminati
Problema
Quando tenti di utilizzare le API Google Cloud , si verificano reimpostazioni della connessione e pacchetti ignorati.
Soluzione
Per risolvere il problema, considera quanto segue:
- Per il traffico ad alto volume di transazioni con requisiti di bassa latenza, valuta se eventuali problemi noti con le line card dei client on-premise potrebbero causare reimpostazioni delle connessioni TCP o pacchetti persi.
- Valuta se i servizi lato client nel percorso della richiesta utilizzano iptables. Questi possono includere cluster Kubernetes o alcuni firewall stateful e dispositivi NAT. Per impostazione predefinita, il sottosistema di monitoraggio della connessione (conntrack) di Linux seguirà rigorosamente le specifiche del protocollo TCP e, ad esempio, eliminerà i pacchetti TCP fuori sequenza. Per disattivare questo comportamento, attiva il parametro del kernel Linux
net.netfilter.nf_conntrack_tcp_be_liberalo il suo equivalente.
Connessioni incomplete
Problema
Quando tenti di utilizzare le API Google Cloud , riscontri connessioni incomplete.
Soluzione
Per risolvere il problema, considera quanto segue:
- Quando il percorso di inoltro ha più route di ritorno al client, assicurati di comprendere il concetto di Reverse Path Forwarding. Disattiva questo comportamento se sospetti che stia bloccando le connessioni.
- Per le connessioni con bilanciamento del carico, valuta se le regole firewall in entrata consentono i pacchetti di risposta a entrambi i bilanciatori del carico.
Altri problemi di connessione non API
Per risolvere i problemi di connessione non API, considera quanto segue:
- Se nel percorso della richiesta sono presenti proxy, valuta se possono introdurre uno dei problemi che stai riscontrando. Consulta la documentazione e assicurati di risolvere i problemi del proxy quando riscontri problemi come latenza inspiegabile, interruzioni delle connessioni, override DNS, blocchi cross-origin e altri problemi simili.
- Soprattutto quando gestisci
risposte
429dalle API Google Cloud , la logica lato client che riprova immediatamente la connessione può peggiorare il problema. Assicurati di comprendere e implementare il backoff esponenziale quando implementi i nuovi tentativi.
Inferenza di Agent Platform
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con l'inferenza di Agent Platform.
Errore di superamento della quota batch
Problema
Quando esegui job di inferenza batch, viene visualizzato un errore come il seguente.
Quota exhausted. Please reach out to ai-platform-unified-feedback@google.com for
batch prediction quota increase.
Un job di previsioni in batch di Gemini Enterprise Agent Platform consuma la quota del progetto tenant di previsioni in batch. Per ulteriori informazioni su come richiedere un aumento della quota, consulta Quote e limiti di Gemini Enterprise Agent Platform.
Errore di superamento dei tentativi
Problema
Quando esegui job di inferenza batch, viene visualizzato un errore come il seguente, che indica che la macchina che esegue il modello personalizzato potrebbe non essere in grado di completare le inferenze entro il limite di tempo.
('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)
Ciò può accadere quando il servizio di inferenza della piattaforma dell'agente si registra con il servizio Google Front End, che funge da proxy per le connessioni dal client all'API di inferenza della piattaforma dell'agente.
Il servizio Google Front End interrompe la connessione e restituisce un codice di risposta HTTP 500 al client se non riceve una risposta dall'API entro 10 minuti.
Soluzione
Per risolvere il problema, prova una delle seguenti soluzioni:
- Aumenta i nodi di calcolo o modifica il tipo di macchina.
- Crea il contenitore di inferenza in modo che invii periodicamente i codici di risposta HTTP 102. In questo modo viene reimpostato il timer di 10 minuti sul servizioGoogle Front End (GFE)d.
Progetto già collegato al VPC
Problema
Quando esegui il deployment di un endpoint, potresti visualizzare un messaggio di errore come il seguente, che indica che gli endpoint di Agent Platform hanno precedentemente utilizzato una rete Virtual Private Cloud e le risorse non sono state pulite in modo appropriato.
Currently only one VPC network per user project is supported. Your project is
already linked to
"projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Agent Platform deployment
resources, delete all endpoint resources, and then retry creating resources in
30 mins.
Soluzione
Per risolvere il problema, prova a eseguire questo comando in Cloud Shell.
gcloud services vpc-peerings delete \
--service=servicenetworking.googleapis.com \
--network=YOUR_SHARED_VPC_NETWORK \
--project=YOUR_SHARED_VPC_HOST_PROJECT
In questo modo, la vecchia rete VPC viene disconnessa manualmente dalla rete VPC Service Networking.
Errore di deployment imprevisto o eliminazione dell'endpoint
Problema
Il deployment di un modello non riesce in modo imprevisto, un endpoint viene eliminato o un modello di cui è stato eseguito il deployment in precedenza non è più disponibile.
Il tuo account di fatturazione potrebbe non essere valido. Se rimane non valido per un lungo periodo di tempo, alcune risorse potrebbero essere rimosse dai progetti associati al tuo account. Ad esempio, i tuoi endpoint e modelli potrebbero essere eliminati. Le risorse rimosse non sono recuperabili.
Soluzione
Per risolvere il problema, puoi provare quanto segue:
- Verifica lo stato di fatturazione dei progetti.
- Contatta l'assistenza per la fatturazione Cloud per richiedere aiuto in merito a domande sulla fatturazione.
Per ulteriori informazioni, consulta la pagina Domande sulla fatturazione.
Problemi relativi all'account di servizio personalizzato di Agent Platform
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con i service account.
Il deployment del modello non riesce a causa dell'errore del account di servizio serviceAccountAdmin
Problema
Il deployment del modello non va a buon fine e viene visualizzato un errore simile al seguente:
Failed to deploy model MODEL_NAME to
endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding.
Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the
iam.serviceAccountAdmin role on service account
vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com
Soluzione
Questo errore indica che il tuo account di servizio personalizzato potrebbe non essere stato configurato correttamente. Per creare un account di servizio personalizzato con le autorizzazioni IAM corrette, consulta Utilizzare un service account personalizzato.
Impossibile recuperare il token ID quando si utilizza un account di servizio personalizzato
Problema
Quando utilizzi un account di servizio personalizzato, i job di addestramento eseguiti su una singola replica non sono in grado di raggiungere il servizio di metadati di Compute Engine necessario per recuperare un token.
Viene visualizzato un errore simile al seguente:
Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)
Soluzione
Per recuperare il token di identità con un account di servizio personalizzato, devi utilizzare iamcredentials.googleapis.com.
Modelli con addestramento personalizzato
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili se riscontri problemi con i modelli addestrati personalizzati.
Problemi relativi all'addestramento personalizzato
I seguenti problemi possono verificarsi durante l'addestramento personalizzato. I problemi riguardano le risorse
CustomJob e HyperparameterTuningJob, incluse quelle create
dalle risorse TrainingPipeline.
Codice di errore: 400
Problema
Si verifica il seguente errore:
400 Machine type MACHINE_TYPE is not supported.
Potresti visualizzare questo messaggio di errore se il tipo di macchina selezionato non è supportato per l'addestramento di Gemini Enterprise Agent Platform o se una risorsa specifica non è disponibile nella regione selezionata.
Soluzione
Utilizza solo i tipi di macchine disponibili nelle regioni appropriate.
La replica è uscita con un codice di stato diverso da zero
Problema
Durante l'addestramento distribuito, un errore di qualsiasi worker causa l'interruzione dell'addestramento.
Soluzione
Per controllare l'analisi dello stack del worker, visualizza i log di addestramento personalizzato nella consoleGoogle Cloud .
Consulta gli altri argomenti per la risoluzione dei problemi per correggere gli errori comuni e poi crea una nuova risorsa
CustomJob, HyperparameterTuningJob o TrainingPipeline. In molti
casi, i codici di errore sono causati da problemi nel codice di addestramento, non dal
servizio Agent Platform. Per determinare se è questo il caso, puoi
eseguire il codice di addestramento sulla tua macchina locale o su
Compute Engine.
Replica ha esaurito la memoria
Problema
Può verificarsi un errore se un'istanza di macchina virtuale (VM) di addestramento esaurisce la memoria durante l'addestramento.
Soluzione
Puoi visualizzare la memoria utilizzata delle VM di addestramento nella console Google Cloud .
Anche quando ricevi questo errore, potresti non visualizzare la memoria utilizzata al 100% sulla VM, perché anche i servizi diversi dall'applicazione di addestramento in esecuzione sulla VM consumano risorse. Per i tipi di macchina con meno memoria, altri servizi potrebbero consumare una percentuale relativamente elevata di memoria.
Ad esempio, su una VM n1-standard-4, i servizi possono consumare fino al 40% della
memoria.
Puoi ottimizzare il consumo di memoria dell'applicazione di addestramento oppure scegliere un tipo di macchina più grande con più memoria.
Risorse insufficienti in una regione
Problema
Si verifica un problema di esaurimento delle scorte in una regione.
Soluzione
Agent Platform addestra i tuoi modelli utilizzando le risorse di Compute Engine. Agent Platform non può pianificare il tuo carico di lavoro se Compute Engine ha raggiunto la capacità per una determinata CPU o GPU in una regione. Questo problema non è correlato alla quota del tuo progetto.
Quando raggiunge la capacità di Compute Engine, Agent Platform ritenta automaticamente
l'esecuzione di CustomJob o HyperparameterTuningJob fino a tre volte. Il
job non riesce se tutti i tentativi non vanno a buon fine.
Un esaurimento scorte si verifica in genere quando utilizzi le GPU. Se si verifica questo errore quando utilizzi le GPU, prova a passare a un tipo di GPU diverso. Se puoi utilizzare un'altra regione, prova a eseguire l'addestramento in una regione diversa.
Errore di autorizzazione durante l'accesso a un altro servizio Google Cloud
Se riscontri un errore di autorizzazione quando accedi a un altro Google Cloud
servizio dal tuo codice di addestramento (ad esempio:
google.api_core.exceptions.PermissionDenied: 403), potresti riscontrare uno
dei seguenti problemi:
-
Problema
Il service agent o account di servizio che esegue il codice (il service agent Gemini Enterprise Agent Platform Custom Code per il tuo progetto o un service account personalizzato) non dispone dell'autorizzazione richiesta.
Soluzione
Scopri come concedere le autorizzazioni all'agente di servizio personalizzato della piattaforma Gemini Enterprise Agent Platform o configurare un account di serviziount personalizzato con le autorizzazioni necessarie.
-
Problema
Il service agent o account di servizio che esegue il codice dispone dell'autorizzazione richiesta, ma il codice tenta di accedere a una risorsa nel progetto sbagliato. È molto probabile che si tratti di questo problema se il messaggio di errore fa riferimento a un ID progetto che termina con
-tp.Soluzione
A causa del modo in cui Agent Platform esegue il codice di addestramento, questo problema può verificarsi inavvertitamente se non specifichi esplicitamente un ID progetto o un numero di progetto nel codice.
Scopri come risolvere il problema specificando un ID progetto o un numero di progetto.
-
Problema
Il job di Vertex AI Training viene eseguito correttamente con i dati locali, ma non con i dati di Cloud Storage.
Soluzione
Aggiungi l'autorizzazione
storage.buckets.createal ruolo Gemini Enterprise Agent Platform Custom Code Service Agent per il progetto.Scopri come risolvere il problema aggiungendo ruoli specifici ai service agent della piattaforma dell'agente.
Problemi di prestazioni durante l'utilizzo di Cloud Storage FUSE
Problema
I job Cloud Storage FUSE vengono eseguiti lentamente.
Soluzione
Consulta "Linee guida per l'ottimizzazione delle prestazioni" in Utilizzare Cloud Storage come file system montato.
pip install non riesce quando utilizzi KFP con i Controlli di servizio VPC
Problema
Viene visualizzato il seguente errore:
ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10>, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/
Soluzione
Il perimetro di servizio dei Controlli di servizio VPC blocca l'accesso da Agent Platform ad API e servizi di terze parti su internet. Per installare i pacchetti, utilizza packageUris per installare le dipendenze dai bucket Cloud Storage. Per una discussione generale sull'utilizzo di questa tecnica, consulta "Utilizzare container personalizzati" in Controlli di servizio VPC con Agent Platform.
Errore interno
Problema
L'addestramento non è riuscito a causa di un errore di sistema.
Soluzione
Il problema potrebbe essere temporaneo. Prova a inviare di nuovo CustomJob,
HyperparameterTuningJob o TrainingPipeline. Se l'errore persiste,
contatta l'assistenza.
Codice di errore 500 quando si utilizza un'immagine container personalizzata
Problema
Nei log viene visualizzato un errore 500.
Soluzione
Questo tipo di errore è probabilmente un problema con l'immagine container personalizzata e non un errore di Agent Platform.
Il service account non può accedere al bucket Cloud Storage durante il deployment a un endpoint
Problema
Quando provi a eseguire il deployment di un modello in un endpoint e il tuo account di servizio non dispone dell'accesso storage.objects.list al bucket Cloud Storage correlato, potresti visualizzare il seguente errore:
custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.
Per impostazione predefinita, il container personalizzato che esegue il deployment del modello utilizza un account di servizio che non ha accesso al tuo bucket Cloud Storage.
Soluzione
Per risolvere il problema, prova una delle seguenti soluzioni:
Copia il file a cui stai tentando di accedere dal contenitore in artefatti del modello durante il caricamento del modello. Gemini Enterprise Agent Platform lo copierà in una posizione a cui il account di servizio predefinito ha accesso, in modo simile a tutti gli altri artefatti del modello.
Copia il file nel container nell'ambito del processo di compilazione del container.
Specifica un service account personalizzato.
Agent Platform Neural Architecture Search
Problemi noti
- Dopo l'annullamento del job NAS, il job principale (il job padre) si arresta, ma alcune prove secondarie continuano a mostrare lo stato In esecuzione. Ignora lo stato della prova secondaria che in questo caso mostra In esecuzione. Le prove sono state interrotte, ma l'interfaccia utente continua a mostrare lo stato In corso…. Finché il job principale è interrotto, non ti verranno addebitati costi aggiuntivi.
- Dopo aver segnalato le ricompense nell'allenatore, attendi (metti in pausa) 10 minuti prima che i job di prova vengano chiusi.
Quando utilizzi Cloud Shell per eseguire
TensorBoard, il link di output generato potrebbe non funzionare. In questo caso, annota il numero di porta, utilizza lo strumento Anteprima web e seleziona il numero di porta corretto per visualizzare i grafici.Accedere allo strumento
Web Preview:
Se nei log dell'addestratore vengono visualizzati messaggi di errore come i seguenti:
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]utilizza una macchina con più RAM, perché questo errore è causato da una condizione di esaurimento della memoria.
Se il tuo trainer personalizzato non riesce a trovare la directory di lavoro
job-dirFLAG, importajob_dircon un trattino basso anziché un trattino. Una nota nel tutorial 1 spiega questo aspetto.Errore NaN durante l'addestramento Potrebbero verificarsi errori NaN nel job di addestramento, ad esempio
NaN : Tensor had NaN values. Il tasso di apprendimento potrebbe essere troppo elevato per l'architettura suggerita. Per ulteriori informazioni, vedi Errori relativi a esaurimento della memoria (OOM) e tasso di apprendimento.Errore OOM durante l'addestramento Potrebbero verificarsi errori OOM (out-of-memory) nel job di addestramento. La dimensione del batch potrebbe essere troppo grande per la memoria dell'acceleratore. Per ulteriori informazioni, vedi Errori relativi a esaurimento della memoria (OOM) e tasso di apprendimento.
Il job del controller di selezione del modello proxy-task non funziona Nel raro caso in cui il job del controller di selezione del modello proxy-task non funzioni, puoi riprenderlo seguendo questi passaggi.
Il job del controller di ricerca proxy-task termina Nel raro caso in cui il job del controller di ricerca proxy-task termini, puoi riprenderlo seguendo questi passaggi.
Il service account non dispone dell'autorizzazione per accedere ad Artifact Registry o al bucket. Se ricevi un errore come
Agent Platform Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/naso un errore simile per l'accesso al bucket, assegna a questo account di servizio un ruolo di editor Storage nel tuo progetto.
Vertex AI Feature Store
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con Vertex AI Feature Store.
Errore Resource not found durante l'invio di una richiesta di importazione di flussi di dati o di erogazione online
Problema
Dopo aver configurato un featurestore, un tipo di entità o risorse di funzionalità, si verifica un ritardo prima che queste risorse vengano propagate al servizio FeaturestoreOnlineServingService. A volte questa propagazione ritardata
potrebbe causare un errore resource not found quando invii una richiesta diimportazione di flussi di datig
o di pubblicazione online subito dopo aver creato una risorsa.
Soluzione
Se ricevi questo errore, attendi qualche minuto e riprova a inviare la richiesta.
L'importazione in batch è riuscita per le funzionalità appena create, ma la richiesta di erogazione online restituisce valori vuoti
Problema
Solo per le funzionalità appena create, si verifica un ritardo prima che vengano
propagate al servizio FeaturestoreOnlineServingService. Le funzionalità e
i valori esistono, ma la propagazione richiede tempo. Ciò potrebbe comportare la restituzione di valori vuoti
nella richiesta di pubblicazione online.
Soluzione
Se noti questa incongruenza, attendi qualche minuto e riprova a inviare la richiesta di pubblicazione online.
L'utilizzo della CPU è elevato per un nodo di erogazione online
Problema
L'utilizzo della CPU per un nodo di erogazione online è elevato.
Soluzione
Per risolvere questo problema, puoi aumentare il numero di nodi di erogazione online aumentando manualmente il numero di nodi o abilitando la scalabilità automatica. Tieni presente che, anche se la scalabilità automatica è abilitata, Vertex AI Feature Store ha bisogno di tempo per ribilanciare i dati quando vengono aggiunti o rimossi nodi. Per informazioni su come visualizzare le metriche di distribuzione dei valori delle funzionalità nel tempo, vedi Visualizzare le metriche dei valori delle funzionalità.
L'utilizzo della CPU è elevato per il nodo di erogazione online più attivo
Problema
Se l'utilizzo della CPU è elevato per il nodo più attivo, puoi aumentare il numero di nodi di servizio o modificare il pattern di accesso alle entità in modo pseudo-casuale.
Soluzione
L'impostazione del pattern di accesso alle entità su pseudo-random riduce l'utilizzo elevato della CPU derivante dall'accesso frequente a entità che si trovano vicine tra loro nell'archivio di caratteristiche. Se nessuna delle due soluzioni è efficace, implementa una cache lato client per evitare di accedere ripetutamente alle stesse entità.
La latenza dell'erogazione online è elevata quando le QPS sono basse
Problema
Il periodo di inattività o di attività ridotta a QPS basso potrebbe comportare la scadenza di alcune cache lato server. Ciò può comportare una latenza elevata quando il traffico verso i nodi di erogazione online riprende a QPS normale o superiore.
Soluzione
Per risolvere questo problema, devi mantenere attiva la connessione inviando traffico artificiale di almeno 5 QPS al feature store.
Il job di importazione batch non riesce dopo sei ore
Problema
Il job di importazione batch può non riuscire perché la sessione di lettura scade dopo sei ore.
Soluzione
Per evitare il timeout, aumenta il numero di worker per completare il job di importazione entro il limite di tempo di sei ore.
Errore Resource exceeded durante l'esportazione dei valori delle caratteristiche
Problema
L'esportazione di un volume elevato di dati può non riuscire con un errore di risorse superate se il job di esportazione supera la quota interna.
Soluzione
Per evitare questo errore, puoi configurare i parametri dell'intervallo di tempo, start_time
e end_time, in modo da elaborare quantità minori di dati alla volta. Per informazioni
sull'esportazione completa, vedi Esportazione completa.
Vertex AI Vizier
Quando utilizzi Vertex AI Vizier, potresti riscontrare i seguenti problemi.
Errore interno
Problema
L'errore interno si verifica quando si verifica un errore di sistema.
Soluzione
Potrebbe essere temporaneo. Prova a inviare di nuovo la richiesta e, se l'errore persiste, contatta l'assistenza.
Errori di autorizzazione quando si utilizzano ruoli del account di servizio con Vertex AI
Problema
Quando utilizzi i ruoli del account di servizio con Vertex AI, vengono visualizzati errori di autorizzazione generali.
Questi errori possono essere visualizzati in Cloud Logging nei log dei componenti del prodotto o negli audit log. Potrebbero anche essere visualizzati in qualsiasi combinazione dei progetti interessati.
Questi problemi possono essere causati da uno o entrambi i seguenti fattori:
Utilizzo del ruolo
Service Account Token Creatorquando avrebbe dovuto essere utilizzato il ruoloService Account Usero viceversa. Questi ruoli concedono autorizzazioni diverse su un account di servizio e non sono intercambiabili. Per scoprire le differenze tra i ruoliService Account Token CreatoreService Account User, consulta Ruoli degli account di servizio.Hai concesso a un account di servizio autorizzazioni su più progetti, il che non è consentito per impostazione predefinita.
Soluzione
Per risolvere il problema, prova una o più delle seguenti soluzioni:
Determina se è necessario il ruolo
Service Account Token CreatoroService Account User. Per saperne di più, leggi la documentazione di IAM per i servizi Vertex AI che utilizzi, nonché per qualsiasi altra integrazione di prodotto che utilizzi.Se hai concesso a un account di servizio autorizzazioni in più progetti, consenti l'allegato dei service account tra i progetti assicurandoti che
iam.disableCrossProjectServiceAccountUsage. non è applicata in modo forzato. Per assicurarti cheiam.disableCrossProjectServiceAccountUsagenon venga applicato, esegui questo comando:gcloud resource-manager org-policies disable-enforce \ iam.disableCrossProjectServiceAccountUsage \ --project=PROJECT_ID