Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Risoluzione dei problemi di Agent Platform

Questa pagina descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili se riscontri problemi durante l'utilizzo di Gemini Enterprise Agent Platform.

I passaggi per la risoluzione dei problemi per alcuni componenti di Agent Platform sono elencati separatamente. Vedi quanto segue:

Per filtrare i contenuti di questa pagina, fai clic su un argomento:

Risoluzione dei problemi con le indagini di Cloud Assist

Quando connetti Agent Platform ad altri Google Cloud prodotti, potresti trovare Cloud Assist Investigations utile per risolvere problemi di integrazione complessi.

Abilita e configura l'API Cloud Assist Investigations.
Determina quali dei prodotti da cui dipende il nome del tuo workload vengono visualizzati nell'elenco dei prodotti supportati.
Crea un'indagine e descrivi i sintomi in dettaglio. Assicurati di menzionare tutte le risorse da cui dipende la pipeline.
Mentre digiti, noterai che la finestra di dialogo suggerisce le risorse da aggiungere all'indagine. Esamina questo elenco e aggiungi le risorse pertinenti prima di eseguire l'indagine.

Modelli AutoML

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili se riscontri problemi con AutoML.

Etichette mancanti nel set di test, convalida o addestramento

Problema

Quando utilizzi la suddivisione predefinita dei dati durante l'addestramento di un modello di classificazione AutoML, Agent Platform potrebbe assegnare un numero insufficiente di istanze di una classe a un determinato set (test, convalida o addestramento), il che causa un errore durante l'addestramento. Questo problema si verifica più frequentemente quando le classi non sono bilanciate o la quantità di dati di addestramento è ridotta.

Soluzione

Per risolvere il problema, aggiungi altri dati di addestramento, dividi manualmente i dati per assegnare un numero sufficiente di classi a ogni set o rimuovi le etichette meno frequenti dal set di dati. Per saperne di più, consulta la sezione Informazioni sulle suddivisioni dei dati per i modelli AutoML.

Vertex AI Studio

Quando lavori con Vertex AI Studio, potresti ricevere i seguenti errori:

Il tentativo di ottimizzare un modello restituisce `Internal error encountered`

Problema

Si verifica un errore Internal error encountered quando provi a ottimizzare un modello.

Soluzione

Esegui questo comando curl per creare un set di dati vuoto di Gemini Enterprise Agent Platform. Assicurati di configurare l'ID progetto nel comando.

PROJECT_ID=PROJECT_ID

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
    "display_name": "test-name1",
    "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
    "saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'

Una volta completato il comando, attendi cinque minuti e riprova a ottimizzare il modello.

Codice di errore: 429

Problema

Si verifica il seguente errore:

429: The online prediction request quota is exceeded for
PUBLIC_BASE_MODEL_NAME.

Soluzione

Riprova più tardi con il backoff. Se gli errori persistono, contatta l'assistenza della piattaforma di agenti Gemini Enterprise.

Codice di errore: 410

Problema

Si verifica il seguente errore:

410: The request is missing the required authentication credential. Expected
OAuth 2.0 access token, login cookie, or other valid authentication credential.

Soluzione

Per saperne di più, consulta la panoramica sull'autenticazione.

Codice di errore: 403

Problema

Si verifica il seguente errore:

403: Permission denied.

Soluzione

Assicurati che l'account che accede all'API disponga delle autorizzazioni corrette.

Agent Platform Pipelines

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili se riscontri problemi con le pipeline di Agent Platform.

Non hai l'autorizzazione per agire come account di servizio

Problema

Quando esegui il flusso di lavoro di Gemini Enterprise Agent Platform Pipelines, potresti visualizzare il seguente messaggio di errore:

You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).

Soluzione

Questo errore significa che il account di servizio che esegue il flusso di lavoro non ha accesso alle risorse che deve utilizzare.

Per risolvere il problema, concedi all'utente l'autorizzazione iam.serviceAccounts.actAs sul account di servizio.

Errore: gli hash dei pacchetti Python non corrispondono nel componente Pipeline della piattaforma agentica Gemini Enterprise

Problema

Quando esegui il flusso di lavoro di Gemini Enterprise Agent Platform Pipelines, potresti riscontrare il seguente errore:

ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQUIREMENTS FILE. If you have updated the package versions, please update the hashes. Otherwise, examine the package contents carefully; someone may have tampered with them.

Ciò è dovuto a conflitti di versione tra le librerie Python nell'immagine di base per il componente pipeline della Gemini Enterprise Agent Platform e quelle che la pipeline tenta di installare.

Soluzione

Incorpora nell'immagine utilizzata dal componente Gemini Enterprise Agent Platform Pipelines tutte le dipendenze elencate insieme a questo messaggio.

Campo `Internal error happened` dell'errore

Problema

Se la pipeline non va a buon fine e viene visualizzato un messaggio Internal error happened, controlla Esplora log e cerca il nome della pipeline. Potresti visualizzare un errore simile al seguente:

java.lang.IllegalStateException: Failed to validate vpc
network projects/PROJECT_ID/global/networks/VPC_NETWORK.

APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved
range: 'RANGE_NAME' not found for consumer project:
'PROJECT_ID' network: 'VPC_NETWORK'.
com.google.api.tenant.error.TenantManagerException: Reserved range:
'RANGE_NAME' not found for consumer project

Ciò significa che il peering VPC per Agent Platform include un intervallo IP che è stato eliminato.

Soluzione

Per risolvere il problema, aggiorna il peering VPC utilizzando il comando update e includi intervalli IP validi.

Ambito OAuth o pubblico del token ID fornito non valido

Problema

Quando esegui il flusso di lavoro di Gemini Enterprise Agent Platform Pipelines, viene visualizzato il seguente messaggio di errore:

google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})

Soluzione

Ciò significa che non hai fornito le credenziali in uno dei componenti della pipeline o non hai utilizzato ai_platform.init() per impostarle.

Per risolvere il problema, imposta le credenziali per il componente della pipeline pertinente o imposta le credenziali dell'ambiente e utilizza ai_platform.init() all'inizio del codice.

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY

I componenti di Agent Platform Pipelines richiedono più di 100 GB di spazio su disco

Problema

Lo spazio su disco predefinito allocato ai componenti di Agent Platform Pipelines è di 100 GB e l'aumento dello spazio su disco non è supportato. Consulta lo strumento Issue Tracker pubblico per questo problema.

Soluzione

Affinché un componente utilizzi più di 100 GB di spazio su disco, convertilo in un job personalizzato utilizzando il metodo components. Con questo operatore, puoi assegnare il tipo di macchina e la dimensione del disco utilizzati dal componente.

Per un esempio di come utilizzare questo operatore, consulta Pipeline di Agent Platform: addestramento personalizzato con componenti pipeline predefiniti Google Cloud nella sezione Convertire il componente in un job personalizzato di Agent Platform.

Problemi di rete di Agent Platform

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili se riscontri problemi con il networking per Agent Platform.

gcloud services vpc-peerings get-vpc-service-controls \
  --network YOUR_NETWORK

I carichi di lavoro non possono accedere agli endpoint nella tua rete VPC quando utilizzi intervalli IP pubblici utilizzati privatamente per Gemini Enterprise Agent Platform

Problema

Gli intervalli IP pubblici utilizzati privatamente non vengono importati per impostazione predefinita.

Soluzione

Per utilizzare intervalli IP pubblici utilizzati privatamente, devi abilitare l'importazione di intervalli IP pubblici utilizzati privatamente.

`com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project`

Problema

Quando esegui i workload o esegui il deployment degli endpoint, ricevi errori del modulo com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project.

Ciò si verifica quando modifichi le prenotazioni dell'accesso privato ai servizi per i tuoi workload. Gli intervalli eliminati potrebbero non essere stati registrati con l'API Agent Platform.

Soluzione

Esegui gcloud services vpc-peerings update per servicenetworking dopo aver aggiornato le allocazioni di accesso privato ai servizi.

La pipeline o il job non può accedere agli endpoint all'interno della rete VPC in peering

Problema

La pipeline Gemini Enterprise Agent Platform va in timeout quando tenta di connettersi alle risorse nella tua rete VPC.

Soluzione

Per risolvere il problema, prova quanto segue:

Assicurati di aver completato tutti i passaggi descritti in Configurare il peering di rete VPC.
Rivedi la configurazione della rete VPC con peering. Assicurati che la tua rete importi le route dall'intervallo di service networking corretto durante l'esecuzione del job.

Vai a Peering di rete VPC
Assicurati di avere una regola firewall che consenta le connessioni da questo intervallo alla destinazione nella tua rete.
Se la connessione di peering non importa route durante l'esecuzione del job, significa che la configurazione del servizio di rete non viene utilizzata. Ciò è probabilmente dovuto al fatto che hai completato la configurazione del peering con una rete diversa da quella predefinita. In questo caso, assicurati di specificare la rete quando avvii un job. Utilizza il nome di rete completo nel seguente formato: projects/$PROJECT_ID/global/networks/$NETWORK_NAME.

Per saperne di più, consulta la panoramica delle route.

La pipeline o il job non possono accedere agli endpoint in altre reti oltre alla tua

Problema

La pipeline o il job non è in grado di accedere agli endpoint nelle reti al di fuori della tua rete.

Soluzione

Per impostazione predefinita, la configurazione del peering esporta solo le route nelle subnet locali del VPC.

Inoltre, il peering transitivo non è supportato e solo le reti in peering diretto possono comunicare.

Per consentire a Gemini Enterprise Agent Platform di connettersi tramite la tua rete e raggiungere gli endpoint in altre reti, devi esportare le route di rete nella connessione in peering. Modifica la configurazione della rete VPC in peering e attiva Export custom routes.

Vai a Peering di rete VPC

Poiché il peering transitivo non è supportato, Gemini Enterprise Agent Platform non apprende le route verso altri servizi e reti in peering, anche con Export Custom Routes abilitato. Per informazioni sulle soluzioni alternative, consulta Estensione della raggiungibilità di rete delle pipeline di Agent Platform.

`No route to host` senza conflitti di percorso evidenti nella console Google Cloud

Problema

Le uniche route che puoi visualizzare nella console Google Cloud sono quelle note al tuo VPC e gli intervalli riservati quando completi la configurazione del peering di rete VPC.

In rari casi, un job Gemini Enterprise Agent Platform potrebbe generare un no route to host reclamo quando tenta di raggiungere un indirizzo IP che il tuo VPC sta esportando nella rete Gemini Enterprise Agent Platform.

Questo potrebbe essere dovuto al fatto che i job di Gemini Enterprise Agent Platform vengono eseguiti all'interno di uno spazio dei nomi di rete in un cluster GKE gestito il cui intervallo IP è in conflitto con l'IP di destinazione. Per ulteriori informazioni, consulta Nozioni di base sul networking GKE.

In queste condizioni, il carico di lavoro tenta di connettersi all'IP all'interno del proprio spazio dei nomi di rete e genera l'errore se non riesce a raggiungerlo.

Soluzione

Crea il tuo workload in modo che restituisca gli indirizzi IP dello spazio dei nomi locale e verifica che non siano in conflitto con le route che esporti tramite la connessione di peering. In caso di conflitto, trasmetti un elenco di reservedIpRanges[] nei parametri del job che non si sovrappongono ad alcun intervallo nella tua rete VPC. Il job utilizza questi intervalli per gli indirizzi IP interni del workload.

`RANGES_EXHAUSTED`, `RANGES_NOT_RESERVED`

Problema

Gli errori nel formato RANGES_EXHAUSTED e RANGES_NOT_RESERVED e RANGES_DELETED_LATER indicano un problema con la configurazione del peering di rete VPC sottostante. Si tratta di errori di networking e non di errori del servizio Agent Platform stesso.

Soluzione

In caso di errore RANGES_EXHAUSTED, devi prima valutare se il reclamo è valido.

Fai riferimento alla tabella Suggerimenti per le subnet per assicurarti che la prenotazione IP per l'accesso privato ai servizi sia sufficientemente ampia da ospitare il tuo workload.
Visita Network Analyzer nella console Google Cloud e cerca gli approfondimenti del modulo "Riepilogo dell'allocazione degli indirizzi IP" nella rete VPC. Se questi indicano che l'allocazione è pari o prossima al 100%, puoi eseguire uno dei seguenti passaggi:
- Aggiungi un nuovo intervallo alla prenotazione o estendi quello esistente. Ricorda che tutti gli intervalli devono essere contigui.
- Se hai intervalli IP non contigui allocati ma non utilizzati, avvia nuovi workload di Gemini Enterprise Agent Platform in una regione diversa.
Considera anche il numero massimo di job paralleli che possono essere eseguiti con una prenotazione di una determinata dimensione.

Per saperne di più, consulta Errori di convalida di Service Infrastructure.

Se l'errore persiste, contatta l'assistenza.

`Router status is temporarily unavailable`

Problema

Quando avvii le pipeline di Agent Platform, ricevi un messaggio di errore simile al seguente:

Router status is temporarily unavailable. Please try again later

Soluzione

Il messaggio di errore indica che si tratta di una condizione temporanea. Prova ad avviare di nuovo le pipeline di Agent Platform.

Se l'errore persiste, contatta l'assistenza.

I carichi di lavoro non sono in grado di risolvere i nomi host per i domini DNS nel tuo VPC

Problema

I workload di Gemini Enterprise Agent Platform non riescono a connettersi ai nomi host configurati nel tuo VPC. Hai già confermato che questi nomi host sono accessibili dai client all'interno del tuo VPC.

Questo perché i carichi di lavoro vengono eseguiti in un progetto gestito da Google. La VPC in questo ambiente gestito deve essere sottoposta a peering con la tua per utilizzare le tue risorse di rete. Inoltre, tutte le zone DNS a cui questi carichi di lavoro devono accedere devono essere condivise in modo specifico con il VPC gestito da Google.

Soluzione

Assicurati di aver configurato il peering di rete VPC per Gemini Enterprise Agent Platform nella tua rete VPC.
Completa i passaggi per condividere la tua zona DNS privata con la rete producer di Gemini Enterprise Agent Platform. Tieni presente che la procedura varia a seconda del caso d'uso:
- Peering DNS con accesso privato Google
- Peer DNS con Private Service Connect
Assicurati che i tuoi workload di Gemini Enterprise Agent Platform vengano avviati con il flag --network che specifica la tua rete VPC. In questo modo possono essere eseguiti nella rete gestita da Google e accedere alle zone DNS che hai condiviso.

Abilita il logging DNS nella policy del server DNS, riproduci il problema e poi esegui un altro test. Se la risposta DNS del carico di lavoro va a buon fine, un filtro Cloud Logging per resource.type="dns_query" mostrerà voci di questo tipo:

"resource": {
  "type": "dns_query",
  "labels": {
    "location": REGION,
    "project_id": PROJECT_ID,
    "source_type": "peering-zone",
    "target_name": "QUERY_TARGET,
    "target_type": "forwarding-zone"
  }
}

Verifica che una query DNS da un'istanza nella stessa subnet possa risolvere i nomi host utilizzando il tuo server DNS.
Se il server DNS non si trova in Google Cloud, assicurati che le regole firewall remoto consentano le connessioni da 35.199.192.0/19.
Esegui un test di connettività dall'istanza di test alla porta 53/UDP sull'indirizzo IP del server DNS. Se, ad esempio, il percorso porta a una regola di forwarding, assicurati che:
- Se si tratta di una regola di forwarding regionale, deve trovarsi nella stessa regione del client.
- Accetta le connessioni su 53/UDP e le inoltra al server DNS corretto.

Problemi di connettività causati da comportamenti lato client

Se riscontri problemi di connettività quando tenti di utilizzare le API Google Cloud, la causa principale potrebbe essere lato client. Questa sezione suggerisce soluzioni lato client che potrebbero migliorare la tua esperienza.

Reimpostazioni della connessione e pacchetti eliminati

Problema

Quando tenti di utilizzare le API Google Cloud , si verificano reimpostazioni della connessione e pacchetti ignorati.

Soluzione

Per risolvere il problema, considera quanto segue:

Per il traffico ad alto volume di transazioni con requisiti di bassa latenza, valuta se eventuali problemi noti con le line card dei client on-premise potrebbero causare reimpostazioni delle connessioni TCP o pacchetti persi.
Valuta se i servizi lato client nel percorso della richiesta utilizzano iptables. Questi possono includere cluster Kubernetes o alcuni firewall stateful e dispositivi NAT. Per impostazione predefinita, il sottosistema di monitoraggio della connessione (conntrack) di Linux seguirà rigorosamente le specifiche del protocollo TCP e, ad esempio, eliminerà i pacchetti TCP fuori sequenza. Per disattivare questo comportamento, attiva il parametro del kernel Linux net.netfilter.nf_conntrack_tcp_be_liberal o il suo equivalente.

Connessioni incomplete

Problema

Quando tenti di utilizzare le API Google Cloud , riscontri connessioni incomplete.

Soluzione

Per risolvere il problema, considera quanto segue:

Quando il percorso di inoltro ha più route di ritorno al client, assicurati di comprendere il concetto di Reverse Path Forwarding. Disattiva questo comportamento se sospetti che stia bloccando le connessioni.
Per le connessioni con bilanciamento del carico, valuta se le regole firewall in entrata consentono i pacchetti di risposta a entrambi i bilanciatori del carico.

Altri problemi di connessione non API

Per risolvere i problemi di connessione non API, considera quanto segue:

Se nel percorso della richiesta sono presenti proxy, valuta se possono introdurre uno dei problemi che stai riscontrando. Consulta la documentazione e assicurati di risolvere i problemi del proxy quando riscontri problemi come latenza inspiegabile, interruzioni delle connessioni, override DNS, blocchi cross-origin e altri problemi simili.
Soprattutto quando gestisci risposte 429 dalle API Google Cloud , la logica lato client che riprova immediatamente la connessione può peggiorare il problema. Assicurati di comprendere e implementare il backoff esponenziale quando implementi i nuovi tentativi.

Inferenza di Agent Platform

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con l'inferenza di Agent Platform.

Errore di superamento della quota batch

Problema

Quando esegui job di inferenza batch, viene visualizzato un errore come il seguente.

Quota exhausted. Please reach out to ai-platform-unified-feedback@google.com for
batch prediction quota increase.

Un job di previsioni in batch di Gemini Enterprise Agent Platform consuma la quota del progetto tenant di previsioni in batch. Per ulteriori informazioni su come richiedere un aumento della quota, consulta Quote e limiti di Gemini Enterprise Agent Platform.

Errore di superamento dei tentativi

Problema

Quando esegui job di inferenza batch, viene visualizzato un errore come il seguente, che indica che la macchina che esegue il modello personalizzato potrebbe non essere in grado di completare le inferenze entro il limite di tempo.

('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)

Ciò può accadere quando il servizio di inferenza della piattaforma dell'agente si registra con il servizio Google Front End, che funge da proxy per le connessioni dal client all'API di inferenza della piattaforma dell'agente.

Il servizio Google Front End interrompe la connessione e restituisce un codice di risposta HTTP 500 al client se non riceve una risposta dall'API entro 10 minuti.

Soluzione

Per risolvere il problema, prova una delle seguenti soluzioni:

Aumenta i nodi di calcolo o modifica il tipo di macchina.
Crea il contenitore di inferenza in modo che invii periodicamente i codici di risposta HTTP 102. In questo modo viene reimpostato il timer di 10 minuti sul servizioGoogle Front End (GFE)d.

Progetto già collegato al VPC

Problema

Quando esegui il deployment di un endpoint, potresti visualizzare un messaggio di errore come il seguente, che indica che gli endpoint di Agent Platform hanno precedentemente utilizzato una rete Virtual Private Cloud e le risorse non sono state pulite in modo appropriato.

Currently only one VPC network per user project is supported. Your project is
already linked to
"projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Agent Platform deployment
resources, delete all endpoint resources, and then retry creating resources in
30 mins.

Soluzione

Per risolvere il problema, prova a eseguire questo comando in Cloud Shell.

gcloud services vpc-peerings delete \
    --service=servicenetworking.googleapis.com \
    --network=YOUR_SHARED_VPC_NETWORK \
    --project=YOUR_SHARED_VPC_HOST_PROJECT

In questo modo, la vecchia rete VPC viene disconnessa manualmente dalla rete VPC Service Networking.

Errore di deployment imprevisto o eliminazione dell'endpoint

Problema

Il deployment di un modello non riesce in modo imprevisto, un endpoint viene eliminato o un modello di cui è stato eseguito il deployment in precedenza non è più disponibile.

Il tuo account di fatturazione potrebbe non essere valido. Se rimane non valido per un lungo periodo di tempo, alcune risorse potrebbero essere rimosse dai progetti associati al tuo account. Ad esempio, i tuoi endpoint e modelli potrebbero essere eliminati. Le risorse rimosse non sono recuperabili.

Soluzione

Per risolvere il problema, puoi provare quanto segue:

Verifica lo stato di fatturazione dei progetti.
Contatta l'assistenza per la fatturazione Cloud per richiedere aiuto in merito a domande sulla fatturazione.

Per ulteriori informazioni, consulta la pagina Domande sulla fatturazione.

Problemi relativi all'account di servizio personalizzato di Agent Platform

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con i service account.

Il deployment del modello non riesce a causa dell'errore del account di servizio `serviceAccountAdmin`

Problema

Il deployment del modello non va a buon fine e viene visualizzato un errore simile al seguente:

Failed to deploy model MODEL_NAME to endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding. Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the iam.serviceAccountAdmin role on service account vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com

Soluzione

Questo errore indica che il tuo account di servizio personalizzato potrebbe non essere stato configurato correttamente. Per creare un account di servizio personalizzato con le autorizzazioni IAM corrette, consulta Utilizzare un service account personalizzato.

Impossibile recuperare il token ID quando si utilizza un account di servizio personalizzato

Problema

Quando utilizzi un account di servizio personalizzato, i job di addestramento eseguiti su una singola replica non sono in grado di raggiungere il servizio di metadati di Compute Engine necessario per recuperare un token.

Viene visualizzato un errore simile al seguente:

Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)

Soluzione

Per recuperare il token di identità con un account di servizio personalizzato, devi utilizzare iamcredentials.googleapis.com.

Modelli con addestramento personalizzato

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili se riscontri problemi con i modelli addestrati personalizzati.

Problemi relativi all'addestramento personalizzato

I seguenti problemi possono verificarsi durante l'addestramento personalizzato. I problemi riguardano le risorse CustomJob e HyperparameterTuningJob, incluse quelle create dalle risorse TrainingPipeline.

Codice di errore: 400

Problema

Si verifica il seguente errore:

400 Machine type MACHINE_TYPE is not supported.

Potresti visualizzare questo messaggio di errore se il tipo di macchina selezionato non è supportato per l'addestramento di Gemini Enterprise Agent Platform o se una risorsa specifica non è disponibile nella regione selezionata.

Soluzione

Utilizza solo i tipi di macchine disponibili nelle regioni appropriate.

La replica è uscita con un codice di stato diverso da zero

Problema

Durante l'addestramento distribuito, un errore di qualsiasi worker causa l'interruzione dell'addestramento.

Soluzione

Per controllare l'analisi dello stack del worker, visualizza i log di addestramento personalizzato nella consoleGoogle Cloud .

Consulta gli altri argomenti per la risoluzione dei problemi per correggere gli errori comuni e poi crea una nuova risorsa CustomJob, HyperparameterTuningJob o TrainingPipeline. In molti casi, i codici di errore sono causati da problemi nel codice di addestramento, non dal servizio Agent Platform. Per determinare se è questo il caso, puoi eseguire il codice di addestramento sulla tua macchina locale o su Compute Engine.

Replica ha esaurito la memoria

Problema

Può verificarsi un errore se un'istanza di macchina virtuale (VM) di addestramento esaurisce la memoria durante l'addestramento.

Soluzione

Puoi visualizzare la memoria utilizzata delle VM di addestramento nella console Google Cloud .

Anche quando ricevi questo errore, potresti non visualizzare la memoria utilizzata al 100% sulla VM, perché anche i servizi diversi dall'applicazione di addestramento in esecuzione sulla VM consumano risorse. Per i tipi di macchina con meno memoria, altri servizi potrebbero consumare una percentuale relativamente elevata di memoria. Ad esempio, su una VM n1-standard-4, i servizi possono consumare fino al 40% della memoria.

Puoi ottimizzare il consumo di memoria dell'applicazione di addestramento oppure scegliere un tipo di macchina più grande con più memoria.

Risorse insufficienti in una regione

Problema

Si verifica un problema di esaurimento delle scorte in una regione.

Soluzione

Agent Platform addestra i tuoi modelli utilizzando le risorse di Compute Engine. Agent Platform non può pianificare il tuo carico di lavoro se Compute Engine ha raggiunto la capacità per una determinata CPU o GPU in una regione. Questo problema non è correlato alla quota del tuo progetto.

Quando raggiunge la capacità di Compute Engine, Agent Platform ritenta automaticamente l'esecuzione di CustomJob o HyperparameterTuningJob fino a tre volte. Il job non riesce se tutti i tentativi non vanno a buon fine.

Un esaurimento scorte si verifica in genere quando utilizzi le GPU. Se si verifica questo errore quando utilizzi le GPU, prova a passare a un tipo di GPU diverso. Se puoi utilizzare un'altra regione, prova a eseguire l'addestramento in una regione diversa.

Errore di autorizzazione durante l'accesso a un altro servizio Google Cloud

Se riscontri un errore di autorizzazione quando accedi a un altro Google Cloud servizio dal tuo codice di addestramento (ad esempio: google.api_core.exceptions.PermissionDenied: 403), potresti riscontrare uno dei seguenti problemi:

Problema

Il service agent o account di servizio che esegue il codice (il service agent Gemini Enterprise Agent Platform Custom Code per il tuo progetto o un service account personalizzato) non dispone dell'autorizzazione richiesta.

Soluzione

Scopri come concedere le autorizzazioni all'agente di servizio personalizzato della piattaforma Gemini Enterprise Agent Platform o configurare un account di serviziount personalizzato con le autorizzazioni necessarie.
Problema

Il service agent o account di servizio che esegue il codice dispone dell'autorizzazione richiesta, ma il codice tenta di accedere a una risorsa nel progetto sbagliato. È molto probabile che si tratti di questo problema se il messaggio di errore fa riferimento a un ID progetto che termina con -tp.

Soluzione

A causa del modo in cui Agent Platform esegue il codice di addestramento, questo problema può verificarsi inavvertitamente se non specifichi esplicitamente un ID progetto o un numero di progetto nel codice.

Scopri come risolvere il problema specificando un ID progetto o un numero di progetto.
Problema

Il job di Vertex AI Training viene eseguito correttamente con i dati locali, ma non con i dati di Cloud Storage.

Soluzione

Aggiungi l'autorizzazione storage.buckets.create al ruolo Gemini Enterprise Agent Platform Custom Code Service Agent per il progetto.

Scopri come risolvere il problema aggiungendo ruoli specifici ai service agent della piattaforma dell'agente.

Problemi di prestazioni durante l'utilizzo di Cloud Storage FUSE

Problema

I job Cloud Storage FUSE vengono eseguiti lentamente.

Soluzione

Consulta "Linee guida per l'ottimizzazione delle prestazioni" in Utilizzare Cloud Storage come file system montato.

`pip install` non riesce quando utilizzi KFP con i Controlli di servizio VPC

Problema

Viene visualizzato il seguente errore:

ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(&lt;pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10&gt;, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/

Soluzione

Il perimetro di servizio dei Controlli di servizio VPC blocca l'accesso da Agent Platform ad API e servizi di terze parti su internet. Per installare i pacchetti, utilizza packageUris per installare le dipendenze dai bucket Cloud Storage. Per una discussione generale sull'utilizzo di questa tecnica, consulta "Utilizzare container personalizzati" in Controlli di servizio VPC con Agent Platform.

Errore interno

Problema

L'addestramento non è riuscito a causa di un errore di sistema.

Soluzione

Il problema potrebbe essere temporaneo. Prova a inviare di nuovo CustomJob, HyperparameterTuningJob o TrainingPipeline. Se l'errore persiste, contatta l'assistenza.

Codice di errore 500 quando si utilizza un'immagine container personalizzata

Problema

Nei log viene visualizzato un errore 500.

Soluzione

Questo tipo di errore è probabilmente un problema con l'immagine container personalizzata e non un errore di Agent Platform.

Il service account non può accedere al bucket Cloud Storage durante il deployment a un endpoint

Problema

Quando provi a eseguire il deployment di un modello in un endpoint e il tuo account di servizio non dispone dell'accesso storage.objects.list al bucket Cloud Storage correlato, potresti visualizzare il seguente errore:

custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.

Per impostazione predefinita, il container personalizzato che esegue il deployment del modello utilizza un account di servizio che non ha accesso al tuo bucket Cloud Storage.

Soluzione

Per risolvere il problema, prova una delle seguenti soluzioni:

Copia il file a cui stai tentando di accedere dal contenitore in artefatti del modello durante il caricamento del modello. Gemini Enterprise Agent Platform lo copierà in una posizione a cui il account di servizio predefinito ha accesso, in modo simile a tutti gli altri artefatti del modello.
Copia il file nel container nell'ambito del processo di compilazione del container.
Specifica un service account personalizzato.

Agent Platform Neural Architecture Search

Problemi noti

Dopo l'annullamento del job NAS, il job principale (il job padre) si arresta, ma alcune prove secondarie continuano a mostrare lo stato In esecuzione. Ignora lo stato della prova secondaria che in questo caso mostra In esecuzione. Le prove sono state interrotte, ma l'interfaccia utente continua a mostrare lo stato In corso…. Finché il job principale è interrotto, non ti verranno addebitati costi aggiuntivi.
Dopo aver segnalato le ricompense nell'allenatore, attendi (metti in pausa) 10 minuti prima che i job di prova vengano chiusi.
Quando utilizzi Cloud Shell per eseguire TensorBoard, il link di output generato potrebbe non funzionare. In questo caso, annota il numero di porta, utilizza lo strumento Anteprima web e seleziona il numero di porta corretto per visualizzare i grafici.

Accedere allo strumento Web Preview:
Se nei log dell'addestratore vengono visualizzati messaggi di errore come i seguenti:
```
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
```
utilizza una macchina con più RAM, perché questo errore è causato da una condizione di esaurimento della memoria.
Se il tuo trainer personalizzato non riesce a trovare la directory di lavoro job-dir FLAG, importa job_dir con un trattino basso anziché un trattino. Una nota nel tutorial 1 spiega questo aspetto.
Errore NaN durante l'addestramento Potrebbero verificarsi errori NaN nel job di addestramento, ad esempio NaN : Tensor had NaN values. Il tasso di apprendimento potrebbe essere troppo elevato per l'architettura suggerita. Per ulteriori informazioni, vedi Errori relativi a esaurimento della memoria (OOM) e tasso di apprendimento.
Errore OOM durante l'addestramento Potrebbero verificarsi errori OOM (out-of-memory) nel job di addestramento. La dimensione del batch potrebbe essere troppo grande per la memoria dell'acceleratore. Per ulteriori informazioni, vedi Errori relativi a esaurimento della memoria (OOM) e tasso di apprendimento.
Il job del controller di selezione del modello proxy-task non funziona Nel raro caso in cui il job del controller di selezione del modello proxy-task non funzioni, puoi riprenderlo seguendo questi passaggi.
Il job del controller di ricerca proxy-task termina Nel raro caso in cui il job del controller di ricerca proxy-task termini, puoi riprenderlo seguendo questi passaggi.
Il service account non dispone dell'autorizzazione per accedere ad Artifact Registry o al bucket. Se ricevi un errore come Agent Platform Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas o un errore simile per l'accesso al bucket, assegna a questo account di servizio un ruolo di editor Storage nel tuo progetto.

Vertex AI Feature Store

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con Vertex AI Feature Store.

Errore `Resource not found` durante l'invio di una richiesta di importazione di flussi di dati o di erogazione online

Problema

Dopo aver configurato un featurestore, un tipo di entità o risorse di funzionalità, si verifica un ritardo prima che queste risorse vengano propagate al servizio FeaturestoreOnlineServingService. A volte questa propagazione ritardata potrebbe causare un errore resource not found quando invii una richiesta diimportazione di flussi di datig o di pubblicazione online subito dopo aver creato una risorsa.

Soluzione

Se ricevi questo errore, attendi qualche minuto e riprova a inviare la richiesta.

L'importazione in batch è riuscita per le funzionalità appena create, ma la richiesta di erogazione online restituisce valori vuoti

Problema

Solo per le funzionalità appena create, si verifica un ritardo prima che vengano propagate al servizio FeaturestoreOnlineServingService. Le funzionalità e i valori esistono, ma la propagazione richiede tempo. Ciò potrebbe comportare la restituzione di valori vuoti nella richiesta di pubblicazione online.

Soluzione

Se noti questa incongruenza, attendi qualche minuto e riprova a inviare la richiesta di pubblicazione online.

L'utilizzo della CPU è elevato per un nodo di erogazione online

Problema

L'utilizzo della CPU per un nodo di erogazione online è elevato.

Soluzione

Per risolvere questo problema, puoi aumentare il numero di nodi di erogazione online aumentando manualmente il numero di nodi o abilitando la scalabilità automatica. Tieni presente che, anche se la scalabilità automatica è abilitata, Vertex AI Feature Store ha bisogno di tempo per ribilanciare i dati quando vengono aggiunti o rimossi nodi. Per informazioni su come visualizzare le metriche di distribuzione dei valori delle funzionalità nel tempo, vedi Visualizzare le metriche dei valori delle funzionalità.

L'utilizzo della CPU è elevato per il nodo di erogazione online più attivo

Problema

Se l'utilizzo della CPU è elevato per il nodo più attivo, puoi aumentare il numero di nodi di servizio o modificare il pattern di accesso alle entità in modo pseudo-casuale.

Soluzione

L'impostazione del pattern di accesso alle entità su pseudo-random riduce l'utilizzo elevato della CPU derivante dall'accesso frequente a entità che si trovano vicine tra loro nell'archivio di caratteristiche. Se nessuna delle due soluzioni è efficace, implementa una cache lato client per evitare di accedere ripetutamente alle stesse entità.

La latenza dell'erogazione online è elevata quando le QPS sono basse

Problema

Il periodo di inattività o di attività ridotta a QPS basso potrebbe comportare la scadenza di alcune cache lato server. Ciò può comportare una latenza elevata quando il traffico verso i nodi di erogazione online riprende a QPS normale o superiore.

Soluzione

Per risolvere questo problema, devi mantenere attiva la connessione inviando traffico artificiale di almeno 5 QPS al feature store.

Il job di importazione batch non riesce dopo sei ore

Problema

Il job di importazione batch può non riuscire perché la sessione di lettura scade dopo sei ore.

Soluzione

Per evitare il timeout, aumenta il numero di worker per completare il job di importazione entro il limite di tempo di sei ore.

Errore `Resource exceeded` durante l'esportazione dei valori delle caratteristiche

Problema

L'esportazione di un volume elevato di dati può non riuscire con un errore di risorse superate se il job di esportazione supera la quota interna.

Soluzione

Per evitare questo errore, puoi configurare i parametri dell'intervallo di tempo, start_time e end_time, in modo da elaborare quantità minori di dati alla volta. Per informazioni sull'esportazione completa, vedi Esportazione completa.

Vertex AI Vizier

Quando utilizzi Vertex AI Vizier, potresti riscontrare i seguenti problemi.

Errore interno

Problema

L'errore interno si verifica quando si verifica un errore di sistema.

Soluzione

Potrebbe essere temporaneo. Prova a inviare di nuovo la richiesta e, se l'errore persiste, contatta l'assistenza.

Errori di autorizzazione quando si utilizzano ruoli del account di servizio con Vertex AI

Problema

Quando utilizzi i ruoli del account di servizio con Vertex AI, vengono visualizzati errori di autorizzazione generali.

Questi errori possono essere visualizzati in Cloud Logging nei log dei componenti del prodotto o negli audit log. Potrebbero anche essere visualizzati in qualsiasi combinazione dei progetti interessati.

Questi problemi possono essere causati da uno o entrambi i seguenti fattori:

Utilizzo del ruolo Service Account Token Creator quando avrebbe dovuto essere utilizzato il ruolo Service Account User o viceversa. Questi ruoli concedono autorizzazioni diverse su un account di servizio e non sono intercambiabili. Per scoprire le differenze tra i ruoli Service Account Token Creator e Service Account User, consulta Ruoli degli account di servizio.
Hai concesso a un account di servizio autorizzazioni su più progetti, il che non è consentito per impostazione predefinita.

Soluzione

Per risolvere il problema, prova una o più delle seguenti soluzioni:

Determina se è necessario il ruolo Service Account Token Creator o Service Account User. Per saperne di più, leggi la documentazione di IAM per i servizi Vertex AI che utilizzi, nonché per qualsiasi altra integrazione di prodotto che utilizzi.
Se hai concesso a un account di servizio autorizzazioni in più progetti, consenti l'allegato dei service account tra i progetti assicurandoti che iam.disableCrossProjectServiceAccountUsage. non è applicata in modo forzato. Per assicurarti che iam.disableCrossProjectServiceAccountUsage non venga applicato, esegui questo comando:
```
gcloud resource-manager org-policies disable-enforce \
  iam.disableCrossProjectServiceAccountUsage \
  --project=PROJECT_ID
```

Risoluzione dei problemi di Agent Platform Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Risoluzione dei problemi con le indagini di Cloud Assist

Modelli AutoML

Etichette mancanti nel set di test, convalida o addestramento

Vertex AI Studio

Il tentativo di ottimizzare un modello restituisce Internal error encountered

Codice di errore: 429

Codice di errore: 410

Codice di errore: 403

Agent Platform Pipelines

Non hai l'autorizzazione per agire come account di servizio

Errore: gli hash dei pacchetti Python non corrispondono nel componente Pipeline della piattaforma agentica Gemini Enterprise

Campo Internal error happened dell'errore

Ambito OAuth o pubblico del token ID fornito non valido

I componenti di Agent Platform Pipelines richiedono più di 100 GB di spazio su disco

Problemi di rete di Agent Platform

I carichi di lavoro non possono accedere agli endpoint nella tua rete VPC quando utilizzi intervalli IP pubblici utilizzati privatamente per Gemini Enterprise Agent Platform

com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project

La pipeline o il job non può accedere agli endpoint all'interno della rete VPC in peering

La pipeline o il job non possono accedere agli endpoint in altre reti oltre alla tua

No route to host senza conflitti di percorso evidenti nella console Google Cloud

RANGES_EXHAUSTED, RANGES_NOT_RESERVED

Router status is temporarily unavailable

I carichi di lavoro non sono in grado di risolvere i nomi host per i domini DNS nel tuo VPC

Problemi di connettività causati da comportamenti lato client

Reimpostazioni della connessione e pacchetti eliminati

Connessioni incomplete

Altri problemi di connessione non API

Inferenza di Agent Platform

Errore di superamento della quota batch

Errore di superamento dei tentativi

Progetto già collegato al VPC

Errore di deployment imprevisto o eliminazione dell'endpoint

Problemi relativi all'account di servizio personalizzato di Agent Platform

Il deployment del modello non riesce a causa dell'errore del account di servizio serviceAccountAdmin

Impossibile recuperare il token ID quando si utilizza un account di servizio personalizzato

Modelli con addestramento personalizzato

Problemi relativi all'addestramento personalizzato

Codice di errore: 400

La replica è uscita con un codice di stato diverso da zero

Replica ha esaurito la memoria

Risorse insufficienti in una regione

Errore di autorizzazione durante l'accesso a un altro servizio Google Cloud

Problemi di prestazioni durante l'utilizzo di Cloud Storage FUSE

pip install non riesce quando utilizzi KFP con i Controlli di servizio VPC

Errore interno

Codice di errore 500 quando si utilizza un'immagine container personalizzata

Il service account non può accedere al bucket Cloud Storage durante il deployment a un endpoint

Agent Platform Neural Architecture Search

Problemi noti

Vertex AI Feature Store

Errore Resource not found durante l'invio di una richiesta di importazione di flussi di dati o di erogazione online

L'importazione in batch è riuscita per le funzionalità appena create, ma la richiesta di erogazione online restituisce valori vuoti

L'utilizzo della CPU è elevato per un nodo di erogazione online

L'utilizzo della CPU è elevato per il nodo di erogazione online più attivo

La latenza dell'erogazione online è elevata quando le QPS sono basse

Il job di importazione batch non riesce dopo sei ore

Errore Resource exceeded durante l'esportazione dei valori delle caratteristiche

Vertex AI Vizier

Errore interno

Errori di autorizzazione quando si utilizzano ruoli del account di servizio con Vertex AI

Risoluzione dei problemi di Agent Platform

Il tentativo di ottimizzare un modello restituisce `Internal error encountered`

Campo `Internal error happened` dell'errore

`com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project`

`No route to host` senza conflitti di percorso evidenti nella console Google Cloud

`RANGES_EXHAUSTED`, `RANGES_NOT_RESERVED`

`Router status is temporarily unavailable`

Il deployment del modello non riesce a causa dell'errore del account di servizio `serviceAccountAdmin`

`pip install` non riesce quando utilizzi KFP con i Controlli di servizio VPC

Errore `Resource not found` durante l'invio di una richiesta di importazione di flussi di dati o di erogazione online

Errore `Resource exceeded` durante l'esportazione dei valori delle caratteristiche