Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Quote e limiti di sistema per gli agenti in Agent Platform

Questo documento elenca le quote e i limiti di sistema che si applicano a Gemini Enterprise Agent Platform.

Le quote hanno valori predefiniti, ma in genere puoi richiedere degli adeguamenti.
I limiti di sistema sono valori fissi che non possono essere modificati.

Google Cloud utilizza le quote per garantire l'equità e ridurre i picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una Google Cloud risorsa che Google Cloud il progetto può utilizzare. Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community degli utentiGoogle Cloud impedendo il sovraccarico dei servizi. Le quote ti aiutano inoltre a gestire le tue Google Cloud risorse.

Il sistema delle quote di Cloud esegue le seguenti operazioni:

Monitora il tuo consumo di Google Cloud prodotti e servizi
Limita il consumo di queste risorse
Fornisce un modo per richiedere modifiche al valore della quota e automatizzare gli aggiustamenti della quota

Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.

In genere, le quote si applicano a livello di Google Cloud progetto. L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud , le quote vengono condivise tra tutte le applicazioni e gli indirizzi IP.

Per saperne di più, consulta Panoramica delle quote di Cloud.

Quote

Le seguenti quote si applicano agli agenti di cui è stato eseguito il deployment su Agent Platform per un determinato progetto in ogni regione:

Descrizione	Quota	Metrica
Creare, eliminare o aggiornare le risorse di Agent Platform al minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Creare, eliminare o aggiornare le sessioni di Agent Platform al minuto	100	`aiplatform.googleapis.com/session_write_requests`
`Query` o `StreamQuery` di Agent Platform al minuto	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Aggiungi evento alle sessioni di Agent Platform al minuto	300	`aiplatform.googleapis.com/session_event_append_requests`
Numero massimo di risorse di Agent Platform	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Crea, elimina o aggiorna le risorse di memoria di Agent Platform al minuto	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Get, list, or retrieve from Agent Platform Memory Bank per minute	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Richieste di esecuzione al minuto dell'ambiente sandbox (esecuzione di codice)	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entità Ambiente sandbox (esecuzione di codice) per regione	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Richieste di scrittura al minuto per l'ambiente sandbox (esecuzione del codice)	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
Richieste di post dell'agente A2A come `sendMessage` e `cancelTask` al minuto	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
Richieste get dell'agente A2A come `getTask` e `getCard` al minuto	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Connessioni bidirezionali live simultanee che utilizzano l'API `BidiStreamQuery` al minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Gestione delle quote per i carichi di produzione

Man mano che il traffico aumenta, probabilmente devi richiedere incrementi per quote specifiche dell'API Agent Platform per evitare errori 429 Resource Exhausted. Puoi configurare in modo proattivo il runtime e aumentare le quote per mantenere l'istanza di Agent Runtime reattiva, scalabile e affidabile sotto carico di produzione.

Per informazioni su come ottimizzare e scalare le prestazioni di Agent Runtime, vedi Ottimizzare e scalare le prestazioni di Agent Runtime.

Per stimare i requisiti di quota di picco:

Definisci le variabili:
- U: utenti simultanei di picco (ad esempio 250).
- X: numero medio di richieste per utente al minuto (ad esempio, 2).
- Y: eventi di sessione medi generati per richiesta (ad esempio, 12 per una catena complessa che coinvolge più chiamate di strumenti).
Calcola il carico di picco:
- Calcola le query al minuto (QPM) di picco: U * X
- Calcola gli eventi di picco della sessione al minuto: QPM di picco * Y
Richiedi una quota con un buffer: quando richiedi un aumento della quota, aggiungi un buffer (ad esempio, il 50%) in aggiunta al picco calcolato per gestire picchi imprevisti.

La seguente tabella mostra i calcoli per le quote principali correlate al rendimento per Agent Platform, utilizzando le variabili di esempio peak concurrent users=250, average requests per user per minute=2 e average session events generated per request=12:

Nome quota Descrizione della quota Calcolo della base (picco) Valore consigliato (con buffer del 50%)

Query di Agent Engine al minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) Il numero totale di chiamate query o stream_query che il tuo agente può ricevere al minuto. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750

Nome quota	Descrizione della quota	Calcolo della base (picco)	Valore consigliato (con buffer del 50%)
Query di Agent Engine al minuto (`aiplatform.googleapis.com/reasoning_engine_service_query_requests`)	Il numero totale di chiamate `query` o `stream_query` che il tuo agente può ricevere al minuto.	`250 users * 2 req/min = 500 QPM`	`500 * 1.5 =` `750`
Aggiungi eventi di sessione al minuto (`aiplatform.googleapis.com/session_event_append_requests`)	Il numero di turni o eventi in tutte le sessioni in corso. Una singola query può generare più eventi di sessione in una catena, ad esempio: Chiama LLM. Risposta LLM: usa lo strumento. Esegui lo strumento. Chiama l'LLM con la risposta dello strumento. L'LLM fornisce la risposta finale.	`500 QPM * 12 events/req = 6,000`	`6,000 * 1.5 =` `9,000`
Scritture della sessione al minuto (`aiplatform.googleapis.com/session_write_requests`)	Il tasso di creazione o aggiornamento delle risorse di sessione. In genere, questo valore è inferiore o uguale alla frequenza delle query.	In genere <= QPM di picco (`500`)	In genere <= quota query (`750`)

Aggiungi eventi di sessione al minuto (aiplatform.googleapis.com/session_event_append_requests)

Il numero di turni o eventi in tutte le sessioni in corso. Una singola query può generare più eventi di sessione in una catena, ad esempio:

Chiama LLM.
Risposta LLM: usa lo strumento.
Esegui lo strumento.
Chiama l'LLM con la risposta dello strumento.
L'LLM fornisce la risposta finale.

500 QPM * 12 events/req = 6,000

6,000 * 1.5 = 9,000

Scritture della sessione al minuto (aiplatform.googleapis.com/session_write_requests) Il tasso di creazione o aggiornamento delle risorse di sessione. In genere, questo valore è inferiore o uguale alla frequenza delle query. In genere <= QPM di picco (500) In genere <= quota query (750)

Richiedi un aggiustamento delle quote

Per modificare la maggior parte delle quote, utilizza la console Google Cloud . Per ulteriori informazioni, consulta Richiedi un aggiustamento delle quote.

Quote della modalità express di Agent Platform

Gli utenti della modalità express del Livello senza costi di Agent Platform hanno le seguenti quote per i servizi Agent Platform senza costi. Per saperne di più sul Livello senza costi e sulla modalità express, consulta la panoramica di Agent Platform in modalità express.

Le seguenti quote si applicano agli agenti di cui è stato eseguito il deployment su Agent Platform per un determinato progetto in modalità express in ogni regione:

Descrizione	Quota	Metrica
Numero massimo di risorse di Agent Platform	10	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Creare, eliminare o aggiornare le risorse di Agent Platform al minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
`Query` o `StreamQuery` di Agent Platform al minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Connessioni bidirezionali live simultanee che utilizzano l'API `BidiStreamQuery` al minuto	1	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`
Creare, eliminare o aggiornare le sessioni di Agent Platform al minuto	10	`aiplatform.googleapis.com/session_write_requests`
Aggiungi evento alle sessioni di Agent Platform al minuto	30	`aiplatform.googleapis.com/session_event_append_requests`
Crea, elimina o aggiorna le risorse di memoria di Agent Platform al minuto	10	`aiplatform.googleapis.com/memory_bank_write_requests`
Get, list, or retrieve from Memory Bank per minute	10	`aiplatform.googleapis.com/memory_bank_read_requests`