Quote e limiti di sistema per gli agenti in Agent Platform

Questo documento elenca le quote e i limiti di sistema che si applicano a Gemini Enterprise Agent Platform.

  • Le quote hanno valori predefiniti, ma in genere puoi richiedere degli adeguamenti.
  • I limiti di sistema sono valori fissi che non possono essere modificati.

Google Cloud utilizza le quote per garantire l'equità e ridurre i picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una Google Cloud risorsa che Google Cloud il progetto può utilizzare. Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community degli utentiGoogle Cloud impedendo il sovraccarico dei servizi. Le quote ti aiutano inoltre a gestire le tue Google Cloud risorse.

Il sistema delle quote di Cloud esegue le seguenti operazioni:

Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.

In genere, le quote si applicano a livello di Google Cloud progetto. L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud , le quote vengono condivise tra tutte le applicazioni e gli indirizzi IP.

Per saperne di più, consulta Panoramica delle quote di Cloud.

Quote

Le seguenti quote si applicano agli agenti di cui è stato eseguito il deployment su Agent Platform per un determinato progetto in ogni regione:

Descrizione Quota Metrica
Creare, eliminare o aggiornare le risorse di Agent Platform al minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Creare, eliminare o aggiornare le sessioni di Agent Platform al minuto 100 aiplatform.googleapis.com/session_write_requests
Query o StreamQuery di Agent Platform al minuto 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Aggiungi evento alle sessioni di Agent Platform al minuto 300 aiplatform.googleapis.com/session_event_append_requests
Numero massimo di risorse di Agent Platform 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Crea, elimina o aggiorna le risorse di memoria di Agent Platform al minuto 100 aiplatform.googleapis.com/memory_bank_write_requests
Get, list, or retrieve from Agent Platform Memory Bank per minute 300 aiplatform.googleapis.com/memory_bank_read_requests
Richieste di esecuzione al minuto dell'ambiente sandbox (esecuzione di codice) 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entità Ambiente sandbox (esecuzione di codice) per regione 1000 aiplatform.googleapis.com/sandbox_environment_entities
Richieste di scrittura al minuto per l'ambiente sandbox (esecuzione del codice) 500 aiplatform.googleapis.com/sandbox_environment_write_requests
Richieste di post dell'agente A2A come sendMessage e cancelTask al minuto 60 aiplatform.googleapis.com/a2a_agent_post_requests
Richieste get dell'agente A2A come getTask e getCard al minuto 600 aiplatform.googleapis.com/a2a_agent_get_requests
Connessioni bidirezionali live simultanee che utilizzano l'API BidiStreamQuery al minuto 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Gestione delle quote per i carichi di produzione

Man mano che il traffico aumenta, probabilmente devi richiedere incrementi per quote specifiche dell'API Agent Platform per evitare errori 429 Resource Exhausted. Puoi configurare in modo proattivo il runtime e aumentare le quote per mantenere l'istanza di Agent Runtime reattiva, scalabile e affidabile sotto carico di produzione.

Per informazioni su come ottimizzare e scalare le prestazioni di Agent Runtime, vedi Ottimizzare e scalare le prestazioni di Agent Runtime.

Per stimare i requisiti di quota di picco:

  1. Definisci le variabili:

    • U: utenti simultanei di picco (ad esempio 250).

    • X: numero medio di richieste per utente al minuto (ad esempio, 2).

    • Y: eventi di sessione medi generati per richiesta (ad esempio, 12 per una catena complessa che coinvolge più chiamate di strumenti).

  2. Calcola il carico di picco:

    • Calcola le query al minuto (QPM) di picco: U * X

    • Calcola gli eventi di picco della sessione al minuto: QPM di picco * Y

  3. Richiedi una quota con un buffer: quando richiedi un aumento della quota, aggiungi un buffer (ad esempio, il 50%) in aggiunta al picco calcolato per gestire picchi imprevisti.

La seguente tabella mostra i calcoli per le quote principali correlate al rendimento per Agent Platform, utilizzando le variabili di esempio peak concurrent users=250, average requests per user per minute=2 e average session events generated per request=12:

Nome quota Descrizione della quota Calcolo della base (picco) Valore consigliato (con buffer del 50%)
Query di Agent Engine al minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) Il numero totale di chiamate query o stream_query che il tuo agente può ricevere al minuto. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750
Aggiungi eventi di sessione al minuto (aiplatform.googleapis.com/session_event_append_requests)

Il numero di turni o eventi in tutte le sessioni in corso. Una singola query può generare più eventi di sessione in una catena, ad esempio:

  1. Chiama LLM.
  2. Risposta LLM: usa lo strumento.
  3. Esegui lo strumento.
  4. Chiama l'LLM con la risposta dello strumento.
  5. L'LLM fornisce la risposta finale.
500 QPM * 12 events/req = 6,000 6,000 * 1.5 = 9,000
Scritture della sessione al minuto (aiplatform.googleapis.com/session_write_requests) Il tasso di creazione o aggiornamento delle risorse di sessione. In genere, questo valore è inferiore o uguale alla frequenza delle query. In genere <= QPM di picco (500) In genere <= quota query (750)

Richiedi un aggiustamento delle quote

Per modificare la maggior parte delle quote, utilizza la console Google Cloud . Per ulteriori informazioni, consulta Richiedi un aggiustamento delle quote.

Quote della modalità express di Agent Platform

Gli utenti della modalità express del Livello senza costi di Agent Platform hanno le seguenti quote per i servizi Agent Platform senza costi. Per saperne di più sul Livello senza costi e sulla modalità express, consulta la panoramica di Agent Platform in modalità express.

Le seguenti quote si applicano agli agenti di cui è stato eseguito il deployment su Agent Platform per un determinato progetto in modalità express in ogni regione:

Descrizione Quota Metrica
Numero massimo di risorse di Agent Platform 10 aiplatform.googleapis.com/reasoning_engine_service_entities
Creare, eliminare o aggiornare le risorse di Agent Platform al minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Query o StreamQuery di Agent Platform al minuto 10 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Connessioni bidirezionali live simultanee che utilizzano l'API BidiStreamQuery al minuto 1 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
Creare, eliminare o aggiornare le sessioni di Agent Platform al minuto 10 aiplatform.googleapis.com/session_write_requests
Aggiungi evento alle sessioni di Agent Platform al minuto 30 aiplatform.googleapis.com/session_event_append_requests
Crea, elimina o aggiorna le risorse di memoria di Agent Platform al minuto 10 aiplatform.googleapis.com/memory_bank_write_requests
Get, list, or retrieve from Memory Bank per minute 10 aiplatform.googleapis.com/memory_bank_read_requests