Questo documento elenca le quote e i limiti di sistema che si applicano a Gemini Enterprise Agent Platform.
- Le quote hanno valori predefiniti, ma in genere puoi richiedere degli adeguamenti.
- I limiti di sistema sono valori fissi che non possono essere modificati.
Google Cloud utilizza le quote per garantire l'equità e ridurre i picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una Google Cloud risorsa che Google Cloud il progetto può utilizzare. Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community degli utentiGoogle Cloud impedendo il sovraccarico dei servizi. Le quote ti aiutano inoltre a gestire le tue Google Cloud risorse.
Il sistema delle quote di Cloud esegue le seguenti operazioni:
- Monitora il tuo consumo di Google Cloud prodotti e servizi
- Limita il consumo di queste risorse
- Fornisce un modo per richiedere modifiche al valore della quota e automatizzare gli aggiustamenti della quota
Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.
In genere, le quote si applicano a livello di Google Cloud progetto. L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud , le quote vengono condivise tra tutte le applicazioni e gli indirizzi IP.
Per saperne di più, consulta Panoramica delle quote di Cloud.
Quote
Le seguenti quote si applicano agli agenti di cui è stato eseguito il deployment su Agent Platform per un determinato progetto in ogni regione:
| Descrizione | Quota | Metrica |
|---|---|---|
| Creare, eliminare o aggiornare le risorse di Agent Platform al minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Creare, eliminare o aggiornare le sessioni di Agent Platform al minuto | 100 | aiplatform.googleapis.com/session_write_requests |
Query o StreamQuery di Agent Platform al minuto |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Aggiungi evento alle sessioni di Agent Platform al minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Numero massimo di risorse di Agent Platform | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Crea, elimina o aggiorna le risorse di memoria di Agent Platform al minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Get, list, or retrieve from Agent Platform Memory Bank per minute | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Richieste di esecuzione al minuto dell'ambiente sandbox (esecuzione di codice) | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entità Ambiente sandbox (esecuzione di codice) per regione | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
| Richieste di scrittura al minuto per l'ambiente sandbox (esecuzione del codice) | 500 | aiplatform.googleapis.com/sandbox_environment_write_requests |
Richieste di post dell'agente A2A come sendMessage e cancelTask al minuto |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Richieste get dell'agente A2A come getTask e getCard al minuto |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Connessioni bidirezionali live simultanee che utilizzano l'API BidiStreamQuery al minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Gestione delle quote per i carichi di produzione
Man mano che il traffico aumenta, probabilmente devi richiedere incrementi per quote specifiche dell'API Agent Platform per evitare errori 429 Resource Exhausted. Puoi configurare in modo proattivo il runtime e aumentare le quote per mantenere l'istanza di Agent Runtime reattiva, scalabile e affidabile sotto carico di produzione.
Per informazioni su come ottimizzare e scalare le prestazioni di Agent Runtime, vedi Ottimizzare e scalare le prestazioni di Agent Runtime.
Per stimare i requisiti di quota di picco:
Definisci le variabili:
U: utenti simultanei di picco (ad esempio 250).X: numero medio di richieste per utente al minuto (ad esempio, 2).Y: eventi di sessione medi generati per richiesta (ad esempio, 12 per una catena complessa che coinvolge più chiamate di strumenti).
Calcola il carico di picco:
Calcola le query al minuto (QPM) di picco: U * X
Calcola gli eventi di picco della sessione al minuto: QPM di picco * Y
Richiedi una quota con un buffer: quando richiedi un aumento della quota, aggiungi un buffer (ad esempio, il 50%) in aggiunta al picco calcolato per gestire picchi imprevisti.
La seguente tabella mostra i calcoli per le quote principali correlate al rendimento per
Agent Platform, utilizzando le variabili di esempio peak concurrent users=250,
average requests per user per minute=2 e average session events generated
per request=12:
| Nome quota | Descrizione della quota | Calcolo della base (picco) | Valore consigliato (con buffer del 50%) |
|---|---|---|---|
Query di Agent Engine al minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) |
Il numero totale di chiamate query o stream_query che il tuo agente può ricevere al minuto. |
250 users * 2 req/min = 500 QPM |
500 * 1.5 = 750 |
Aggiungi eventi di sessione al minuto (aiplatform.googleapis.com/session_event_append_requests) |
Il numero di turni o eventi in tutte le sessioni in corso. Una singola query può generare più eventi di sessione in una catena, ad esempio:
|
500 QPM * 12 events/req = 6,000 |
6,000 * 1.5 = 9,000 |
Scritture della sessione al minuto (aiplatform.googleapis.com/session_write_requests) |
Il tasso di creazione o aggiornamento delle risorse di sessione. In genere, questo valore è inferiore o uguale alla frequenza delle query. | In genere <= QPM di picco (500) |
In genere <= quota query (750) |
Richiedi un aggiustamento delle quote
Per modificare la maggior parte delle quote, utilizza la console Google Cloud . Per ulteriori informazioni, consulta Richiedi un aggiustamento delle quote.
Quote della modalità express di Agent Platform
Gli utenti della modalità express del Livello senza costi di Agent Platform hanno le seguenti quote per i servizi Agent Platform senza costi. Per saperne di più sul Livello senza costi e sulla modalità express, consulta la panoramica di Agent Platform in modalità express.
Le seguenti quote si applicano agli agenti di cui è stato eseguito il deployment su Agent Platform per un determinato progetto in modalità express in ogni regione:
| Descrizione | Quota | Metrica |
|---|---|---|
| Numero massimo di risorse di Agent Platform | 10 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Creare, eliminare o aggiornare le risorse di Agent Platform al minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
Query o StreamQuery di Agent Platform al minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
Connessioni bidirezionali live simultanee che utilizzano l'API BidiStreamQuery al minuto |
1 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
| Creare, eliminare o aggiornare le sessioni di Agent Platform al minuto | 10 | aiplatform.googleapis.com/session_write_requests |
| Aggiungi evento alle sessioni di Agent Platform al minuto | 30 | aiplatform.googleapis.com/session_event_append_requests |
| Crea, elimina o aggiorna le risorse di memoria di Agent Platform al minuto | 10 | aiplatform.googleapis.com/memory_bank_write_requests |
| Get, list, or retrieve from Memory Bank per minute | 10 | aiplatform.googleapis.com/memory_bank_read_requests |