Questo documento elenca le quote e i limiti di sistema che si applicano a Vertex AI Agent Builder.
- Le quote hanno valori predefiniti, ma in genere puoi richiedere degli adeguamenti.
- I limiti di sistema sono valori fissi che non possono essere modificati.
Google Cloud utilizza le quote per garantire l'equità e ridurre i picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una Google Cloud risorsa che Google Cloud il progetto può utilizzare. Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community degli utentiGoogle Cloud impedendo il sovraccarico dei servizi. Le quote ti aiutano inoltre a gestire le tue Google Cloud risorse.
Il sistema delle quote di Cloud esegue le seguenti operazioni:
- Monitora il tuo consumo di Google Cloud prodotti e servizi
- Limita il consumo di queste risorse
- Fornisce un modo per richiedere modifiche al valore della quota e automatizzare gli aggiustamenti della quota
Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.
In genere, le quote si applicano a livello di Google Cloud progetto. L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud , le quote vengono condivise tra tutte le applicazioni e gli indirizzi IP.
Per maggiori informazioni, consulta la panoramica delle quote di Cloud.
Quote di Vertex AI Agent Engine
Le seguenti quote si applicano a Vertex AI Agent Engine per un determinato progetto in ogni regione:| Descrizione | Quota | Metrica |
|---|---|---|
| Crea, elimina o aggiorna le risorse Vertex AI Agent Engine al minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Crea, elimina o aggiorna le sessioni di Vertex AI Agent Engine al minuto | 100 | aiplatform.googleapis.com/session_write_requests |
Query o StreamQuery Vertex AI Agent Engine al minuto |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Aggiungi evento alle sessioni di Vertex AI Agent Engine al minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Numero massimo di risorse Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Crea, elimina o aggiorna le risorse di memoria di Vertex AI Agent Engine al minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Get, list, or retrieve from Vertex AI Agent Engine Memory Bank per minute | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Richieste di esecuzione al minuto dell'ambiente sandbox (esecuzione del codice) | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entità dell'ambiente sandbox (esecuzione di codice) per regione | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Richieste di post dell'agente A2A come sendMessage e cancelTaskal minuto |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Richieste di recupero dell'agente A2A come getTask e getCard al minuto |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Connessioni bidirezionali live simultanee che utilizzano l'API BidiStreamQuery al minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Gestione delle quote per i carichi di produzione
Man mano che il traffico aumenta, probabilmente devi richiedere aumenti per quote API Vertex AI specifiche per evitare errori 429 Resource Exhausted. Puoi
configurare in modo proattivo il runtime e aumentare le quote per mantenere
Vertex AI Agent Engine Runtime reattivo, scalabile e affidabile in
carico di produzione.
Per informazioni su come ottimizzare e scalare le prestazioni di Vertex AI Agent Engine, consulta Ottimizzare e scalare le prestazioni di runtime di Vertex AI Agent Engine.
Per stimare i requisiti di quota di picco:
Definisci le variabili:
U: numero massimo di utenti simultanei (ad esempio 250).X: numero medio di richieste per utente al minuto (ad esempio, 2).Y: numero medio di eventi di sessione generati per richiesta (ad esempio, 12 per una catena complessa che coinvolge più chiamate di strumenti).
Calcola il carico di picco:
Calcola le query al minuto di picco: U * X
Calcola gli eventi di picco della sessione al minuto: picco di query al minuto * Y
Richiedi una quota con un buffer: quando richiedi un aumento della quota, aggiungi un buffer (ad esempio, il 50%) in aggiunta al picco calcolato per gestire picchi imprevisti.
La seguente tabella mostra i calcoli per le quote principali relative alle prestazioni per
Vertex AI Agent Engine, utilizzando le variabili di esempio peak concurrent users=250,
average requests per user per minute=2 e average session events generated
per request=12:
| Nome quota | Descrizione della quota | Calcolo della base (picco) | Valore consigliato (con buffer del 50%) |
|---|---|---|---|
Query di Agent Engine al minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) |
Il numero totale di chiamate query o stream_query che il tuo agente può ricevere al minuto. |
250 users * 2 req/min = 500 QPM |
500 * 1.5 = 750 |
Aggiungi eventi di sessione al minuto (aiplatform.googleapis.com/session_event_append_requests) |
Il numero di turni o eventi in tutte le sessioni in corso. Una singola query può generare più eventi di sessione in una catena, ad esempio:
|
500 QPM * 12 events/req = 6,000 |
6,000 * 1.5 = 9,000 |
Scritture della sessione al minuto (aiplatform.googleapis.com/session_write_requests) |
Il tasso di creazione o aggiornamento delle risorse di sessione. In genere, questo valore è inferiore o uguale alla frequenza delle query. | In genere <= QPM di picco (500) |
In genere <= quota query (750) |
Richiedi un aggiustamento delle quote
Per modificare la maggior parte delle quote, utilizza la Google Cloud console. Per ulteriori informazioni, consulta Richiedi un aggiustamento delle quote.
Quote della modalità Express di Vertex AI Agent Engine
Gli utenti della modalità express del livello gratuito di Vertex AI hanno le seguenti quote per i servizi Vertex AI Agent Engine senza costi. Per ulteriori informazioni sul livello gratuito e sulla modalità rapida, consulta la panoramica di Vertex AI in modalità rapida. Le seguenti quote si applicano a Vertex AI Agent Engine per un determinato progetto in modalità rapida in ogni regione:| Descrizione | Quota | Metrica |
|---|---|---|
| Numero massimo di risorse Vertex AI Agent Engine | 10 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Crea, elimina o aggiorna le risorse Vertex AI Agent Engine al minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
Query o StreamQuery Vertex AI Agent Engine al minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
Connessioni bidirezionali live simultanee che utilizzano l'API BidiStreamQuery al minuto |
1 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
| Crea, elimina o aggiorna le sessioni di Vertex AI Agent Engine al minuto | 10 | aiplatform.googleapis.com/session_write_requests |
| Aggiungi evento alle sessioni di Vertex AI Agent Engine al minuto | 30 | aiplatform.googleapis.com/session_event_append_requests |
| Crea, elimina o aggiorna le risorse di memoria di Vertex AI Agent Engine al minuto | 10 | aiplatform.googleapis.com/memory_bank_write_requests |
| Get, list, or retrieve from Vertex AI Agent Engine Memory Bank per minute | 10 | aiplatform.googleapis.com/memory_bank_read_requests |