Quote e limiti di sistema

Questo documento elenca le quote e i limiti di sistema che si applicano a Vertex AI Agent Builder.

  • Le quote hanno valori predefiniti, ma in genere puoi richiedere degli adeguamenti.
  • I limiti di sistema sono valori fissi che non possono essere modificati.

Google Cloud utilizza le quote per garantire l'equità e ridurre i picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una Google Cloud risorsa che Google Cloud il progetto può utilizzare. Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community degli utentiGoogle Cloud impedendo il sovraccarico dei servizi. Le quote ti aiutano inoltre a gestire le tue Google Cloud risorse.

Il sistema delle quote di Cloud esegue le seguenti operazioni:

Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.

In genere, le quote si applicano a livello di Google Cloud progetto. L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud , le quote vengono condivise tra tutte le applicazioni e gli indirizzi IP.

Per maggiori informazioni, consulta la panoramica delle quote di Cloud.

Quote di Vertex AI Agent Engine

Le seguenti quote si applicano a Vertex AI Agent Engine per un determinato progetto in ogni regione:
Descrizione Quota Metrica
Crea, elimina o aggiorna le risorse Vertex AI Agent Engine al minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Crea, elimina o aggiorna le sessioni di Vertex AI Agent Engine al minuto 100 aiplatform.googleapis.com/session_write_requests
Query o StreamQuery Vertex AI Agent Engine al minuto 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Aggiungi evento alle sessioni di Vertex AI Agent Engine al minuto 300 aiplatform.googleapis.com/session_event_append_requests
Numero massimo di risorse Vertex AI Agent Engine 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Crea, elimina o aggiorna le risorse di memoria di Vertex AI Agent Engine al minuto 100 aiplatform.googleapis.com/memory_bank_write_requests
Get, list, or retrieve from Vertex AI Agent Engine Memory Bank per minute 300 aiplatform.googleapis.com/memory_bank_read_requests
Richieste di esecuzione al minuto dell'ambiente sandbox (esecuzione del codice) 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entità dell'ambiente sandbox (esecuzione di codice) per regione 1000 aiplatform.googleapis.com/sandbox_environment_entities
Richieste di post dell'agente A2A come sendMessage e cancelTaskal minuto 60 aiplatform.googleapis.com/a2a_agent_post_requests
Richieste di recupero dell'agente A2A come getTask e getCard al minuto 600 aiplatform.googleapis.com/a2a_agent_get_requests
Connessioni bidirezionali live simultanee che utilizzano l'API BidiStreamQuery al minuto 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Gestione delle quote per i carichi di produzione

Man mano che il traffico aumenta, probabilmente devi richiedere aumenti per quote API Vertex AI specifiche per evitare errori 429 Resource Exhausted. Puoi configurare in modo proattivo il runtime e aumentare le quote per mantenere Vertex AI Agent Engine Runtime reattivo, scalabile e affidabile in carico di produzione.

Per informazioni su come ottimizzare e scalare le prestazioni di Vertex AI Agent Engine, consulta Ottimizzare e scalare le prestazioni di runtime di Vertex AI Agent Engine.

Per stimare i requisiti di quota di picco:

  1. Definisci le variabili:

    • U: numero massimo di utenti simultanei (ad esempio 250).

    • X: numero medio di richieste per utente al minuto (ad esempio, 2).

    • Y: numero medio di eventi di sessione generati per richiesta (ad esempio, 12 per una catena complessa che coinvolge più chiamate di strumenti).

  2. Calcola il carico di picco:

    • Calcola le query al minuto di picco: U * X

    • Calcola gli eventi di picco della sessione al minuto: picco di query al minuto * Y

  3. Richiedi una quota con un buffer: quando richiedi un aumento della quota, aggiungi un buffer (ad esempio, il 50%) in aggiunta al picco calcolato per gestire picchi imprevisti.

La seguente tabella mostra i calcoli per le quote principali relative alle prestazioni per Vertex AI Agent Engine, utilizzando le variabili di esempio peak concurrent users=250, average requests per user per minute=2 e average session events generated per request=12:

Nome quota Descrizione della quota Calcolo della base (picco) Valore consigliato (con buffer del 50%)
Query di Agent Engine al minuto (aiplatform.googleapis.com/reasoning_engine_service_query_requests) Il numero totale di chiamate query o stream_query che il tuo agente può ricevere al minuto. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750
Aggiungi eventi di sessione al minuto (aiplatform.googleapis.com/session_event_append_requests)

Il numero di turni o eventi in tutte le sessioni in corso. Una singola query può generare più eventi di sessione in una catena, ad esempio:

  1. Chiama LLM.
  2. Risposta LLM: usa lo strumento.
  3. Esegui lo strumento.
  4. Chiama l'LLM con la risposta dello strumento.
  5. L'LLM fornisce la risposta finale.
500 QPM * 12 events/req = 6,000 6,000 * 1.5 = 9,000
Scritture della sessione al minuto (aiplatform.googleapis.com/session_write_requests) Il tasso di creazione o aggiornamento delle risorse di sessione. In genere, questo valore è inferiore o uguale alla frequenza delle query. In genere <= QPM di picco (500) In genere <= quota query (750)

Richiedi un aggiustamento delle quote

Per modificare la maggior parte delle quote, utilizza la Google Cloud console. Per ulteriori informazioni, consulta Richiedi un aggiustamento delle quote.

Quote della modalità Express di Vertex AI Agent Engine

Gli utenti della modalità express del livello gratuito di Vertex AI hanno le seguenti quote per i servizi Vertex AI Agent Engine senza costi. Per ulteriori informazioni sul livello gratuito e sulla modalità rapida, consulta la panoramica di Vertex AI in modalità rapida. Le seguenti quote si applicano a Vertex AI Agent Engine per un determinato progetto in modalità rapida in ogni regione:
Descrizione Quota Metrica
Numero massimo di risorse Vertex AI Agent Engine 10 aiplatform.googleapis.com/reasoning_engine_service_entities
Crea, elimina o aggiorna le risorse Vertex AI Agent Engine al minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Query o StreamQuery Vertex AI Agent Engine al minuto 10 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Connessioni bidirezionali live simultanee che utilizzano l'API BidiStreamQuery al minuto 1 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
Crea, elimina o aggiorna le sessioni di Vertex AI Agent Engine al minuto 10 aiplatform.googleapis.com/session_write_requests
Aggiungi evento alle sessioni di Vertex AI Agent Engine al minuto 30 aiplatform.googleapis.com/session_event_append_requests
Crea, elimina o aggiorna le risorse di memoria di Vertex AI Agent Engine al minuto 10 aiplatform.googleapis.com/memory_bank_write_requests
Get, list, or retrieve from Vertex AI Agent Engine Memory Bank per minute 10 aiplatform.googleapis.com/memory_bank_read_requests