Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Quote e limiti di sistema dell'AI generativa su Gemini Enterprise Agent Platform

Questa pagina fornisce un elenco di quote per regione e modello e mostra come visualizzare e modificare le quote nella console Google Cloud .

Quote per i modelli ottimizzati

L'inferenza del modello ottimizzato condivide la stessa quota del modello di base. Non esiste una quota separata per l'inferenza del modello ottimizzato.

Limiti di incorporamento

Le richieste per gemini-embedding-001 sono soggette a quote regionali, mentre le richieste per gemini-embedding-2 sono soggette a quote globali.

Modello di base	Quota	Metrica
base_model: gemini-embedding	5.000.000	`aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	10.000.000	`aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	40.000	`aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model`

Le richieste di gemini-embedding-001 che utilizzano l'API predict sono soggette anche alle seguenti quote:

Modello di base	Quota	Metrica
base_model: gemini-embedding	100.000	`aiplatform.googleapis.com/online_prediction_requests_per_base_model`
base_model: N/A	30.000	`aiplatform.googleapis.com/online_prediction_requests`

Quote di Vertex AI Agent Engine

Le seguenti quote si applicano a Vertex AI Agent Engine per un determinato progetto in ogni regione:

Descrizione	Quota	Metrica
Crea, elimina o aggiorna le risorse Vertex AI Agent Engine al minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Crea, elimina o aggiorna le sessioni di Vertex AI Agent Engine al minuto	100	`aiplatform.googleapis.com/session_write_requests`
Recupera, elenca o recupera le sessioni di Vertex AI Agent Engine al minuto	10000	`aiplatform.googleapis.com/session_read_requests`
`Query` o `StreamQuery` Vertex AI Agent Engine al minuto	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Aggiungi evento alle sessioni di Vertex AI Agent Engine al minuto	300	`aiplatform.googleapis.com/session_event_append_requests`
Numero massimo di risorse Vertex AI Agent Engine	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Crea, elimina o aggiorna le risorse di memoria di Vertex AI Agent Engine al minuto	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Recupera, elenca o recupera da Vertex AI Agent Engine Memory Bank al minuto	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Richieste di esecuzione al minuto dell'ambiente sandbox (esecuzione di codice)	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entità Ambiente sandbox (esecuzione di codice) per regione	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Richieste di scrittura al minuto per l'ambiente sandbox (esecuzione del codice)	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
Richieste di post dell'agente A2A come `sendMessage` e `cancelTask` al minuto	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
Richieste get dell'agente A2A come `getTask` e `getCard` al minuto	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Connessioni bidirezionali live simultanee che utilizzano l'API `BidiStreamQuery` al minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Previsione in batch

Le quote e i limiti per i job di inferenza batch sono gli stessi in tutte le regioni.

Limiti dei job di inferenza batch simultanei per i modelli Gemini

Non esistono limiti di quota predefiniti per l'inferenza batch per i modelli Gemini. Il servizio batch fornisce invece l'accesso a un ampio pool condiviso di risorse, allocate dinamicamente in base alla disponibilità e alla domanda in tempo reale del modello per tutti i clienti. Quando più clienti sono attivi e hanno saturato la capacità del modello, le richieste batch potrebbero essere inserite in coda per capacità.

Quote dei job di inferenza batch simultanei per modelli non Gemini

La seguente tabella elenca le quote per il numero di job di inferenza batch simultanei, che non si applicano ai modelli Gemini:

Quota	Valore
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

Se il numero di attività inviate supera la quota allocata, le attività vengono inserite in una coda ed elaborate quando la capacità della quota diventa disponibile.

Visualizza e modifica le quote nella console Google Cloud

Per visualizzare e modificare le quote nella console Google Cloud :

Vai alla pagina Quote e limiti di sistema.

Vai a Quote e limiti di sistema

Per modificare la quota, copia e incolla la proprietà aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs nel filtro. Premi Invio.
Fai clic sui tre puntini alla fine della riga e seleziona Modifica quota.
Inserisci un nuovo valore di quota nel riquadro e fai clic su Invia richiesta.

RAG Engine su Gemini Enterprise Agent Platform

Per ogni servizio che esegue la Retrieval-Augmented Generation (RAG) utilizzando RAG Engine, si applicano le seguenti quote, con la quota misurata come richieste al minuto (RPM).

Servizio	Quota	Metrica
API di gestione dei dati di RAG Engine	60 giri/minuto	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	600 giri/minuto	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1500 giri/minuto	`Online prediction requests per base model per minute per region per base_model` Un altro filtro che puoi specificare è `base_model: textembedding-gecko`

I limiti sono i seguenti:

Servizio	Limite	Metrica
Richieste simultanee `ImportRagFiles`	3 RPM	`VertexRagService concurrent import requests per region`
Numero massimo di file per richiesta `ImportRagFiles`	10.000	`VertexRagService import rag files requests per region`

Per ulteriori limiti di frequenza e quote, consulta Limiti di frequenza dell'AI generativa su Gemini Enterprise Agent Platform.

Gen AI evaluation service

Gen AI evaluation service utilizza Gemini 2.5 Flash come modello di giudice predefinito per le metriche basate su modelli. Una singola richiesta di valutazione per una metrica basata su modello potrebbe generare più richieste sottostanti al Gen AI evaluation service. Il consumo di ciascun modello viene calcolato a livello di organizzazione, il che significa che tutte le richieste indirizzate al modello di valutazione per l'inferenza e la valutazione basata sul modello contribuiscono al consumo del modello. Le quote per Gen AI evaluation service e il modello di valutazione sottostante sono mostrate nella tabella seguente:

Richiedi quota	Quota predefinita
Richieste di Gen AI evaluation service al minuto	1000 richieste per progetto per regione
Throughput di Gemini	Dipende dal modello e dall'opzione di consumo
Esecuzioni valutazione simultanee	20 esecuzioni di valutazione simultanee per progetto per regione

Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di valutazione dell'IA generativa, potresti dover presentare una richiesta di aumento della quota. Per saperne di più, consulta Visualizzare e gestire le quote.

Limite	Valore
Timeout della richiesta di servizio di Gen AI evaluation service	60 secondi

Quando utilizzi il servizio di valutazione dell'IA generativa per la prima volta in un nuovo progetto, potresti riscontrare un ritardo iniziale di configurazione fino a due minuti. Se la prima richiesta non va a buon fine, attendi qualche minuto e riprova. Le successive richieste di valutazione vengono in genere completate entro 60 secondi.

Il numero massimo di token di input e output per le metriche basate sul modello dipende dal modello utilizzato come modello di valutazione. Consulta Modelli Google per un elenco dei modelli.

Quote di Gemini Enterprise Agent Platform Pipelines

Ogni job di ottimizzazione utilizza le pipeline di Gemini Enterprise Agent Platform. Per maggiori informazioni, consulta Quote e limiti di Agent Platform Pipelines.

Passaggi successivi

Panoramica

Quote e limiti di sistema dell'AI generativa su Gemini Enterprise Agent Platform

Quote per i modelli ottimizzati

Limiti di incorporamento

Quote di Vertex AI Agent Engine

Previsione in batch

Limiti dei job di inferenza batch simultanei per i modelli Gemini

Quote dei job di inferenza batch simultanei per modelli non Gemini

Visualizza e modifica le quote nella console Google Cloud

RAG Engine su Gemini Enterprise Agent Platform

Gen AI evaluation service

Quote di Gemini Enterprise Agent Platform Pipelines

Passaggi successivi

Standard PayGo

Quote e limiti di sistema di Agent Platform

Quote di Google Cloud

Quote e limiti di sistema dell'AI generativa su Gemini Enterprise Agent Platform Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Quote per i modelli ottimizzati

Limiti di incorporamento

Quote di Vertex AI Agent Engine

Previsione in batch

Limiti dei job di inferenza batch simultanei per i modelli Gemini

Quote dei job di inferenza batch simultanei per modelli non Gemini

Visualizza e modifica le quote nella console Google Cloud

RAG Engine su Gemini Enterprise Agent Platform

Gen AI evaluation service

Quote di Gemini Enterprise Agent Platform Pipelines

Passaggi successivi

Standard PayGo

Quote e limiti di sistema di Agent Platform

Quote di Google Cloud

Quote e limiti di sistema dell'AI generativa su Gemini Enterprise Agent Platform