Questa pagina fornisce un elenco di quote per regione e modello e mostra come visualizzare e modificare le quote nella Google Cloud console.
Quote dei modelli ottimizzati
L'inferenza del modello ottimizzato condivide la stessa quota del modello di base. Non esiste una quota separata per l'inferenza del modello ottimizzato.
Limiti di incorporamento
Le richieste pergemini-embedding-001 sono soggette a quote regionali, mentre le richieste per gemini-embedding-2 sono soggette a quote globali.
| Modello di base | Quota | Metrica |
|---|---|---|
| base_model: gemini-embedding | 5.000.000 | aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model |
| base_model: gemini-embedding-2 | 10.000.000 | aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model |
| base_model: gemini-embedding-2 | 40.000 | aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model |
Le richieste per gemini-embedding-001 che utilizzano l'API predict sono soggette anche alle seguenti quote:
| Modello di base | Quota | Metrica |
|---|---|---|
| base_model: gemini-embedding | 100.000 | aiplatform.googleapis.com/online_prediction_requests_per_base_model |
| base_model: N/A | 30.000 | aiplatform.googleapis.com/online_prediction_requests |
Quote di Vertex AI Agent Engine
Le seguenti quote si applicano a Vertex AI Agent Engine per un determinato progetto in ogni regione:| Descrizione | Quota | Metrica |
|---|---|---|
| Crea, elimina o aggiorna le risorse di Vertex AI Agent Engine al minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Crea, elimina o aggiorna le sessioni di Vertex AI Agent Engine al minuto | 100 | aiplatform.googleapis.com/session_write_requests |
| Recupera, elenca o recupera le sessioni di Vertex AI Agent Engine al minuto | 10000 | aiplatform.googleapis.com/session_read_requests |
Query o StreamQuery Vertex AI Agent Engine por
minuto
|
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Aggiungi un evento alle sessioni di Vertex AI Agent Engine al minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Numero massimo di risorse di Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Crea, elimina o aggiorna le risorse di memoria di Vertex AI Agent Engine al minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Recupera, elenca o recupera da Vertex AI Agent Engine Memory Bank al minuto | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Richieste di esecuzione dell'ambiente sandbox (esecuzione del codice) al minuto | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entità dell'ambiente sandbox (esecuzione del codice) per regione | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
| Richieste di scrittura dell'ambiente sandbox (esecuzione del codice) al minuto | 500 | aiplatform.googleapis.com/sandbox_environment_write_requests |
Richieste di post dell'agente A2A come sendMessage e cancelTask al
minuto
|
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Richieste di recupero dell'agente A2A come getTask e getCard al minuto
|
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Connessioni bidirezionali live simultanee che utilizzano l'API BidiStreamQuery al
minuto
|
10 |
aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
|
Previsione in batch
Le quote e i limiti per i job di inferenza batch sono gli stessi in tutte le regioni.Limiti dei job di inferenza batch simultanei per i modelli Gemini
Non esistono limiti di quota predefiniti per l'inferenza batch per i modelli Gemini. Il servizio batch fornisce invece l'accesso a un pool di risorse condiviso di grandi dimensioni, allocato dinamicamente in base alla disponibilità e alla domanda in tempo reale del modello da parte di tutti i clienti per quel modello. Quando più clienti sono attivi e la capacità del modello è satura, le richieste batch potrebbero essere messe in coda per la capacità.Quote dei job di inferenza batch simultanei per i modelli non Gemini
La tabella seguente elenca le quote per il numero di job di inferenza batch simultanei, che non si applicano ai modelli Gemini:| Quota | Valore |
|---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Visualizza e modifica le quote nella Google Cloud console
Per visualizzare e modificare le quote nella Google Cloud console:- Vai alla pagina Quote e limiti di sistema.
- Per modificare la quota, copia e incolla la proprietà
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobsnel Filtro. Premi Invio. - Fai clic sui tre puntini alla fine della riga e seleziona Modifica quota.
- Inserisci un nuovo valore della quota nel riquadro e fai clic su Invia richiesta.
Vai a Quote e limiti di sistema
Vertex AI RAG Engine
Per ogni servizio che esegue la Retrieval-Augmented Generation (RAG) utilizzando RAG Engine, si applicano le seguenti quote, con la quota misurata come richieste al minuto (RPM).| Servizio | Quota | Metrica |
|---|---|---|
| API di gestione dei dati di RAG Engine | 60 RPM | VertexRagDataService requests per minute per region |
API RetrievalContexts |
600 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1500 RPM | Online prediction requests per base model per minute per region per base_modelUn filtro aggiuntivo che puoi specificare è base_model: textembedding-gecko |
| Servizio | Limite | Metrica |
|---|---|---|
Richieste ImportRagFiles simultanee |
3 RPM | VertexRagService concurrent import requests per region |
Numero massimo di file per richiesta ImportRagFiles |
10.000 | VertexRagService import rag files requests per region |
Per ulteriori limiti di frequenza e quote, consulta Limiti di frequenza di AI generativa su Gemini Enterprise Agent Platform limiti di frequenza.
Gen AI evaluation service
Gen AI evaluation service utilizza Gemini 2.5 Flash come modello di valutazione predefinito per le metriche basate su modelli. Una singola richiesta di valutazione per una metrica basata su modelli potrebbe generare più richieste sottostanti a Gen AI evaluation service. Il consumo di ogni modello viene calcolato a livello di organizzazione, il che significa che tutte le richieste indirizzate al modello di valutazione per l'inferenza del modello e la valutazione basata su modelli contribuiscono al consumo del modello. Le quote per Gen AI evaluation service e il modello di valutazione sottostante sono riportate nella tabella seguente:| Quota di richieste | Quota predefinita |
|---|---|
| Richieste di Gen AI evaluation service al minuto | 1000 richieste per progetto per regione |
| Velocità effettiva di Gemini | Dipende dal modello e dall'opzione di consumo |
| Esecuzioni di valutazione simultanee | 20 esecuzioni di valutazione simultanee per progetto per regione |
Se ricevi un errore relativo alle quote durante l'utilizzo di Gen AI evaluation service, potresti dover presentare una richiesta di aumento della quota. Per saperne di più, consulta Visualizza e gestisci le quote.
| Limite | Valore |
|---|---|
| Timeout della richiesta di servizio di Gen AI evaluation service | 60 secondi |
Quando utilizzi Gen AI evaluation service per la prima volta in un nuovo progetto, potresti riscontrare un ritardo di configurazione iniziale fino a due minuti. Se la prima richiesta non va a buon fine, attendi qualche minuto e riprova. In genere, le richieste di valutazione successive vengono completate entro 60 secondi.
Il numero massimo di token di input e output per le metriche basate su modelli dipende dal modello utilizzato come modello di valutazione. Per un elenco dei modelli, consulta Modelli Google per un elenco di modelli.
Quote di Gemini Enterprise Agent Platform Pipelines
Ogni job di ottimizzazione utilizza Gemini Enterprise Agent Platform Pipelines. Per saperne di più, consulta Quote e limiti di Agent Platform Pipelines.
Passaggi successivi
Pay as you go standard
Scopri di più su Pay as you go standard, un'opzione di consumo di Agent Platform che ti consente di pagare solo le risorse che consumi, senza richiedere impegni finanziari iniziali.
Quote e limiti di sistema di Agent Platform
Quote e limiti di sistema relativi ad Agent Platform, esclusi quote e limiti di sistema specifici del prodotto.
Quote di Google Cloud
Scopri in che modo Google Cloud limita la quantità di una risorsa che può essere utilizzata nel tuo progetto Google Cloud e come le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete.