Questa pagina introduce due modi per utilizzare i servizi di AI generativa, fornisce un elenco di quote per regione e modello e mostra come visualizzare e modificare le quote nella console Google Cloud .
Panoramica
Esistono due modi per utilizzare i servizi di AI generativa. Puoi scegliere il pagamento a consumo (PayGo) oppure pagare in anticipo utilizzando Provisioned Throughput.
Se utilizzi Pay as you go, l'utilizzo delle funzionalità di AI generativa è soggetto a uno dei seguenti sistemi di quote, a seconda del modello che utilizzi:
- I modelli precedenti a Gemini 2.0 utilizzano un sistema di quote standard per ogni modello di AI generativa per garantire l'equità e ridurre i picchi di utilizzo e disponibilità delle risorse. Le quote si applicano alle richieste di AI generativa su Vertex AI per un determinato progetto e una determinata regione supportata. Google Cloud
- I modelli più recenti utilizzano la quota condivisa dinamica (DSQ), che distribuisce dinamicamente la capacità PayGo disponibile tra tutti i clienti per un modello e una regione specifici, eliminando la necessità di impostare quote e inviare richieste di aumento della quota. Non sono previste quote con DSQ.
Per garantire l'alta disponibilità della tua applicazione e ottenere livelli di servizio prevedibili per i tuoi workload di produzione, consulta Throughput di cui è stato eseguito il provisioning.
Sistema di quote per modello
I seguenti modelli supportano la quota condivisa dinamica (DSQ):
- Gemini 3 Pro Modello di anteprima
- Gemini 3 Pro Image Modello di anteprima
- Gemini 2.5 Pro
- Gemini 2.5 Flash Modello di anteprima
- Gemini 2.5 Flash-Lite Modello di anteprima
- Gemini 2.5 Flash Image
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.0 Flash con API Live Modello di anteprima
- Gemini 2.0 Flash con generazione di immagini Modello di anteprima
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
I modelli non Gemini e Gemini precedenti utilizzano il sistema di quote standard. Per saperne di più, consulta Quote e limiti di Vertex AI.
I modelli di terze parti MaaS utilizzano quote standard e per ulteriori informazioni consulta la pagina di riferimento di ciascun modello: Utilizzare i modelli partner.
Quote per i modelli ottimizzati
L'inferenza del modello ottimizzato condivide la stessa quota del modello di base. Non esiste una quota separata per l'inferenza del modello ottimizzato.
Limiti di incorporamento di testo
Ogni richiesta può avere fino a 250 testi di input (generando 1 incorporamento per testo di input) e 20.000 token per richiesta. Per calcolare gli incorporamenti vengono utilizzati solo i primi 2048 token di ogni testo di input. Pergemini-embedding-001, la
quota è elencata sotto il nome
gemini-embedding.
Token di input dei contenuti incorporati al minuto per modello di base
A differenza dei modelli di incorporamento precedenti, che erano limitati principalmente dalle quote RPM, la quota per il modello Gemini Embedding limita il numero di token che possono essere inviati al minuto per progetto.
| Quota | Valore |
|---|---|
| Token di input dei contenuti incorporati al minuto | 5.000.000 |
Quote di Vertex AI Agent Engine
Le seguenti quote si applicano a Vertex AI Agent Engine per un determinato progetto in ogni regione:| Descrizione | Quota | Metrica |
|---|---|---|
| Crea, elimina o aggiorna le risorse Vertex AI Agent Engine al minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Crea, elimina o aggiorna le sessioni di Vertex AI Agent Engine al minuto | 100 | aiplatform.googleapis.com/session_write_requests |
Query o StreamQuery Vertex AI Agent Engine al minuto |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Aggiungi evento alle sessioni di Vertex AI Agent Engine al minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Numero massimo di risorse Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Crea, elimina o aggiorna le risorse di memoria di Vertex AI Agent Engine al minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Get, list, or retrieve from Vertex AI Agent Engine Memory Bank per minute | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Richieste di esecuzione al minuto dell'ambiente sandbox (esecuzione del codice) | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entità dell'ambiente sandbox (esecuzione di codice) per regione | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Richieste di post dell'agente A2A come sendMessage e cancelTaskal minuto |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Richieste di recupero dell'agente A2A come getTask e getCard al minuto |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Connessioni bidirezionali live simultanee che utilizzano l'API BidiStreamQuery al minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Previsione batch
Le quote e i limiti per i job di inferenza batch sono gli stessi in tutte le regioni.Limiti dei job di inferenza batch simultanei per i modelli Gemini
Non esistono limiti di quota predefiniti per l'inferenza batch per i modelli Gemini. Il servizio batch fornisce invece l'accesso a un ampio pool condiviso di risorse, allocate dinamicamente in base alla disponibilità e alla domanda in tempo reale del modello per tutti i clienti. Quando più clienti sono attivi e hanno saturato la capacità del modello, le richieste batch potrebbero essere inserite in coda per capacità.Quote dei job di inferenza batch simultanei per modelli non Gemini
La seguente tabella elenca le quote per il numero di job di inferenza batch simultanei, che non si applicano ai modelli Gemini:| Quota | Valore |
|---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Visualizza e modifica le quote nella console Google Cloud
Per visualizzare e modificare le quote nella console Google Cloud :- Vai alla pagina Quote e limiti di sistema.
- Per modificare la quota, copia e incolla la proprietà
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobsnel filtro. Premi Invio. - Fai clic sui tre puntini alla fine della riga e seleziona Modifica quota.
- Inserisci un nuovo valore di quota nel riquadro e fai clic su Invia richiesta.
Vai a Quote e limiti di sistema
Vertex AI RAG Engine
Per ogni servizio che esegue la Retrieval Augmented Generation (RAG) utilizzando RAG Engine, si applicano le seguenti quote, con la quota misurata come richieste al minuto (RPM).| Servizio | Quota | Metrica |
|---|---|---|
| API di gestione dei dati di RAG Engine | 60 giri/minuto | VertexRagDataService requests per minute per region |
RetrievalContexts API |
600 giri/minuto | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1500 giri/minuto | Online prediction requests per base model per minute per region per base_modelUn altro filtro che puoi specificare è base_model: textembedding-gecko |
| Servizio | Limite | Metrica |
|---|---|---|
Richieste ImportRagFiles simultanee |
3 RPM | VertexRagService concurrent import requests per region |
Numero massimo di file per richiesta ImportRagFiles |
10.000 | VertexRagService import rag files requests per region |
Per ulteriori limiti di frequenza e quote, consulta Limiti di frequenza dell'AI generativa su Vertex AI.
Gen AI evaluation service
Il servizio Gen AI evaluation utilizzagemini-2.0-flash come modello di valutazione predefinito
per le metriche basate su modelli.
Una singola richiesta di valutazione per una metrica basata su modello potrebbe comportare più richieste sottostanti al
Gen AI evaluation service. La quota di ogni modello viene calcolata in base al progetto, il che significa
che tutte le richieste indirizzate a gemini-2.0-flash per l'inferenza del modello e
la valutazione basata su modelli contribuiscono alla quota.
Le quote per Gen AI evaluation service e il modello di valutazione sottostante sono mostrate
nella tabella seguente:
| Richiedi quota | Quota predefinita |
|---|---|
| Richieste di Gen AI evaluation service al minuto | 1000 richieste per progetto per regione |
Richieste di previsione online al minuto perbase_model: gemini-2.0-flash |
Consulta Quote per regione e modello. |
| Esecuzioni valutazione simultanee | 20 esecuzioni di valutazione simultanee per progetto per regione |
Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di valutazione dell'IA generativa, potresti dover presentare una richiesta di aumento della quota. Per saperne di più, consulta Visualizzare e gestire le quote.
| Limite | Valore |
|---|---|
| Timeout della richiesta di Gen AI evaluation service | 60 secondi |
Quando utilizzi il servizio di valutazione dell'AI generativa per la prima volta in un nuovo progetto, potresti riscontrare un ritardo iniziale di configurazione fino a due minuti. Se la prima richiesta non va a buon fine, attendi qualche minuto e riprova. Le successive richieste di valutazione vengono in genere completate entro 60 secondi.
Il numero massimo di token di input e output per le metriche basate su modelli dipende dal modello utilizzato come modello giudice. Consulta Modelli Google per un elenco di modelli.
Quote di Vertex AI Pipelines
Ogni job di ottimizzazione utilizza Vertex AI Pipelines. Per saperne di più, consulta Quote e limiti di Vertex AI Pipelines.
Passaggi successivi
- Per saperne di più sulla quota condivisa dinamica, consulta Quota condivisa dinamica.
- Per informazioni su quote e limiti per Vertex AI, consulta la pagina Quote e limiti di Vertex AI.
- Per saperne di più su quote e limiti di sistema, consulta la documentazione di Cloud Quotas. Google Cloud