En esta página, se proporciona una lista de cuotas por región y modelo, y se muestra cómo ver y editar tus cuotas en la Google Cloud consola de.
Cuotas de modelos ajustados
La inferencia de modelos ajustados comparte la misma cuota que el modelo base. No hay una cuota independiente para la inferencia de modelos ajustados.
Límites de embeddings
Las solicitudes degemini-embedding-001 están sujetas a cuotas regionales, mientras que las solicitudes de gemini-embedding-2 están sujetas a cuotas globales.
| Modelo base | Quota | Métrica |
|---|---|---|
| base_model: gemini-embedding | 5,000,000 | aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model |
| base_model: gemini-embedding-2 | 10,000,000 | aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model |
| base_model: gemini-embedding-2 | 40,000 | aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model |
Las solicitudes de gemini-embedding-001 que usan la API de predict también están sujetas a las siguientes cuotas:
| Modelo base | Quota | Métrica |
|---|---|---|
| base_model: gemini-embedding | 100,000 | aiplatform.googleapis.com/online_prediction_requests_per_base_model |
| base_model: N/A | 30,000 | aiplatform.googleapis.com/online_prediction_requests |
Cuotas de Vertex AI Agent Engine
Las siguientes cuotas se aplican a Vertex AI Agent Engine para un proyecto determinado en cada región:| Descripción | Quota | Métrica |
|---|---|---|
| Crea, borra o actualiza recursos de Vertex AI Agent Engine por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Crea, borra o actualiza sesiones de Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/session_write_requests |
| Obtén, enumera o recupera sesiones de Vertex AI Agent Engine por minuto | 10000 | aiplatform.googleapis.com/session_read_requests |
Query o StreamQuery Vertex AI Agent Engine por
minuto
|
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Agrega un evento a las sesiones de Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Cantidad máxima de recursos de Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Crea, borra o actualiza recursos de memoria de Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Obtén, enumera o recupera de Memory Bank de Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Solicitudes de ejecución del entorno de zona de pruebas (ejecución de código) por minuto | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entidades del entorno de zona de pruebas (ejecución de código) por región | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
| Solicitudes de escritura del entorno de zona de pruebas (ejecución de código) por minuto | 500 | aiplatform.googleapis.com/sandbox_environment_write_requests |
Solicitudes de publicación de agentes A2A, como sendMessage y cancelTask por
minuto
|
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Solicitudes de obtención de agentes A2A, como getTask y getCard por minuto
|
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Conexiones bidireccionales en vivo simultáneas con la BidiStreamQuery API por
minuto
|
10 |
aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
|
Predicción por lotes
Las cuotas y los límites de los trabajos de inferencia por lotes son los mismos en todas las regiones.Límites de trabajos de inferencia por lotes simultáneos para modelos de Gemini
No hay límites de cuota predefinidos en la inferencia por lotes para los modelos de Gemini. En cambio, el servicio por lotes proporciona acceso a un grupo grande y compartido de recursos, asignados de forma dinámica según la disponibilidad y la demanda en tiempo real del modelo en todos los clientes para ese modelo. Cuando más clientes están activos y saturan la capacidad del modelo, es posible que tus solicitudes por lotes se pongan en cola para obtener capacidad.Cuotas de trabajos de inferencia por lotes simultáneos para modelos que no son de Gemini
En la siguiente tabla, se enumeran las cuotas de la cantidad de trabajos de inferencia por lotes simultáneos, que no se aplican a los modelos de Gemini:| Quota | Valor |
|---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Consulta y edita las cuotas en la Google Cloud consola de
Para ver y editar las cuotas en la Google Cloud consola, haz lo siguiente:- Ve a la página Cuotas y límites del sistema.
- Para ajustar la cuota, copia y pega la propiedad
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobsen el Filtro. Presiona Intro. - Haz clic en los tres puntos al final de la fila y selecciona Editar cuota.
- Ingresa un valor de cuota nuevo en el panel y haz clic en Enviar solicitud.
Ir a Cuotas y límites del sistema
Vertex AI RAG Engine
Para que cada servicio realice la generación mejorada por recuperación (RAG) con RAG Engine, se aplican las siguientes cuotas, con la cuota medida como solicitudes por minuto (RPM).| Servicio | Quota | Métrica |
|---|---|---|
| APIs de administración de datos de RAG Engine | 60 RPM | VertexRagDataService requests per minute per region |
API de RetrievalContexts |
600 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_modelUn filtro adicional que puedes especificar es base_model: textembedding-gecko |
| Servicio | Límite | Métrica |
|---|---|---|
Solicitudes ImportRagFiles simultáneas |
3 RPM | VertexRagService concurrent import requests per region |
Cantidad máxima de archivos por solicitud ImportRagFiles |
10,000 | VertexRagService import rag files requests per region |
Para obtener más límites de frecuencia y cuotas, consulta IA generativa en los límites de frecuencia de Gemini Enterprise Agent Platform .
Gen AI Evaluation Service
Gen AI Evaluation Service usa Gemini 2.5 Flash como modelo de juez predeterminado para las métricas basadas en modelos. Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al Gen AI Evaluation Service. El consumo de cada modelo se calcula a nivel de la organización, lo que significa que cualquier solicitud dirigida al modelo de juez para la inferencia de modelos y la evaluación basada en modelos contribuye al consumo del modelo. Las cuotas de Gen AI Evaluation Service y el modelo de juez subyacente se muestran en la siguiente tabla:| Cuota de solicitudes | Cuota predeterminada |
|---|---|
| Solicitudes de Gen AI Evaluation Service por minuto | 1,000 solicitudes por proyecto y por región |
| Rendimiento de Gemini | Depende del modelo y la opción de consumo |
| Ejecuciones de evaluación simultáneas | 20 ejecuciones de evaluación simultáneas por proyecto y por región |
Si recibes un error relacionado con las cuotas mientras usas Gen AI Evaluation Service, es posible que debas presentar una solicitud de aumento de cuota. Consulta Ve y administra cuotas para obtener más información.
| Límite | Valor |
|---|---|
| Tiempo de espera de la solicitud de servicio de Gen AI Evaluation Service | 60 segundos |
Cuando usas Gen AI Evaluation Service por primera vez en un proyecto nuevo, es posible que experimentes un retraso de configuración inicial de hasta dos minutos. Si tu primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en 60 segundos.
Los tokens de entrada y salida máximos para las métricas basadas en modelos dependen del modelo que se usa como modelo de juez. Consulta Modelos de Google para obtener una lista de modelos.
Cuotas de Gemini Enterprise Agent Platform Pipelines
Cada trabajo de ajuste usa Gemini Enterprise Agent Platform Pipelines. Para obtener más información, consulta Cuotas y límites de Agent Platform Pipelines.
¿Qué sigue?
PayGo estándar
Obtén información sobre PayGo estándar, una opción de consumo de Agent Platform que te permite pagar solo por los recursos que consumes, sin necesidad de compromisos financieros iniciales.
Cuotas y límites del sistema de Agent Platform
Cuotas y límites del sistema relacionados con Agent Platform, excluidas las cuotas y los límites del sistema específicos del producto.
Cuotas de Google Cloud
Obtén información sobre cómo Google Cloud restringe la cantidad de un recurso que puede usar tu proyecto de Google Cloud y cómo se aplican las cuotas a una variedad de tipos de recursos, incluidos los componentes de hardware, software y red.