En esta página, se proporciona una lista de las cuotas por región y modelo, y se muestra cómo ver y editar tus cuotas en la consola de Google Cloud .
Cuotas de modelos ajustados
La inferencia del modelo ajustado comparte la misma cuota que el modelo base. No hay una cuota independiente para la inferencia del modelo ajustado.
Límites de embedding de texto
Cada solicitud puede tener hasta 250 textos de entrada (lo que genera 1 incorporación por texto de entrada) y 20,000 tokens por solicitud. Solo se usan los primeros 2,048 tokens de cada texto de entrada para calcular las incorporaciones. Paragemini-embedding-001, la cuota aparece con el nombre gemini-embedding.
Tokens de entrada de contenido incorporado por minuto y por modelo base
A diferencia de los modelos de embeddings anteriores, que se limitaban principalmente por las cuotas de RPM, la cuota del modelo de Gemini Embedding limita la cantidad de tokens que se pueden enviar por minuto y por proyecto.
| Cuota | Valor |
|---|---|
| Tokens de entrada de contenido incorporado por minuto | 5,000,000 |
Cuotas de Vertex AI Agent Engine
Las siguientes cuotas se aplican a Vertex AI Agent Engine para un proyecto determinado en cada región:| Descripción | Cuota | Métrica |
|---|---|---|
| Crear, borrar o actualizar recursos de Agent Engine de Vertex AI por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Crear, borrar o actualizar sesiones de Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/session_write_requests |
Query o StreamQuery Vertex AI Agent Engine por minuto |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Eventos de anexión a sesiones de Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Cantidad máxima de recursos de Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Crear, borrar o actualizar recursos de memoria de Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Obtener, enumerar o recuperar información de Memory Bank de Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Solicitudes de ejecución por minuto en el entorno de zona de pruebas (ejecución de código) | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entidades de entorno de zona de pruebas (ejecución de código) por región | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Solicitudes de publicación de agentes de A2A, como sendMessage y cancelTask por minuto |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Solicitudes GET de agentes de A2A, como getTask y getCard, por minuto |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Conexiones bidireccionales en vivo simultáneas que usan la API de BidiStreamQuery por minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Predicción por lotes
Las cuotas y los límites de los trabajos de inferencia por lotes son los mismos en todas las regiones.Límites de trabajos de inferencia por lotes simultáneos para modelos de Gemini
No hay límites de cuota predefinidos en la inferencia por lotes para los modelos de Gemini. En cambio, el servicio por lotes proporciona acceso a un grupo grande y compartido de recursos que se asignan de forma dinámica según la disponibilidad y la demanda en tiempo real del modelo en todos los clientes que lo usan. Cuando más clientes estén activos y saturen la capacidad del modelo, es posible que tus solicitudes por lotes se pongan en cola por capacidad.Cuotas de trabajos de inferencia por lotes simultáneos para modelos que no son de Gemini
En la siguiente tabla, se enumeran las cuotas para la cantidad de trabajos de inferencia por lotes simultáneos, que no se aplican a los modelos de Gemini:| Cuota | Valor |
|---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Consulta y edita las cuotas en la consola de Google Cloud
Para ver y editar las cuotas en la consola de Google Cloud , haz lo siguiente:- Ve a la página Cuotas y límites del sistema.
- Para ajustar la cuota, copia y pega la propiedad
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobsen el Filtro. Presiona Intro. - Haz clic en los tres puntos al final de la fila y selecciona Editar cuota.
- Ingresa un valor de cuota nuevo en el panel y haz clic en Enviar solicitud.
Ir a Cuotas y límites del sistema
Vertex AI RAG Engine
Para que cada servicio realice la generación mejorada por recuperación (RAG) con RAG Engine, se aplican las siguientes cuotas, que se miden como solicitudes por minuto (RPM).| Servicio | Cuota | Métrica |
|---|---|---|
| APIs de administración de datos de RAG Engine | 60 RPM | VertexRagDataService requests per minute per region |
API RetrievalContexts |
600 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_modelUn filtro adicional que puedes especificar es base_model: textembedding-gecko |
| Servicio | Límite | Métrica |
|---|---|---|
Solicitudes ImportRagFiles simultáneas |
3 RPM | VertexRagService concurrent import requests per region |
Cantidad máxima de archivos por solicitud de ImportRagFiles |
10,000 | VertexRagService import rag files requests per region |
Para obtener más información sobre los límites de frecuencia y las cuotas, consulta Límites de frecuencia de la IA generativa en Vertex AI.
Gen AI Evaluation Service
El servicio de evaluación de IA generativa usa Gemini 2.5 Flash como modelo de juez predeterminado para las métricas basadas en modelos. Una sola solicitud de evaluación para una métrica basada en modelos puede dar como resultado varias solicitudes subyacentes al servicio de evaluación de IA generativa. El consumo de cada modelo se calcula a nivel de la organización, lo que significa que cualquier solicitud dirigida al modelo de evaluación para la inferencia de modelos y la evaluación basada en modelos contribuye al consumo del modelo. En la siguiente tabla, se muestran las cuotas del servicio de evaluación de IA generativa y del modelo de juez subyacente:| Cuota de solicitudes | Cuota predeterminada |
|---|---|
| Solicitudes de Gen AI Evaluation Service por minuto | 1,000 solicitudes por proyecto y por región |
| Capacidad de procesamiento de Gemini | Depende del modelo y la opción de consumo |
| Ejecuciones de evaluación simultáneas | 20 ejecuciones de evaluación simultáneas por proyecto y por región |
Si recibes un error relacionado con las cuotas mientras usas el servicio de evaluación de IA generativa, es posible que debas presentar una solicitud de aumento de cuota. Consulta Visualiza y administra las cuotas para obtener más información.
| Límite | Valor |
|---|---|
| Tiempo de espera de la solicitud de Gen AI Evaluation Service | 60 segundos |
Cuando usas el servicio de evaluación de IA generativa por primera vez en un proyecto nuevo, es posible que experimentes un retraso de configuración inicial de hasta dos minutos. Si tu primera solicitud falla, espera unos minutos y vuelve a intentarlo. Las solicitudes de evaluación posteriores suelen completarse en 60 segundos.
Los tokens de entrada y salida máximos para las métricas basadas en modelos dependen del modelo que se usa como modelo de juez. Consulta Modelos de Google para obtener una lista de modelos.
Cuotas de Vertex AI Pipelines
Cada trabajo de ajuste usa Vertex AI Pipelines. Para obtener más información, consulta Cuotas y límites de Vertex AI Pipelines.
¿Qué sigue?
- Para obtener más información sobre el plan Estándar de pago por uso, consulta Estándar de pago por uso.
- Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
- Para obtener más información sobre las Google Cloud cuotas y los límites del sistema, consulta la documentación de Cloud Quotas.