IA generativa nas quotas e nos limites do sistema do Vertex AI

Esta página apresenta uma lista de quotas por região e modelo, e mostra-lhe como ver e editar as suas quotas na Google Cloud consola.

Quotas de modelos otimizados

A inferência do modelo otimizado partilha a mesma quota que o modelo base. Não existe uma quota separada para a inferência do modelo otimizado.

Limites de incorporação de texto

Cada pedido pode ter até 250 textos de entrada (gerando 1 incorporação por texto de entrada) e 20 000 tokens por pedido. Apenas os primeiros 2048 tokens em cada texto de entrada são usados para calcular as incorporações. Para gemini-embedding-001, a quota é apresentada abaixo do nome gemini-embedding.

Tokens de entrada de conteúdo incorporado por minuto por modelo base

Ao contrário dos modelos de incorporação anteriores, que eram principalmente limitados pelas quotas de RPM, a quota do modelo de incorporação do Gemini limita o número de tokens que podem ser enviados por minuto por projeto.

Quota	Valor
Tokens de entrada de conteúdo incorporado por minuto	5 000 000

Quotas do Vertex AI Agent Engine

As seguintes quotas aplicam-se ao Vertex AI Agent Engine para um determinado projeto em cada região:

Descrição	Quota	Métrica
Criar, eliminar ou atualizar recursos do Vertex AI Agent Engine por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Criar, eliminar ou atualizar sessões do Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/session_write_requests`
`Query` ou `StreamQuery` Vertex AI Agent Engine por minuto	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Anexe o evento às sessões do Vertex AI Agent Engine por minuto	300	`aiplatform.googleapis.com/session_event_append_requests`
Número máximo de recursos do Vertex AI Agent Engine	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Criar, eliminar ou atualizar recursos de memória do Vertex AI Agent Engine por minuto	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Obtenha, liste ou recupere do banco de memória do Vertex AI Agent Engine por minuto	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Ambiente de sandbox (execução de código) executa pedidos por minuto	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entidades do ambiente de sandbox (execução de código) por região	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Pedidos de publicação de agentes A2A, como `sendMessage` e `cancelTask` por minuto	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
O agente A2A recebe pedidos como `getTask` e `getCard` por minuto	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Ligações bidirecionais em direto simultâneas que usam a API `BidiStreamQuery` por minuto	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Previsão em lote

As quotas e os limites para tarefas de inferência em lote são os mesmos em todas as regiões.

Limites de tarefas de inferência em lote simultâneas para modelos do Gemini

Não existem limites de quota predefinidos na inferência em lote para os modelos Gemini. Em alternativa, o serviço de lotes oferece acesso a um grande conjunto partilhado de recursos, dinamicamente atribuídos com base na disponibilidade e na procura em tempo real do modelo por parte de todos os clientes desse modelo. Quando mais clientes estão ativos e saturam a capacidade do modelo, os seus pedidos em lote podem ser colocados em fila para capacidade.

Quotas de tarefas de inferência em lote simultâneas de modelos não Gemini

A tabela seguinte lista as quotas para o número de tarefas de inferência em lote simultâneas, que não se aplicam aos modelos Gemini:

Quota	Valor
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

Se o número de tarefas enviadas exceder a quota atribuída, as tarefas são colocadas numa fila e processadas quando a capacidade da quota ficar disponível.

Veja e edite as quotas na Google Cloud consola

Para ver e editar as quotas na Google Cloud consola, faça o seguinte:

Aceda à página Quotas e limites do sistema.

Aceda a Quotas e limites do sistema

Para ajustar a quota, copie e cole a propriedade aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs no Filtro. Prima Enter.
Clique nos três pontos no final da linha e selecione Editar quota.
Introduza um novo valor de quota no painel e clique em Enviar pedido.

Vertex AI RAG Engine

Para cada serviço realizar a geração aumentada de recuperação (RAG) através do motor RAG, aplicam-se as seguintes quotas, com a quota medida como pedidos por minuto (RPM).

Serviço	Quota	Métrica
APIs de gestão de dados do motor RAG	60 RPM	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	600 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1500 RPM	`Online prediction requests per base model per minute per region per base_model` Um filtro adicional que pode especificar é `base_model: textembedding-gecko`

Aplicam-se os seguintes limites:

Serviço	Limite	Métrica
Pedidos `ImportRagFiles` simultâneos	3 RPM	`VertexRagService concurrent import requests per region`
Número máximo de ficheiros por pedido `ImportRagFiles`	10 000	`VertexRagService import rag files requests per region`

Para ver mais limites de taxa e quotas, consulte os limites de taxa da IA generativa no Vertex AI.

Serviço de avaliação de IA gen

O serviço de avaliação de IA gen usa o Gemini 2.5 Flash como um modelo de juiz predefinido para métricas baseadas em modelos. Um único pedido de avaliação de uma métrica baseada em modelos pode resultar em vários pedidos subjacentes ao serviço de avaliação de IA gen. O consumo de cada modelo é calculado ao nível da organização, o que significa que quaisquer pedidos direcionados para o modelo de julgamento para inferência de modelos e avaliação baseada em modelos contribuem para o consumo do modelo. As quotas para o serviço de avaliação de IA gen e o modelo de juiz subjacente são apresentadas na tabela seguinte:

Pedir quota	Quota predefinida
Pedidos por minuto do serviço de avaliação de IA gen	1000 pedidos por projeto por região
Débito do Gemini	Depende do modelo e da opção de consumo
Execuções de avaliação simultâneas	20 execuções de avaliação simultâneas por projeto por região

Se receber um erro relacionado com quotas enquanto usa o serviço de avaliação de IA gen., pode ter de apresentar um pedido de aumento da quota. Consulte o artigo Veja e faça a gestão das cotas para mais informações.

Limite	Valor
Tempo limite do pedido de serviço de avaliação da IA gen	60 segundos

Quando usa o serviço de avaliação de IA gen pela primeira vez num novo projeto, pode verificar um atraso na configuração inicial de até dois minutos. Se o primeiro pedido falhar, aguarde alguns minutos e, em seguida, tente novamente. Normalmente, os pedidos de avaliação subsequentes são concluídos no prazo de 60 segundos.

O número máximo de tokens de entrada e saída para métricas baseadas em modelos depende do modelo usado como modelo de avaliação. Consulte os modelos Google para ver uma lista de modelos.

Quotas do Vertex AI Pipelines

Cada tarefa de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte as cotas e os limites do Vertex AI Pipelines.

O que se segue?

Para saber mais sobre o Standard PayGo, consulte o artigo Standard PayGo.
Para saber mais sobre as quotas e os limites da Vertex AI, consulte o artigo Quotas e limites da Vertex AI.
Para saber mais acerca das Google Cloud quotas e dos limites do sistema, consulte a documentação das quotas do Google Cloud.