IA generativa em cotas e limites do sistema da Vertex AI

Nesta página, apresentamos duas maneiras de consumir serviços de IA generativa, fornecemos uma lista de cotas por região e modelo e mostramos como visualizar e editar suas cotas no console Google Cloud .

Visão geral

Há duas maneiras de consumir serviços de IA generativa. Você pode escolher o pagamento por utilização (PayGo) ou pagar antecipadamente usando a capacidade de processamento provisionada.

Se você estiver usando o PayGo, seu uso dos recursos de IA generativa estará sujeito a um dos seguintes sistemas de cotas, dependendo do modelo usado:

  • Os modelos anteriores ao Gemini 2.0 usam um sistema de cotas padrão para cada modelo de IA generativa, garantindo a imparcialidade e reduzindo picos no uso e na disponibilidade de recursos. As cotas se aplicam à IA generativa nas solicitações da Vertex AI para um determinado Google Cloud projeto e região compatível.
  • Os modelos mais recentes usam a cota compartilhada dinâmica (DSQ), que distribui dinamicamente a capacidade disponível do PayGo entre todos os clientes de um modelo e uma região específicos, eliminando a necessidade de definir cotas e enviar solicitações de aumento de cota. Não há cotas com a DSQ.

Para garantir alta disponibilidade do seu aplicativo e níveis de serviço previsíveis para suas cargas de trabalho de produção, consulte Capacidade provisionada.

Sistema de cotas por modelo

Os seguintes modelos são compatíveis com a cota compartilhada dinâmica (DSQ):

Os modelos que não são do Gemini e as versões anteriores usam o sistema de cotas padrão. Para mais informações, consulte Cotas e limites da Vertex AI.

Os modelos de terceiros do MaaS usam cotas padrão. Para mais informações, consulte a página de referência de cada modelo: Usar modelos de parceiros.

Cotas de modelos ajustados

A inferência de modelo ajustado compartilha a mesma cota do modelo base. Não há uma cota separada para inferência de modelos ajustados.

Limites de incorporação de texto

Cada solicitação pode ter até 250 textos de entrada (gerando um embedding por texto de entrada) e 20.000 tokens por solicitação. Apenas os primeiros 2.048 tokens em cada texto de entrada são usados para calcular os embeddings. Para gemini-embedding-001, a cota está listada com o nome gemini-embedding.

Incorporar tokens de entrada de conteúdo por minuto, por modelo de base

Ao contrário dos modelos de incorporação anteriores, que eram limitados principalmente por cotas de RPM, a cota do modelo de incorporação do Gemini limita o número de tokens que podem ser enviados por minuto por projeto.

Cota Valor
Tokens de entrada de conteúdo incorporado por minuto 5.000.000

Cotas do Vertex AI Agent Engine

As cotas a seguir se aplicam ao Vertex AI Agent Engine para um determinado projeto em cada região:
Descrição Cota Métrica
Criar, excluir ou atualizar recursos do Agent Engine da Vertex AI por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Criar, excluir ou atualizar sessões do Vertex AI Agent Engine por minuto 100 aiplatform.googleapis.com/session_write_requests
Query ou StreamQuery Vertex AI Agent Engine por minuto 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Adicionar evento às sessões do Agent Engine da Vertex AI por minuto 300 aiplatform.googleapis.com/session_event_append_requests
Número máximo de recursos do Vertex AI Agent Engine 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Criar, excluir ou atualizar recursos de memória do Agent Engine da Vertex AI por minuto 100 aiplatform.googleapis.com/memory_bank_write_requests
Receber, listar ou extrair do Memory Bank do Vertex AI Agent Engine por minuto 300 aiplatform.googleapis.com/memory_bank_read_requests
Solicitações de execução por minuto no ambiente de sandbox (execução de código) 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entidades do ambiente de sandbox (execução de código) por região 1000 aiplatform.googleapis.com/sandbox_environment_entities
Solicitações de postagem do agente A2A, como sendMessage e cancelTask por minuto 60 aiplatform.googleapis.com/a2a_agent_post_requests
Solicitações GET do agente A2A, como getTask e getCard por minuto 600 aiplatform.googleapis.com/a2a_agent_get_requests
Conexões bidirecionais simultâneas em tempo real usando a API BidiStreamQuery por minuto 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Previsão em lote

As cotas e os limites para jobs de inferência em lote são os mesmos em todas as regiões.

Limites de jobs de inferência em lote simultâneos para modelos do Gemini

Não há limites de cota predefinidos para inferência em lote para modelos do Gemini. Em vez disso, o serviço de lote fornece acesso a um grande pool compartilhado de recursos, alocado dinamicamente com base na disponibilidade em tempo real e na demanda do modelo em todos os clientes. Quando mais clientes estão ativos e saturam a capacidade do modelo, suas solicitações em lote podem ser colocadas em fila para capacidade.

Cotas de jobs de inferência em lote simultâneos para modelos que não são do Gemini

A tabela a seguir lista as cotas para o número de jobs de inferência em lote simultâneos, que não se aplicam aos modelos do Gemini:
Cota Valor
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
Se o número de tarefas enviadas exceder a cota alocada, elas serão colocadas em uma fila e processadas quando a capacidade da cota ficar disponível.

Ver e editar as cotas no console do Google Cloud

Para ver e editar as cotas no console do Google Cloud , faça o seguinte:
  1. Acesse a página Cotas e limites do sistema.
  2. Acesse "Cotas e limites do sistema"

  3. Para ajustar a cota, copie e cole a propriedade aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs no Filtro. Pressione Enter.
  4. Clique nos três pontos no final da linha e selecione Editar cota.
  5. Insira um novo valor de cota no painel e clique em Enviar solicitação.

Vertex AI RAG Engine

Para que cada serviço realize a geração aumentada de recuperação (RAG) usando o mecanismo RAG, as cotas a seguir se aplicam, com a cota medida como solicitações por minuto (RPM).
Serviço Cota Métrica
APIs de gerenciamento de dados do mecanismo RAG 60 RPM VertexRagDataService requests per minute per region
API RetrievalContexts 600 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1.500 RPM Online prediction requests per base model per minute per region per base_model

Outro filtro que você pode especificar é base_model: textembedding-gecko
Os seguintes limites são aplicáveis:
Serviço Limite Métrica
Solicitações simultâneas de ImportRagFiles 3 RPM VertexRagService concurrent import requests per region
Número máximo de arquivos por solicitação ImportRagFiles 10.000 VertexRagService import rag files requests per region

Para mais limites de taxa e cotas, consulte Limites de taxa da IA generativa na Vertex AI.

Serviço de avaliação de IA generativa

O serviço de avaliação de IA generativa usa o gemini-2.0-flash como um modelo de avaliação padrão para métricas baseadas em modelo. Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao serviço de avaliação de IA generativa. A cota de cada modelo é calculada por projeto, o que significa que todas as solicitações direcionadas ao gemini-2.0-flash para inferência de modelo e avaliação baseada em modelo contribuem para a cota. As cotas do serviço de avaliação de IA generativa e do modelo juiz subjacente são mostradas na tabela a seguir:
Cota de solicitação Cota padrão
Solicitações do serviço de avaliação de IA generativa por minuto 1.000 solicitações por projeto em cada região
Solicitações de previsão on-line por minuto para
base_model: gemini-2.0-flash
Consulte Cotas por região e modelo.
Execuções de avaliação simultâneas 20 execuções de avaliação simultâneas por projeto e região

Se você receber um erro relacionado a cotas ao usar o serviço de avaliação de IA generativa, talvez seja necessário registrar uma solicitação de aumento de cota. Consulte Ver e gerenciar cotas para mais informações.

Limite Valor
Tempo limite da solicitação do serviço de avaliação de IA generativa 60 segundos

Quando você usa o serviço de avaliação de IA generativa pela primeira vez em um novo projeto, pode haver um atraso na configuração inicial de até dois minutos. Se a primeira solicitação falhar, aguarde alguns minutos e tente de novo. As próximas solicitações de avaliação normalmente são concluídas em 60 segundos.

Os tokens máximos de entrada e saída para métricas baseadas em modelo dependem do modelo usado como juiz. Consulte Modelos do Google para ver uma lista de modelos.

Cotas do Vertex AI Pipelines

Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.

A seguir