Nesta página, você encontra uma lista de cotas por região e modelo e aprende a acessar e editar suas cotas no console do Google Cloud .
Cotas de modelos ajustados
A inferência do modelo ajustado compartilha a mesma cota do modelo de base. Não há uma cota separada para inferência de modelo ajustado.
Limites de incorporação de texto
Cada solicitação pode ter até 250 textos de entrada (gerando um embedding por texto de entrada) e 20.000 tokens por solicitação. Apenas os primeiros 2.048 tokens em cada texto de entrada são usados para calcular os embeddings. Paragemini-embedding-001, a cota está listada com o nome gemini-embedding.
Tokens de entrada de conteúdo incorporado por minuto e por modelo de base
Ao contrário dos modelos de incorporação anteriores, que eram limitados principalmente por cotas de RPM, a cota do modelo de incorporação do Gemini limita o número de tokens que podem ser enviados por minuto por projeto.
| Cota | Valor |
|---|---|
| Tokens de entrada de conteúdo incorporado por minuto | 5.000.000 |
Cotas do Vertex AI Agent Engine
As cotas a seguir se aplicam ao Vertex AI Agent Engine para um determinado projeto em cada região:| Descrição | Cota | Métrica |
|---|---|---|
| Criar, excluir ou atualizar recursos do Agent Engine da Vertex AI por minuto | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Criar, excluir ou atualizar sessões do Vertex AI Agent Engine por minuto | 100 | aiplatform.googleapis.com/session_write_requests |
Query ou StreamQuery Vertex AI Agent Engine por minuto |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Adicionar evento às sessões do Agent Engine da Vertex AI por minuto | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Número máximo de recursos do Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Criar, excluir ou atualizar recursos de memória do Agent Engine da Vertex AI por minuto | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Receber, listar ou extrair do Memory Bank do Vertex AI Agent Engine por minuto | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Solicitações de execução por minuto no ambiente de sandbox (execução de código) | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entidades de ambiente de sandbox (execução de código) por região | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Solicitações de postagem do agente A2A, como sendMessage e cancelTask por minuto |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Solicitações GET do agente A2A, como getTask e getCard por minuto |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Conexões bidirecionais simultâneas em tempo real usando a API BidiStreamQuery por minuto |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Previsão em lote
As cotas e os limites para jobs de inferência em lote são os mesmos em todas as regiões.Limites de jobs de inferência em lote simultâneos para modelos do Gemini
Não há limites de cota predefinidos para inferência em lote para modelos do Gemini. Em vez disso, o serviço de lote fornece acesso a um grande pool compartilhado de recursos, alocados dinamicamente com base na disponibilidade e demanda em tempo real do modelo em todos os clientes. Quando mais clientes estão ativos e saturam a capacidade do modelo, suas solicitações em lote podem ser colocadas em fila por capacidade.Cotas de jobs de inferência em lote simultâneos para modelos que não são do Gemini
A tabela a seguir lista as cotas para o número de jobs de inferência em lote simultâneos, que não se aplicam aos modelos do Gemini:| Cota | Valor |
|---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Ver e editar as cotas no console do Google Cloud
Para ver e editar as cotas no console do Google Cloud , faça o seguinte:- Acesse a página Cotas e limites do sistema.
- Para ajustar a cota, copie e cole a propriedade
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobsno Filtro. Pressione Enter. - Clique nos três pontos no final da linha e selecione Editar cota.
- Insira um novo valor de cota no painel e clique em Enviar solicitação.
Acesse "Cotas e limites do sistema"
Vertex AI RAG Engine
Para que cada serviço realize a geração aumentada de recuperação (RAG) usando o mecanismo RAG, as cotas a seguir se aplicam, com a cota medida como solicitações por minuto (RPM).| Serviço | Cota | Métrica |
|---|---|---|
| APIs de gerenciamento de dados do mecanismo RAG | 60 RPM | VertexRagDataService requests per minute per region |
API RetrievalContexts |
600 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1.500 RPM | Online prediction requests per base model per minute per region per base_modelOutro filtro que você pode especificar é base_model: textembedding-gecko |
| Serviço | Limite | Métrica |
|---|---|---|
Solicitações simultâneas de ImportRagFiles |
3 RPM | VertexRagService concurrent import requests per region |
Número máximo de arquivos por solicitação ImportRagFiles |
10.000 | VertexRagService import rag files requests per region |
Para mais limites de taxa e cotas, consulte Limites de taxa da IA generativa na Vertex AI.
Serviço de avaliação de IA generativa
O serviço de avaliação de IA generativa usa o Gemini 2.5 Flash como um modelo de juiz padrão para métricas baseadas em modelo. Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao serviço de avaliação de IA generativa. O consumo de cada modelo é calculado no nível da organização, o que significa que todas as solicitações direcionadas ao modelo de julgamento para inferência de modelo e avaliação baseada em modelo contribuem para o consumo do modelo. As cotas do serviço de avaliação de IA generativa e do modelo juiz subjacente são mostradas na tabela a seguir:| Cota de solicitação | Cota padrão |
|---|---|
| Solicitações do serviço de avaliação de IA generativa por minuto | 1.000 solicitações por projeto em cada região |
| Capacidade de processamento do Gemini | Depende do modelo e da opção de consumo |
| Execuções de avaliação simultâneas | 20 execuções de avaliação simultâneas por projeto e região |
Se você receber um erro relacionado a cotas ao usar o serviço de avaliação de IA generativa, talvez seja necessário registrar uma solicitação de aumento de cota. Consulte Ver e gerenciar cotas para mais informações.
| Limite | Valor |
|---|---|
| Tempo limite da solicitação do serviço de avaliação de IA generativa | 60 segundos |
Quando você usa o serviço de avaliação de IA generativa pela primeira vez em um novo projeto, pode haver um atraso na configuração inicial de até dois minutos. Se a primeira solicitação falhar, aguarde alguns minutos e tente de novo. As próximas solicitações de avaliação normalmente são concluídas em 60 segundos.
Os tokens máximos de entrada e saída para métricas baseadas em modelo dependem do modelo usado como juiz. Consulte Modelos do Google para ver uma lista de modelos.
Cotas do Vertex AI Pipelines
Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.
A seguir
- Para saber mais sobre o PayGo Standard, consulte PayGo Standard.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre cotas e limites do sistema, consulte a documentação sobre as cotas do Cloud. Google Cloud