O pagamento por uso padrão (Standard PayGo) é uma opção de consumo para usar o pacote de modelos de IA generativa da Plataforma de agentes do Gemini Enterprise, incluindo a família de modelos do Gemini. Com o Standard PayGo, você paga apenas pelos recursos consumidos, sem precisar de compromissos financeiros iniciais. Para oferecer uma performance mais previsível para cargas de trabalho escalonáveis, o Standard PayGo incorpora um sistema de níveis de uso. A Agent Platform ajusta dinamicamente a capacidade de processamento de linha de base da sua organização com base no gasto total em serviços qualificados da Agent Platform durante um período de 30 dias. À medida que o gasto da sua organização aumenta, ela é promovida automaticamente a níveis mais altos que oferecem maior acesso a recursos compartilhados e limites de performance mais altos. Para cargas de trabalho que exigem uma performance mais consistente do que o Standard PayGo, considere o Priority PayGo. Para capacidade dedicada e garantida, consulte Capacidade de processamento provisionada.
Níveis de uso e capacidade de processamento
Cada nível de uso do Standard PayGo tem como objetivo fornecer uma capacidade de processamento de linha de base, medida em tokens por minuto (TPM), que serve como um limite de performance previsível para o tráfego da sua organização. Os limites de capacidade de processamento são baseados em solicitações enviadas ao endpoint global. Usar o endpoint global é uma prática recomendada, porque ele oferece acesso a um pool maior e multirregional de capacidade de processamento e permite o roteamento das solicitações para o local com mais disponibilidade para maximizar a performance.
O tráfego não é estritamente limitado ao limite de capacidade de processamento de linha de base. A Agent Platform permite que o tráfego exceda esse limite da melhor maneira possível. No entanto, durante períodos de alta demanda na Agent Platform, esse tráfego de pico excessivo pode ter maior variabilidade na performance. Para otimizar a performance e minimizar a probabilidade de receber esses erros, também é recomendável suavizar o tráfego da maneira mais uniforme possível a cada minuto. Evite enviar solicitações em picos acentuados de segundo nível. O tráfego alto e instantâneo pode levar à limitação, mesmo que o uso médio por minuto esteja abaixo do limite. Distribuir as chamadas de API de maneira mais uniforme ajuda o sistema a gerenciar a carga de maneira previsível e melhora a performance geral.
Os seguintes níveis estão disponíveis no Standard PayGo:
| Família do modelo | Nível | Gasto do cliente (30 dias) | TPM de tráfego (nível da organização) |
|---|---|---|---|
| Modelos do Gemini Pro | Nível 1 | US$ 10 a US$ 250 | 500.000 |
| Nível 2 | US$ 250 a US$ 2.000 | 1.000.000 | |
| Nível 3 | Acima de US$ 2.000 | 2.000.000 | |
| Modelos do Gemini Flash e Flash-Lite | Nível 1 | US$ 10 a US$ 250 | 2.000.000 |
| Nível 2 | US$ 250 a US$ 2.000 | 4.000.000 | |
| Nível 3 | Acima de US$ 2.000 | 10.000.000 |
O limite de capacidade de processamento mostrado para uma família de modelos se aplica de maneira independente a cada modelo dessa família. Por exemplo, um cliente no nível 3 tem uma capacidade de processamento de linha de base de 10.000.000 TPM para o Gemini 2.5 Flash e outra capacidade de processamento de linha de base de 10.000.000 TPM para o Gemini 2.0 Flash. O uso de um desses limites não afeta a capacidade de processamento de outros modelos. Não há um limite separado de solicitações por minuto (RPM) para cada nível. No entanto, o limite do sistema de 30.000 RPM por modelo por região se aplica. As solicitações do Gemini com entradas multimodais estão sujeitas a os limites de taxa do sistema correspondentes, incluindo imagem, áudio, vídeo, e documento.
Se você precisar de maior capacidade de processamento para um caso de uso empresarial, entre em contato com a equipe da conta para mais informações sobre um nível personalizado.
Como os níveis de uso funcionam
O nível de uso é determinado automaticamente pelo gasto total da sua organização em serviços qualificados da Agent Platform durante um período de 30 dias. À medida que os gastos da sua organização aumentam, o sistema promove você a um nível mais alto com maior capacidade de processamento.
Cálculo de gastos
Esse cálculo inclui uma ampla variedade de serviços, desde previsões em todas as famílias de modelos do Gemini até instâncias de CPU, GPU e TPU da Agent Platform, além de SKUs baseadas em compromisso, como a Capacidade de Processamento Provisionada.
Clique para saber mais sobre as SKUs incluídas no cálculo de gastos.
A tabela a seguir lista as categorias de Google Cloud SKUs incluídas no cálculo do gasto total.
| Categoria | Descrição das SKUs incluídas |
|---|---|
| Modelos do Gemini | Todas as famílias de modelos do Gemini (por exemplo, 2.0, 2.5, 3.0 nas versões Pro, Flash e Lite) para previsões em todas as modalidades (texto, imagem, áudio, vídeo), incluindo variações em lote, de contexto longo, ajustadas e de "pensamento" |
| Recursos do modelo do Gemini | Todas as SKUs do Gemini relacionadas a recursos como armazenamento em cache, armazenamento em cache e níveis de prioridade, em todas as modalidades e versões de modelo |
| CPU da Agent Platform | Previsões on-line e em lote em todas as famílias de instâncias baseadas em CPU (por exemplo, C2, C3, E2, N1, N2 e variantes) |
| GPU da Agent Platform | Previsões on-line e em lote em todas as instâncias aceleradas por GPU NVIDIA (por exemplo, A100, H100, H200, B200, L4, T4, V100 e séries RTX) |
| TPU do Agent Platform | Previsões on-line e em lote em todas as instâncias baseadas em TPU (por exemplo, TPU-v5e, v6e) |
| Gerenciamento e taxas | Todas as SKUs de "taxa de gerenciamento" associadas a várias instâncias de previsão do Agent Platform |
| Capacidade de processamento provisionada | Todas as SKUs baseadas em compromisso para capacidade de processamento provisionada |
| Outros serviços | Serviços especializados, como "LLM Grounding for Gemini... with Google Search tool" |
Verificar o nível de uso
Para verificar o nível de uso da sua organização, acesse o
painel da Agent Platform no Google Cloud console.
Para conferir o nível de uso no painel, você precisa do
papel de Leitor da Agent Platform
(roles/aiplatform.viewer) no projeto e do
papel de Leitor da conta de faturamento
(roles/billing.viewer) na conta de faturamento.
Acessar o painel da Agent Platform
Verificar o gasto
Para revisar o gasto da Agent Platform, acesse o Cloud Billing no Google Cloud console. Observação: o gasto é agregado no nível da organização.
Erros de recurso esgotado (429)
Se você receber um erro 429, isso não indica que você atingiu uma cota fixa.
Ele indica uma alta contenção temporária para um recurso compartilhado específico. Recomendamos implementar uma estratégia de repetição de espera exponencial para lidar com esses erros, já que a disponibilidade nesse ambiente dinâmico pode mudar rapidamente. Além de uma estratégia de repetição, recomendamos o uso do endpoint global. Ao contrário de um endpoint regional (por exemplo, us-central1), o endpoint global encaminha dinamicamente as solicitações para a região com a maior capacidade disponível no momento. Isso permite que o aplicativo acesse um pool maior e multirregional de capacidade compartilhada, aumentando significativamente o potencial de picos bem-sucedidos e reduzindo a probabilidade de erros 429.
Para melhores resultados, combine o uso do endpoint global com a suavização do tráfego. Evite enviar solicitações em picos acentuados de segundo nível, porque o tráfego alto e instantâneo pode levar à limitação, mesmo que o uso médio por minuto esteja dentro do limite de capacidade de processamento de linha de base. Distribuir as chamadas de API de maneira mais uniforme ajuda o sistema a gerenciar a carga de maneira previsível e melhora a performance geral. Para mais informações sobre como lidar com erros de recurso esgotado, consulte Criar aplicativos LLM resilientes e Reduzir erros 429 e Código do erro 429.
Modelos compatíveis
Os seguintes modelos do Gemini em disponibilidade geral (GA) e os modelos ajustados supervisionados oferecem suporte ao Standard PayGo com níveis de uso:
Clique para expandir os modelos compatíveis
Os seguintes modelos do Gemini em GA e os modelos ajustados supervisionados também oferecem suporte ao Standard PayGo, mas os níveis de uso não se aplicam a esses modelos:
Esses níveis não se aplicam a modelos de pré-lançamento. Consulte a documentação oficial específica de cada modelo para informações mais precisas e atualizadas.
Monitorar a capacidade de processamento e a performance
Para monitorar o consumo de tokens em tempo real da sua organização, acesse o Metrics Explorer no Cloud Monitoring.
Para mais informações sobre como monitorar o tráfego do endpoint do modelo, consulte Monitorar modelos.
Os níveis de uso são aplicados no nível da organização. Para informações sobre como definir o escopo de observabilidade para representar a capacidade de processamento em vários projetos da sua organização, consulte Configurar escopos de observabilidade para consultas de vários projetos.
A seguir
Cotas e limites da Agent Platform
Cotas e limites relacionados à Agent Platform, excluindo limitações específicas do produto.
Cotas do Google Cloud
Saiba como o Google Cloud restringe a quantidade de um recurso que seu projeto na nuvem do Google Cloud pode usar e como as cotas se aplicam a uma variedade de tipos de recursos, incluindo hardware, software e componentes de rede.