PayGo padrão

O pagamento por uso padrão é uma opção de consumo para usar o pacote de modelos de IA generativa da Vertex AI, incluindo as famílias de modelos Gemini e Imagen na Vertex AI. Com o Pay as you go padrão, você paga apenas pelos recursos que consome, sem precisar de compromissos financeiros antecipados. Para oferecer um desempenho mais previsível para cargas de trabalho escalonáveis, o Standard PayGo incorpora um sistema de níveis de uso. A Vertex AI ajusta dinamicamente a capacidade de taxa de transferência de base da sua organização com base no gasto total em serviços qualificados da Vertex AI em um período móvel de 30 dias. À medida que os gastos da sua organização aumentam, ela é promovida automaticamente para níveis mais altos, que oferecem mais acesso a recursos compartilhados e limites de performance mais altos.

Níveis de uso e capacidade de processamento

Cada nível de uso do Pay as you go padrão tem como objetivo fornecer uma capacidade de processamento de base, medida em tokens por minuto (TPM), que serve como um limite de performance previsível para o tráfego da sua organização. Os limites de capacidade são baseados em solicitações enviadas ao endpoint global. Usar o endpoint global é uma prática recomendada, já que ele oferece acesso a um pool maior e multirregional de capacidade de capacidade de processamento e permite o roteamento das solicitações para o local com mais disponibilidade para maximizar o desempenho.

Seu tráfego não é limitado estritamente ao limite de taxa de transferência de linha de base. A Vertex AI permite que o tráfego exceda esse limite da melhor maneira possível. No entanto, durante períodos de alta demanda na plataforma Vertex AI, esse tráfego excedente pode ter maior variabilidade no desempenho. Para otimizar a performance e minimizar a probabilidade de receber esses erros, também é uma prática recomendada suavizar o tráfego da forma mais uniforme possível a cada minuto. Evite enviar solicitações em picos acentuados de segundo nível. Um tráfego alto e instantâneo pode causar limitação, mesmo que seu uso médio por minuto esteja abaixo do limite. Distribuir as chamadas de API de maneira mais uniforme ajuda o sistema a gerenciar a carga de forma previsível e melhora o desempenho geral.

Os seguintes níveis estão disponíveis no Standard PayGo:

Família do modelo	Nível	Gasto do cliente (30 dias)	TPM de tráfego (nível da organização)
Modelos do Gemini Pro	Nível 1	US$ 10 a US$ 250	500.000
	Nível 2	US$ 250 a US$ 2.000	1.000.000
	Nível 3	> US$ 2.000	2.000.000
Modelos Gemini Flash e Flash-Lite	Nível 1	US$ 10 a US$ 250	2.000.000
	Nível 2	US$ 250 a US$ 2.000	4.000.000
	Nível 3	> US$ 2.000	10.000.000

O limite de capacidade de processamento mostrado para uma família de modelos se aplica de forma independente a cada modelo dessa família. Por exemplo, um cliente no nível 3 tem uma taxa de transferência de dados básica de 10.000.000 TPM para o Gemini 2.5 Flash e outra de 10.000.000 TPM para o Gemini 2.0 Flash. O uso de um desses limites não afeta a capacidade de processamento de outros modelos. Não há um limite separado de solicitações por minuto (RPM) para cada nível. No entanto, o limite do sistema de 30.000 RPM por modelo por região é válido. As solicitações do Gemini com entradas multimodais estão sujeitas aos limites de taxa do sistema correspondentes, incluindo imagem, áudio, vídeo e documento.

Se você precisar de uma taxa de transferência mais alta para um caso de uso empresarial, entre em contato com sua equipe de conta para mais informações sobre um nível personalizado.

Como funcionam os níveis de uso

Seu nível de uso é determinado automaticamente pelo gasto total da sua organização em serviços qualificados da Vertex AI durante um período contínuo de 30 dias. À medida que os gastos da sua organização aumentam, o sistema promove você para um nível mais alto com maior capacidade.

Cálculo do gasto

Esse cálculo inclui uma ampla variedade de serviços, desde previsões em todas as famílias de modelos do Gemini até instâncias de CPU, GPU e TPU da Vertex AI, além de SKUs baseadas em compromisso, como o Provisioned Throughput.

Clique para saber mais sobre as SKUs incluídas no cálculo do gasto.

A tabela a seguir lista as categorias de SKUs doGoogle Cloud incluídas no cálculo do gasto total.

Categoria	Descrição das SKUs incluídas
Modelos do Gemini	Todas as famílias de modelos do Gemini (por exemplo, 2.0, 2.5 e 3.0 nas versões Pro, Flash e Lite) para previsões em todas as modalidades (texto, imagem, áudio e vídeo), incluindo variações em lote, de contexto longo, ajustadas e de "raciocínio".
Recursos do modelo do Gemini	Todas as SKUs relacionadas do Gemini para recursos como armazenamento em cache, armazenamento em cache e níveis de prioridade em todas as modalidades e versões de modelo
CPU da Vertex AI	Previsões on-line e em lote em todas as famílias de instâncias baseadas em CPU (por exemplo, C2, C3, E2, N1, N2 e as variantes deles)
GPU da Vertex AI	Previsões on-line e em lote em todas as instâncias aceleradas por GPU NVIDIA (por exemplo, A100, H100, H200, B200, L4, T4, V100 e série RTX
TPU da Vertex AI	Previsões on-line e em lote em todas as instâncias baseadas em TPU (por exemplo, TPU-v5e, v6e)
Gerenciamento e taxas	Todas as SKUs de "Taxa de administração" associadas a várias instâncias de previsão da Vertex AI
Capacidade de processamento provisionada	Todas as SKUs baseadas em compromisso para capacidade de processamento provisionada
Outros serviços	Serviços especializados, como "Fundamentação de LLM para o Gemini... com a ferramenta de Pesquisa Google"

Verificar o nível de uso

Para verificar o nível de uso da sua organização, acesse o painel da Vertex AI no console do Google Cloud .

Acessar o painel da Vertex AI

Verificar o gasto

Para analisar seus gastos com a Vertex AI, acesse o Cloud Billing no consoleGoogle Cloud . O gasto é agregado no nível da organização.

Acessar o Cloud Billing

Erros de recurso esgotado (429)

Se você receber um erro 429, isso não indica que você atingiu uma cota fixa. Indica alta disputa temporária por um recurso compartilhado específico. Recomendamos implementar uma estratégia de espera exponencial para lidar com esses erros, já que a disponibilidade nesse ambiente dinâmico pode mudar rapidamente. Além de uma estratégia de repetição, recomendamos usar o endpoint global. Ao contrário de um endpoint regional (por exemplo, us-central1), o endpoint global encaminha dinamicamente suas solicitações para a região com mais capacidade disponível no momento. Isso permite que seu aplicativo acesse um pool maior e multirregional de capacidade compartilhada, aumentando significativamente o potencial de expansão bem-sucedida e reduzindo a probabilidade de erros 429.

Para melhores resultados, combine o uso do endpoint global com o suavização de tráfego. Evite enviar solicitações em picos acentuados de segundo nível, porque o tráfego alto e instantâneo pode levar à limitação, mesmo que seu uso médio por minuto esteja dentro do limite de taxa de transferência de base. Distribuir as chamadas de API de maneira mais uniforme ajuda o sistema a gerenciar a carga de forma previsível e melhora o desempenho geral. Para mais informações sobre como lidar com erros de esgotamento de recursos, consulte Um guia para lidar com erros 429 e Código de erro 429.

Modelos compatíveis

Os seguintes modelos do Gemini em disponibilidade geral (GA) e os modelos ajustados de forma supervisionada são compatíveis com o Pay as you go padrão com níveis de uso:

Os seguintes modelos do Gemini em GA e os modelos ajustados de forma supervisionada também são compatíveis com o Pay as you go padrão, mas os níveis de uso não se aplicam a eles:

Esses níveis não se aplicam a modelos de prévia. Consulte a documentação oficial específica de cada modelo para ter as informações mais precisas e atualizadas.

Monitorar a taxa de transferência e o desempenho

Para monitorar o consumo de tokens em tempo real da sua organização, acesse o Metrics Explorer no Cloud Monitoring.

Acessar o Metrics Explorer

Para mais informações sobre como monitorar o tráfego de endpoints de modelos, consulte Monitorar modelos.

Os níveis de uso são aplicados no nível da organização. Para informações sobre como definir seu escopo de observabilidade para representar o throughput em vários projetos da organização, consulte Configurar escopos de observabilidade para consultas de vários projetos.

A seguir

Recurso

Cotas e limites da Vertex AI

Cotas e limites relacionados à plataforma Vertex AI, exceto limitações específicas do produto.

Visão geral

Cotas do Google Cloud

Saiba como o Google Cloud restringe a quantidade de um recurso que seu projeto do Google Cloud pode usar e como as cotas se aplicam a vários tipos de recursos, incluindo hardware, software e componentes de rede.