Standard PayGo

O pagamento padrão conforme a utilização (Standard PayGo) é uma opção de consumo para usar o conjunto de modelos de IA generativa do Vertex AI, incluindo as famílias de modelos Gemini e Imagen no Vertex AI. O pagamento por utilização padrão permite-lhe pagar apenas pelos recursos que consome, sem exigir compromissos financeiros antecipados. Para oferecer um desempenho mais previsível para cargas de trabalho escaláveis, o PayGo padrão incorpora um sistema de níveis de utilização. O Vertex AI ajusta dinamicamente a capacidade de débito de base da sua organização com base nos gastos totais em serviços do Vertex AI elegíveis durante um período contínuo de 30 dias. À medida que os gastos da sua organização aumentam, esta é automaticamente promovida para níveis superiores que oferecem maior acesso a recursos partilhados e limites de desempenho mais elevados.

Níveis de utilização e débito

Cada nível de utilização do Standard PayGo tem como objetivo fornecer um débito de base, medido em tokens por minuto (TPM), que serve como um limite mínimo de desempenho previsível para o tráfego da sua organização. Os limites de débito baseiam-se em pedidos enviados para o ponto final global. A utilização do ponto final global é uma prática recomendada, uma vez que fornece acesso a um conjunto de capacidade de débito multirregional maior e permite o encaminhamento dos seus pedidos para a localização com a maior disponibilidade para maximizar o desempenho.

O seu tráfego não está estritamente limitado ao limite de débito base. O Vertex AI permite que o tráfego ultrapasse este limite com base no melhor esforço possível. No entanto, durante períodos de elevada procura na plataforma Vertex AI, este tráfego de picos excessivo pode ter uma variabilidade mais elevada no desempenho. Para otimizar o desempenho e minimizar a probabilidade de receber estes erros, também é uma prática recomendada suavizar o tráfego o mais uniformemente possível ao longo de cada minuto. Evite enviar pedidos em picos acentuados de segundo nível. O tráfego elevado e instantâneo pode levar à limitação, mesmo que a sua utilização média por minuto esteja abaixo do limite. A distribuição mais uniforme das chamadas API ajuda o sistema a gerir a carga de forma previsível e melhora o desempenho geral.

Os seguintes níveis estão disponíveis no PayGo padrão:

Família do modelo	Nível	Gastos dos clientes (30 dias)	TPM de tráfego (ao nível da organização)
Modelos Gemini Pro	Nível 1	10 $ - 250 $	500 000
	Nível 2	250 $ - 2000 $	1 000 000
	Nível 3	> 2000 €	2 000 000
Modelos Gemini Flash e Flash-Lite	Nível 1	10 $ - 250 $	2 000 000
	Nível 2	250 $ - 2000 $	4 000 000
	Nível 3	> 2000 €	10 000 000

Tenha em atenção que o limite de débito apresentado para uma família de modelos aplica-se independentemente a cada modelo nessa família. Por exemplo, um cliente no nível 3 tem um débito base de 10 000 000 de TPM para o Gemini 2.5 Flash e uma base separada de 10 000 000 de TPM para o Gemini 2.0 Flash. A utilização em relação a um destes limites não afeta o débito de outros modelos. Não existe um limite de pedidos por minuto (RPM) separado para cada nível. No entanto, aplica-se o limite do sistema de 30 000 RPM por modelo por região. Os pedidos do Gemini com entradas multimodais estão sujeitos aos limites de taxa do sistema correspondentes, incluindo imagens, áudio, vídeo e documentos.

Se precisar de um débito mais elevado para um exemplo de utilização empresarial, contacte a sua equipa da conta para obter mais informações acerca de um nível personalizado.

Como funcionam os níveis de utilização

O seu nível de utilização é determinado automaticamente pela despesa total da sua organização em serviços do Vertex AI elegíveis durante um período contínuo de 30 dias. À medida que os gastos da sua organização aumentam, o sistema promove-a para um nível superior com um débito maior.

Cálculo dos gastos

Este cálculo inclui uma vasta gama de serviços, desde previsões em todas as famílias de modelos Gemini a instâncias de CPU, GPU e TPU do Vertex AI, bem como SKUs baseadas em compromissos, como o débito processado.

Clique para saber mais sobre os SKUs incluídos no cálculo dos gastos.

A tabela seguinte apresenta as categorias de Google Cloud SKUs incluídas no cálculo do gasto total.

Categoria	Descrição das SKUs incluídas
Modelos do Gemini	Todas as famílias de modelos do Gemini (por exemplo, 2.0, 2.5 e 3.0 nas versões Pro, Flash e Lite) para previsões em todas as modalidades (texto, imagem, áudio e vídeo), incluindo variações em lote, de contexto longo, otimizadas e de "raciocínio"
Funcionalidades do modelo Gemini	Todas as SKUs do Gemini relacionadas com funcionalidades como o armazenamento em cache, o armazenamento em cache e os níveis prioritários, em todas as modalidades e versões do modelo
CPU do Vertex AI	Previsões online e em lote em todas as famílias de instâncias baseadas em CPU (por exemplo, C2, C3, E2, N1, N2 e respetivas variantes)
GPU do Vertex AI	Previsões online e em lote em todas as instâncias aceleradas pela GPU NVIDIA (por exemplo, A100, H100, H200, B200, L4, T4, V100 e série RTX)
Vertex AI TPU	Previsões online e em lote em todas as instâncias baseadas em TPUs (por exemplo, TPU-v5e, v6e)
Gestão e taxas	Todos os SKUs de "Taxa de gestão" associados a várias instâncias de previsão do Vertex AI
Débito aprovisionado	Todos os SKUs baseados em compromissos para débito processado
Outros serviços	Serviços especializados, como "Fundamentação de MDIs para o Gemini… com a ferramenta de Pesquisa Google"

Valide o nível de utilização

Para validar o nível de utilização da sua organização, aceda ao painel de controlo do Vertex AI na Google Cloud consola.

Aceder ao painel de controlo do Vertex AI

Valide os gastos

Para rever os seus gastos com o Vertex AI, aceda ao Cloud Billing na Google Cloud consola. Tenha em atenção que os gastos são agregados ao nível da organização.

Aceda ao Cloud Billing

Erros de recurso esgotado (429)

Se receber um erro 429, não significa que atingiu uma quota fixa. Indica uma elevada contenção temporária para um recurso partilhado específico. Recomendamos a implementação de uma estratégia de repetição de recuo exponencial para processar estes erros, uma vez que a disponibilidade neste ambiente dinâmico pode mudar rapidamente. Além de uma estratégia de repetição, recomendamos que use o ponto final global. Ao contrário de um ponto final regional (por exemplo, us-central1), o ponto final global encaminha dinamicamente os seus pedidos para a região com a capacidade mais disponível nesse momento. Isto permite que a sua aplicação aceda a um conjunto de capacidade partilhada multirregional maior, o que aumenta significativamente o seu potencial de picos bem-sucedidos e reduz a probabilidade de erros 429.

Para obter os melhores resultados, combine a utilização do ponto final global com a suavização do tráfego. Evite enviar pedidos em picos acentuados de segundo nível, porque o tráfego elevado e instantâneo pode levar à limitação, mesmo que a sua utilização média por minuto esteja dentro do limite de débito de base. A distribuição mais uniforme das chamadas API ajuda o sistema a gerir a carga de forma previsível e melhora o desempenho geral. Para mais informações sobre como processar erros de esgotamento de recursos, consulte Um guia para processar erros 429 e Código de erro 429.

Modelos suportados

Os seguintes modelos do Gemini disponíveis de forma geral (DG) e os respetivos modelos com ajuste fino supervisionado suportam o pagamento por utilização padrão com níveis de utilização:

Os seguintes modelos do GA Gemini e os respetivos modelos otimizados supervisionados também suportam o modelo de pagamento Standard PayGo, mas os níveis de utilização não se aplicam a estes modelos:

Tenha em atenção que estes níveis não se aplicam aos modelos de pré-visualização. Consulte a documentação oficial específica de cada modelo para ver as informações mais precisas e atualizadas.

Monitorize o débito e o desempenho

Para monitorizar o consumo de tokens em tempo real da sua organização, aceda ao Explorador de métricas no Cloud Monitoring.

Aceda ao Metrics Explorer

Para mais informações sobre a monitorização do tráfego do ponto final do modelo, consulte o artigo Monitorize modelos.

Tenha em atenção que os níveis de utilização se aplicam ao nível da organização. Para informações sobre como definir o âmbito de observabilidade para representar graficamente o débito em vários projetos na sua organização, consulte o artigo Configure âmbitos de observabilidade para consultas de vários projetos.

O que se segue?

Para saber mais sobre as quotas e os limites da Vertex AI, consulte o artigo Quotas e limites da Vertex AI.
Para saber mais acerca das Google Cloud quotas e dos limites do sistema, consulte a documentação das quotas do Google Cloud.