O pagamento por uso prioritário (Priority PayGo) é uma opção de consumo que oferece um desempenho mais consistente do que o PayGo padrão sem o compromisso antecipado da capacidade de processamento provisionada.
Ao usar o Priority PayGo, você paga por uso de token a uma taxa mais alta do que o PayGo padrão. Para informações sobre preços, consulte a página de preços da Vertex AI.
Quando usar o PayGo prioritário
O PayGo prioritário é ideal para cargas de trabalho sensíveis à latência e críticas com padrões de tráfego flutuantes ou imprevisíveis. Confira alguns exemplos de casos de uso:
Assistentes virtuais voltados para o cliente
Processamento de dados e documentos sensíveis à latência
Fluxos de trabalho com agentes e interações entre agentes
Simulações de pesquisa
Modelos e locais compatíveis
Os seguintes modelos são compatíveis com o Priority PayGo apenas no endpoint global. O Priority PayGo não é compatível com endpoints regionais ou
multirregionais.
Usar o PayGo prioritário
Para enviar solicitações à API Gemini na Vertex AI usando o PayGo prioritário,
inclua o cabeçalho X-Vertex-AI-LLM-Shared-Request-Type na sua
solicitação. Você pode usar o Priority PayGo de duas maneiras:
Use a cota de capacidade de processamento provisionada (se disponível) e transfira para o PayGo prioritário.
Use apenas o Priority PayGo.
Usar o Priority PayGo com a capacidade de processamento provisionada como padrão
Para usar qualquer cota de capacidade de processamento provisionada disponível antes do PayGo prioritário, inclua o cabeçalho X-Vertex-AI-LLM-Shared-Request-Type: priority nas suas solicitações, conforme mostrado nos exemplos a seguir.
Python
Instalar
pip install --upgrade google-genai
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Inicialize seu cliente de IA generativa para usar o Priority PayGo. Depois de realizar esta etapa, não será necessário fazer mais ajustes no código para interagir com a API Gemini usando o Priority PayGo no mesmo cliente.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Shared-Request-Type": "priority" }, ) )
REST
Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.
Antes de usar os dados da solicitação, faça as substituições a seguir:
PROJECT_ID: o ID do projeto.MODEL_ID: o ID do modelo para o qual você quer inicializar o Priority PayGo. Para uma lista de modelos que oferecem suporte ao Priority PayGo, consulte Versões de modelo.PROMPT_TEXT: as instruções de texto a serem incluídas no comando. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Você receberá uma resposta JSON semelhante a seguinte.
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_PRIORITY",
"thoughtsTokenCount": 1054
}
}
- Use o
generateContentpara solicitar que a resposta seja retornada depois de ser totalmente gerada. Para reduzir a percepção de latência ao público humano, transmita a resposta à medida que geradas usando ostreamGenerateContent. - O ID do modelo multimodal está localizado no final do URL, antes do método
Por exemplo,
gemini-2.0-flash). Este exemplo pode oferecer suporte a outros modelos de classificação.
Usar somente o Priority PayGo
Para usar apenas o Priority PayGo, inclua os cabeçalhos
X-Vertex-AI-LLM-Request-Type: shared e
X-Vertex-AI-LLM-Shared-Request-Type: priority nas suas solicitações, conforme mostrado nos
exemplos a seguir.
Python
Instalar
pip install --upgrade google-genai
Para saber mais, consulte a documentação de referência do SDK.
Defina variáveis de ambiente para usar o SDK de IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Inicialize seu cliente de IA generativa para usar o Priority PayGo. Depois de realizar esta etapa, não será necessário fazer mais ajustes no código para interagir com a API Gemini usando o Priority PayGo no mesmo cliente.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Request-Type": "shared", "X-Vertex-AI-LLM-Shared-Request-Type": "priority" }, ) )
REST
Antes de usar os dados da solicitação, faça as substituições a seguir:
PROJECT_ID: o ID do projeto.MODEL_ID: o ID do modelo para o qual você quer inicializar o Priority PayGo. Para uma lista de modelos que oferecem suporte ao Priority PayGo, consulte Versões de modelo.PROMPT_TEXT: as instruções de texto a serem incluídas no comando. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Você receberá uma resposta JSON semelhante a seguinte.
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_PRIORITY",
"thoughtsTokenCount": 1054
}
}
- Use o
generateContentpara solicitar que a resposta seja retornada depois de ser totalmente gerada. Para reduzir a percepção de latência ao público humano, transmita a resposta à medida que geradas usando ostreamGenerateContent. - O ID do modelo multimodal está localizado no final do URL, antes do método
Por exemplo,
gemini-2.0-flash). Este exemplo pode oferecer suporte a outros modelos de classificação.
Verificar o uso do Priority PayGo
É possível verificar se uma solicitação usou o Priority PayGo pelo tipo de tráfego na resposta, conforme mostrado nos exemplos a seguir.
Python
É possível verificar se o
Priority PayGo foi usado em uma solicitação no campo traffic_type
da resposta. Se a solicitação foi processada usando
Priority PayGo, o campo traffic_type será definido como
ON_DEMAND_PRIORITY.
sdk_http_response=HttpResponse( headers=) candidates=[Candidate( avg_logprobs=-0.539712212302468, content=Content( parts=[ Part( text="""Response to sample request. """ ), ], role='model' ), finish_reason= nishReason.STOP: 'STOP'> )] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata( candidates_token_count=1408, candidates_tokens_details=[ ModalityTokenCount( modality= ty.TEXT: 'TEXT'>, token_count=1408 ), ], prompt_token_count=5, prompt_tokens_details=[ ModalityTokenCount( modality= ty.TEXT: 'TEXT'>, token_count=5 ), ], thoughts_token_count=1356, total_token_count=2769, traffic_type= fficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'> ) automatic_function_calling_history=[] parsed=None
REST
É possível verificar se o
Priority PayGo foi usado em uma solicitação no campo trafficType
da resposta. Se a solicitação foi processada usando
Priority PayGo, o campo trafficType será definido como
ON_DEMAND_PRIORITY.
{ "candidates": [ { "content": { "role": "model", "parts": [ { "text": "Response to sample request." } ] }, "finishReason": "STOP" } ], "usageMetadata": { "promptTokenCount": 3, "candidatesTokenCount": 900, "totalTokenCount": 1957, "trafficType": "ON_DEMAND_PRIORITY", "thoughtsTokenCount": 1054 } }
Limites de aceleração
O Priority PayGo define limites de aumento no nível da organização. Os limites de aceleração ajudam a oferecer uma performance previsível e consistente. O limite inicial depende do modelo, conforme abaixo:
- Modelos Gemini Flash e Flash-Lite:4 milhões de tokens/min.
- Modelos do Gemini Pro:1 milhão de tokens/min.
O limite de aumento aumenta em 50% a cada 10 minutos de uso contínuo.
Se uma solicitação exceder o limite de aumento e o sistema estiver com capacidade acima do normal devido a altas cargas de tráfego, a solicitação será rebaixada para o pagamento por uso padrão e será cobrada de acordo com as taxas do pagamento por uso padrão.
Para minimizar os downgrades, aumente o uso de forma incremental para não ultrapassar o limite. Se você ainda precisar de um desempenho melhor, considere comprar mais cota de capacidade de processamento provisionada.
É possível verificar se uma solicitação foi rebaixada na resposta. Para solicitações que passaram para o PayGo padrão, o tipo de tráfego é definido como ON_DEMAND. Para mais informações, consulte
Verificar o uso do Priority PayGo.
A seguir
- Para saber mais sobre a capacidade de processamento provisionada, consulte Capacidade de processamento provisionada.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre cotas e limites do sistema, consulte a documentação sobre as cotas do Cloud. Google Cloud