Le paiement à l'usage prioritaire est une option de consommation qui offre des performances plus cohérentes que le paiement à l'usage standard, sans l'engagement initial du débit provisionné.
Lorsque vous utilisez Priority PayGo, vous êtes facturé à un tarif plus élevé que Standard PayGo, en fonction de l'utilisation de jetons. Pour en savoir plus sur les tarifs, consultez la page Tarifs de Vertex AI.
Quand utiliser le paiement à l'utilisation prioritaire ?
Priority PayGo est idéal pour les charges de travail critiques et sensibles à la latence, avec des modèles de trafic fluctuants ou imprévisibles. Voici quelques exemples de cas d'utilisation :
Assistants virtuels destinés aux clients
Traitement des documents et des données sensibles à la latence
Workflows agentifs et interactions multi-agents
Simulations de recherche
Modèles et zones géographiques compatibles
Les modèles suivants sont compatibles avec le paiement prioritaire à la consommation uniquement dans le point de terminaison global. Priority PayGo n'est pas compatible avec les points de terminaison régionaux ni multirégionaux.
Utiliser Priority PayGo
Pour envoyer des requêtes à l'API Gemini dans Vertex AI à l'aide du paiement à l'utilisation prioritaire, vous devez inclure l'en-tête X-Vertex-AI-LLM-Shared-Request-Type dans votre requête. Vous pouvez utiliser Priority PayGo de deux manières :
Utilisez le quota de débit provisionné (si disponible) et passez au paiement à l'utilisation prioritaire.
Utilisez uniquement Priority PayGo.
Utiliser Priority PayGo lorsque le débit provisionné est défini par défaut
Pour utiliser tout quota de débit provisionné disponible avant d'utiliser le paiement à l'utilisation prioritaire, incluez l'en-tête X-Vertex-AI-LLM-Shared-Request-Type: priority dans vos requêtes, comme indiqué dans les exemples suivants.
Python
Installer
pip install --upgrade google-genai
Pour en savoir plus, consultez la documentation de référence du SDK.
Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Initialisez votre client d'IA générative pour utiliser Priority PayGo. Après avoir effectué cette étape, vous n'aurez plus besoin d'ajuster votre code pour interagir avec l'API Gemini à l'aide du paiement à l'utilisation prioritaire sur le même client.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Shared-Request-Type": "priority" }, ) )
REST
Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
PROJECT_ID: ID de votre projetMODEL_ID: ID du modèle pour lequel vous souhaitez initialiser Priority PayGo. Pour obtenir la liste des modèles compatibles avec Priority PayGo, consultez Versions de modèle.PROMPT_TEXT: instructions textuelles à inclure dans le prompt. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Vous devriez recevoir une réponse JSON semblable à la suivante.
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_PRIORITY",
"thoughtsTokenCount": 1054
}
}
- Utilisez la méthode
generateContentpour demander que la réponse soit renvoyée une fois qu'elle a été entièrement générée. Pour réduire la perception de la latence auprès d'un public humain, affichez la réponse progressivement à mesure qu'elle est générée à l'aide de la méthodestreamGenerateContent. - L'ID du modèle multimodal se trouve à la fin de l'URL avant la méthode (par exemple,
gemini-2.0-flash). Cet exemple peut également s'appliquer à d'autres modèles.
Utiliser uniquement Priority PayGo
Pour utiliser uniquement Priority PayGo, incluez les en-têtes X-Vertex-AI-LLM-Request-Type: shared et X-Vertex-AI-LLM-Shared-Request-Type: priority dans vos requêtes, comme indiqué dans les exemples suivants.
Python
Installer
pip install --upgrade google-genai
Pour en savoir plus, consultez la documentation de référence du SDK.
Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Initialisez votre client d'IA générative pour utiliser Priority PayGo. Après avoir effectué cette étape, vous n'aurez plus besoin d'ajuster votre code pour interagir avec l'API Gemini à l'aide du paiement à l'utilisation prioritaire sur le même client.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Request-Type": "shared", "X-Vertex-AI-LLM-Shared-Request-Type": "priority" }, ) )
REST
Avant d'utiliser les données de requête, effectuez les remplacements suivants :
PROJECT_ID: ID de votre projetMODEL_ID: ID du modèle pour lequel vous souhaitez initialiser Priority PayGo. Pour obtenir la liste des modèles compatibles avec Priority PayGo, consultez Versions de modèle.PROMPT_TEXT: instructions textuelles à inclure dans le prompt. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Vous devriez recevoir une réponse JSON semblable à la suivante.
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_PRIORITY",
"thoughtsTokenCount": 1054
}
}
- Utilisez la méthode
generateContentpour demander que la réponse soit renvoyée une fois qu'elle a été entièrement générée. Pour réduire la perception de la latence auprès d'un public humain, affichez la réponse progressivement à mesure qu'elle est générée à l'aide de la méthodestreamGenerateContent. - L'ID du modèle multimodal se trouve à la fin de l'URL avant la méthode (par exemple,
gemini-2.0-flash). Cet exemple peut également s'appliquer à d'autres modèles.
Vérifier l'utilisation de Priority PayGo
Vous pouvez vérifier si une demande a utilisé Priority PayGo à partir du type de trafic dans la réponse, comme illustré dans les exemples suivants.
Python
Vous pouvez vérifier si le paiement prioritaire à l'utilisation a été utilisé pour une demande à partir du champ traffic_type de la réponse. Si votre demande a été traitée à l'aide de Priority PayGo, le champ traffic_type est défini sur ON_DEMAND_PRIORITY.
sdk_http_response=HttpResponse( headers=) candidates=[Candidate( avg_logprobs=-0.539712212302468, content=Content( parts=[ Part( text="""Response to sample request. """ ), ], role='model' ), finish_reason= nishReason.STOP: 'STOP'> )] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata( candidates_token_count=1408, candidates_tokens_details=[ ModalityTokenCount( modality= ty.TEXT: 'TEXT'>, token_count=1408 ), ], prompt_token_count=5, prompt_tokens_details=[ ModalityTokenCount( modality= ty.TEXT: 'TEXT'>, token_count=5 ), ], thoughts_token_count=1356, total_token_count=2769, traffic_type= fficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'> ) automatic_function_calling_history=[] parsed=None
REST
Vous pouvez vérifier si le paiement prioritaire à l'utilisation a été utilisé pour une demande à partir du champ trafficType de la réponse. Si votre demande a été traitée à l'aide de Priority PayGo, le champ trafficType est défini sur ON_DEMAND_PRIORITY.
{ "candidates": [ { "content": { "role": "model", "parts": [ { "text": "Response to sample request." } ] }, "finishReason": "STOP" } ], "usageMetadata": { "promptTokenCount": 3, "candidatesTokenCount": 900, "totalTokenCount": 1957, "trafficType": "ON_DEMAND_PRIORITY", "thoughtsTokenCount": 1054 } }
Limites de variation
Priority PayGo définit des limites d'augmentation au niveau de l'organisation. Les limites de progression permettent d'obtenir des performances prévisibles et cohérentes. La limite de départ dépend du modèle, comme suit :
- Modèles Gemini Flash et Flash-Lite : 4 millions de jetons/min.
- Modèles Gemini Pro : 1 million de jetons/min
La limite de rampe augmente de 50 % toutes les 10 minutes d'utilisation soutenue.
Si une requête dépasse la limite de montée en charge et que le système est surchargé en raison d'un trafic élevé, elle est rétrogradée au niveau "Paiement à l'utilisation standard" et facturée aux tarifs correspondants.
Pour minimiser les rétrogradations, augmentez l'utilisation de manière incrémentielle afin de ne pas dépasser la limite. Si vous avez encore besoin de meilleures performances, envisagez d'acheter un quota de débit provisionné supplémentaire.
Vous pouvez vérifier si une demande a été rétrogradée à partir de la réponse. Pour les requêtes rétrogradées au niveau Standard PayGo, le type de trafic est défini sur ON_DEMAND. Pour en savoir plus, consultez Vérifier l'utilisation de Priority PayGo.
Étapes suivantes
- Pour en savoir plus sur le débit provisionné, consultez Débit provisionné.
- Pour en savoir plus sur les quotas et les limites de Vertex AI, consultez la section Quotas et limites de Vertex AI.
- Pour en savoir plus sur les quotas et les limites du système Google Cloud , consultez la documentation sur les quotas Cloud.