PayGo prioritaire

Le paiement à l'usage prioritaire est une option de consommation qui offre des performances plus cohérentes que le paiement à l'usage standard, sans l'engagement initial du débit provisionné.

Lorsque vous utilisez Priority PayGo, vous êtes facturé à un tarif plus élevé que Standard PayGo, en fonction de l'utilisation de jetons. Pour en savoir plus sur les tarifs, consultez la page Tarifs de Vertex AI.

Quand utiliser le paiement à l'utilisation prioritaire ?

Priority PayGo est idéal pour les charges de travail critiques et sensibles à la latence, avec des modèles de trafic fluctuants ou imprévisibles. Voici quelques exemples de cas d'utilisation :

  • Assistants virtuels destinés aux clients

  • Traitement des documents et des données sensibles à la latence

  • Workflows agentifs et interactions multi-agents

  • Simulations de recherche

Modèles et zones géographiques compatibles

Les modèles suivants sont compatibles avec le paiement prioritaire à la consommation uniquement dans le point de terminaison global. Priority PayGo n'est pas compatible avec les points de terminaison régionaux ni multirégionaux.

Utiliser Priority PayGo

Pour envoyer des requêtes à l'API Gemini dans Vertex AI à l'aide du paiement à l'utilisation prioritaire, vous devez inclure l'en-tête X-Vertex-AI-LLM-Shared-Request-Type dans votre requête. Vous pouvez utiliser Priority PayGo de deux manières :

  • Utilisez le quota de débit provisionné (si disponible) et passez au paiement à l'utilisation prioritaire.

  • Utilisez uniquement Priority PayGo.

Utiliser Priority PayGo lorsque le débit provisionné est défini par défaut

Pour utiliser tout quota de débit provisionné disponible avant d'utiliser le paiement à l'utilisation prioritaire, incluez l'en-tête X-Vertex-AI-LLM-Shared-Request-Type: priority dans vos requêtes, comme indiqué dans les exemples suivants.

Python

Installer

pip install --upgrade google-genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisez votre client d'IA générative pour utiliser Priority PayGo. Après avoir effectué cette étape, vous n'aurez plus besoin d'ajuster votre code pour interagir avec l'API Gemini à l'aide du paiement à l'utilisation prioritaire sur le même client.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • PROJECT_ID : ID de votre projet
  • MODEL_ID : ID du modèle pour lequel vous souhaitez initialiser Priority PayGo. Pour obtenir la liste des modèles compatibles avec Priority PayGo, consultez Versions de modèle.
  • PROMPT_TEXT : instructions textuelles à inclure dans le prompt. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Vous devriez recevoir une réponse JSON semblable à la suivante.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}
Notez les points suivants dans l'URL de cet exemple :
  • Utilisez la méthode generateContent pour demander que la réponse soit renvoyée une fois qu'elle a été entièrement générée. Pour réduire la perception de la latence auprès d'un public humain, affichez la réponse progressivement à mesure qu'elle est générée à l'aide de la méthode streamGenerateContent.
  • L'ID du modèle multimodal se trouve à la fin de l'URL avant la méthode (par exemple, gemini-2.0-flash). Cet exemple peut également s'appliquer à d'autres modèles.

Utiliser uniquement Priority PayGo

Pour utiliser uniquement Priority PayGo, incluez les en-têtes X-Vertex-AI-LLM-Request-Type: shared et X-Vertex-AI-LLM-Shared-Request-Type: priority dans vos requêtes, comme indiqué dans les exemples suivants.

Python

Installer

pip install --upgrade google-genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisez votre client d'IA générative pour utiliser Priority PayGo. Après avoir effectué cette étape, vous n'aurez plus besoin d'ajuster votre code pour interagir avec l'API Gemini à l'aide du paiement à l'utilisation prioritaire sur le même client.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

  • PROJECT_ID : ID de votre projet
  • MODEL_ID : ID du modèle pour lequel vous souhaitez initialiser Priority PayGo. Pour obtenir la liste des modèles compatibles avec Priority PayGo, consultez Versions de modèle.
  • PROMPT_TEXT : instructions textuelles à inclure dans le prompt. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Vous devriez recevoir une réponse JSON semblable à la suivante.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}
Notez les points suivants dans l'URL de cet exemple :
  • Utilisez la méthode generateContent pour demander que la réponse soit renvoyée une fois qu'elle a été entièrement générée. Pour réduire la perception de la latence auprès d'un public humain, affichez la réponse progressivement à mesure qu'elle est générée à l'aide de la méthode streamGenerateContent.
  • L'ID du modèle multimodal se trouve à la fin de l'URL avant la méthode (par exemple, gemini-2.0-flash). Cet exemple peut également s'appliquer à d'autres modèles.

Vérifier l'utilisation de Priority PayGo

Vous pouvez vérifier si une demande a utilisé Priority PayGo à partir du type de trafic dans la réponse, comme illustré dans les exemples suivants.

Python

Vous pouvez vérifier si le paiement prioritaire à l'utilisation a été utilisé pour une demande à partir du champ traffic_type de la réponse. Si votre demande a été traitée à l'aide de Priority PayGo, le champ traffic_type est défini sur ON_DEMAND_PRIORITY.

sdk_http_response=HttpResponse(
  headers=
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=nishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=ty.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=ty.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=fficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'>
) automatic_function_calling_history=[] parsed=None

REST

Vous pouvez vérifier si le paiement prioritaire à l'utilisation a été utilisé pour une demande à partir du champ trafficType de la réponse. Si votre demande a été traitée à l'aide de Priority PayGo, le champ trafficType est défini sur ON_DEMAND_PRIORITY.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Limites de variation

Priority PayGo définit des limites d'augmentation au niveau de l'organisation. Les limites de progression permettent d'obtenir des performances prévisibles et cohérentes. La limite de départ dépend du modèle, comme suit :

  • Modèles Gemini Flash et Flash-Lite : 4 millions de jetons/min.
  • Modèles Gemini Pro : 1 million de jetons/min

La limite de rampe augmente de 50 % toutes les 10 minutes d'utilisation soutenue.

Si une requête dépasse la limite de montée en charge et que le système est surchargé en raison d'un trafic élevé, elle est rétrogradée au niveau "Paiement à l'utilisation standard" et facturée aux tarifs correspondants.

Pour minimiser les rétrogradations, augmentez l'utilisation de manière incrémentielle afin de ne pas dépasser la limite. Si vous avez encore besoin de meilleures performances, envisagez d'acheter un quota de débit provisionné supplémentaire.

Vous pouvez vérifier si une demande a été rétrogradée à partir de la réponse. Pour les requêtes rétrogradées au niveau Standard PayGo, le type de trafic est défini sur ON_DEMAND. Pour en savoir plus, consultez Vérifier l'utilisation de Priority PayGo.

Étapes suivantes