Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PayGo prioritaire

Le paiement à l'utilisation prioritaire est une option de consommation qui offre des performances plus cohérentes que le paiement à l'utilisation standard, sans l'engagement initial du débit provisionné.

Lorsque vous utilisez Priority PayGo, vous êtes facturé à un tarif plus élevé que Standard PayGo, en fonction de l'utilisation de jetons. Pour en savoir plus sur les tarifs, consultez la page des tarifs de Gemini Enterprise Agent Platform.

Quand utiliser le paiement prioritaire à la consommation ?

Priority PayGo est idéal pour les charges de travail critiques dont les schémas de trafic sont fluctuants ou imprévisibles. Voici des exemples de cas d'utilisation :

Assistants virtuels destinés aux clients
Workflows agentifs et interactions multi-agents
Simulations de recherche

Modèles et zones géographiques compatibles

Les modèles suivants sont compatibles avec le paiement prioritaire au fur et à mesure uniquement dans le point de terminaison global. Priority PayGo n'est pas compatible avec les points de terminaison régionaux ni multirégionaux.

Utiliser Priority PayGo

Pour envoyer des requêtes à l'API Gemini dans Gemini Enterprise Agent Platform à l'aide du paiement à l'utilisation prioritaire, vous devez inclure l'en-tête X-Vertex-AI-LLM-Shared-Request-Type dans votre requête. Vous pouvez utiliser Priority PayGo de deux manières :

Utilisez le quota de débit provisionné (si disponible) et passez au paiement à l'utilisation prioritaire.
Utilisez uniquement Priority PayGo.

Utiliser Priority PayGo lorsque le débit provisionné est défini par défaut

Pour utiliser tout quota de débit provisionné disponible avant d'utiliser le paiement à l'utilisation prioritaire, incluez l'en-tête X-Vertex-AI-LLM-Shared-Request-Type: priority dans vos requêtes, comme indiqué dans les exemples suivants.

Python

Installer

pip install --upgrade google-genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=True

Initialisez votre client d'IA générative pour utiliser Priority PayGo. Après avoir effectué cette étape, vous n'aurez plus besoin d'ajuster votre code pour interagir avec l'API Gemini à l'aide du paiement à l'utilisation prioritaire sur le même client.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester un prompt textuel. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

PROJECT_ID : ID de votre projet
MODEL_ID : ID du modèle pour lequel vous souhaitez initialiser Priority PayGo. Pour obtenir la liste des modèles compatibles avec le paiement prioritaire PayGo, consultez Versions de modèle.
PROMPT_TEXT : instructions textuelles à inclure dans le prompt. JSON.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Vous devriez recevoir une réponse JSON semblable à la suivante.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Utilisez la méthode generateContent pour demander que la réponse soit renvoyée une fois qu'elle a été entièrement générée. Pour réduire la perception de la latence auprès d'un public humain, affichez la réponse progressivement à mesure qu'elle est générée à l'aide de la méthode streamGenerateContent.
L'ID du modèle multimodal se trouve à la fin de l'URL avant la méthode (par exemple, gemini-2.0-flash). Cet exemple peut également s'appliquer à d'autres modèles.

Utiliser uniquement Priority PayGo

Pour utiliser uniquement Priority PayGo, incluez les en-têtes X-Vertex-AI-LLM-Request-Type: shared et X-Vertex-AI-LLM-Shared-Request-Type: priority dans vos requêtes, comme indiqué dans les exemples suivants.

Python

Installer

pip install --upgrade google-genai

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI :

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=True

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

PROJECT_ID : ID de votre projet
MODEL_ID : ID du modèle pour lequel vous souhaitez initialiser Priority PayGo. Pour obtenir la liste des modèles compatibles avec le paiement prioritaire PayGo, consultez Versions de modèle.
PROMPT_TEXT : instructions textuelles à inclure dans le prompt. JSON.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Vous devriez recevoir une réponse JSON semblable à la suivante.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Utilisez la méthode generateContent pour demander que la réponse soit renvoyée une fois qu'elle a été entièrement générée. Pour réduire la perception de la latence auprès d'un public humain, affichez la réponse progressivement à mesure qu'elle est générée à l'aide de la méthode streamGenerateContent.
L'ID du modèle multimodal se trouve à la fin de l'URL avant la méthode (par exemple, gemini-2.0-flash). Cet exemple peut également s'appliquer à d'autres modèles.

Vérifier l'utilisation de Priority PayGo

Vous pouvez vérifier si une demande a utilisé Priority PayGo à partir du type de trafic dans la réponse, comme illustré dans les exemples suivants.

Python

Vous pouvez vérifier si Priority PayGo a été utilisé pour une demande à partir du champ traffic_type de la réponse. Si votre demande a été traitée à l'aide de Priority PayGo, le champ traffic_type est défini sur ON_DEMAND_PRIORITY.

sdk_http_response=HttpResponse(
  headers=<dict len=9>
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=<FinishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=<TrafficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'>
) automatic_function_calling_history=[] parsed=None

REST

Vous pouvez vérifier si Priority PayGo a été utilisé pour une demande à partir du champ trafficType de la réponse. Si votre demande a été traitée à l'aide de Priority PayGo, le champ trafficType est défini sur ON_DEMAND_PRIORITY.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Limites de rampes

Priority PayGo définit des limites d'augmentation au niveau de l'organisation. Les limites de ramp-up permettent d'obtenir des performances prévisibles et cohérentes. La limite de départ dépend du modèle, comme suit :

Modèles Gemini Flash et Flash-Lite : 4 millions de jetons/min.
Modèles Gemini Pro : 1 million de jetons/min

La limite de rampe augmente de 50% toutes les 10 minutes d'utilisation soutenue.

Si une requête dépasse la limite de ramp-up ou si le système est temporairement surchargé en raison d'un trafic élevé, la requête peut être rétrogradée au niveau "Paiement à l'usage standard" et facturée aux tarifs correspondants.

Pour éviter les rétrogradations, augmentez l'utilisation de manière incrémentielle afin de ne pas dépasser la limite. Si vous avez encore besoin de meilleures performances, envisagez d'acheter un quota de débit provisionné supplémentaire.

Vous pouvez vérifier si une requête a été rétrogradée à partir de la réponse. Pour les demandes rétrogradées au niveau Standard PayGo, le type de trafic est défini sur ON_DEMAND. Pour en savoir plus, consultez Vérifier l'utilisation de Priority PayGo.

Étapes suivantes

Pour en savoir plus sur le débit provisionné, consultez Débit provisionné.
Pour en savoir plus sur les quotas et les limites d'Agent Platform, consultez Quotas et limites de Gemini Enterprise Agent Platform.
Pour en savoir plus sur les quotas et les limites du système Google Cloud , consultez la documentation sur les quotas Cloud.

PayGo prioritaire Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Quand utiliser le paiement prioritaire à la consommation ?

Modèles et zones géographiques compatibles

Utiliser Priority PayGo

Utiliser Priority PayGo lorsque le débit provisionné est défini par défaut

Python

Installer

REST

Utiliser uniquement Priority PayGo

Python

Installer

REST

Vérifier l'utilisation de Priority PayGo

Python

REST

Limites de rampes

Étapes suivantes

PayGo prioritaire