Priority PayGo

„Pay as you go“ mit Priorität (Priority PayGo) ist eine Verbrauchsoption, die eine konsistentere Leistung als „Pay as you go“ bietet, ohne dass eine Vorabverpflichtung für bereitgestellten Durchsatz erforderlich ist.

Bei der Verwendung von Priority PayGo werden Ihnen die Token zu einem höheren Preis als bei „Pay as you go“ in Rechnung gestellt. Informationen zu den Preisen finden Sie auf der Preisseite der Gemini Enterprise Agent Platform.

Wann sollte Priority PayGo verwendet werden?

Priority PayGo ist ideal für geschäftskritische Arbeitslasten mit schwankenden oder unvorhersehbaren Traffic-Mustern. Beispielanwendungsfälle:

  • Virtuelle Assistenten für Kunden
  • Agentische Workflows und agentenübergreifende Interaktionen
  • Forschungssimulationen

Unterstützte Modelle und Standorte

Die folgenden Modelle unterstützen Priority PayGo nur im global-Endpunkt. Priority PayGo unterstützt keine regionalen oder multiregionalen Endpunkte.

Priority PayGo verwenden

Wenn Sie Anfragen an die Gemini API in der Gemini Enterprise Agent Platform mit Priority PayGo senden möchten, müssen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type in Ihre Anfrage einfügen. Sie können Priority PayGo auf zwei Arten verwenden:

  • Kontingent für bereitgestellten Durchsatz verwenden (falls verfügbar) und auf Priority PayGo ausweichen.

  • Nur Priority PayGo verwenden.

Priority PayGo verwenden, während bereitgestellter Durchsatz als Standard verwendet wird

Wenn Sie das verfügbare Kontingent für bereitgestellten Durchsatz nutzen möchten, bevor Sie Priority PayGo verwenden, fügen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisieren Sie Ihren GenAI-Client, um Priority PayGo zu verwenden. Nach diesem Schritt müssen Sie keine weiteren Anpassungen an Ihrem Code vornehmen, um mit demselben Client mit Priority PayGo mit der Gemini API zu interagieren.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher-Modellendpunkt gesendet.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • PROJECT_ID: Ihre Projekt-ID.
  • MODEL_ID: Die Modell-ID des Modells für das Sie Priority PayGo initialisieren möchten. Eine Liste der Modelle, die Priority PayGo unterstützen, finden Sie unter Modellversionen.
  • PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}
  • Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
  • Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Nur Priority PayGo verwenden

Wenn Sie nur Priority PayGo verwenden möchten, fügen Sie die Header X-Vertex-AI-LLM-Request-Type: shared und X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisieren Sie Ihren GenAI-Client, um Priority PayGo zu verwenden. Nach diesem Schritt müssen Sie keine weiteren Anpassungen an Ihrem Code vornehmen, um mit demselben Client mit Priority PayGo mit der Gemini API zu interagieren.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • PROJECT_ID: Ihre Projekt-ID.
  • MODEL_ID: Die Modell-ID des Modells für das Sie Priority PayGo initialisieren möchten. Eine Liste der Modelle, die Priority PayGo unterstützen, finden Sie unter Modellversionen.
  • PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}
  • Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
  • Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Priority PayGo-Nutzung prüfen

Sie können anhand des Traffictyps in der Antwort prüfen, ob eine Anfrage Priority PayGo verwendet hat, wie in den folgenden Beispielen gezeigt.

Python

Sie können anhand des Felds traffic_type in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld traffic_type auf ON_DEMAND_PRIORITY gesetzt.

sdk_http_response=HttpResponse(
  headers=
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=nishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=ty.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=ty.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=fficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'>
) automatic_function_calling_history=[] parsed=None

REST

Sie können anhand des Felds trafficType in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld trafficType auf ON_DEMAND_PRIORITY gesetzt.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Ramp-Limits

Priority PayGo legt Ramp-Limits auf Organisationsebene fest. Ramp-Limits sorgen für eine vorhersehbare und konsistente Leistung. Das Startlimit hängt vom Modell ab:

  • Gemini Flash- und Flash-Lite-Modelle:4 Millionen Token/Minute
  • Gemini Pro-Modelle:1 Million Token/Minute

Das Ramp-Limit erhöht sich um 50% für jeweils 10 Minuten ununterbrochener Nutzung.

Wenn eine Anfrage das Ramp-Limit überschreitet und das System aufgrund hoher Traffic-Lasten überlastet ist, wird die Anfrage auf „Pay as you go“ herabgestuft und zu den „Pay as you go“-Preisen abgerechnet.

Um Herabstufungen zu minimieren, skalieren Sie die Nutzung schrittweise, um innerhalb des Limits zu bleiben. Wenn Sie eine bessere Leistung benötigen, können Sie zusätzliches Kontingent für bereitgestellten Durchsatz erwerben.

Sie können in der Antwort prüfen, ob eine Anfrage herabgestuft wurde. Bei Anfragen, die auf „Pay as you go“ herabgestuft wurden, ist der Traffictyp auf ON_DEMAND gesetzt. Weitere Informationen finden Sie unter Priority PayGo-Nutzung prüfen.

Nächste Schritte