Priority PayGo

„Priority Pay-as-you-go“ (Priority PayGo) ist eine Verbrauchsoption, die eine konsistentere Leistung als Standard PayGo bietet, ohne dass der bereitgestellte Durchsatz im Voraus gebucht werden muss.

Bei Priority PayGo wird die Tokennutzung zu einem höheren Preis als bei Standard PayGo berechnet. Informationen zu Preisen finden Sie auf der Seite Vertex AI-Preise.

Wann sollte Priority PayGo verwendet werden?

Priority PayGo ist ideal für latenzempfindliche und kritische Arbeitslasten mit schwankenden oder unvorhersehbaren Traffic-Mustern. Hier einige Beispiele für Anwendungsfälle:

  • Virtuelle Assistenten für Kunden

  • Latenzsensitive Dokument- und Datenverarbeitung

  • Agentische Workflows und agentenübergreifende Interaktionen

  • Forschungssimulationen

Unterstützte Modelle und Standorte

Die folgenden Modelle unterstützen Priority PayGo nur am global-Endpunkt. Priority PayGo unterstützt keine regionalen oder multiregionalen Endpunkte.

Priority PayGo verwenden

Wenn Sie Anfragen an die Gemini API in Vertex AI mit Priority PayGo senden möchten, müssen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type in Ihre Anfrage einfügen. Sie können Priority PayGo auf zwei Arten verwenden:

  • Provisioned Throughput-Kontingent verwenden (falls verfügbar) und auf Priority PayGo ausweichen.

  • Nur Priority PayGo verwenden.

Priority PayGo verwenden, wenn Provisioned Throughput als Standard festgelegt ist

Wenn Sie verfügbares Provisioned Throughput-Kontingent nutzen möchten, bevor Sie Priority PayGo verwenden, fügen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisieren Sie Ihren GenAI-Client, um Priority PayGo zu verwenden. Nach diesem Schritt müssen Sie Ihren Code nicht weiter anpassen, um mit Priority PayGo auf demselben Client mit der Gemini API zu interagieren.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie folgende Werte in den Anfragedaten:

  • PROJECT_ID: Ihre Projekt-ID.
  • MODEL_ID: Die Modell-ID des Modells, für das Sie Priority PayGo initialisieren möchten. Eine Liste der Modelle, die Priority PayGo unterstützen, finden Sie unter Modellversionen.
  • PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}
Beachten Sie Folgendes in der URL für dieses Beispiel:
  • Mit der Methode generateContent können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der Methode streamGenerateContent erzeugt wird.
  • Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Nur Priority PayGo verwenden

Wenn Sie nur Priority PayGo verwenden möchten, fügen Sie die Header X-Vertex-AI-LLM-Request-Type: shared und X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisieren Sie Ihren GenAI-Client, um Priority PayGo zu verwenden. Nach diesem Schritt müssen Sie Ihren Code nicht weiter anpassen, um mit Priority PayGo auf demselben Client mit der Gemini API zu interagieren.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Ersetzen Sie folgende Werte in den Anfragedaten:

  • PROJECT_ID: Ihre Projekt-ID.
  • MODEL_ID: Die Modell-ID des Modells, für das Sie Priority PayGo initialisieren möchten. Eine Liste der Modelle, die Priority PayGo unterstützen, finden Sie unter Modellversionen.
  • PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}
Beachten Sie Folgendes in der URL für dieses Beispiel:
  • Mit der Methode generateContent können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der Methode streamGenerateContent erzeugt wird.
  • Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Nutzung von Priority PayGo prüfen

Sie können anhand des Traffictyps in der Antwort prüfen, ob für eine Anfrage Priority PayGo verwendet wurde. Hier einige Beispiele:

Python

Sie können anhand des Felds traffic_type in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld traffic_type auf ON_DEMAND_PRIORITY festgelegt.

sdk_http_response=HttpResponse(
  headers=
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=nishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=ty.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=ty.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=fficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'>
) automatic_function_calling_history=[] parsed=None

REST

Sie können anhand des Felds trafficType in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld trafficType auf ON_DEMAND_PRIORITY festgelegt.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Rampenlimits

Bei Priority PayGo werden die Rampenlimits auf Organisationsebene festgelegt. Rampenlimits tragen zu einer vorhersehbaren und konsistenten Leistung bei. Das Startlimit hängt vom Modell ab:

  • Gemini Flash- und Flash-Lite-Modelle:4 Mio. Tokens/min.
  • Gemini Pro-Modelle:1 Million Tokens/Minute

Das Rampenlimit erhöht sich um 50% für jeweils 10 Minuten kontinuierlicher Nutzung.

Wenn eine Anfrage das Ramp-Limit überschreitet und das System aufgrund hoher Traffic-Lasten überlastet ist, wird die Anfrage auf „Standard PayGo“ herabgestuft und zu „Standard PayGo“-Preisen abgerechnet.

Um Downgrades zu vermeiden, sollten Sie die Nutzung schrittweise skalieren, damit Sie das Limit nicht überschreiten. Wenn Sie weiterhin eine bessere Leistung benötigen, sollten Sie zusätzliches Kontingent für bereitgestellten Durchsatz erwerben.

Sie können anhand der Antwort prüfen, ob eine Anfrage herabgestuft wurde. Bei Anfragen, die auf Standard PayGo herabgestuft werden, wird der Traffictyp auf ON_DEMAND festgelegt. Weitere Informationen finden Sie unter Priority PayGo-Nutzung überprüfen.

Nächste Schritte