Priority PayGo

„Pay as you go“ mit Priorität (Priority PayGo) ist eine Verbrauchsoption, die eine konsistentere Leistung als „Pay as you go“ mit Standard bietet, ohne die Vorabverpflichtung von bereitgestelltem Durchsatz.

Bei der Verwendung von Priority PayGo werden Ihnen die Token zu einem höheren Preis als bei Standard PayGo in Rechnung gestellt. Informationen zu den Preisen finden Sie auf der Preisseite.

Wann sollte Priority PayGo verwendet werden?

Priority PayGo ist ideal für geschäftskritische Arbeitslasten mit schwankenden oder unvorhersehbaren Traffic-Mustern. Beispielanwendungsfälle:

  • Virtuelle Assistenten für Kunden
  • Agentische Workflows und agentenübergreifende Interaktionen
  • Forschungssimulationen

Priority PayGo verwenden

Wenn Sie Anfragen mit Priority PayGo an die Gemini API senden möchten, müssen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type in Ihre Anfrage einfügen. Sie können Priority PayGo auf zwei Arten verwenden:

  • Kontingent für bereitgestellten Durchsatz verwenden (falls verfügbar) und auf Priority PayGo ausweichen.

  • Nur Priority PayGo verwenden.

Priority PayGo verwenden, während PT als Standard verwendet wird

Wenn Sie verfügbares PT-Kontingent nutzen möchten, bevor Sie Priority PayGo verwenden, fügen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisieren Sie Ihren GenAI-Client, um Priority PayGo zu verwenden. Nach diesem Schritt müssen Sie keine weiteren Anpassungen an Ihrem Code vornehmen, um mit demselben Client mit Priority PayGo mit der Gemini API zu interagieren.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher-Modellendpunkt gesendet.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • PROJECT_ID: Ihre Projekt-ID. .
  • MODEL_ID: Die Modell-ID des Modells für das Sie Priority PayGo initialisieren möchten.
  • PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}
  • Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
  • Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.5-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Nur Priority PayGo verwenden

Wenn Sie nur Priority PayGo verwenden möchten, fügen Sie die Header X-Vertex-AI-LLM-Request-Type: shared und X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisieren Sie Ihren GenAI-Client, um Priority PayGo zu verwenden. Nach diesem Schritt müssen Sie keine weiteren Anpassungen an Ihrem Code vornehmen, um mit demselben Client mit Priority PayGo mit der Gemini API zu interagieren.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • PROJECT_ID: Ihre Projekt-ID. .
  • MODEL_ID: Die Modell-ID des Modells für das Sie Priority PayGo initialisieren möchten.
  • PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}
  • Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
  • Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.5-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Priority PayGo-Nutzung prüfen

Sie können anhand des Traffic-Typs in der Antwort prüfen, ob eine Anfrage Priority PayGo verwendet hat, wie in den folgenden Beispielen gezeigt.

Python

Sie können anhand des Felds traffic_type in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld traffic_type auf ON_DEMAND_PRIORITY gesetzt.

sdk_http_response=HttpResponse(
  headers=
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=nishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=ty.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=ty.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=fficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'>
) automatic_function_calling_history=[] parsed=None

REST

Sie können anhand des Felds trafficType in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld trafficType auf ON_DEMAND_PRIORITY gesetzt.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Ramp-Limits

Priority PayGo legt Ramp-Limits auf Organisationsebene fest. Ramp-Limits sorgen für eine vorhersehbare und konsistente Leistung. Das Startlimit hängt vom Modell ab:

  • Gemini Flash- und Flash-Lite-Modelle:4 Mio. Token/Min.
  • Gemini Pro-Modelle:1 Mio. Token/Min.

Das Ramp-Limit erhöht sich für jede 10 Minuten ununterbrochener Nutzung um 50 %.

Wenn eine Anfrage das Ramp-Limit überschreitet und das System aufgrund von hohem Traffic überlastet ist, wird die Anfrage auf Standard PayGo herabgestuft und zu Standard PayGo-Preisen abgerechnet.

Um Herabstufungen zu minimieren, skalieren Sie die Nutzung schrittweise, um innerhalb des Limits zu bleiben. Wenn Sie dennoch eine bessere Leistung benötigen, sollten Sie zusätzliches PT-Kontingent erwerben.

Sie können anhand der Antwort prüfen, ob eine Anfrage herabgestuft wurde. Bei Anfragen, die auf Standard PayGo herabgestuft wurden, ist der Traffic-Typ auf ON_DEMAND gesetzt. Weitere Informationen finden Sie unter Priority PayGo-Nutzung prüfen.