Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Priority PayGo

„Priority Pay-as-you-go“ (Priority PayGo) ist eine Verbrauchsoption, die eine konsistentere Leistung als Standard PayGo bietet, ohne dass eine Vorabverpflichtung wie beim bereitgestellten Durchsatz erforderlich ist.

Bei Priority PayGo wird die Tokennutzung zu einem höheren Preis als bei Standard PayGo berechnet. Informationen zur Preisgestaltung finden Sie auf der Seite Gemini Enterprise Agent Platform-Preise.

Wann sollte Priority PayGo verwendet werden?

Priority PayGo ist ideal für geschäftskritische Arbeitslasten mit schwankenden oder unvorhersehbaren Traffic-Mustern. Beispiele für Anwendungsfälle:

Virtuelle Assistenten für Kunden
Agentische Workflows und agentenübergreifende Interaktionen
Forschungssimulationen

Unterstützte Modelle und Standorte

Die folgenden Modelle unterstützen Priority PayGo nur am global-Endpunkt. Priority PayGo unterstützt keine regionalen oder multiregionalen Endpunkte.

Priority PayGo verwenden

Wenn Sie mit Priority PayGo Anfragen an die Gemini API in der Gemini Enterprise Agent Platform senden möchten, müssen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type in Ihre Anfrage einfügen. Sie können Priority PayGo auf zwei Arten verwenden:

Bereitgestellter Durchsatz-Kontingent verwenden (sofern verfügbar) und auf Priority PayGo ausweichen.
Verwenden Sie nur Priority PayGo.

Priority PayGo verwenden, wenn Bereitgestellter Durchsatz als Standardeinstellung festgelegt ist

Wenn Sie verfügbares Bereitgestellter Durchsatz-Kontingent nutzen möchten, bevor Sie Priority PayGo verwenden, fügen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=True

Initialisieren Sie Ihren GenAI-Client, um Priority PayGo zu verwenden. Nach diesem Schritt müssen Sie Ihren Code nicht weiter anpassen, um mit Priority PayGo auf demselben Client mit der Gemini API zu interagieren.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher-Modellendpunkt gesendet.

Ersetzen Sie folgende Werte in den Anfragedaten:

PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .
MODEL_ID: Die Modell-ID des Modells, für das Sie Priority PayGo initialisieren möchten. Eine Liste der Modelle, die Priority PayGo unterstützen, finden Sie unter Modellversionen.
PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Mit der Methode generateContent können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der Methode streamGenerateContent erzeugt wird.
Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Nur Priority PayGo verwenden

Wenn Sie nur Priority PayGo verwenden möchten, fügen Sie die Header X-Vertex-AI-LLM-Request-Type: shared und X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=True

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Ersetzen Sie folgende Werte in den Anfragedaten:

PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .
MODEL_ID: Die Modell-ID des Modells, für das Sie Priority PayGo initialisieren möchten. Eine Liste der Modelle, die Priority PayGo unterstützen, finden Sie unter Modellversionen.
PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Mit der Methode generateContent können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der Methode streamGenerateContent erzeugt wird.
Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Nutzung von Priority PayGo prüfen

Sie können anhand des Traffictyps in der Antwort prüfen, ob für eine Anfrage Priority PayGo verwendet wurde. Hier sind einige Beispiele:

Python

Sie können anhand des Felds traffic_type in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld traffic_type auf ON_DEMAND_PRIORITY festgelegt.

sdk_http_response=HttpResponse(
  headers=<dict len=9>
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=<FinishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=<TrafficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'>
) automatic_function_calling_history=[] parsed=None

REST

Sie können anhand des Felds trafficType in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld trafficType auf ON_DEMAND_PRIORITY festgelegt.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Rampenlimits

Bei Priority PayGo werden die Ramp-Limits auf Organisationsebene festgelegt. Rampenlimits sorgen für eine vorhersehbare und konsistente Leistung. Das Startlimit hängt vom Modell ab:

Gemini Flash- und Flash-Lite-Modelle:4 Mio. Tokens/min.
Gemini Pro-Modelle:1 Million Tokens/min.

Das Rampenlimit erhöht sich um 50% für jeweils 10 Minuten kontinuierlicher Nutzung.

Wenn eine Anfrage das Ramp-up-Limit überschreitet oder das System aufgrund hoher Traffic-Lasten vorübergehend überlastet ist, wird die Anfrage möglicherweise auf Standard PayGo herabgestuft und zu Standard PayGo-Preisen abgerechnet.

Um Downgrades zu vermeiden, sollten Sie die Nutzung schrittweise steigern, damit Sie das Limit nicht überschreiten. Wenn Sie weiterhin eine bessere Leistung benötigen, sollten Sie zusätzliches Kontingent für bereitgestellten Durchsatz erwerben.

Sie können anhand der Antwort prüfen, ob eine Anfrage herabgestuft wurde. Bei Anfragen, die auf Standard PayGo herabgestuft werden, wird der Traffictyp auf ON_DEMAND festgelegt. Weitere Informationen finden Sie unter Priority PayGo-Nutzung prüfen.

Nächste Schritte

Weitere Informationen zum bereitgestellten Durchsatz finden Sie unter Bereitgestellter Durchsatz.
Informationen zu Kontingenten und Limits für die Agent Platform finden Sie unter Kontingente und Limits für die Gemini Enterprise Agent Platform.
Weitere Informationen zu Google Cloud Kontingenten und Systemlimits finden Sie in der Dokumentation zu Cloud-Kontingenten.

Priority PayGo Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Wann sollte Priority PayGo verwendet werden?

Unterstützte Modelle und Standorte

Priority PayGo verwenden

Priority PayGo verwenden, wenn Bereitgestellter Durchsatz als Standardeinstellung festgelegt ist

Python

Installieren

REST

Nur Priority PayGo verwenden

Python

Installieren

REST

Nutzung von Priority PayGo prüfen

Python

REST

Rampenlimits

Nächste Schritte

Priority PayGo