Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Priority PayGo

„Priority Pay-as-you-go“ (Priority PayGo) ist eine Verbrauchsoption, die eine konsistentere Leistung als „Standard PayGo“ bietet, ohne dass eine Vorabverpflichtung für „Bereitgestellter Durchsatz“ erforderlich ist.

Bei Verwendung von Priority PayGo werden Ihnen die Token zu einem höheren Preis als bei Standard PayGo in Rechnung gestellt. Informationen zu den Preisen finden Sie auf der Preisseite der Gemini Enterprise Agent Platform.

Wann sollte Priority PayGo verwendet werden?

Priority PayGo ist ideal für geschäftskritische Arbeitslasten mit schwankenden oder unvorhersehbaren Traffic-Mustern. Beispielanwendungsfälle:

Virtuelle Assistenten für Kunden
Agentische Workflows und agentenübergreifende Interaktionen
Forschungssimulationen

Unterstützte Modelle und Standorte

Die folgenden Modelle unterstützen Priority PayGo nur im global-Endpunkt. Priority PayGo unterstützt keine regionalen oder multiregionalen Endpunkte.

Priority PayGo verwenden

Wenn Sie Anfragen mit Priority PayGo an die Gemini API senden möchten, müssen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type in Ihre Anfrage einfügen. Sie können Priority PayGo auf zwei Arten verwenden:

Kontingent für „Bereitgestellter Durchsatz“ verwenden (falls verfügbar) und auf Priority PayGo ausweichen.
Nur Priority PayGo verwenden.

Priority PayGo verwenden, während „Bereitgestellter Durchsatz“ als Standard verwendet wird

Wenn Sie verfügbares Kontingent für „Bereitgestellter Durchsatz“ nutzen möchten, bevor Sie Priority PayGo verwenden, fügen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=True

Initialisieren Sie Ihren GenAI-Client, um Priority PayGo zu verwenden. Nach diesem Schritt müssen Sie keine weiteren Anpassungen an Ihrem Code vornehmen, um mit demselben Client mit Priority PayGo mit der Gemini API zu interagieren.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher-Modellendpunkt gesendet.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .
MODEL_ID: Die Modell-ID des Modells für das Sie Priority PayGo initialisieren möchten. Eine Liste der Modelle, die Priority PayGo unterstützen, finden Sie unter Modellversionen.
PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streamen Sie die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Nur Priority PayGo verwenden

Wenn Sie nur Priority PayGo verwenden möchten, fügen Sie die Header X-Vertex-AI-LLM-Request-Type: shared und X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=True

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .
MODEL_ID: Die Modell-ID des Modells für das Sie Priority PayGo initialisieren möchten. Eine Liste der Modelle, die Priority PayGo unterstützen, finden Sie unter Modellversionen.
PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streamen Sie die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Priority PayGo-Nutzung prüfen

Sie können anhand des Traffic-Typs in der Antwort prüfen, ob eine Anfrage Priority PayGo verwendet hat, wie in den folgenden Beispielen gezeigt.

Python

Sie können anhand des Felds traffic_type in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld traffic_type auf ON_DEMAND_PRIORITY festgelegt.

sdk_http_response=HttpResponse(
  headers=<dict len=9>
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=<FinishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=<TrafficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'>
) automatic_function_calling_history=[] parsed=None

REST

Sie können anhand des Felds trafficType in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld trafficType auf ON_DEMAND_PRIORITY festgelegt.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Ramp-Limits

Für Priority PayGo werden Ramp-Limits auf Organisationsebene festgelegt. Ramp-Limits tragen zu einer vorhersehbaren und konsistenten Leistung bei. Das Startlimit hängt vom Modell ab:

Gemini Flash- und Flash-Lite-Modelle:4 Mio. Token/Minute
Gemini Pro-Modelle:1 Mio. Token/Minute

Das Ramp-Limit erhöht sich bei einer kontinuierlichen Nutzung von 10 Minuten um 50 %.

Wenn eine Anfrage das Ramp-Limit überschreitet oder das System aufgrund hoher Traffic-Lasten vorübergehend überlastet ist, wird die Anfrage möglicherweise auf Standard PayGo herabgestuft und zu Standard PayGo-Preisen in Rechnung gestellt.

Um Herabstufungen zu minimieren, skalieren Sie die Nutzung schrittweise, um innerhalb des Limits zu bleiben. Wenn Sie eine bessere Leistung benötigen, können Sie zusätzliches Kontingent für „Bereitgestellter Durchsatz“ erwerben.

Sie können anhand der Antwort prüfen, ob eine Anfrage herabgestuft wurde. Bei Anfragen, die auf Standard PayGo herabgestuft wurden, ist der Traffic-Typ auf ON_DEMAND festgelegt. Weitere Informationen finden Sie unter Priority PayGo-Nutzung prüfen.

Nächste Schritte

Weitere Informationen zu „Bereitgestellter Durchsatz“ finden Sie unter Provisioned Throughput.
Informationen zu Kontingenten und Limits für die Agent Platform finden Sie unter Kontingente und Limits der Gemini Enterprise Agent Platform.
Weitere Informationen zu Google Cloud Kontingenten und Systemlimits finden Sie in der Dokumentation zu Cloud-Kontingenten.

Priority PayGo Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Wann sollte Priority PayGo verwendet werden?

Unterstützte Modelle und Standorte

Priority PayGo verwenden

Priority PayGo verwenden, während „Bereitgestellter Durchsatz“ als Standard verwendet wird

Python

Installieren

REST

Nur Priority PayGo verwenden

Python

Installieren

REST

Priority PayGo-Nutzung prüfen

Python

REST

Ramp-Limits

Nächste Schritte

Priority PayGo