Priority PayGo

„Priority Pay-as-you-go“ (Priority PayGo) ist eine Verbrauchsoption, die eine konsistentere Leistung als „Standard PayGo“ bietet, ohne dass eine Vorabverpflichtung für „Bereitgestellter Durchsatz“ erforderlich ist.

Bei Verwendung von Priority PayGo werden Ihnen die Token zu einem höheren Preis als bei Standard PayGo in Rechnung gestellt. Informationen zu den Preisen finden Sie auf der Preisseite der Gemini Enterprise Agent Platform.

Wann sollte Priority PayGo verwendet werden?

Priority PayGo ist ideal für geschäftskritische Arbeitslasten mit schwankenden oder unvorhersehbaren Traffic-Mustern. Beispielanwendungsfälle:

  • Virtuelle Assistenten für Kunden
  • Agentische Workflows und agentenübergreifende Interaktionen
  • Forschungssimulationen

Unterstützte Modelle und Standorte

Die folgenden Modelle unterstützen Priority PayGo nur im global-Endpunkt. Priority PayGo unterstützt keine regionalen oder multiregionalen Endpunkte.

Priority PayGo verwenden

Wenn Sie Anfragen an die Gemini API in der Gemini Enterprise Agent Platform mit Priority PayGo senden möchten, müssen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type in Ihre Anfrage einfügen. Sie können Priority PayGo auf zwei Arten verwenden:

  • Verwenden Sie das Kontingent für „Bereitgestellter Durchsatz“ (falls verfügbar) und wechseln Sie zu Priority PayGo.

  • Verwenden Sie nur Priority PayGo.

Priority PayGo verwenden, während „Bereitgestellter Durchsatz“ als Standard verwendet wird

Wenn Sie das verfügbare Kontingent für „Bereitgestellter Durchsatz“ nutzen möchten, bevor Sie Priority PayGo verwenden, fügen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisieren Sie Ihren GenAI-Client, um Priority PayGo zu verwenden. Nach diesem Schritt müssen Sie keine weiteren Anpassungen an Ihrem Code vornehmen, um mit demselben Client mit der Gemini API über Priority PayGo zu interagieren.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher-Modellendpunkt gesendet.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .
  • MODEL_ID: Die Modell-ID des Modells für das Sie Priority PayGo initialisieren möchten. Eine Liste der Modelle, die Priority PayGo unterstützen, finden Sie unter Modellversionen.
  • PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}
  • Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streamen Sie die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
  • Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Nur Priority PayGo verwenden

Wenn Sie nur Priority PayGo verwenden möchten, fügen Sie die Header X-Vertex-AI-LLM-Request-Type: shared und X-Vertex-AI-LLM-Shared-Request-Type: priority in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisieren Sie Ihren GenAI-Client, um Priority PayGo zu verwenden. Nach diesem Schritt müssen Sie keine weiteren Anpassungen an Ihrem Code vornehmen, um mit demselben Client mit der Gemini API über Priority PayGo zu interagieren.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .
  • MODEL_ID: Die Modell-ID des Modells für das Sie Priority PayGo initialisieren möchten. Eine Liste der Modelle, die Priority PayGo unterstützen, finden Sie unter Modellversionen.
  • PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}
  • Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streamen Sie die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
  • Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Priority PayGo-Nutzung prüfen

Sie können anhand des Traffictyps in der Antwort prüfen, ob eine Anfrage Priority PayGo verwendet hat, wie in den folgenden Beispielen gezeigt.

Python

Sie können anhand des Felds traffic_type in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld traffic_type auf ON_DEMAND_PRIORITY gesetzt.

sdk_http_response=HttpResponse(
  headers=<dict len=9>
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=<FinishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=<TrafficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'>
) automatic_function_calling_history=[] parsed=None

REST

Sie können anhand des Felds trafficType in der Antwort prüfen, ob Priority PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Priority PayGo verarbeitet wurde, ist das Feld trafficType auf ON_DEMAND_PRIORITY gesetzt.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Ramp-Limits

Priority PayGo legt Ramp-Limits auf Organisationsebene fest. Ramp-Limits sorgen für eine vorhersehbare und konsistente Leistung. Das Startlimit hängt vom Modell ab:

  • Gemini Flash- und Flash-Lite-Modelle:4 Millionen Token/Minute
  • Gemini Pro-Modelle:1 Million Token/Minute

Das Ramp-Limit erhöht sich für jeweils 10 Minuten ununterbrochener Nutzung um 50 %.

Wenn eine Anfrage das Ramp-Limit überschreitet oder das System aufgrund hoher Traffic-Lasten vorübergehend überlastet ist, wird die Anfrage möglicherweise auf Standard PayGo herabgestuft und zu Standard PayGo-Preisen in Rechnung gestellt.

Um Herabstufungen zu minimieren, skalieren Sie die Nutzung schrittweise, um innerhalb des Limits zu bleiben. Wenn Sie dennoch eine bessere Leistung benötigen, können Sie zusätzliches Kontingent für „Bereitgestellter Durchsatz“ erwerben.

Sie können in der Antwort prüfen, ob eine Anfrage herabgestuft wurde. Bei Anfragen, die auf Standard PayGo herabgestuft wurden, ist der Traffictyp auf ON_DEMAND gesetzt. Weitere Informationen finden Sie unter Priority PayGo-Nutzung prüfen.

Nächste Schritte