Flex PayGo

Flex Pay as you go (Flex PayGo) ist eine kostengünstige Option für den Zugriff auf Gemini-Modelle für nicht kritische Arbeitslasten, bei denen längere Reaktionszeiten und eine stärkere Drosselung akzeptabel sind. Flex PayGo bietet einen Rabatt von 50% im Vergleich zur Standard-PayGo-Option.

Wann sollte Flex PayGo verwendet werden?

Flex PayGo ist ideal für synchrone, latenztolerante und nicht kritische Aufgaben, die nicht zeitkritisch sind. Beispiele für Anwendungsfälle:

Offline-Analyse von Text-, Dokument-, Bild-, Audio- und Videodateien
Bewertung der Modellqualität
Datenannotation und ‑labeling
Dokumentübersetzung
Erstellen eines Produktkatalogs

Unterstützte Modelle und Standorte

Die folgenden Vorschau Gemini-Modelle unterstützen Flex PayGo nur im global Endpunkt. Flex PayGo unterstützt keine regionalen oder multiregionalen Endpunkte.

Gemini 3.1 Flash-Lite Vorschau
Gemini 3.1 Flash Image Vorschau
Gemini 3.1 Pro (Vorschau)
Gemini 3 Flash (Vorschau)
Gemini 3 Pro (Vorschau)
Gemini 3 Pro Image Vorschau

Limit für die Nutzlast von Anfragen

Für Flex PayGo-Anfragen gilt ein Limit für die Gesamtgröße der Nutzlast von 20 MB für Anfragen, bei denen die Nutzlast direkt im Anfragetext enthalten ist. Wenn Sie größere Dateien verarbeiten möchten, geben Sie in Ihrer Anfrage einen Cloud Storage-URI an.

Flex PayGo verwenden

Wenn Sie Anfragen mit Flex PayGo an die Gemini API senden möchten, müssen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type in Ihre Anfrage einfügen. Sie können Flex PayGo auf zwei Arten verwenden:

Verwenden Sie das Kontingent für den bereitgestellten Durchsatz (falls verfügbar) und dann Flex PayGo.
Verwenden Sie nur Flex PayGo.

Anfragen, die Flex PayGo verwenden, haben eine längere erwartete Latenz als Standard-PayGo-Anfragen.

Sie können das Zeitlimit für Anfragen auf maximal 30 Minuten festlegen.

Flex PayGo verwenden, während der bereitgestellte Durchsatz als Standard verwendet wird

Wenn Sie das verfügbare Kontingent für den bereitgestellten Durchsatz nutzen möchten, bevor Sie Flex PayGo verwenden, fügen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type: flex in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisieren Sie Ihren GenAI-Client, um Flex PayGo zu verwenden. Nach diesem Schritt müssen Sie keine weiteren Anpassungen an Ihrem Code vornehmen, um mit demselben Client über Flex PayGo mit der Gemini API zu interagieren.

Sie können das Standardzeitlimit mit dem Parameter timeout überschreiben. Das Zeitlimit wird in Millisekunden angegeben.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "flex"
      },
    # timeout = 600000  # Timeout in milliseconds
  )
)

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher-Modellendpunkt gesendet.

Ersetzen Sie folgende Werte in den Anfragedaten:

PROJECT_ID: Ihre Projekt-ID.
MODEL_ID: Die Modell-ID des Modells für das Sie Flex PayGo initialisieren möchten. Eine Liste der Modelle, die Flex PayGo unterstützen, finden Sie unter Modellversionen.
PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.

Sie können das Standardzeitlimit überschreiben, indem Sie den Header X-Server-Timeout festlegen. Das Zeitlimit wird in Sekunden angegeben.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Server-Timeout: 600" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: flex" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_FLEX",
    "thoughtsTokenCount": 1054
  }
}

Beachten Sie in der URL für dieses Beispiel Folgendes:

Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.5-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.
Wenn Sie einen regionalen API-Endpunkt verwenden (z. B. us-central1), bestimmt die Region aus der Endpunkt-URL, wo die Anfrage verarbeitet wird. Alle widersprüchlichen Standorte im Ressourcenpfad werden ignoriert.

Nur Flex PayGo verwenden

Wenn Sie nur Flex PayGo verwenden möchten, fügen Sie die Header X-Vertex-AI-LLM-Request-Type: shared und X-Vertex-AI-LLM-Shared-Request-Type: flex in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Sie können das Standardzeitlimit mit dem Parameter timeout überschreiben. Das Zeitlimit wird in Millisekunden angegeben.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "flex"
      },
    # timeout = 600000  # Timeout in milliseconds
  )
)

REST

Ersetzen Sie folgende Werte in den Anfragedaten:

PROJECT_ID: Ihre Projekt-ID.
MODEL_ID: Die Modell-ID des Modells für das Sie Flex PayGo initialisieren möchten. Eine Liste der Modelle, die Flex PayGo unterstützen, finden Sie unter Modellversionen.
PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.

Sie können das Standardzeitlimit überschreiben, indem Sie den Header X-Server-Timeout festlegen. Das Zeitlimit wird in Sekunden angegeben.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Server-Timeout: 600" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: flex" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_FLEX",
    "thoughtsTokenCount": 1054
  }
}

Beachten Sie in der URL für dieses Beispiel Folgendes:

Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.5-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.
Wenn Sie einen regionalen API-Endpunkt verwenden (z. B. us-central1), bestimmt die Region aus der Endpunkt-URL, wo die Anfrage verarbeitet wird. Alle widersprüchlichen Standorte im Ressourcenpfad werden ignoriert.

Flex PayGo-Nutzung überprüfen

Sie können anhand des Traffictyps in der Antwort prüfen, ob eine Anfrage Flex PayGo verwendet hat, wie in den folgenden Beispielen gezeigt.

Python

Sie können anhand des Felds traffic_type in der Antwort prüfen, ob Flex PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Flex PayGo verarbeitet wurde, ist das Feld traffic_type auf ON_DEMAND_FLEX gesetzt.

sdk_http_response=HttpResponse(
  headers=
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=<FinishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=<TrafficType.ON_DEMAND_FLEX: 'ON_DEMAND_FLEX'>
) automatic_function_calling_history=[] parsed=None

REST

Sie können anhand des Felds trafficType in der Antwort prüfen, ob Flex PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Flex PayGo verarbeitet wurde, ist das Feld trafficType auf ON_DEMAND_FLEX gesetzt.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_FLEX",
    "thoughtsTokenCount": 1054
  }
}

Zusätzliches Kontingent für Flex PayGo

Zusätzlich zu den verfügbaren Kontingenten für Anfragen zur Inhaltserstellung (einschließlich des Kontingents für den bereitgestellten Durchsatz für Spillover-Traffic) unterliegen Anfragen, die Flex PayGo verwenden, dem folgenden Kontingent:

Beschreibung	Anfragen pro Minute für jedes Basismodell in einem Projekt
Kontingent für Anfragen für jedes Basismodell in einem Projekt, die Flex PayGo verwenden	3.000

Nächste Schritte

Ressource

Flex PayGo

Wann sollte Flex PayGo verwendet werden?

Unterstützte Modelle und Standorte

Limit für die Nutzlast von Anfragen

Flex PayGo verwenden

Flex PayGo verwenden, während der bereitgestellte Durchsatz als Standard verwendet wird

Python

Installieren

REST

Nur Flex PayGo verwenden

Python

Installieren

REST

Flex PayGo-Nutzung überprüfen

Python

REST

Zusätzliches Kontingent für Flex PayGo

Nächste Schritte

Kontingente und Limits für Generative AI

Kontingente und Limits für die Agent Platform

Google Cloud-Kontingente

Flex PayGo Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Wann sollte Flex PayGo verwendet werden?

Unterstützte Modelle und Standorte

Limit für die Nutzlast von Anfragen

Flex PayGo verwenden

Flex PayGo verwenden, während der bereitgestellte Durchsatz als Standard verwendet wird

Python

Installieren

REST

Nur Flex PayGo verwenden

Python

Installieren

REST

Flex PayGo-Nutzung überprüfen

Python

REST

Zusätzliches Kontingent für Flex PayGo

Nächste Schritte

Kontingente und Limits für Generative AI

Kontingente und Limits für die Agent Platform

Google Cloud-Kontingente

Flex PayGo