Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Flex PayGo

Flex Pay as you go (Flex PayGo) ist eine kostengünstige Option für den Zugriff auf Gemini-Modelle für nicht kritische Arbeitslasten, bei denen längere Reaktionszeiten und eine höhere Drosselung akzeptabel sind. Flex PayGo bietet einen Rabatt von 50% im Vergleich zur Standard-PayGo-Option.

Wann sollte Flex PayGo verwendet werden?

Flex PayGo ist ideal für synchrone, latenztolerante und nicht kritische Aufgaben, die nicht zeitkritisch sind. Beispiele für Anwendungsfälle:

Offline-Analyse von Text-, Dokument-, Bild-, Audio- und Videodateien
Bewertung der Modellqualität
Datenannotation und ‑labeling
Dokumentübersetzung
Erstellen eines Produktkatalogs

Unterstützte Modelle und Standorte

Die folgenden Vorschau Gemini-Modelle unterstützen Flex PayGo nur im global Endpunkt. Flex PayGo unterstützt keine regionalen oder multiregionalen Endpunkte.

Limit für die Nutzlast von Anfragen

Für Flex PayGo-Anfragen gilt ein Limit von 20 MB für die Gesamtgröße der Nutzlast, wenn die Nutzlast direkt im Anfragetext enthalten ist. Wenn Sie größere Dateien verarbeiten möchten, geben Sie in Ihrer Anfrage einen Cloud Storage-URI an.

Flex PayGo verwenden

Wenn Sie Anfragen mit Flex PayGo an die Gemini API senden möchten, müssen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type in Ihre Anfrage einfügen. Sie können Flex PayGo auf zwei Arten verwenden:

Verwenden Sie das Kontingent für den bereitgestellten Durchsatz (falls verfügbar) und dann Flex PayGo.
Verwenden Sie nur Flex PayGo.

Beachten Sie, dass Anfragen, die Flex PayGo verwenden, eine längere erwartete Latenz als Standard-PayGo haben.

Sie können das Zeitlimit für Anfragen auf maximal 30 Minuten festlegen.

Flex PayGo verwenden, während der bereitgestellte Durchsatz als Standard verwendet wird

Wenn Sie das verfügbare Kontingent für den bereitgestellten Durchsatz nutzen möchten, bevor Sie Flex PayGo verwenden, fügen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type: flex in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der Referenzdokumentation zum SDK.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Initialisieren Sie Ihren GenAI-Client, um Flex PayGo zu verwenden. Nach diesem Schritt müssen Sie keine weiteren Anpassungen an Ihrem Code vornehmen, um mit demselben Client mit der Gemini API über Flex PayGo zu interagieren.

Sie können das Standardzeitlimit mit dem Parameter timeout überschreiben. Das Zeitlimit wird in Millisekunden angegeben.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "flex"
      },
    # timeout = 600000  # Timeout in milliseconds
  )
)

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie folgende Werte in den Anfragedaten:

PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .
MODEL_ID: Die Modell-ID des Modells für das Sie Flex PayGo initialisieren möchten. Eine Liste der Modelle, die Flex PayGo unterstützen, finden Sie unter Modellversionen.
PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.

Sie können das Standardzeitlimit überschreiben, indem Sie den Header X-Server-Timeout festlegen. Das Zeitlimit wird in Sekunden angegeben.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Server-Timeout: 600" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: flex" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_FLEX",
    "thoughtsTokenCount": 1054
  }
}

Beachten Sie Folgendes in der URL für dieses Beispiel:

Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.5-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.
Wenn Sie einen regionalen API-Endpunkt verwenden (z. B. us-central1), bestimmt die Region aus der Endpunkt-URL, wo die Anfrage verarbeitet wird. Alle widersprüchlichen Standorte im Ressourcenpfad werden ignoriert.

Nur Flex PayGo verwenden

Wenn Sie nur Flex PayGo verwenden möchten, fügen Sie die Header X-Vertex-AI-LLM-Request-Type: shared und X-Vertex-AI-LLM-Shared-Request-Type: flex in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der Referenzdokumentation zum SDK.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Sie können das Standardzeitlimit mit dem Parameter timeout überschreiben. Das Zeitlimit wird in Millisekunden angegeben.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "flex"
      },
    # timeout = 600000  # Timeout in milliseconds
  )
)

REST

Ersetzen Sie folgende Werte in den Anfragedaten:

PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .
MODEL_ID: Die Modell-ID des Modells für das Sie Flex PayGo initialisieren möchten. Eine Liste der Modelle, die Flex PayGo unterstützen, finden Sie unter Modellversionen.
PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.

Sie können das Standardzeitlimit überschreiben, indem Sie den Header X-Server-Timeout festlegen. Das Zeitlimit wird in Sekunden angegeben.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Server-Timeout: 600" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: flex" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_FLEX",
    "thoughtsTokenCount": 1054
  }
}

Beachten Sie Folgendes in der URL für dieses Beispiel:

Mit der generateContent Methode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der streamGenerateContent Methode erzeugt wird.
Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.5-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.
Wenn Sie einen regionalen API-Endpunkt verwenden (z. B. us-central1), bestimmt die Region aus der Endpunkt-URL, wo die Anfrage verarbeitet wird. Alle widersprüchlichen Standorte im Ressourcenpfad werden ignoriert.

Flex PayGo-Nutzung überprüfen

Sie können anhand des Traffictyps in der Antwort prüfen, ob eine Anfrage Flex PayGo verwendet hat, wie in den folgenden Beispielen gezeigt.

Python

Sie können anhand des Felds traffic_type in der Antwort prüfen, ob Flex PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Flex PayGo verarbeitet wurde, ist das Feld traffic_type auf ON_DEMAND_FLEX gesetzt.

sdk_http_response=HttpResponse(
  headers=
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=<FinishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=<TrafficType.ON_DEMAND_FLEX: 'ON_DEMAND_FLEX'>
) automatic_function_calling_history=[] parsed=None

REST

Sie können anhand des Felds trafficType in der Antwort prüfen, ob Flex PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Flex PayGo verarbeitet wurde, ist das Feld trafficType auf ON_DEMAND_FLEX gesetzt.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_FLEX",
    "thoughtsTokenCount": 1054
  }
}

Zusätzliches Kontingent für Flex PayGo

Zusätzlich zu den verfügbaren Kontingenten für Anfragen zur Inhaltserstellung (einschließlich des Kontingents für den bereitgestellten Durchsatz für Spillover-Traffic) unterliegen Anfragen, die Flex PayGo verwenden, dem folgenden Kontingent:

Beschreibung	QPM für jedes Basismodell in einem Projekt
Kontingent für Anfragen für jedes Basismodell in einem Projekt, die Flex PayGo verwenden	3.000

Nächste Schritte

Ressource

Flex PayGo

Wann sollte Flex PayGo verwendet werden?

Unterstützte Modelle und Standorte

Limit für die Nutzlast von Anfragen

Flex PayGo verwenden

Flex PayGo verwenden, während der bereitgestellte Durchsatz als Standard verwendet wird

Python

Installieren

REST

Nur Flex PayGo verwenden

Python

Installieren

REST

Flex PayGo-Nutzung überprüfen

Python

REST

Zusätzliches Kontingent für Flex PayGo

Nächste Schritte

Kontingente und Limits für generative KI

Kontingente und Limits für die Agent Platform

Google Cloud-Kontingente

Flex PayGo Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Wann sollte Flex PayGo verwendet werden?

Unterstützte Modelle und Standorte

Limit für die Nutzlast von Anfragen

Flex PayGo verwenden

Flex PayGo verwenden, während der bereitgestellte Durchsatz als Standard verwendet wird

Python

Installieren

REST

Nur Flex PayGo verwenden

Python

Installieren

REST

Flex PayGo-Nutzung überprüfen

Python

REST

Zusätzliches Kontingent für Flex PayGo

Nächste Schritte

Kontingente und Limits für generative KI

Kontingente und Limits für die Agent Platform

Google Cloud-Kontingente

Flex PayGo