Flex Pay as you go (Flex PayGo) ist eine kostengünstige Option für den Zugriff auf Gemini-Modelle für nicht kritische Arbeitslasten, bei denen längere Reaktionszeiten und eine höhere Drosselung akzeptabel sind. Flex PayGo bietet einen Rabatt von 50% im Vergleich zur Standard-PayGo-Option.
Wann sollte Flex PayGo verwendet werden?
Flex PayGo ist ideal für synchrone, latenztolerante und nicht kritische Aufgaben, die nicht zeitkritisch sind. Beispiele für Anwendungsfälle:
Offline-Analyse von Text-, Dokument-, Bild-, Audio- und Videodateien
Bewertung der Modellqualität
Datenannotation und ‑labeling
Dokumentübersetzung
Erstellen eines Produktkatalogs
Unterstützte Modelle und Standorte
Die folgenden Vorschau
Gemini-Modelle unterstützen Flex PayGo nur im global
Endpunkt. Flex PayGo unterstützt keine regionalen oder multiregionalen Endpunkte.
gemini-3.5-flashgemini-3.1-flash-litegemini-3.1-flash-image-previewgemini-3.1-pro-previewgemini-3-flash-previewgemini-3-pro-image-preview
Limit für die Nutzlast von Anfragen
Für Flex PayGo-Anfragen gilt ein Limit von 20 MB für die Gesamtgröße der Nutzlast, wenn die Nutzlast direkt im Anfragetext enthalten ist. Wenn Sie größere Dateien verarbeiten möchten, geben Sie in Ihrer Anfrage einen Cloud Storage-URI an.
Flex PayGo verwenden
Wenn Sie Anfragen mit Flex PayGo an die Gemini API senden möchten, müssen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type in Ihre Anfrage einfügen. Sie können Flex PayGo auf zwei Arten verwenden:
Verwenden Sie das Kontingent für den bereitgestellten Durchsatz (falls verfügbar) und dann Flex PayGo.
Verwenden Sie nur Flex PayGo.
Beachten Sie, dass Anfragen, die Flex PayGo verwenden, eine längere erwartete Latenz als Standard-PayGo haben.
Sie können das Zeitlimit für Anfragen auf maximal 30 Minuten festlegen.
Flex PayGo verwenden, während der bereitgestellte Durchsatz als Standard verwendet wird
Wenn Sie das verfügbare Kontingent für den bereitgestellten Durchsatz nutzen möchten, bevor Sie Flex PayGo verwenden, fügen Sie den Header X-Vertex-AI-LLM-Shared-Request-Type: flex in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.
Python
Installieren
pip install --upgrade google-genai
Weitere Informationen finden Sie in der Referenzdokumentation zum SDK.
Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Initialisieren Sie Ihren GenAI-Client, um Flex PayGo zu verwenden. Nach diesem Schritt müssen Sie keine weiteren Anpassungen an Ihrem Code vornehmen, um mit demselben Client mit der Gemini API über Flex PayGo zu interagieren.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Shared-Request-Type": "flex" }, # timeout = 600000 # Timeout in milliseconds ) )
REST
Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.
Ersetzen Sie folgende Werte in den Anfragedaten:
PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .MODEL_ID: Die Modell-ID des Modells für das Sie Flex PayGo initialisieren möchten. Eine Liste der Modelle, die Flex PayGo unterstützen, finden Sie unter Modellversionen.PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Server-Timeout: 600" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: flex" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_FLEX",
"thoughtsTokenCount": 1054
}
}
- Mit der
generateContentMethode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe derstreamGenerateContentMethode erzeugt wird. - Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode
(z. B.
gemini-2.5-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle. - Wenn Sie einen regionalen API-Endpunkt verwenden (z. B.
us-central1), bestimmt die Region aus der Endpunkt-URL, wo die Anfrage verarbeitet wird. Alle widersprüchlichen Standorte im Ressourcenpfad werden ignoriert.
Nur Flex PayGo verwenden
Wenn Sie nur Flex PayGo verwenden möchten, fügen Sie die Header X-Vertex-AI-LLM-Request-Type: shared und X-Vertex-AI-LLM-Shared-Request-Type: flex in Ihre Anfragen ein, wie in den folgenden Beispielen gezeigt.
Python
Installieren
pip install --upgrade google-genai
Weitere Informationen finden Sie in der Referenzdokumentation zum SDK.
Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Initialisieren Sie Ihren GenAI-Client, um Flex PayGo zu verwenden. Nach diesem Schritt müssen Sie keine weiteren Anpassungen an Ihrem Code vornehmen, um mit demselben Client mit der Gemini API über Flex PayGo zu interagieren.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Request-Type": "shared", "X-Vertex-AI-LLM-Shared-Request-Type": "flex" }, # timeout = 600000 # Timeout in milliseconds ) )
REST
Ersetzen Sie folgende Werte in den Anfragedaten:
PROJECT_ID: Ihre [Projekt-ID](/resource-manager/docs/creating-managing-projects#identifiers). .MODEL_ID: Die Modell-ID des Modells für das Sie Flex PayGo initialisieren möchten. Eine Liste der Modelle, die Flex PayGo unterstützen, finden Sie unter Modellversionen.PROMPT_TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Server-Timeout: 600" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: flex" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_FLEX",
"thoughtsTokenCount": 1054
}
}
- Mit der
generateContentMethode können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe derstreamGenerateContentMethode erzeugt wird. - Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode
(z. B.
gemini-2.5-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle. - Wenn Sie einen regionalen API-Endpunkt verwenden (z. B.
us-central1), bestimmt die Region aus der Endpunkt-URL, wo die Anfrage verarbeitet wird. Alle widersprüchlichen Standorte im Ressourcenpfad werden ignoriert.
Flex PayGo-Nutzung überprüfen
Sie können anhand des Traffictyps in der Antwort prüfen, ob eine Anfrage Flex PayGo verwendet hat, wie in den folgenden Beispielen gezeigt.
Python
Sie können anhand des Felds traffic_type in der Antwort prüfen, ob Flex PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Flex PayGo verarbeitet wurde, ist das Feld traffic_type auf ON_DEMAND_FLEX gesetzt.
sdk_http_response=HttpResponse( headers=) candidates=[Candidate( avg_logprobs=-0.539712212302468, content=Content( parts=[ Part( text="""Response to sample request. """ ), ], role='model' ), finish_reason=<FinishReason.STOP: 'STOP'> )] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata( candidates_token_count=1408, candidates_tokens_details=[ ModalityTokenCount( modality=<MediaModality.TEXT: 'TEXT'>, token_count=1408 ), ], prompt_token_count=5, prompt_tokens_details=[ ModalityTokenCount( modality=<MediaModality.TEXT: 'TEXT'>, token_count=5 ), ], thoughts_token_count=1356, total_token_count=2769, traffic_type=<TrafficType.ON_DEMAND_FLEX: 'ON_DEMAND_FLEX'> ) automatic_function_calling_history=[] parsed=None
REST
Sie können anhand des Felds trafficType in der Antwort prüfen, ob Flex PayGo für eine Anfrage verwendet wurde. Wenn Ihre Anfrage mit Flex PayGo verarbeitet wurde, ist das Feld trafficType auf ON_DEMAND_FLEX gesetzt.
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_FLEX",
"thoughtsTokenCount": 1054
}
}Zusätzliches Kontingent für Flex PayGo
Zusätzlich zu den verfügbaren Kontingenten für Anfragen zur Inhaltserstellung (einschließlich des Kontingents für den bereitgestellten Durchsatz für Spillover-Traffic) unterliegen Anfragen, die Flex PayGo verwenden, dem folgenden Kontingent:
| Beschreibung | QPM für jedes Basismodell in einem Projekt |
|---|---|
| Kontingent für Anfragen für jedes Basismodell in einem Projekt, die Flex PayGo verwenden | 3.000 |
Nächste Schritte
Kontingente und Limits für generative KI
Kontingente und Limits speziell für die Agent Platform.
Kontingente und Limits für die Agent Platform
Kontingente und Limits für die Agent Platform, mit Ausnahme produktspezifischer Einschränkungen.
Google Cloud-Kontingente
Informationen dazu, wie Google Cloud einschränkt, wie viel von einer Ressource Ihr Google Cloud-Projekt nutzen kann, und wie Kontingente für eine Reihe von Ressourcentypen gelten, einschließlich Hardware, Software und Netzwerkkomponenten.