Standard PayGo

Die Standard-Pay-as-you-go-Option (Standard PayGo) ist eine Verbrauchsoption für die Nutzung der Suite generativer KI-Modelle von Vertex AI, einschließlich der Modellfamilien Gemini und Imagen on Vertex AI. Mit Standard PayGo zahlen Sie nur für die Ressourcen, die Sie verbrauchen, ohne dass finanzielle Vorabverpflichtungen erforderlich sind. Um eine besser vorhersagbare Leistung für skalierbare Arbeitslasten zu bieten, wird im Standard-Pay-as-you-go-Modell ein Nutzungsklassensystem verwendet. In Vertex AI wird die Baseline-Durchsatzkapazität Ihrer Organisation dynamisch angepasst. Die Anpassung basiert auf den Gesamtausgaben für berechtigte Vertex AI-Dienste in einem fortlaufenden Zeitraum von 30 Tagen. Wenn die Ausgaben Ihrer Organisation steigen, wird sie automatisch in höhere Stufen eingestuft, die einen besseren Zugriff auf freigegebene Ressourcen und höhere Leistungsgrenzwerte bieten.

Nutzungsstufen und Durchsatz

Jede Standard-Pay-as-you-go-Nutzungsstufe bietet einen Basisdurchsatz, der in Tokens pro Minute (TPM) gemessen wird. Dieser dient als vorhersehbarer Leistungs-Floor für den Traffic Ihrer Organisation. Die Durchsatzlimits basieren auf Anfragen, die an den globalen Endpunkt gesendet werden. Die Verwendung des globalen Endpunkts ist eine Best Practice, da er Zugriff auf einen größeren, regionenübergreifenden Pool von Durchsatzkapazität bietet und das Weiterleiten Ihrer Anfragen an den Standort mit der höchsten Verfügbarkeit ermöglicht, um die Leistung zu maximieren.

Ihr Traffic ist nicht streng auf das Baseline Throughput-Limit begrenzt. In Vertex AI kann der Traffic auf Best-Effort-Basis über dieses Limit hinaus ansteigen. Bei hoher Nachfrage auf der Vertex AI-Plattform kann die Leistung dieses zusätzlichen Burst-Traffics jedoch stärker variieren. Um die Leistung zu optimieren und die Wahrscheinlichkeit, dass diese Fehler auftreten, zu minimieren, empfiehlt es sich außerdem, den Traffic so gleichmäßig wie möglich über jede Minute zu verteilen. Vermeiden Sie es, Anfragen in scharfen, sekundären Spitzen zu senden. Hoher und sofortiger Traffic kann zu einer Drosselung führen, auch wenn Ihre durchschnittliche Nutzung pro Minute unter Ihrem Limit liegt. Wenn Sie Ihre API-Aufrufe gleichmäßiger verteilen, kann das System Ihre Last besser vorhersagen und die Gesamtleistung verbessern.

Die folgenden Stufen sind in Standard PayGo verfügbar:

Modellfamilie	Stufe	Kundenausgaben (30 Tage)	Traffic-TPM (Organisationsebene)
Gemini Pro-Modelle	Preisstufe 1	10 $ bis 250 $	500.000
	Preisstufe 2	250–2.000 €	1.000.000
	Stufe 3	> 2.000 $	2.000.000
Gemini Flash- und Flash-Lite-Modelle	Preisstufe 1	10 $ bis 250 $	2.000.000
	Preisstufe 2	250–2.000 €	4.000.000
	Stufe 3	> 2.000 $	10.000.000

Das für eine Modellfamilie angegebene Durchsatzlimit gilt unabhängig für jedes Modell innerhalb dieser Familie. Ein Kunde in Stufe 3 hat beispielsweise einen Baseline-Durchsatz von 10.000.000 TPM für Gemini 2.5 Flash und einen separaten Baseline-Durchsatz von 10.000.000 TPM für Gemini 2.0 Flash. Die Nutzung eines dieser Limits hat keine Auswirkungen auf den Durchsatz anderer Modelle. Es gibt kein separates Limit für Anfragen pro Minute (RPM) für die einzelnen Stufen. Es gilt jedoch das Systemlimit von 30.000 RPM pro Modell und Region. Gemini-Anfragen mit multimodalen Eingaben unterliegen den entsprechenden Systemratenlimits, einschließlich Bild, Audio, Video und Dokument.

Wenn Sie für einen Anwendungsfall in einem Unternehmen einen höheren Durchsatz benötigen, wenden Sie sich an Ihr Account-Management-Team, um weitere Informationen zu einem benutzerdefinierten Tarif zu erhalten.

So funktionieren Nutzungsebenen

Ihr Nutzungsniveau wird automatisch anhand der Gesamtausgaben Ihrer Organisation für berechtigte Vertex AI-Dienste über einen gleitenden Zeitraum von 30 Tagen bestimmt. Wenn die Ausgaben Ihrer Organisation steigen, werden Sie im System in eine höhere Stufe mit höherem Durchsatz eingestuft.

Ausgabenberechnung

Diese Berechnung umfasst eine Vielzahl von Diensten, von Vorhersagen für alle Gemini-Modellfamilien bis hin zu Vertex AI-CPU-, ‑GPU- und ‑TPU-Instanzen sowie SKUs auf Grundlage von Zusagen wie Provisioned Throughput.

Klicken Sie hier, um mehr über die in die Ausgabenberechnung einbezogenen Artikelnummern zu erfahren.

In der folgenden Tabelle sind die Kategorien von Google Cloud Artikelnummern aufgeführt, die in die Berechnung der Gesamtausgaben einbezogen werden.

Kategorie	Beschreibung der enthaltenen SKUs
Gemini-Modelle	Alle Gemini-Modellfamilien (z.B. 2.0, 2.5, 3.0 in den Versionen Pro, Flash und Lite) für Vorhersagen in allen Modalitäten (Text, Bild, Audio, Video), einschließlich Batch-, Langkontext-, optimierter und „Thinking“-Varianten
Funktionen von Gemini-Modellen	Alle zugehörigen Gemini-Versionen für Funktionen wie Caching, Caching-Speicher und Prioritätsstufen für alle Modalitäten und Modellversionen
Vertex AI CPU	Online- und Batchvorhersagen für alle CPU-basierten Instanzfamilien (z.B. C2, C3, E2, N1, N2 und ihre Varianten)
Vertex AI GPU	Online- und Batchvorhersagen für alle NVIDIA GPU-beschleunigten Instanzen (z.B. A100, H100, H200, B200, L4, T4, V100 und RTX-Serie)
Vertex AI TPU	Online- und Batchvorhersagen für alle TPU-basierten Instanzen (z.B. TPU v5e, v6e)
Verwaltung und Gebühren	Alle „Verwaltungsgebühr“-Artikelnummern, die mit verschiedenen Vertex AI-Vorhersageinstanzen verknüpft sind
Bereitgestellter Durchsatz	Alle zusicherungsbasierten SKUs für bereitgestellten Durchsatz
Weitere Dienste	Spezialisierte Dienste wie „LLM Grounding for Gemini... with Google Search tool“

Nutzungsstufe prüfen

Rufen Sie das Vertex AI-Dashboard in der Google Cloud Console auf, um die Nutzungsstufe für Ihre Organisation zu prüfen.

Zum Vertex AI-Dashboard

Ausgaben überprüfen

Rufen Sie die Cloud-Abrechnung in derGoogle Cloud Console auf, um Ihre Ausgaben für Vertex AI zu prüfen. Die Ausgaben werden auf Organisationsebene zusammengefasst.

Zu Cloud Billing

Fehler vom Typ „Ressource erschöpft“ (429)

Wenn Sie einen 429-Fehler erhalten, bedeutet das nicht, dass Sie ein festes Kontingent erreicht haben. Er weist auf eine vorübergehende hohe Auslastung einer bestimmten gemeinsam genutzten Ressource hin. Wir empfehlen, eine exponentielle Backoff-Wiederholungsstrategie zu implementieren, um diese Fehler zu beheben, da sich die Verfügbarkeit in dieser dynamischen Umgebung schnell ändern kann. Zusätzlich zu einer Wiederholungsstrategie empfehlen wir die Verwendung des globalen Endpunkts. Im Gegensatz zu einem regionalen Endpunkt (z. B. „us-central1“) leitet der globale Endpunkt Ihre Anfragen dynamisch an die Region mit der zu diesem Zeitpunkt größten verfügbaren Kapazität weiter. So kann Ihre Anwendung auf einen größeren, regionsübergreifenden Pool mit gemeinsam genutzter Kapazität zugreifen. Das erhöht die Wahrscheinlichkeit für erfolgreiche Burst-Vorgänge erheblich und verringert die Wahrscheinlichkeit von 429-Fehlern.

Die besten Ergebnisse erzielen Sie, wenn Sie den globalen Endpunkt in Kombination mit der Funktion zur Glättung von Traffic verwenden. Vermeiden Sie es, Anfragen in scharfen, sekundenschnellen Spitzen zu senden, da hoher und sofortiger Traffic zur Drosselung führen kann, auch wenn Ihre durchschnittliche Nutzung pro Minute innerhalb Ihres Baseline Throughput-Limits liegt. Wenn Sie Ihre API-Aufrufe gleichmäßiger verteilen, kann das System Ihre Last besser vorhersagen und die Gesamtleistung verbessern. Weitere Informationen zur Behandlung von Fehlern des Typs „Resource Exhausted“ finden Sie unter Leitfaden zur Behandlung von 429-Fehlern und Fehlercode 429.

Unterstützte Modelle

Die folgenden allgemein verfügbaren (GA) Gemini-Modelle und ihre überwacht feinabgestimmten Modelle unterstützen Standard PayGo mit Nutzungsebenen:

Die folgenden GA-Gemini-Modelle und ihre überwacht feinabgestimmten Modelle unterstützen auch Standard PayGo, aber die Nutzungsebenen gelten nicht für diese Modelle:

Diese Stufen gelten nicht für Vorschau-Modelle. Die genauesten und aktuellsten Informationen finden Sie in der offiziellen Dokumentation der einzelnen Modelle.

Durchsatz und Leistung überwachen

Wenn Sie den Echtzeit-Tokenverbrauch Ihrer Organisation im Blick behalten möchten, rufen Sie den Metrics Explorer in Cloud Monitoring auf.

Zum Metrics Explorer

Weitere Informationen zum Überwachen des Traffics von Modellendpunkten finden Sie unter Modelle überwachen.

Die Nutzungsebenen gelten auf Organisationsebene. Informationen zum Festlegen des Beobachtbarkeitsbereichs zum Erstellen von Diagrammen für den Durchsatz über mehrere Projekte in Ihrer Organisation hinweg finden Sie unter Beobachtbarkeitsbereiche für Abfragen für mehrere Projekte konfigurieren.

Nächste Schritte

Ressource

Vertex AI-Kontingente und ‑Limits

Kontingente und Limits für die Vertex AI-Plattform, ausgenommen produktspezifische Einschränkungen.

Übersicht

Google Cloud-Kontingente

Hier erfahren Sie, wie Google Cloud einschränkt, wie viel von einer Ressource Ihr Google Cloud-Projekt nutzen kann, und wie Kontingente für eine Reihe von Ressourcentypen gelten, einschließlich Hardware, Software und Netzwerkkomponenten.