Standard-PayGo

„Standard PayGo“ (Standard-Nutzergebühr) ist eine Verbrauchsoption für die Nutzung der Suite generativer KI-Modelle der Gemini Enterprise Agent Platform. Mit „Standard PayGo“ zahlen Sie nur für die Ressourcen, die Sie verbrauchen, ohne dass finanzielle Vorabverpflichtungen erforderlich sind. Um eine besser vorhersagbare Leistung für skalierbare Arbeitslasten zu ermöglichen, wird bei „Standard PayGo“ ein Nutzungsklassensystem verwendet. Die Agent Platform passt die Baseline-Durchsatzkapazität Ihrer Organisation dynamisch an, basierend auf den Gesamtausgaben für berechtigte Agent Platform-Dienste über einen gleitenden Zeitraum von 30 Tagen. Wenn die Ausgaben Ihrer Organisation steigen, wird sie automatisch in höhere Klassen eingestuft, die einen besseren Zugriff auf freigegebene Ressourcen und höhere Leistungs-Schwellenwerte bieten.

Nutzungsstufen und Durchsatz

Jede Standard-Pay-as-you-go-Nutzungsstufe bietet einen grundlegenden Durchsatz, gemessen in Tokens pro Minute (TPM), der als vorhersehbarer Leistungs-Mindestwert für den Traffic Ihrer Organisation dient. Die Durchsatzlimits basieren auf Anfragen, die an den globalen Endpunkt gesendet werden. Die Verwendung des globalen Endpunkts ist eine Best Practice, da er Zugriff auf einen größeren, regionsübergreifenden Pool von Durchsatzkapazität bietet und das Weiterleiten Ihrer Anfragen an den Standort mit der höchsten Verfügbarkeit ermöglicht, um die Leistung zu maximieren.

Ihr Traffic ist nicht streng auf das Baseline-Durchsatzlimit begrenzt. Die Agent-Plattform ermöglicht es, dass der Traffic dieses Limit nach dem Best-Effort-Prinzip überschreitet. In Zeiten hoher Nachfrage auf der Agent-Plattform kann es jedoch sein, dass dieser zusätzliche Burst-Traffic eine höhere Leistungsvariabilität aufweist. Um die Leistung zu optimieren und die Wahrscheinlichkeit, diese Fehler zu erhalten, zu minimieren, ist es auch empfehlenswert, Ihren Traffic so gleichmäßig wie möglich über jede Minute zu verteilen. Vermeiden Sie es, Anfragen in scharfen, sekundenschnellen Spitzen zu senden. Hoher und sofortiger Traffic kann zu einer Drosselung führen, auch wenn Ihre durchschnittliche Nutzung pro Minute unter Ihrem Limit liegt. Wenn Sie Ihre API-Aufrufe gleichmäßiger verteilen, kann das System Ihre Last besser vorhersagen und die Gesamtleistung verbessern.

Die folgenden Stufen sind in Standard PayGo verfügbar:

Modellfamilie Stufe Kundenausgaben (30 Tage) Traffic-TPM (Organisationsebene)
Gemini Pro-Modelle Preisstufe 1 10 $ bis 250 $ 500.000
Preisstufe 2 250–2.000 $ 1.000.000
Stufe 3 > 2.000 $ 2.000.000
Gemini Flash- und Flash-Lite-Modelle Preisstufe 1 10 $ bis 250 $ 2.000.000
Preisstufe 2 250–2.000 $ 4.000.000
Stufe 3 > 2.000 $ 10.000.000

Das für eine Modellfamilie angegebene Durchsatzlimit gilt unabhängig für jedes Modell innerhalb dieser Familie. Ein Kunde in Stufe 3 hat beispielsweise einen Baseline-Durchsatz von 10.000.000 TPM für Gemini 2.5 Flash und einen separaten Baseline-Durchsatz von 10.000.000 TPM für Gemini 2.0 Flash. Die Nutzung eines dieser Limits hat keine Auswirkungen auf den Durchsatz anderer Modelle. Es gibt kein separates Limit für Anfragen pro Minute (RPM) für die einzelnen Stufen. Es gilt jedoch das Systemlimit von 30.000 RPM pro Modell und Region. Gemini-Anfragen mit multimodalen Eingaben unterliegen den entsprechenden Systemratenlimits, einschließlich Bild, Audio, Video und Dokument.

Wenn Sie für einen Anwendungsfall in einem Unternehmen einen höheren Durchsatz benötigen, wenden Sie sich an Ihr Account-Management-Team, um weitere Informationen zu einem benutzerdefinierten Tarif zu erhalten.

So funktionieren Nutzungsebenen

Ihre Nutzungsklasse wird automatisch anhand der Gesamtausgaben Ihrer Organisation für infrage kommende Gemini Enterprise Agent Platform-Dienste über einen gleitenden Zeitraum von 30 Tagen bestimmt. Wenn die Ausgaben Ihrer Organisation steigen, wird Ihr Konto in eine höhere Stufe mit höherem Durchsatz hochgestuft.

Ausgabenberechnung

Diese Berechnung umfasst eine Vielzahl von Diensten, von Vorhersagen für alle Gemini-Modellfamilien bis hin zu CPU-, GPU- und TPU-Instanzen der Gemini Enterprise Agent Platform sowie verpflichtungsbasierten SKUs wie Bereitgestellter Durchsatz.

Klicken Sie hier, um mehr über die in die Ausgabenberechnung einbezogenen Artikelnummern zu erfahren.

In der folgenden Tabelle sind die Kategorien von Google Cloud Artikelnummern aufgeführt, die in die Berechnung der Gesamtausgaben einfließen.

Kategorie Beschreibung der enthaltenen SKUs
Gemini-Modelle Alle Gemini-Modellfamilien (z.B. 2.0, 2.5, 3.0 in den Versionen Pro, Flash und Lite) für Vorhersagen in allen Modalitäten (Text, Bild, Audio, Video), einschließlich Batch-, Langkontext-, optimierter und „Thinking“-Varianten
Funktionen von Gemini-Modellen Alle zugehörigen Gemini-Versionen für Funktionen wie Caching, Caching-Speicher und Prioritätsstufen für alle Modalitäten und Modellversionen
Agent Platform CPU Online- und Batchvorhersagen für alle CPU-basierten Instanzfamilien (z.B. C2, C3, E2, N1, N2 und ihre Varianten)
Agent Platform GPU Online- und Batchvorhersagen auf allen NVIDIA-GPU-beschleunigten Instanzen (z.B. A100, H100, H200, B200, L4, T4, V100 und RTX-Serie)
Agent Platform TPU Online- und Batchvorhersagen für alle TPU-basierten Instanzen (z.B. TPU-v5e, v6e)
Verwaltung und Gebühren Alle „Verwaltungsgebühr“-SKUs, die verschiedenen Vorhersageinstanzen der Agent Platform zugeordnet sind
Bereitgestellter Durchsatz Alle zusicherungsbasierten SKUs für bereitgestellten Durchsatz
Weitere Dienste Spezialisierte Dienste wie „LLM Grounding for Gemini... with Google Search tool“

Nutzungsstufe prüfen

Wenn Sie die Nutzungsstufe für Ihre Organisation prüfen möchten, rufen Sie das Gemini Enterprise Agent Platform-Dashboard in der Google Cloud Console auf.

Ausgaben prüfen

Wenn Sie Ihre Ausgaben für die Agent Platform einsehen möchten, rufen Sie in derGoogle Cloud Console die Cloud Billing auf. Die Ausgaben werden auf Organisationsebene zusammengefasst.

Zu Cloud Billing

Fehler vom Typ „Ressource erschöpft“ (429)

Wenn Sie einen 429: Resource Exhausted-Fehler erhalten, bedeutet das nicht, dass Sie ein festes Kontingent erreicht haben. Er weist auf eine vorübergehende hohe Auslastung einer bestimmten gemeinsam genutzten Ressource hin. Wir empfehlen, eine Strategie für Wiederholungsversuche mit exponentiellem Backoff zu implementieren, um diese Fehler zu beheben, da sich die Verfügbarkeit in dieser dynamischen Umgebung schnell ändern kann. Zusätzlich zu einer Wiederholungsstrategie empfehlen wir, den globalen Endpunkt zu verwenden. Im Gegensatz zu einem regionalen Endpunkt (z. B. „us-central1“) leitet der globale Endpunkt Ihre Anfragen dynamisch an die Region mit der zu diesem Zeitpunkt größten verfügbaren Kapazität weiter. So kann Ihre Anwendung auf einen größeren, multiregionalen Pool mit gemeinsam genutzter Kapazität zugreifen. Das erhöht die Wahrscheinlichkeit für erfolgreiche Burst-Vorgänge erheblich und verringert die Wahrscheinlichkeit von 429-Fehlern.

Für optimale Ergebnisse sollten Sie den globalen Endpunkt in Kombination mit Traffic Smoothing verwenden. Vermeiden Sie es, Anfragen in scharfen, sekundenschnellen Spitzen zu senden, da hoher und sofortiger Traffic zu einer Drosselung führen kann, auch wenn Ihre durchschnittliche Nutzung pro Minute innerhalb Ihres Baseline-Durchsatzlimits liegt. Wenn Sie Ihre API-Aufrufe gleichmäßiger verteilen, kann das System Ihre Last besser vorhersagen und die Gesamtleistung verbessern. Weitere Informationen zum Beheben von Fehlern aufgrund von Ressourcenerschöpfung finden Sie unter Leitfaden zum Beheben von 429-Fehlern und Fehlercode 429.

Durchsatz und Leistung überwachen

Wenn Sie den Echtzeit-Tokenverbrauch Ihrer Organisation im Blick behalten möchten, rufen Sie den Metrics Explorer in Cloud Monitoring auf.

Zum Metrics Explorer

Weitere Informationen zum Überwachen des Traffics von Modellendpunkten finden Sie unter Modelle überwachen.

Die Nutzungsebenen gelten auf Organisationsebene. Informationen zum Festlegen des Beobachtbarkeitsbereichs, um den Durchsatz in mehreren Projekten in Ihrer Organisation darzustellen, finden Sie unter Beobachtbarkeitsbereiche für Abfragen für mehrere Projekte konfigurieren.