Standard-PayGo

„Standard PayGo“ ist eine Verbrauchsoption für die Nutzung der Suite generativer KI-Modelle der Gemini Enterprise Agent Platform, einschließlich der Gemini-Modellfamilie. Mit „Standard PayGo“ zahlen Sie nur für die Ressourcen, die Sie verbrauchen, ohne dass finanzielle Verpflichtungen im Voraus erforderlich sind. Um eine besser vorhersagbare Leistung für skalierbare Arbeitslasten zu ermöglichen, wird bei „Standard PayGo“ ein Nutzungsklassensystem verwendet. Die Agent Platform passt die Baseline-Durchsatzkapazität Ihrer Organisation dynamisch an, basierend auf den Gesamtausgaben für berechtigte Agent Platform-Dienste über einen gleitenden Zeitraum von 30 Tagen. Wenn die Ausgaben Ihrer Organisation steigen, wird sie automatisch in höhere Klassen eingestuft, die einen besseren Zugriff auf freigegebene Ressourcen und höhere Leistungsschwellen bieten. Für Arbeitslasten, die eine konsistentere Leistung als „Standard PayGo“ erfordern, sollten Sie Priority PayGo in Betracht ziehen. Informationen zu dedizierter und garantierter Kapazität finden Sie unter Provisioned Throughput.

Nutzungsstufen und Durchsatz

Jede Standard-Pay-as-you-go-Nutzungsstufe bietet einen Basisdurchsatz, der in Tokens pro Minute (TPM) gemessen wird. Dieser dient als vorhersehbarer Leistungs-Mindestwert für den Traffic Ihrer Organisation. Die Durchsatzlimits basieren auf Anfragen, die an den globalen Endpunkt gesendet werden. Die Verwendung des globalen Endpunkts ist eine Best Practice, da er Zugriff auf einen größeren, regionenübergreifenden Pool von Durchsatzkapazität bietet und das Weiterleiten Ihrer Anfragen an den Standort mit der höchsten Verfügbarkeit ermöglicht, um die Leistung zu maximieren.

Ihr Traffic ist nicht streng auf das Limit für den Baseline-Durchsatz begrenzt. Die Agent Platform ermöglicht es, dass der Traffic dieses Limit nach dem Best-Effort-Prinzip überschreitet. In Zeiten hoher Nachfrage auf der Agent Platform kann es jedoch sein, dass dieser zusätzliche Burst-Traffic eine höhere Leistungsvariabilität aufweist. Um die Leistung zu optimieren und die Wahrscheinlichkeit, diese Fehler zu erhalten, zu minimieren, ist es auch empfehlenswert, Ihren Traffic so gleichmäßig wie möglich über jede Minute zu verteilen. Vermeiden Sie es, Anfragen in scharfen, sekundenschnellen Spitzen zu senden. Hoher und sofortiger Traffic kann zu einer Drosselung führen, auch wenn Ihre durchschnittliche Nutzung pro Minute unter Ihrem Limit liegt. Wenn Sie Ihre API-Aufrufe gleichmäßiger verteilen, kann das System Ihre Last besser vorhersagen und die Gesamtleistung verbessern.

Die folgenden Stufen sind in Standard PayGo verfügbar:

Modellfamilie Stufe Kundenausgaben (30 Tage) Traffic-TPM (Organisationsebene)
Gemini Pro-Modelle Preisstufe 1 10 $ bis 250 $ 500.000
Preisstufe 2 250–2.000 $ 1.000.000
Stufe 3 > 2.000 $ 2.000.000
Gemini Flash- und Flash-Lite-Modelle Preisstufe 1 10 $ bis 250 $ 2.000.000
Preisstufe 2 250–2.000 $ 4.000.000
Stufe 3 > 2.000 $ 10.000.000

Das für eine Modellfamilie angegebene Durchsatzlimit gilt unabhängig für jedes Modell innerhalb dieser Familie. Ein Kunde in Stufe 3 hat beispielsweise einen Baseline-Durchsatz von 10.000.000 TPM für Gemini 2.5 Flash und einen separaten Baseline-Durchsatz von 10.000.000 TPM für Gemini 2.0 Flash. Die Nutzung eines dieser Limits hat keine Auswirkungen auf den Durchsatz anderer Modelle. Es gibt kein separates Limit für Anfragen pro Minute (RPM) für die einzelnen Stufen. Es gilt jedoch das Systemlimit von 30.000 RPM pro Modell und Region. Gemini-Anfragen mit multimodalen Eingaben unterliegen den entsprechenden Systemratenlimits, einschließlich Bild, Audio, Video und Dokument.

Wenn Sie für einen Anwendungsfall in einem Unternehmen einen höheren Durchsatz benötigen, wenden Sie sich an Ihr Account-Management-Team, um weitere Informationen zu einem benutzerdefinierten Tarif zu erhalten.

So funktionieren Nutzungsebenen

Ihre Nutzungsstufe wird automatisch anhand der Gesamtausgaben Ihrer Organisation für berechtigte Agent Platform-Dienste in einem fortlaufenden Zeitraum von 30 Tagen bestimmt. Wenn die Ausgaben Ihrer Organisation steigen, wird Ihr Konto in eine höhere Stufe mit höherem Durchsatz hochgestuft.

Ausgabenberechnung

Diese Berechnung umfasst eine Vielzahl von Diensten, von Vorhersagen für alle Gemini-Modellfamilien bis hin zu CPU-, GPU- und TPU-Instanzen der Agent Platform sowie SKUs auf Grundlage von Zusagen wie Bereitgestellter Durchsatz.

Klicken Sie hier, um mehr über die in die Ausgabenberechnung einbezogenen Artikelnummern zu erfahren.

In der folgenden Tabelle sind die Kategorien von Google Cloud Artikelnummern aufgeführt, die in die Berechnung der Gesamtausgaben einfließen.

Kategorie Beschreibung der enthaltenen SKUs
Gemini-Modelle Alle Gemini-Modellfamilien (z.B. 2.0, 2.5, 3.0 in den Versionen Pro, Flash und Lite) für Vorhersagen in allen Modalitäten (Text, Bild, Audio, Video), einschließlich Batch-, Langkontext-, optimierter und „Thinking“-Varianten
Funktionen von Gemini-Modellen Alle zugehörigen Gemini-Versionen für Funktionen wie Caching, Caching-Speicher und Prioritätsstufen für alle Modalitäten und Modellversionen
Agent Platform CPU Online- und Batchvorhersagen für alle CPU-basierten Instanzfamilien (z.B. C2, C3, E2, N1, N2 und ihre Varianten)
Agent Platform GPU Online- und Batchvorhersagen auf allen NVIDIA-GPU-beschleunigten Instanzen (z.B. A100, H100, H200, B200, L4, T4, V100 und RTX-Serie)
Agent Platform TPU Online- und Batchvorhersagen für alle TPU-basierten Instanzen (z.B. TPU-v5e, v6e)
Verwaltung und Gebühren Alle „Verwaltungsgebühr“-SKUs, die verschiedenen Vorhersageinstanzen der Agent Platform zugeordnet sind
Bereitgestellter Durchsatz Alle zusicherungsbasierten SKUs für bereitgestellten Durchsatz
Weitere Dienste Spezialisierte Dienste wie „LLM Grounding for Gemini... with Google Search tool“

Nutzungsstufe prüfen

Wenn Sie die Nutzungsstufe für Ihre Organisation prüfen möchten, rufen Sie das Agent Platform-Dashboard in der Google Cloud Console auf. Um die Nutzungsebene im Dashboard aufzurufen, benötigen Sie die Rolle „Agent Platform Viewer“ (roles/aiplatform.viewer) für das Projekt und die Rolle „Billing Account Viewer“ (roles/billing.viewer) für das Rechnungskonto.

Zum Agent Platform-Dashboard

Ausgaben prüfen

Wenn Sie Ihre Ausgaben für die Agent Platform einsehen möchten, rufen Sie in derGoogle Cloud Console die Cloud Billing auf. Die Ausgaben werden auf Organisationsebene zusammengefasst.

Zu Cloud Billing

Fehler vom Typ „Ressource erschöpft“ (429)

Wenn Sie einen 429-Fehler erhalten, bedeutet das nicht, dass Sie ein festes Kontingent erreicht haben. Er weist auf eine vorübergehende hohe Auslastung einer bestimmten freigegebenen Ressource hin. Wir empfehlen, eine exponentielle Backoff-Wiederholungsstrategie zu implementieren, um diese Fehler zu beheben, da sich die Verfügbarkeit in dieser dynamischen Umgebung schnell ändern kann. Zusätzlich zu einer Wiederholungsstrategie empfehlen wir die Verwendung des globalen Endpunkts. Im Gegensatz zu einem regionalen Endpunkt (z. B. „us-central1“) leitet der globale Endpunkt Ihre Anfragen dynamisch an die Region mit der zu diesem Zeitpunkt größten verfügbaren Kapazität weiter. Ihre Anwendung kann dann auf einen größeren, regionsübergreifenden Pool mit gemeinsam genutzter Kapazität zugreifen. Das erhöht die Wahrscheinlichkeit für erfolgreiche Burst-Vorgänge erheblich und verringert die Wahrscheinlichkeit von 429-Fehlern.

Für optimale Ergebnisse sollten Sie den globalen Endpunkt in Kombination mit Traffic Smoothing verwenden. Vermeiden Sie es, Anfragen in scharfen, sekundenschnellen Spitzen zu senden, da hoher und sofortiger Traffic zu einer Drosselung führen kann, auch wenn Ihre durchschnittliche Nutzung pro Minute innerhalb Ihres Baseline-Durchsatzlimits liegt. Wenn Sie Ihre API-Aufrufe gleichmäßiger verteilen, kann das System Ihre Last besser vorhersagen und die Gesamtleistung verbessern. Weitere Informationen zum Beheben von Fehlern aufgrund von Ressourcenerschöpfung finden Sie unter Resiliente LLM-Anwendungen entwickeln und 429-Fehler reduzieren und Fehlercode 429.

Unterstützte Modelle

Die folgenden allgemein verfügbaren (GA) Gemini-Modelle und ihre überwacht feinabgestimmten Modelle unterstützen Standard PayGo mit Nutzungsebenen:

Klicken Sie, um unterstützte Modelle zu maximieren.

Die folgenden GA-Gemini-Modelle und ihre überwachten feinabgestimmten Modelle unterstützen auch Standard PayGo, aber die Nutzungsstufen gelten nicht für diese Modelle:

Diese Stufen gelten nicht für Vorschaumodelle. Die genauesten und aktuellsten Informationen finden Sie in der offiziellen Dokumentation der einzelnen Modelle.

Durchsatz und Leistung überwachen

Wenn Sie den Echtzeit-Tokenverbrauch Ihrer Organisation im Blick behalten möchten, rufen Sie den Metrics Explorer in Cloud Monitoring auf.

Zum Metrics Explorer

Weitere Informationen zum Überwachen des Traffics von Modellendpunkten finden Sie unter Modelle überwachen.

Die Nutzungsebenen gelten auf Organisationsebene. Informationen zum Festlegen des Beobachtbarkeitsbereichs, um den Durchsatz in mehreren Projekten in Ihrer Organisation darzustellen, finden Sie unter Beobachtbarkeitsbereiche für Abfragen für mehrere Projekte konfigurieren.

Nächste Schritte

Ressource

Kontingente und Limits für die Agent Platform, mit Ausnahme produktspezifischer Einschränkungen.

Übersicht

Hier erfahren Sie, wie Google Cloud einschränkt, wie viel von einer Ressource Ihr Google Cloud-Projekt nutzen kann, und wie Kontingente für eine Reihe von Ressourcentypen gelten, einschließlich Hardware, Software und Netzwerkkomponenten.