In diesem Abschnitt werden die Konzepte der Skalierungseinheit der generativen KI (Generative AI Scale Unit, GSU) und der Abnahmeraten erläutert. Bereitgestellter Durchsatz wird anhand von GSUs und Abnahmeraten berechnet und festgelegt.
GSU und Abnahmerate
Eine Skalierungseinheit der generativen KI (GSU) ist ein Maß für den Durchsatz Ihrer Prompts und Antworten. Dieser Wert gibt an, wie viel Durchsatz für ein Modell bereitgestellt werden soll.
Eine Abnahmerate ist ein Verhältnis, mit dem die Eingabe- und Ausgabeeinheiten (z. B. Tokens, Zeichen oder Bilder) in Eingabetokens pro Sekunde, Eingabezeichen pro Sekunde oder Eingabebilder pro Sekunde umgerechnet werden. Dieses Verhältnis stellt den Durchsatz dar und wird verwendet, um eine Standardeinheit für alle Modelle zu erstellen.
Für verschiedene Modelle wird ein unterschiedlicher Durchsatz verwendet. Informationen zum Mindestkaufbetrag und zu den Steigerungen für GSUs für jedes Modell finden Sie in diesem Dokument unter Unterstützte Modelle und Abnahmeraten.
Diese Gleichung zeigt, wie der Durchsatz berechnet wird:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
Der berechnete Durchsatz pro Sekunde bestimmt, wie viele GSUs Sie für Ihren Anwendungsfall benötigen.
Wichtige Hinweise
Damit Sie Ihre Anforderungen an Bereitgestellten Durchsatz besser planen können, sollten Sie die folgenden wichtigen Hinweise beachten:
Anfragen werden priorisiert.
Anfragen von Provisioned Throughput-Kunden werden vor On-Demand-Anfragen priorisiert und bearbeitet.
Der Durchsatz wird nicht angesammelt.
Nicht verwendeter Durchsatz wird nicht angesammelt oder in den nächsten Monat übertragen.
Bereitgestellter Durchsatz wird in Tokens pro Sekunde, Zeichen pro Sekunde oder Bildern pro Sekunde gemessen.
Bereitgestellter Durchsatz wird nicht nur anhand von Abfragen pro Minute (Queries per minute, QPM) gemessen. Er wird anhand der Abfragegröße für Ihren Anwendungsfall, der Antwortgröße und der QPM gemessen.
Bereitgestellter Durchsatz ist spezifisch für ein Projekt, eine Region, ein Modell und eine Version.
Bereitgestellter Durchsatz wird einer bestimmten Kombination aus Projekt, Region, Modell und Version zugewiesen. Wenn dasselbe Modell aus einer anderen Region aufgerufen wird, wird es nicht auf Ihr Bereitgestellter Durchsatz-Kontingent angerechnet und nicht gegenüber On-Demand-Anfragen priorisiert.
Kontext-Caching
Bereitgestellter Durchsatz unterstützt implizites Caching und explizites Caching. Informationen zu unterstützten Modellen und Limits finden Sie unter Kontext Caching.
Implizites Caching ist standardmäßig in allen Google Cloud Projekten aktiviert. Implizites Caching reduziert die Kosten und die Latenz bei Cache-Treffern. Im Cache gespeicherte Tokens werden bei einem Cache-Treffer mit einem Rabatt im Vergleich zu Standard-Eingabetokens berechnet. Explizites Caching bietet mehr Kontrolle und sorgt für einen Rabatt, wenn explizite Caches referenziert werden. Informationen zum Erstellen eines Kontext-Caches für explizites Caching, siehe Kontext-Cache erstellen. Modellspezifische Rabatte finden Sie unter Übersicht zum Kontext-Caching. Bei Bereitgestelltem Durchsatz wird der Rabatt durch eine reduzierte Abnahmerate angewendet.
Gemini 2.5 Pro hat beispielsweise die folgenden Abnahmeraten für Eingabetexttokens und im Cache gespeicherte Tokens:
1 Eingabetexttoken = 1 Token
1 im Cache gespeichertes Eingabetexttoken = 0,1 Tokens
Wenn Sie 1.000 Eingabetokens an dieses Modell senden, wird Ihr Bereitgestellter Durchsatz um 1.000 Eingabetokens pro Sekunde reduziert. Wenn Sie jedoch 1.000 im Cache gespeicherte Tokens an Gemini 2.5 Pro senden, wird Ihr Bereitgestellter Durchsatz um 100 Tokens pro Sekunde reduziert.
Dies kann zu einem höheren Durchsatz für ähnliche Abfragen führen, bei denen die Tokens nicht im Cache gespeichert sind und der Cache-Rabatt nicht angewendet wird.
Die Abnahmeraten für Modelle, die in Bereitgestellter Durchsatz unterstützt werden, finden Sie unter Unterstützte Modelle und Abnahmeraten.
Abnahme für die Gemini Live API
Bereitgestellter Durchsatz unterstützt Gemini 2.5 Flash mit der Gemini Live API. Informationen zum Berechnen der Abnahme bei Verwendung von der Gemini Live API finden Sie unter Durchsatz für die Gemini Live API berechnen.
Weitere Informationen zur Verwendung von Bereitgestellter Durchsatz für Gemini 2.5 Flash mit der Gemini Live API finden Sie unter Bereitgestellter Durchsatz für die Gemini Live API.
Beispiel für die Schätzung Ihrer Anforderungen an Bereitgestellten Durchsatz
Verwenden Sie das Schätzungstool in der Google Cloud Konsole, um Ihre Anforderungen an Bereitgestellten Durchsatz zu ermitteln. Das folgende Beispiel veranschaulicht den Prozess der Schätzung des Bereitgestellten Durchsatzes für Ihr Modell. Die Region wird bei den Schätzungsberechnungen nicht berücksichtigt.
Diese Tabelle enthält die Abnahmeraten für gemini-2.0-flash, die Sie für das Beispiel verwenden können.
| Modell | Durchsatz pro GSU | Einheiten | Mindestkaufsteigerung für GSUs | Abnahmeraten |
|---|---|---|---|---|
| Gemini 2.0 Flash | 3.360 | Tokens | 1 |
1 Eingabetexttoken = 1 Token 1 Eingabebildtoken = 1 Token 1 Eingabevideotoken = 1 Token 1 Eingabeaudiotoken = 7 Tokens 1 Ausgabetexttoken = 4 Tokens |
Anforderungen erfassen
In diesem Beispiel müssen Sie prüfen, ob Sie 10 Abfragen pro Sekunde (Queries per second,QPS) einer Abfrage mit einer Eingabe von 1.000 Texttokens und 500 Audiotokens unterstützen können, um eine Ausgabe von 300 Texttokens mit
gemini-2.0-flashzu erhalten.Dieser Schritt bedeutet, dass Sie Ihren Anwendungsfall kennen, da Sie Ihr Modell, die QPS und die Größe Ihrer Eingaben und Ausgaben identifiziert haben.
Um den Durchsatz zu berechnen, sehen Sie sich die Abnahmeraten für das ausgewählte Modell an.
Durchsatz berechnen
Multiplizieren Sie die Eingaben mit den Abnahmeraten, um die Gesamtzahl der Eingabetokens zu erhalten:
1.000*(1 Token pro Eingabetexttoken) + 500*(7 Tokens pro Eingabeaudiotoken) = 4.500 an die Abnahme angepasste Eingabetokens pro Abfrage
Multiplizieren Sie die Ausgaben mit den Abnahmeraten, um die Gesamtzahl der Ausgabetokens zu erhalten:
300*(4 Tokens pro Ausgabetexttoken) = 1.200 an die Abnahme angepasste Ausgabetokens pro Abfrage
Addieren Sie die Gesamtzahlen:
4.500 an die Abnahme angepasste Eingabetokens + 1.200 an die Abnahme angepasste Ausgabetokens = 5.700 Tokens pro Abfrage
Multiplizieren Sie die Gesamtzahl der Tokens mit der QPS, um den Gesamtdurchsatz pro Sekunde zu erhalten:
5.700 Tokens pro Abfrage * 10 QPS = 57.000 Tokens pro Sekunde
GSUs berechnen
Die GSUs sind die Gesamtzahl der Tokens pro Sekunde geteilt durch den Durchsatz pro Sekunde pro GSU aus der Abnahmetabelle.
57.000 Tokens pro Sekunde ÷ 3.360 Durchsatz pro Sekunde pro GSU = 16,96 GSUs
Die Mindestkaufsteigerung für
gemini-2.0-flashbeträgt 1 GSU. Sie benötigen also 17 GSUs, um Ihre Arbeitslast zu gewährleisten.