In den folgenden Tabellen sind die Modelle aufgeführt, die Bereitgestellten Durchsatz unterstützen, der Durchsatz für jede Skalierungseinheit der generativen KI (GSU) sowie die Abnahmeraten für jedes Modell.
Bereitgestellter Durchsatz unterstützt keine Batch-Vorhersage-Aufrufe.
Google-Modelle
Der bereitgestellte Durchsatz wird nur für Modelle unterstützt, die Sie direkt aus Ihrem Projekt mit der spezifischen Modell-ID und nicht mit einem Modellalias aufrufen. Wenn Sie „Bereitgestellter Durchsatz“ verwenden möchten, um API-Aufrufe an ein Modell zu senden, müssen Sie die spezifische Modellversions-ID (z. B. gemini-2.0-flash-001) und nicht einen Modellversionsalias verwenden.
Der bereitgestellte Durchsatz garantiert zwar die Kapazität für Ihre Modellanfragen, umfasst aber keine Kontingente für andere Tools, die Sie möglicherweise verwenden, z. B. Grounding, und umgeht diese auch nicht. Je nach Größe Ihrer Arbeitslast müssen Sie möglicherweise zusätzliches Kontingent für diese Tools separat anfordern.
Außerdem wird Bereitgestellter Durchsatz nicht für Modelle unterstützt, die von anderen Vertex AI-Produkten wie Vertex AI Agents und Vertex AI Search aufgerufen werden. Wenn Sie beispielsweise API-Aufrufe an Gemini 2.0 Flash ausführen, während Sie Vertex AI Search verwenden, wird durch Ihre Bestellung für bereitgestellten Durchsatz für Gemini 2.0 Flash nicht garantiert, dass die von Vertex AI Search ausgeführten Aufrufe erfolgreich sind.
Der bereitgestellte Durchsatz für Vorschau-Modelle ist vom Service Level Agreement für die Onlineinferenz von Gemini in Vertex AI ausgeschlossen.
In der folgenden Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Google-Modelle aufgeführt, die Bereitgestellten Durchsatz unterstützen. Ihr Durchsatz pro Sekunde wird als Eingabezeichen des Prompts und als generierte Ausgabe für alle Anfragen pro Sekunde definiert.
Im SDK-Tokenizer oder in der countTokens API erfahren Sie mehr zu den für Ihre Arbeitslast erforderlichen Tokens.
| Modell | Durchsatz pro Sekunde pro GSU | Einheiten | Mindestkaufsteigerung für GSUs | Abnahmeraten |
|---|---|---|---|---|
|
Neueste unterstützte Version: |
4030 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 2 Token 1 Eingabetext-Caching-Token = 0,1 Token 1 Eingabebild-Caching-Token = 0,1 Token 1 Eingabevideo-Caching-Token = 0,1 Token 1 Eingabe-Audio-Caching-Token = 0,2 Token 1 Ausgabetext-Token = 6 Token |
|
Neueste unterstützte Version: |
2015 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Ausgabetext-Token = 6 Tokens 1 Ausgabebild-Token = 120 Tokens |
|
Neueste unterstützte Version: |
500 | Tokens | 1 |
Weniger als oder gleich 200.000 Eingabetokens 1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 1 Token 1 Eingabe-Cache-Token = 0,1 Token 1 Ausgabetext-Token = 6 Tokens 1 Ausgabe-Begründungstext-Token = 6 Tokens Mehr als 200.000 Eingabetokens 1 Eingabetext-Token = 2 Tokens 1 Eingabebild-Token = 2 Tokens 1 Eingabevideo-Token = 2 Tokens 1 Eingabe-Audio-Token = 2 Tokens 1 Eingabe-Cache-Token = 0,2 Tokens 1 Ausgabetext-Token = 9 Tokens 1 Ausgabe-Begründungstext-Token = 9 Tokens |
|
Neueste unterstützte Version: |
2015 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 2 Token 1 Eingabetext-, ‑bild- oder ‑video-Caching-Token = 0,1 Token 1 Eingabe-Audio-Caching-Token = 0,2 Token 1 Ausgabetext-Token = 6 Token 1 Ausgabe-Begründungstext-Token = 6 Token |
|
Neueste unterstützte Version: |
500 | Tokens | 1 |
Weniger als oder gleich 200.000 Eingabetokens 1 Eingabetoken für Text = 1 Token 1 Eingabetoken für Bild = 1 Token 1 Eingabetoken für Video = 1 Token 1 Eingabetoken für Audio = 1 Token 1 Ausgabetoken für Antworttext = 6 Tokens 1 Ausgabetoken für Begründungstext = 6 Tokens Mehr als 200.000 Eingabetokens 1 Eingabetoken für Text = 2 Tokens 1 Eingabetoken für Bild = 2 Tokens 1 Eingabetoken für Video = 2 Tokens 1 Eingabetoken für Audio = 2 Tokens 1 Ausgabetoken für Antworttext = 9 Tokens 1 Ausgabetoken für Begründungstext = 9 Tokens |
|
Neueste unterstützte Version: |
500 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Ausgabetext-Token = 6 Tokens 1 Ausgabe-Denkprozess-Token = 6 Tokens 1 Ausgabebild-Token = 60 Tokens |
|
Neueste unterstützte Version: |
650 | Tokens | 1 |
Weniger als oder gleich 200.000 Eingabetokens 1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 1 Token 1 Ausgabetext-Token = 8 Tokens 1 Ausgabetext-Token für die Begründung = 8 Tokens Mehr als 200.000 Eingabetokens 1 Eingabetext-Token = 2 Tokens 1 Eingabebild-Token = 2 Tokens 1 Eingabevideo-Token = 2 Tokens 1 Eingabe-Audio-Token = 2 Tokens 1 Ausgabetext-Token = 12 Tokens 1 Ausgabetext-Token für die Begründung = 12 Tokens |
|
Neueste unterstützte Version: |
2.690 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Ausgabetext-Token = 9 Tokens 1 Ausgabebild-Token = 100 Tokens |
|
Neueste unterstützte Version: |
2690 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 4 Token 1 Ausgabetext-Token = 9 Token 1 Ausgabe-Begründungstext-Token = 9 Token |
|
Neueste unterstützte Version (GA): Neueste unterstützte Version (Vorschau): |
8.070 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 3 Tokens 1 Ausgabetext-Token = 4 Tokens 1 Ausgabe-Begründungstext-Token = 4 Tokens |
|
Gemini 2.5 Flash mit nativer Audioausgabe der Gemini Live API Neueste unterstützte Version: |
1.620 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabe-Audio-Token = 6 Tokens 1 Eingabe-Video-Token = 6 Tokens 1 Eingabe-Bild-Token = 6 Tokens 1 Eingabe-Sitzungsspeicher-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens 1 Ausgabe-Audio-Token = 24 Tokens |
|
Neueste unterstützte Version: |
3.360 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 7 Tokens 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
6.720 | Tokens | 1 |
1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Eingabevideo-Token = 1 Token 1 Eingabe-Audio-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
Neueste unterstützte Version: |
0,0350 | Videosekunden (720p) | 1 | 1 Videosekunde der Ausgabe (720p) = 1 Videosekunde der Ausgabe |
| Video- und Audiosekunden (720p) | 1 | 1 Ausgabe-Video- und ‑Audiosekunde (720p) = 1,75 Ausgabe-Videosekunden | ||
| Videosekunden (1080p) | 1 | 1 Videosekunde in 1080p = 1,75 Videosekunden in 720p | ||
| Video- und Audiosekunden (1080p) | 1 | 1 (1080p) Video- und Audiosekunde der Ausgabe = 2,33 (720p) Videosekunden der Ausgabe | ||
Neueste unterstützte Version: |
0,0040 | Videosekunden | 1 | 1 Videosekunde der Ausgabe = 1 Videosekunde der Ausgabe |
| Video- und Audiosekunden | 1 | 1 Videosekunde mit Audioausgabe = 2 Videosekunden mit Ausgabe | ||
Neueste unterstützte Version: |
0,01 | Videosekunden (720p) | 1 | 1 Videosekunde der Ausgabe (720p) = 1 Videosekunde der Ausgabe |
| Video- und Audiosekunden (720p) | 1 | 1 Ausgabe-Video- und Audiosekunde (720p) = 1,30 Ausgabe-Videosekunden | ||
| Videosekunden (1080p) | 1 | 1 Videosekunde der Ausgabe (1080p) = 1,30 Videosekunden der Ausgabe (720p) | ||
| Video- und Audiosekunden (1080p) | 1 | 1 Video- und Audiosekunde der Ausgabe (1080p) = 1,60 Videosekunden der Ausgabe (720p) | ||
| Videosekunden (4K) | 1 | 1 Videosekunde in 4K = 3,40 Videosekunden in 720p | ||
| Video- und Audiosekunden (4K) | 1 | 1 (4K-)Video- und Audiosekunde der Ausgabe = 4 (720p-)Videosekunden der Ausgabe | ||
Neueste unterstützte Version: |
0,0040 | Videosekunden | 1 | 1 Videosekunde der Ausgabe = 1 Videosekunde der Ausgabe |
| Video- und Audiosekunden | 1 | 1 Videosekunde mit Audioausgabe = 2 Videosekunden mit Ausgabe | ||
Neueste unterstützte Version: |
0,01 | Videosekunden (720p) | 1 | 1 Videosekunde der Ausgabe (720p) = 1 Videosekunde der Ausgabe |
| Video- und Audiosekunden (720p) | 1 | 1 Ausgabe-Video- und Audiosekunde (720p) = 1,30 Ausgabe-Videosekunden | ||
| Videosekunden (1080p) | 1 | 1 Videosekunde der Ausgabe (1080p) = 1,30 Videosekunden der Ausgabe (720p) | ||
| Video- und Audiosekunden (1080p) | 1 | 1 Video- und Audiosekunde der Ausgabe (1080p) = 1,60 Videosekunden der Ausgabe (720p) | ||
|
|
0,02 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
|
|
0,015 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
|
|
0,02 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
|
|
0,04 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
|
|
0,02 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
|
|
0,025 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
|
|
0,05 | Bilder | 1 | Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet. |
Informationen zu den Funktionen eines Modells und zu den Eingabe- oder Ausgabebeschränkungen finden Sie in der Dokumentation des Modells.
Sie können ein Upgrade auf neue Modelle durchführen, sobald diese verfügbar sind. Informationen zur Verfügbarkeit von Modellen und zu den Terminen für die Einstellung finden Sie unter Google-Modelle.
Weitere Informationen zu unterstützten Standorten finden Sie unter Verfügbare Standorte.
Partnermodelle
In der folgenden Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Partnermodelle aufgeführt, die Bereitgestellten Durchsatz unterstützen. Claude-Modelle werden in Tokens pro Sekunde gemessen. Dieser Wert wird als Gesamtzahl der Eingabe- und Ausgabetokens für alle Anfragen pro Sekunde definiert.
| Modell | Durchsatz pro GSU (Tokens/Sek.) | Mindestkauf von GSUs | GSU-Kaufsteigerung | Abnahmeraten |
|---|---|---|---|---|
| Claude Opus 4.7 von Anthropic | 210 | 35 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens 1 Cache-Treffer = 0,1 Token |
| Claude Sonnet 4.6 von Anthropic | 350 | 25 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens 1 Cache-Treffer = 0,1 Token |
| Claude Opus 4.6 von Anthropic | 210 | 35 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens 1 Cache-Treffer = 0,1 Token |
| Claude Opus 4.5 von Anthropic | 210 | 35 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens 1 Cache-Treffer = 0,1 Token |
| Claude Sonnet 4.5 von Anthropic | 350 | 25 | 1 | Weniger als 200.000 Eingabetokens 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens 1 Cache-Treffer = 0,1 Token Mindestens 200.000 Eingabetokens 1 Eingabetoken = 2 Tokens 1 Ausgabetoken = 7,5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 2,5 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 4 Tokens 1 Cache-Treffer = 0,2 Token |
| Claude Opus 4.1 von Anthropic | 70 | 35 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens 1 Cache-Treffer = 0,1 Token |
| Claude Haiku 4.5 von Anthropic | 1.050 | 8 | 1 | Weniger als 200.000 Eingabetokens 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens 1 Cache-Treffer = 0,1 Token |
| Claude Opus 4 von Anthropic | 70 | 35 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens 1 Cache-Treffer = 0,1 Token |
| Claude Sonnet 4 von Anthropic | 350 | 25 | 1 | Weniger als 200.000 Eingabetokens 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens 1 Cache-Treffer = 0,1 Token Mindestens 200.000 Eingabetokens 1 Eingabetoken = 2 Tokens 1 Ausgabetoken = 7,5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 2,5 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 4 Tokens 1 Cache-Treffer = 0,2 Token |
| Claude 3.7 Sonnet von Anthropic (eingestellt) | 350 | 25 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Treffer = 0,1 Token |
| Claude 3.5 Sonnet v2 von Anthropic (eingestellt) | 350 | 25 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Treffer = 0,1 Token |
| Claude 3.5 Haiku von Anthropic (eingestellt) | 2.000 | 10 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens 1 Cache-Treffer = 0,1 Token |
| Claude 3 Opus von Anthropic | 70 | 35 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Treffer = 0,1 Token |
| Claude 3 Haiku von Anthropic (eingestellt) | 4.200 | 5 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens 1 Cache-Treffer = 0,1 Token |
| Anthropic Claude 3.5 Sonnet (eingestellt) | 350 | 25 | 1 | 1 Eingabetoken = 1 Token 1 Ausgabetoken = 5 Tokens 1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens 1 Cache-Treffer = 0,1 Token |
Informationen zu unterstützten Standorten finden Sie unter Verfügbarkeit: Anthropic Claude-Region. Wenn Sie Bereitgestellten Durchsatz für Anthropic-Modelle bestellen möchten, wenden Sie sich an Ihren Google Cloud Kundenbetreuer.
Offene Modelle
In der folgenden Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für offene Modelle aufgeführt, die Bereitgestellten Durchsatz unterstützen.
| Modell | Durchsatz pro GSU (Tokens/Sek.) | Mindestkauf von GSUs | GSU-Kaufsteigerung | Abnahmeraten |
|---|---|---|---|---|
|
Neueste unterstützte Version: |
3.360 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
1.680 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
6.725 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
1.680 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
1.400 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 1 Token |
|
Neueste unterstützte Version: |
2.800 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
4.035 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Eingabebild-Token = 1 Token 1 Ausgabetext-Token = 3 Tokens |
|
Neueste unterstützte Version: |
3.360 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
11.205 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
14.405 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
4.035 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
1.010 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
6.725 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 8 Tokens |
|
Neueste unterstützte Version: |
6.725 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 8 Tokens |
|
Neueste unterstützte Version: |
1.685 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 4 Tokens |
|
Neueste unterstützte Version: |
1.010 | 1 | 1 | 1 Eingabetext-Token = 1 Token 1 Ausgabetext-Token = 3 Tokens |
Verfügbare Funktionen für Google- und offene Modelle
In der folgenden Tabelle sind die Funktionen aufgeführt, die mit dem bereitgestellten Durchsatz für Google-Modelle und offene Modelle verfügbar sind:
| Funktion | Google-Modelle | Offene Modelle (Vorabversion) |
|---|---|---|
| Über die Google Cloud Console bestellen | Ja | Ja |
| Unterstützt globale Endpunkte | Weitere Informationen finden Sie unter Unterstützung von globalen Endpunktmodellen. | Weitere Informationen finden Sie unter Unterstützung von globalen Endpunktmodellen. |
| Unterstützt überwacht feinabgestimmte Modelle | Ja | Nein |
| Unterstützt die Verwendung von API-Schlüsseln | Ja | Nein |
| In implizites Kontext-Caching eingebunden | Ja | Nicht zutreffend |
| Einbindung von explizitem Kontext-Caching | Ja | Nicht zutreffend |
| ML-Verarbeitung | In bestimmten Regionen verfügbar. Weitere Informationen finden Sie unter Bereitgestellter Durchsatz für einzelne Zonen. | Nicht zutreffend |
| Verfügbare Bestellbedingungen | 1 Woche, 1 Monat, 3 Monate und 1 Jahr | 1 Woche, 1 Monat, 3 Monate und 1 Jahr |
| Änderungsauftrag über die Console | Ja | Nein |
| Bestellstatus: Ausstehend, Genehmigt, Aktiv, Abgelaufen | Ja | Ja |
| Überschreitungen werden standardmäßig auf die „Pay as you go“-Abrechnung übertragen. | Ja | Ja |
| API-Header-Steuerung: Verwenden Sie „dedicated“, um nur bereitgestellten Durchsatz zu verwenden, oder „shared“, um nur Pay as you go zu verwenden. | Ja | Ja |
| Monitoring: Messwerte, Dashboards und Benachrichtigungen | Ja | Ja |
Unterstützung von Modellen für globale Endpunkte
Der bereitgestellte Durchsatz unterstützt den globalen Endpunkt für Google-Modelle und Open-Source-Modelle.
Traffic, der das Kontingent für den bereitgestellten Durchsatz überschreitet, verwendet standardmäßig den globalen Endpunkt.
Wenn Sie dem globalen Endpunkt eines Modells Bereitgestellten Durchsatz zuweisen möchten, wählen Sie global als Region aus, wenn Sie eine Bestellung für Bereitgestellten Durchsatz aufgeben.
Google-Modelle mit Unterstützung für globale Endpunkte
In der folgenden Tabelle sind die Google-Modelle aufgeführt, für die Bereitgestellter Durchsatz den globalen Endpunkt unterstützt:
| Modell | Aktuelle unterstützte Modellversion |
|---|---|
| Gemini 3.1 Flash Lite | gemini-3.1-flash-lite |
| Gemini 3.1 Flash Image Vorschau | gemini-3.1-flash-image-preview |
| Gemini 3.1 Pro Vorschau | gemini-3.1-pro-preview |
| Gemini 3 Flash Vorabversion | gemini-3-flash-preview |
| Gemini 3 Pro Image Vorschau | gemini-3-pro-image-preview |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Gemini 2.5 Flash Vorschau | gemini-2.5-flash-preview-09-2025 |
| Gemini 2.5 Flash-Lite Vorschau | gemini-2.5-flash-lite-preview-09-2025 |
| Gemini 2.5 Flash Image | gemini-2.5-flash-image |
| Gemini 2.5 Flash | gemini-2.5-flash |
| Gemini 2.5 Flash Lite | gemini-2.5-flash-lite |
Offene Modelle mit Unterstützung für globale Endpunkte
In der folgenden Tabelle sind die offenen Modelle aufgeführt, für die der globale Endpunkt für den bereitgestellten Durchsatz unterstützt wird:
| Modell | Neueste unterstützte Modellversion |
|---|---|
| DeepSeek-OCR | deepseek-ocr-maas |
| DeepSeek-V3.2 | deepseek-v3.2-maas |
| Kimi K2 Thinking | kimi-k2-thinking-maas |
| MiniMax M2 | minimax-m2-maas |
| OpenAI gpt-oss 120B | gpt-oss-120b-maas |
| Qwen3-Next-80B Instruct | qwen3-next-80b-a3b-instruct-maas |
| Qwen3-Next-80B – Denkprozess | qwen3-next-80b-a3b-thinking-maas |
| GLM 4.7 | glm-4.7-maas |
| GLM 5 | glm-5-maas |
Unterstützung für überwacht feinabgestimmte Modelle
Folgendes wird für Google-Modelle unterstützt, die überwachte Feinabstimmung unterstützen:
Der bereitgestellte Durchsatz kann sowohl auf Basismodelle als auch auf Versionen dieser Basismodelle angewendet werden, die mit überwachtem Lernen feinabgestimmt wurden.
Endpunkte für überwacht feinabgestimmte Modelle und das entsprechende Basismodell werden auf dasselbe Kontingent für bereitgestellten Durchsatz angerechnet.
Wenn Sie beispielsweise bereitgestellten Durchsatz für
gemini-2.0-flash-lite-001für ein bestimmtes Projekt erwerben, werden Anfragen, die von überwachten, feinabgestimmten Versionen vongemini-2.0-flash-lite-001stammen, die in diesem Projekt erstellt wurden, priorisiert. Verwenden Sie den entsprechenden Header, um das Traffic-Verhalten zu steuern.