Unterstützte Modelle

In den folgenden Tabellen sind die Modelle aufgeführt, die Bereitgestellten Durchsatz unterstützen, der Durchsatz für jede Skalierungseinheit der generativen KI (GSU) sowie die Abnahmeraten für jedes Modell.

Google-Modelle

Der bereitgestellte Durchsatz wird nur für Modelle unterstützt, die Sie direkt aus Ihrem Projekt mit der spezifischen Modell-ID und nicht mit einem Modellalias aufrufen. Wenn Sie „Bereitgestellter Durchsatz“ verwenden möchten, um API-Aufrufe an ein Modell zu senden, müssen Sie die spezifische Modellversions-ID (z. B. gemini-2.0-flash-001) und nicht einen Modellversionsalias verwenden.

Außerdem wird Provisioned Throughput nicht für Modelle unterstützt, die von anderen Vertex AI-Produkten wie Vertex AI Agents und Vertex AI Search aufgerufen werden. Wenn Sie beispielsweise API-Aufrufe an Gemini 2.0 Flash ausführen, während Sie Vertex AI Search verwenden, wird durch Ihre Bestellung für bereitgestellten Durchsatz für Gemini 2.0 Flash nicht garantiert, dass die von Vertex AI Search ausgeführten Aufrufe erfolgreich sind.

Der bereitgestellte Durchsatz unterstützt keine Batchvorhersage-Aufrufe.

In der folgenden Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Google-Modelle aufgeführt, die Provisioned Throughput unterstützen. Der Durchsatz pro Sekunde wird als Eingabezeichen des Prompts und als generierte Ausgabezeichen für alle Anfragen pro Sekunde definiert.

Im SDK-Tokenizer oder in der countTokens API erfahren Sie mehr zu den für Ihre Arbeitslast erforderlichen Tokens.

Modell Durchsatz pro Sekunde pro GSU Einheiten Mindestkaufsteigerung für GSUs Abnahmeraten

Gemini 3 Pro

Neueste unterstützte Version: gemini-3-pro-preview (Vorschau)

500 Tokens 1 Weniger als oder gleich 200.000 Eingabetokens
1 Eingabetoken für Text = 1 Token
1 Eingabetoken für Bild = 1 Token
1 Eingabetoken für Video = 1 Token
1 Eingabetoken für Audio = 1 Token
1 Ausgabetoken für Antworttext = 6 Tokens
1 Ausgabetoken für Begründungstext = 6 Tokens

Mehr als 200.000 Eingabetokens
1 Eingabetoken für Text = 2 Tokens
1 Eingabetoken für Bild = 2 Tokens
1 Eingabetoken für Video = 2 Tokens
1 Eingabetoken für Audio = 2 Tokens
1 Ausgabetoken für Antworttext = 9 Tokens
1 Ausgabetoken für Begründungstext = 9 Tokens

Gemini 3 Pro Image

Neueste unterstützte Version: gemini-3-pro-image-preview (Vorschau)

500 Tokens 1 1 Eingabetext-Token = 1 Token
1 Eingabebild-Token = 1 Token
1 Ausgabetext-Token = 6 Tokens
1 Ausgabe-Denk-Token = 6 Tokens
1 Ausgabebild-Token = 60 Tokens

Gemini 2.5 Pro

Neueste unterstützte Version: gemini-2.5-pro

650 Tokens 1 Weniger als oder gleich 200.000 Eingabetokens
1 Eingabetoken für Text = 1 Token
1 Eingabetoken für Bilder = 1 Token
1 Eingabetoken für Videos = 1 Token
1 Eingabetoken für Audio = 1 Token
1 Ausgabetoken für Antworttext = 8 Tokens
1 Ausgabetoken für Begründungstext = 8 Tokens

Mehr als 200.000 Eingabetokens
1 Eingabetoken für Text = 2 Tokens
1 Eingabetoken für Bilder = 2 Tokens
1 Eingabetoken für Videos = 2 Tokens
1 Eingabetoken für Audio = 2 Tokens
1 Ausgabetoken für Antworttext = 12 Tokens
1 Ausgabetoken für Begründungstext = 12 Tokens

Gemini 2.5 Flash Image

Neueste unterstützte Version: gemini-2.5-flash-image

2.690 Tokens 1 1 Eingabetext-Token = 1 Token
1 Eingabebild-Token = 1 Token
1 Ausgabetext-Token = 9 Tokens
1 Ausgabebild-Token = 100 Tokens

Gemini 2.5 Flash

Neueste unterstützte Version (GA): gemini-2.5-flash

Neueste unterstützte Version (Vorschau): gemini-2.5-flash-preview-09-2025

2690 Tokens 1 1 Eingabetext-Token = 1 Token
1 Eingabebild-Token = 1 Token
1 Eingabevideo-Token = 1 Token
1 Eingabe-Audio-Token = 4 Tokens
1 Ausgabetext-Token für Antwort = 9 Tokens
1 Ausgabetext-Token für Begründung = 9 Tokens

Gemini 2.5 Flash-Lite

Neueste unterstützte Version (GA): gemini-2.5-flash-lite

Neueste unterstützte Version (Vorschau): gemini-2.5-flash-lite-preview-09-2025

8.070 Tokens 1 1 Eingabetext-Token = 1 Token
1 Eingabebild-Token = 1 Token
1 Eingabevideo-Token = 1 Token
1 Eingabe-Audio-Token = 3 Tokens
1 Ausgabetext-Token = 4 Tokens
1 Ausgabe-Begründungstext-Token = 4 Tokens

Gemini 2.5 Flash mit Live API

Neueste unterstützte Version: gemini-live-2.5-flash

1.620 Tokens 1 1 Eingabetext-Token = 1 Eingabetext-Token
1 Audio-Eingabetoken = 6 Eingabetext-Tokens
1 Video-Eingabetoken = 6 Eingabetext-Tokens
1 Sitzungsspeicher-Eingabetoken = 1 Eingabetext-Token
1 Ausgabetext-Token = 4 Eingabetext-Tokens
1 Audio-Ausgabetoken = 24 Eingabetext-Tokens

Gemini 2.5 Flash mit nativer Audio-Live-API

Neueste unterstützte Version: gemini-live-2.5-flash-preview-native-audio-09-2025 (Vorschau)

1.620 Tokens 1 1 Eingabetext-Token = 1 Token
1 Eingabe-Audio-Token = 6 Tokens
1 Eingabe-Video-Token = 6 Tokens
1 Eingabe-Bild-Token = 6 Tokens
1 Eingabe-Sitzungsspeicher-Token = 1 Token
1 Ausgabetext-Token = 4 Tokens
1 Ausgabe-Audio-Token = 24 Tokens

Gemini 2.0 Flash

Neueste unterstützte Version: gemini-2.0-flash-001

3.360 Tokens 1 1 Eingabetext-Token = 1 Token
1 Eingabebild-Token = 1 Token
1 Eingabevideo-Token = 1 Token
1 Eingabe-Audio-Token = 7 Tokens
1 Ausgabetext-Token = 4 Tokens

Gemini 2.0 Flash-Lite

Neueste unterstützte Version: gemini-2.0-flash-lite-001

6.720 Tokens 1 1 Eingabetext-Token = 1 Token
1 Eingabebild-Token = 1 Token
1 Eingabevideo-Token = 1 Token
1 Eingabe-Audio-Token = 1 Token
1 Ausgabetext-Token = 4 Tokens

Veo 3.1 – Vorschau

Neueste unterstützte Version: veo-3.1-generate-001 (Vorschau)

0,0040 Videosekunden 1 1 Videosekunde der Ausgabe = 1 Videosekunde der Ausgabe
Video- und Audiosekunden 1 1 Video- und Audiosekunde der Ausgabe = 2 Videosekunden der Ausgabe

Veo 3.1 Fast-Vorschau

Neueste unterstützte Version: veo-3.1-fast-generate-001 (Vorschau)

0,0080 Videosekunden 1 1 Videosekunde der Ausgabe = 1 Videosekunde der Ausgabe
Video- und Audiosekunden 1 1 Sekunde Video- und Audioausgabe = 1,45 Sekunden Videoausgabe

Veo 3

Neueste unterstützte Version: veo-3.0-generate-001

0,0040 Videosekunden 1 1 Videosekunde der Ausgabe = 1 Videosekunde der Ausgabe
Video- und Audiosekunden 1 1 Video- und Audiosekunde der Ausgabe = 2 Videosekunden der Ausgabe

Veo 3 Fast

Neueste unterstützte Version: veo-3.0-fast-generate-001

0,0080 Videosekunden 1 1 Videosekunde der Ausgabe = 1 Videosekunde der Ausgabe
Video- und Audiosekunden 1 1 Sekunde Video- und Audioausgabe = 1,45 Sekunden Videoausgabe

Imagen 4 Ultra Generate

imagen-4.0-ultra-generate-001

0,015 Bilder 1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.

Imagen 4 Generate

imagen-4.0-generate-001

0,02 Bilder 1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.

Imagen 4 Fast Generate

imagen-4.0-fast-generate-001

0,04 Bilder 1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.

Imagen 3 Generate 002

imagen-3.0-generate-002

0,02 Bilder 1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.

Imagen 3 Generate 001

imagen-3.0-generate-001

0,025 Bilder 1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.
Imagen 3 Fast 0,05 Bilder 1 Nur Ausgabebilder werden auf Ihr Kontingent für Bereitgestellten Durchsatz angerechnet.

Informationen zu den Funktionen eines Modells und zu den Eingabe- oder Ausgabebeschränkungen finden Sie in der Dokumentation des Modells.

Sie können ein Upgrade auf neue Modelle durchführen, sobald diese verfügbar sind. Informationen zur Verfügbarkeit von Modellen und zu den Terminen für die Einstellung finden Sie unter Google-Modelle.

Weitere Informationen zu unterstützten Standorten finden Sie unter Verfügbare Standorte.

Partnermodelle

In der folgenden Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für Partnermodelle aufgeführt, die Provisioned Throughput unterstützen. Claude-Modelle werden in Tokens pro Sekunde gemessen. Dieser Wert wird als Gesamtzahl der Eingabe- und Ausgabetokens für alle Anfragen pro Sekunde definiert.

Modell Durchsatz pro GSU (Tokens/s) Mindestkauf von GSUs GSU-Kaufsteigerung Abnahmeraten
Claude Opus 4.5 von Anthropic 210 35 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens
1 Cache-Treffer = 0,1 Token
Claude Sonnet 4.5 von Anthropic 350 25 1 Weniger als 200.000 Eingabetokens
1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens
1 Cache-Treffer = 0,1 Token

Mindestens 200.000 Eingabetokens
1 Eingabetoken = 2 Tokens
1 Ausgabetoken = 7,5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 2,5 Tokens
1 Cache-Schreibvorgang (1 Stunde) = 4 Tokens
1 Cache-Treffer = 0,2 Token
Claude Opus 4.1 von Anthropic 70 35 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens
1 Cache-Treffer = 0,1 Token
Claude Haiku 4.5 von Anthropic 1.050 8 1 Weniger als 200.000 Eingabetokens
1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens
1 Cache-Treffer = 0,1 Token
Claude Opus 4 von Anthropic 70 35 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens
1 Cache-Treffer = 0,1 Token
Claude Sonnet 4 von Anthropic 350 25 1 Weniger als 200.000 Eingabetokens
1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens
1 Cache-Treffer = 0,1 Token

Mindestens 200.000 Eingabetokens
1 Eingabetoken = 2 Tokens
1 Ausgabetoken = 7,5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 2,5 Tokens
1 Cache-Schreibvorgang (1 Stunde) = 4 Tokens
1 Cache-Treffer = 0,2 Token
Claude 3.7 Sonnet von Anthropic (eingestellt) 350 25 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Treffer = 0,1 Token
Claude 3.5 Sonnet v2 von Anthropic (eingestellt) 350 25 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Treffer = 0,1 Token
Claude 3.5 Haiku von Anthropic 2.000 10 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens
1 Cache-Treffer = 0,1 Token
Claude 3 Opus von Anthropic 70 35 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Treffer = 0,1 Token
Claude 3 Haiku von Anthropic 4.200 5 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Schreibvorgang (1 Stunde) = 2 Tokens
1 Cache-Treffer = 0,1 Token
Claude 3.5 Sonnet von Anthropic (eingestellt) 350 25 1 1 Eingabetoken = 1 Token
1 Ausgabetoken = 5 Tokens
1 Cache-Schreibvorgang (5 Minuten) = 1,25 Tokens
1 Cache-Treffer = 0,1 Token

Informationen zu unterstützten Standorten finden Sie unter Verfügbarkeit: Anthropic Claude-Region. Wenn Sie Provisioned Throughput für Anthropic-Modelle bestellen möchten, wenden Sie sich an Ihren Google Cloud -Kundenbetreuer.

Offene Modelle

In der folgenden Tabelle sind der Durchsatz, die Kaufsteigerung und die Abnahmerate für offene Modelle aufgeführt, die Provisioned Throughput unterstützen.

Modell Durchsatz pro GSU (Tokens/s) Mindestkauf von GSUs GSU-Kaufsteigerung Abnahmeraten

DeepSeek-OCR

Neueste unterstützte Version: deepseek-ocr-maas

3.360 1 1 1 Eingabetexttoken = 1 Token
1 Eingabebildtoken = 1 Token
1 Ausgabetexttoken = 4 Tokens

Kimi K2 Thinking

Neueste unterstützte Version: kimi-k2-thinking-maas

1.680 1 1 1 Eingabetext-Token = 1 Token
1 Ausgabetext-Token = 4 Tokens

Llama 3.3 70B

Neueste unterstützte Version: llama-3.3-70b-instruct-maas

1.400 1 1 1 Eingabetext-Token = 1 Token
1 Ausgabetext-Token = 1 Token

Llama 4 Maverick 17B-128E

Neueste unterstützte Version: llama-4-maverick-17b-128e-instruct-maas

2.800 1 1 1 Eingabetexttoken = 1 Token
1 Eingabebildtoken = 1 Token
1 Ausgabetexttoken = 4 Tokens

Llama 4 Scout 17B-16E

Neueste unterstützte Version: llama-4-scout-17b-16e-instruct-maas

4.035 1 1 1 Eingabetext-Token = 1 Token
1 Eingabebild-Token = 1 Token
1 Ausgabetext-Token = 3 Tokens

MiniMax M2

Neueste unterstützte Version: minimax-m2-maas

3.360 1 1 1 Eingabetext-Token = 1 Token
1 Ausgabetext-Token = 4 Tokens

OpenAI gpt-oss 120B

Neueste unterstützte Version: gpt-oss-120b-maas

11.205 1 1 1 Eingabetext-Token = 1 Token
1 Ausgabetext-Token = 4 Tokens

OpenAI gpt-oss 20B

Neueste unterstützte Version: gpt-oss-20b-maas

14.405 1 1 1 Eingabetext-Token = 1 Token
1 Ausgabetext-Token = 4 Tokens

Qwen3 235B

Neueste unterstützte Version: qwen3-235b-a22b-instruct-2507-maas

4.035 1 1 1 Eingabetext-Token = 1 Token
1 Ausgabetext-Token = 4 Tokens

Qwen3 Coder

Neueste unterstützte Version: qwen3-coder-480b-a35b-instruct-maas

1.010 1 1 1 Eingabetext-Token = 1 Token
1 Ausgabetext-Token = 4 Tokens

Qwen3-Next-80B Instruct

Neueste unterstützte Version: qwen3-next-80b-a3b-instruct-maas

6.725 1 1 1 Eingabetext-Token = 1 Token
1 Ausgabetext-Token = 8 Tokens

Qwen3-Next-80B Thinking

Neueste unterstützte Version: qwen3-next-80b-a3b-thinking-maas

6.725 1 1 1 Eingabetext-Token = 1 Token
1 Ausgabetext-Token = 8 Tokens

Verfügbare Funktionen für Google- und offene Modelle

In der folgenden Tabelle sind die Funktionen aufgeführt, die mit dem bereitgestellten Durchsatz für Google-Modelle und offene Modelle verfügbar sind:

Leistungsvermögen Google-Modelle Offene Modelle (Vorabversion)
Über die Google Cloud Console bestellen Ja Ja
Unterstützt globale Endpunkte Weitere Informationen finden Sie unter Unterstützung von globalen Endpunktmodellen. Weitere Informationen finden Sie unter Unterstützung von globalen Endpunktmodellen.
Unterstützt überwacht feinabgestimmte Modelle Ja Nein
Unterstützt die Verwendung von API-Schlüsseln Ja Nein
In implizites Kontext-Caching eingebunden Ja Nicht zutreffend
In explizites Kontext-Caching eingebunden Ja Nicht zutreffend
ML-Verarbeitung In bestimmten Regionen verfügbar. Weitere Informationen finden Sie unter Bereitgestellter Durchsatz für einzelne Zonen. Nicht zutreffend
Verfügbare Bestellbedingungen 1 Woche, 1 Monat, 3 Monate und 1 Jahr 1 Monat, 3 Monate und 1 Jahr
Änderungsauftrag über die Console Ja Nein
Bestellstatus: „Ausstehend“, „Genehmigt“, „Aktiv“, „Abgelaufen“ Ja Ja
Überschreitungen werden standardmäßig auf Pay-as-you-go übertragen. Ja Ja
API-Header-Steuerung: Verwenden Sie „dedicated“, um nur bereitgestellten Durchsatz zu nutzen, oder „shared“, um nur Pay-as-you-go zu verwenden. Ja Ja
Monitoring: Messwerte, Dashboards und Benachrichtigungen Ja Ja

Unterstützung von Modellen für globale Endpunkte

Der bereitgestellte Durchsatz unterstützt den globalen Endpunkt für Google-Modelle und Open-Source-Modelle.

Traffic, der das Kontingent für den bereitgestellten Durchsatz überschreitet, verwendet standardmäßig den globalen Endpunkt.

Wenn Sie Provisioned Throughput dem globalen Endpunkt eines Modells zuweisen möchten, wählen Sie global als Region aus, wenn Sie eine Provisioned Throughput-Bestellung aufgeben.

Google-Modelle mit Unterstützung für globale Endpunkte

In der folgenden Tabelle sind die Google-Modelle aufgeführt, für die Provisioned Throughput den globalen Endpunkt unterstützt:

Modell Neueste unterstützte Modellversion
Gemini 3 Pro (Vorabversion) gemini-3-pro-preview
Gemini 3 Pro Image (Vorabversion) gemini-3-pro-image-preview
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash Image gemini-2.5-flash-image
Gemini 2.5 Flash
  • gemini-2.5-flash-preview-09-2025  (Vorschau)
  • gemini-2.5-flash  (GA)
Gemini 2.5 Flash-Lite
  • gemini-2.5-flash-lite-preview-09-2025  (Vorschau)
  • gemini-2.5-flash-lite  (GA)
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

Offene Modelle mit Unterstützung für globale Endpunkte

In der folgenden Tabelle sind die offenen Modelle aufgeführt, für die Provisioned Throughput den globalen Endpunkt unterstützt:

Modell Neueste unterstützte Modellversion
DeepSeek-OCR deepseek-ocr-maas
Kimi K2 Thinking kimi-k2-thinking-maas
MiniMax M2 minimax-m2-maas
OpenAI gpt-oss 120B gpt-oss-120b-maas
Qwen3-Next-80B Instruct qwen3-next-80b-a3b-instruct-maas
Qwen3-Next-80B Thinking qwen3-next-80b-a3b-thinking-maas

Unterstützung für überwacht feinabgestimmte Modelle

Folgendes wird für Google-Modelle unterstützt, die überwachte Feinabstimmung unterstützen:

  • Der bereitgestellte Durchsatz kann sowohl auf Basismodelle als auch auf Versionen dieser Basismodelle angewendet werden, die mit überwachtem Lernen feinabgestimmt wurden.

  • Endpunkte für überwacht feinabgestimmte Modelle und das entsprechende Basismodell werden auf dasselbe Kontingent für den bereitgestellten Durchsatz angerechnet.

    Wenn Sie beispielsweise bereitgestellten Durchsatz für gemini-2.0-flash-lite-001 für ein bestimmtes Projekt erwerben, werden Anfragen, die von überwachten, feinabgestimmten Versionen von gemini-2.0-flash-lite-001 stammen, die in diesem Projekt erstellt wurden, priorisiert. Verwenden Sie den entsprechenden Header, um das Traffic-Verhalten zu steuern.

Nächste Schritte