Auf dieser Seite finden Sie eine Liste der Kontingente nach Region und Modell. Außerdem wird beschrieben, wie Sie Ihre Kontingente in der Google Cloud Console aufrufen und bearbeiten.
Kontingente für abgestimmte Modelle
Für die Inferenzausführung mit einem abgestimmten Modell gilt dasselbe Kontingent wie für das Basismodell. Für die Inferenz mit abgestimmten Modellen gibt es kein separates Kontingent.
Beschränkungen für Texteinbettungen
Jede Anfrage kann bis zu 250 Eingabetexte (mit jeweils einem Embedding) und 20.000 Tokens pro Anfrage enthalten. Nur die ersten 2.048 Tokens in jedem Eingabetext werden zum Berechnen der Einbettungen verwendet. Fürgemini-embedding-001 wird das Kontingent unter dem Namen gemini-embedding aufgeführt.
Eingabetokens für das Einbetten von Inhalten pro Minute und Basismodell
Anders als bei früheren Embedding-Modellen, die hauptsächlich durch RPM-Kontingente begrenzt wurden, wird das Kontingent für das Gemini Embedding-Modell durch die Anzahl der Tokens begrenzt, die pro Minute und Projekt gesendet werden können.
| Kontingent | Wert |
|---|---|
| Eingabetokens für das Einbetten von Inhalten pro Minute | 5.000.000 |
Kontingente für Vertex AI Agent Engine
Für die Vertex AI Agent Engine gelten die folgenden Kontingente für ein bestimmtes Projekt in den einzelnen Regionen:| Beschreibung | Kontingent | Messwert |
|---|---|---|
| Vertex AI Agent Engine-Ressourcen pro Minute erstellen, löschen oder aktualisieren | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Vertex AI Agent Engine-Sitzungen pro Minute erstellen, löschen oder aktualisieren | 100 | aiplatform.googleapis.com/session_write_requests |
Query oder StreamQuery Vertex AI Agent Engine pro Minute |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Ereignis an Vertex AI Agent Engine-Sitzungen pro Minute anhängen | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Maximale Anzahl von Vertex AI Agent Engine-Ressourcen | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Vertex AI Agent Engine-Speicherressourcen pro Minute erstellen, löschen oder aktualisieren | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Abrufen, Auflisten oder Abrufen aus der Vertex AI Agent Engine Memory Bank pro Minute | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Sandbox-Umgebung (Codeausführung): „execute“-Anfragen pro Minute | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Sandbox-Umgebung (Codeausführung) – Einheiten pro Region | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
A2A-Agent-Post-Anfragen wie sendMessage und cancelTask pro Minute |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
A2A-Agent-Get-Anfragen wie getTask und getCard pro Minute |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Gleichzeitige bidirektionale Live-Verbindungen über die BidiStreamQuery API pro Minute |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Batchvorhersage
Die Kontingente und Limits für Batchinferenzjobs sind in allen Regionen gleich.Gleichzeitige Batchinferenzjob-Limits für Gemini-Modelle
Für die Batchinferenz für Gemini-Modelle gibt es keine vordefinierten Kontingentlimits. Stattdessen bietet der Batch-Dienst Zugriff auf einen großen, gemeinsamen Ressourcenpool, der dynamisch zugewiesen wird, basierend auf der Echtzeitverfügbarkeit des Modells und der Nachfrage aller Kunden nach diesem Modell. Wenn mehr Kunden aktiv sind und die Kapazität des Modells ausgeschöpft ist, werden Ihre Batchanfragen möglicherweise in die Warteschlange gestellt.Kontingente für gleichzeitige Batchinferenzjobs für Nicht-Gemini-Modelle
In der folgenden Tabelle sind die Kontingente für die Anzahl der gleichzeitigen Batch-Inferenzjobs aufgeführt, die nicht für Gemini-Modelle gelten:| Kontingent | Wert |
|---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Kontingente in der Google Cloud Console ansehen und bearbeiten
So rufen Sie die Kontingente in der Google Cloud Console auf und bearbeiten sie:- Rufen Sie die Seite Kontingente und Systemlimits auf.
- Um das Kontingent anzupassen, kopieren Sie das Attribut
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobsund fügen Sie es in den Filter ein. Drücken Sie die Eingabetaste. - Klicken Sie auf das Dreipunkt-Menü am Ende der Zeile und wählen Sie Kontingent bearbeiten aus.
- Geben Sie im Bereich einen neuen Kontingentwert ein und klicken Sie auf Anfrage senden.
Zur Seite „Kontingente und Systemlimits“
Vertex AI-RAG-Engine
Für jeden Dienst, der RAG (Retrieval Augmented Generation) mit RAG Engine ausführt, gelten die folgenden Kontingente. Das Kontingent wird als Anfragen pro Minute (Requests per Minute, RPM) gemessen.| Dienst | Kontingent | Messwert |
|---|---|---|
| APIs für die Datenverwaltung der RAG Engine | 60 U/min | VertexRagDataService requests per minute per region |
RetrievalContexts API |
600 U/min | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1.500 RPM | Online prediction requests per base model per minute per region per base_modelEin weiterer Filter, den Sie angeben können, ist base_model: textembedding-gecko |
| Dienst | Limit | Messwert |
|---|---|---|
Gleichzeitige ImportRagFiles-Anfragen |
3 RPM | VertexRagService concurrent import requests per region |
Maximale Anzahl von Dateien pro ImportRagFiles-Anfrage |
10.000 | VertexRagService import rag files requests per region |
Weitere Ratenbegrenzungen und Kontingente finden Sie unter Ratenbegrenzungen für generative KI auf Vertex AI.
Gen AI Evaluation Service
Der Gen AI Evaluation Service verwendet Gemini 2.5 Flash als Standardmodell für modellbasierte Messwerte. Eine einzelne Bewertungsanfrage für einen modellbasierten Messwert kann zu mehreren zugrunde liegenden Anfragen an den Gen AI Evaluation Service führen. Der Verbrauch jedes Modells wird auf Organisationsebene berechnet. Das bedeutet, dass alle Anfragen, die zur Modellinferenz und zur modellbasierten Bewertung an das Judge-Modell gerichtet werden, zum Verbrauch des Modells beitragen. Kontingente für den Gen AI Evaluation Service und das zugrunde liegende Judge-Modell sind in der folgenden Tabelle aufgeführt:| Kontingent anfordern | Standardkontingent |
|---|---|
| Gen AI Evaluation Service-Anfragen pro Minute | 1.000 Anfragen pro Projekt und Region |
| Gemini-Durchsatz | Abhängig vom Modell und der Verbrauchsoption |
| Gleichzeitige Bewertungsausführungen | 20 gleichzeitige Bewertungsdurchläufe pro Projekt und Region |
Wenn Sie bei der Verwendung des Gen AI Evaluation Service einen Fehler im Zusammenhang mit Kontingenten erhalten, müssen Sie möglicherweise eine Kontingenterhöhung beantragen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.
| Limit | Wert |
|---|---|
| Zeitlimit für Anfragen an den Gen AI Evaluation Service | 60 Sekunden |
Wenn Sie den Gen AI-Bewertungsdienst zum ersten Mal in einem neuen Projekt verwenden, kann es bei der Ersteinrichtung zu einer Verzögerung von bis zu zwei Minuten kommen. Wenn Ihre erste Anfrage fehlschlägt, warten Sie einige Minuten und versuchen Sie es dann noch einmal. Nachfolgende Bewertungsanfragen werden in der Regel innerhalb von 60 Sekunden abgeschlossen.
Die maximalen Eingabe- und Ausgabetokens für modellbasierte Messwerte hängen vom Modell ab, das als Judge-Modell verwendet wird. Eine Liste der Modelle finden Sie unter Google-Modelle.
Vertex AI Pipelines-Kontingente
Jeder Abstimmungsjob verwendet Vertex AI Pipelines. Weitere Informationen finden Sie unter Vertex AI Pipelines-Kontingente und -Limits.
Nächste Schritte
- Weitere Informationen zu Standard PayGo
- Informationen zu Kontingenten und Limits für Vertex AI finden Sie unter Vertex AI-Kontingente und ‑Limits.
- Weitere Informationen zu Google Cloud Kontingenten und Systemlimits finden Sie in der Dokumentation zu Cloud-Kontingenten.