Auf dieser Seite finden Sie eine Liste der Kontingente nach Region und Modell sowie eine Anleitung zum Aufrufen und Bearbeiten Ihrer Kontingente in der Google Cloud Console.
Kontingente für abgestimmte Modelle
Für die Inferenz mit abgestimmten Modellen gilt dasselbe Kontingent wie für das Basismodell. Es gibt kein separates Kontingent für die Inferenz mit abgestimmten Modellen.
Limits für Einbettungen
Für Anfragen angemini-embedding-001 gelten regionale Kontingente, während für Anfragen an gemini-embedding-2 globale Kontingente gelten.
| Basismodell | Quota | Messwert |
|---|---|---|
| base_model: gemini-embedding | 5.000.000 | aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model |
| base_model: gemini-embedding-2 | 10.000.000 | aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model |
| base_model: gemini-embedding-2 | 40.000 | aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model |
Kontingente für die Vertex AI Agent Engine
Für die Vertex AI Agent Engine gelten die folgenden Kontingente für ein bestimmtes Projekt in den einzelnen Regionen:| Beschreibung | Quota | Messwert |
|---|---|---|
| Vertex AI Agent Engine-Ressourcen pro Minute erstellen, löschen oder aktualisieren | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Vertex AI Agent Engine-Sitzungen pro Minute erstellen, löschen oder aktualisieren | 100 | aiplatform.googleapis.com/session_write_requests |
| Vertex AI Agent Engine-Sitzungen pro Minute abrufen, auflisten oder wiederherstellen | 10000 | aiplatform.googleapis.com/session_read_requests |
Vertex AI Agent Engine pro
Minute Query oder StreamQuery
|
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Ereignis pro Minute an Vertex AI Agent Engine-Sitzungen anhängen | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Maximale Anzahl von Vertex AI Agent Engine-Ressourcen | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Vertex AI Agent Engine-Speicherressourcen pro Minute erstellen, löschen oder aktualisieren | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Pro Minute aus der Vertex AI Agent Engine Memory Bank abrufen, auflisten oder wiederherstellen | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Sandbox-Umgebung (Codeausführung): Anfragen pro Minute ausführen | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Sandbox-Umgebung (Codeausführung): Entitäten pro Region | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
| Sandbox-Umgebung (Codeausführung): Schreibanfragen pro Minute | 500 | aiplatform.googleapis.com/sandbox_environment_write_requests |
A2A-Agent-Post-Anfragen wie sendMessage und cancelTask pro
Minute
|
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
A2A-Agent-Get-Anfragen wie getTask und getCard pro Minute
|
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Gleichzeitige bidirektionale Live-Verbindungen mit der BidiStreamQuery API pro
Minute
|
10 |
aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
|
Batch-Vorhersage
Die Kontingente und Limits für Batch-Inferenzjobs sind in allen Regionen gleich.Limits für gleichzeitige Batch-Inferenzjobs für Gemini-Modelle
Für die Batch-Inferenz für Gemini-Modelle gibt es keine vordefinierten Kontingentlimits. Stattdessen bietet der Batch-Dienst Zugriff auf einen großen, gemeinsam genutzten Ressourcenpool, der dynamisch auf Grundlage der Echtzeitverfügbarkeit und -nachfrage des Modells bei allen Kunden für dieses Modell zugewiesen wird. Wenn mehr Kunden aktiv sind und die Kapazität des Modells ausgelastet ist, werden Ihre Batch-Anfragen möglicherweise in die Warteschlange gestellt.Kontingente für gleichzeitige Batch-Inferenzjobs für andere Modelle als Gemini
In der folgenden Tabelle sind die Kontingente für die Anzahl gleichzeitiger Batch-Inferenzjobs aufgeführt, die nicht für Gemini-Modelle gelten:| Quota | Wert |
|---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Kontingente in der Google Cloud Console ansehen und bearbeiten
So rufen Sie die Kontingente in der Google Cloud Console auf und bearbeiten sie:- Rufen Sie die Seite Kontingente und Systemlimits auf.
- Wenn Sie das Kontingent anpassen möchten, kopieren Sie die Property
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobsund fügen Sie sie in das Feld Filter ein. Drücken Sie die Eingabetaste. - Klicken Sie auf das Dreipunkt-Menü am Ende der Zeile und wählen Sie Kontingent bearbeiten aus.
- Geben Sie im Bereich einen neuen Kontingentwert ein und klicken Sie auf Anfrage senden.
Seite „Kontingente und Systemlimits“ aufrufen
Vertex AI RAG Engine
Für jeden Dienst, der mit der RAG Engine Retrieval-Augmented Generation (RAG) ausführt, gelten die folgenden Kontingente. Das Kontingent wird als Anfragen pro Minute (Requests Per Minute, RPM) gemessen.| Dienst | Quota | Messwert |
|---|---|---|
| RAG Engine-APIs für die Datenverwaltung | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
600 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1.500 RPM | Online prediction requests per base model per minute per region per base_modelEin weiterer Filter, den Sie angeben können, ist base_model: textembedding-gecko |
| Dienst | Limit | Messwert |
|---|---|---|
Gleichzeitige ImportRagFiles-Anfragen |
3 RPM | VertexRagService concurrent import requests per region |
Maximale Anzahl von Dateien pro ImportRagFiles-Anfrage |
10.000 | VertexRagService import rag files requests per region |
Weitere Ratenlimits und Kontingente finden Sie unter Generative KI auf der Gemini Enterprise Agent Platform Ratenlimits.
Gen AI Evaluation Service
Der Gen AI Evaluation Service verwendet Gemini 2.5 Flash als Standardmodell für modellbasierte Messwerte. Eine einzelne Bewertungsanfrage für einen modellbasierten Messwert kann zu mehreren zugrunde liegenden Anfragen an den Gen AI Evaluation Service führen. Der Verbrauch jedes Modells wird auf Organisationsebene berechnet. Das bedeutet, dass alle Anfragen, die zur Modellinferenz und zur modellbasierten Bewertung an das Judge-Modell gerichtet werden, zum Verbrauch des Modells beitragen. Die Kontingente für den Gen AI Evaluation Service und das zugrunde liegende Judge-Modell sind in der folgenden Tabelle aufgeführt:| Anfragekontingent | Standardkontingent |
|---|---|
| Gen AI Evaluation Service-Anfragen pro Minute | 1.000 Anfragen pro Projekt und Region |
| Gemini-Durchsatz | Abhängig vom Modell und der Verbrauchsoption |
| Gleichzeitige Bewertungsausführungen | 20 gleichzeitige Bewertungsausführungen pro Projekt und Region |
Wenn bei der Verwendung des Gen AI Evaluation Service ein Fehler im Zusammenhang mit Kontingenten auftritt, müssen Sie möglicherweise eine Anfrage zur Kontingenterhöhung einreichen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.
| Limit | Wert |
|---|---|
| Zeitlimit für Gen AI Evaluation Service-Anfragen | 60 Sekunden |
Wenn Sie den Gen AI Evaluation Service zum ersten Mal in einem neuen Projekt verwenden, kann es bis zu zwei Minuten dauern, bis die Einrichtung abgeschlossen ist. Wenn Ihre erste Anfrage fehlschlägt, warten Sie einige Minuten und versuchen Sie es dann noch einmal. Nachfolgende Bewertungsanfragen werden in der Regel innerhalb von 60 Sekunden abgeschlossen.
Die maximalen Eingabe- und Ausgabetokens für modellbasierte Messwerte hängen vom Modell ab, das als Judge-Modell verwendet wird. Eine Liste der Modelle finden Sie unter Google-Modelle für eine Liste der Modelle.
Kontingente für Gemini Enterprise Agent Platform Pipelines
Jeder Abstimmungsjob verwendet Gemini Enterprise Agent Platform Pipelines. Weitere Informationen finden Sie unter Kontingente und Limits für Agent Platform Pipelines.
Nächste Schritte
Standard-Pay-as-you-go
Informationen zu Standard-Pay-as-you-go, einer Verbrauchsoption für die Agent Platform, bei der Sie nur für die Ressourcen bezahlen, die Sie verbrauchen, ohne dass Vorabverpflichtungen erforderlich sind.
Kontingente und Systemlimits für die Agent Platform
Kontingente und Systemlimits im Zusammenhang mit der Agent Platform, ausgenommen produktspezifische Kontingente und Systemlimits.
Google Cloud-Kontingente
Informationen dazu, wie Google Cloud die Nutzung einer Ressource durch Ihr Google Cloud-Projekt einschränkt und wie Kontingente für eine Reihe von Ressourcentypen gelten, einschließlich Hardware, Software und Netzwerkkomponenten.