Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Kontingente und Systemlimits für generative KI auf der Gemini Enterprise Agent Platform

Auf dieser Seite finden Sie eine Liste der Kontingente nach Region und Modell. Außerdem wird beschrieben, wie Sie Ihre Kontingente in der Google Cloud Console aufrufen und bearbeiten.

Kontingente für abgestimmte Modelle

Für die Inferenzausführung mit einem abgestimmten Modell gilt dasselbe Kontingent wie für das Basismodell. Für die Inferenz mit abgestimmten Modellen gibt es kein separates Kontingent.

Einschränkungen beim Einbetten

Anfragen für gemini-embedding-001 unterliegen regionalen Kontingenten, während Anfragen für gemini-embedding-2 globalen Kontingenten unterliegen.

Basismodell	Kontingent	Messwert
base_model: gemini-embedding	5.000.000	`aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	10.000.000	`aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	40.000	`aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model`

Für Anfragen für gemini-embedding-001 über die predict API gelten auch die folgenden Kontingente:

Basismodell	Kontingent	Messwert
base_model: gemini-embedding	100.000	`aiplatform.googleapis.com/online_prediction_requests_per_base_model`
base_model: N/A	30.000	`aiplatform.googleapis.com/online_prediction_requests`

Kontingente für Vertex AI Agent Engine

Für Vertex AI Agent Engine gelten die folgenden Kontingente für ein bestimmtes Projekt in den einzelnen Regionen:

Beschreibung	Kontingent	Messwert
Vertex AI Agent Engine-Ressourcen pro Minute erstellen, löschen oder aktualisieren	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Vertex AI Agent Engine-Sitzungen pro Minute erstellen, löschen oder aktualisieren	100	`aiplatform.googleapis.com/session_write_requests`
Vertex AI Agent Engine-Sitzungen pro Minute abrufen, auflisten oder abrufen	10000	`aiplatform.googleapis.com/session_read_requests`
`Query` oder `StreamQuery` Vertex AI Agent Engine pro Minute	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Ereignis an Vertex AI Agent Engine-Sitzungen pro Minute anhängen	300	`aiplatform.googleapis.com/session_event_append_requests`
Maximale Anzahl von Vertex AI Agent Engine-Ressourcen	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Vertex AI Agent Engine-Speicherressourcen pro Minute erstellen, löschen oder aktualisieren	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Abrufen, Auflisten oder Abrufen aus der Vertex AI Agent Engine Memory Bank pro Minute	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Sandbox-Umgebung (Codeausführung): „execute“-Anfragen pro Minute	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Sandbox-Umgebung (Codeausführung) – Einheiten pro Region	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Schreibanfragen pro Minute für die Sandbox-Umgebung (Codeausführung)	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
A2A-Agent-Post-Anfragen wie `sendMessage` und `cancelTask` pro Minute	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
A2A-Agent-Get-Anfragen wie `getTask` und `getCard` pro Minute	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Gleichzeitige bidirektionale Live-Verbindungen mit der `BidiStreamQuery` API pro Minute	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Batch-Vorhersage

Die Kontingente und Limits für Batchinferenzjobs sind in allen Regionen gleich.

Gleichzeitige Batchinferenzjob-Limits für Gemini-Modelle

Für die Batchinferenz für Gemini-Modelle gibt es keine vordefinierten Kontingentlimits. Stattdessen bietet der Batch-Dienst Zugriff auf einen großen, gemeinsamen Ressourcenpool, der dynamisch zugewiesen wird, basierend auf der Echtzeitverfügbarkeit des Modells und der Nachfrage aller Kunden nach diesem Modell. Wenn mehr Kunden aktiv sind und die Kapazität des Modells ausgeschöpft ist, werden Ihre Batchanfragen möglicherweise in die Warteschlange gestellt.

Kontingente für gleichzeitige Batchinferenzjobs für andere Modelle als Gemini

In der folgenden Tabelle sind die Kontingente für die Anzahl der gleichzeitigen Batch-Inferenzjobs aufgeführt, die nicht für Gemini-Modelle gelten:

Kontingent	Wert
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

Wenn die Anzahl der eingereichten Aufgaben das zugewiesene Kontingent überschreitet, werden die Aufgaben in eine Warteschlange gestellt und verarbeitet, sobald Kontingentkapazität verfügbar ist.

Kontingente in der Google Cloud Console ansehen und bearbeiten

So rufen Sie die Kontingente in der Google Cloud Console auf und bearbeiten sie:

Rufen Sie die Seite Kontingente und Systemlimits auf.

Zur Seite „Kontingente und Systemlimits“

Um das Kontingent anzupassen, kopieren Sie das Attribut aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs und fügen Sie es in den Filter ein. Drücken Sie die Eingabetaste.
Klicken Sie auf das Dreipunkt-Menü am Ende der Zeile und wählen Sie Kontingent bearbeiten aus.
Geben Sie im Bereich einen neuen Kontingentwert ein und klicken Sie auf Anfrage senden.

RAG Engine auf der Gemini Enterprise Agent Platform

Für jeden Dienst, der RAG (Retrieval Augmented Generation) mit RAG Engine ausführt, gelten die folgenden Kontingente. Das Kontingent wird als Anfragen pro Minute (RPM) gemessen.

Dienst	Kontingent	Messwert
RAG Engine-APIs für die Datenverwaltung	60 U/min	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	600 U/min	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1.500 RPM	`Online prediction requests per base model per minute per region per base_model` Ein weiterer Filter, den Sie angeben können, ist `base_model: textembedding-gecko` .

Die folgenden Begrenzungen gelten:

Dienst	Limit	Messwert
Gleichzeitige `ImportRagFiles`-Anfragen	3 RPM	`VertexRagService concurrent import requests per region`
Maximale Anzahl von Dateien pro `ImportRagFiles`-Anfrage	10.000	`VertexRagService import rag files requests per region`

Weitere Ratenbegrenzungen und Kontingente finden Sie unter Ratenbegrenzungen für generative KI auf der Gemini Enterprise Agent Platform.

Gen AI Evaluation Service

Der Gen AI Evaluation Service verwendet Gemini 2.5 Flash als Standardmodell für modellbasierte Messwerte. Eine einzelne Bewertungsanfrage für einen modellbasierten Messwert kann zu mehreren zugrunde liegenden Anfragen an den Gen AI Evaluation Service führen. Der Verbrauch jedes Modells wird auf Organisationsebene berechnet. Das bedeutet, dass alle Anfragen, die zur Modellinferenz und zur modellbasierten Bewertung an das Judge-Modell gerichtet werden, zum Verbrauch des Modells beitragen. Kontingente für den Gen AI Evaluation Service und das zugrunde liegende Judge-Modell sind in der folgenden Tabelle aufgeführt:

Kontingent anfordern	Standardkontingent
Gen AI Evaluation Service-Anfragen pro Minute	1.000 Anfragen pro Projekt und Region
Gemini-Durchsatz	Abhängig vom Modell und der Verbrauchsoption
Gleichzeitige Bewertungsausführungen	20 gleichzeitige Bewertungsdurchläufe pro Projekt und Region

Wenn Sie bei der Verwendung des Gen AI Evaluation Service einen Fehler im Zusammenhang mit Kontingenten erhalten, müssen Sie möglicherweise eine Kontingenterhöhung beantragen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.

Limit	Wert
Zeitlimit für Anfragen an den Gen AI Evaluation Service	60 Sekunden

Wenn Sie den Gen AI Evaluation Service zum ersten Mal in einem neuen Projekt verwenden, kann es zu einer anfänglichen Einrichtungsverzögerung von bis zu zwei Minuten kommen. Wenn Ihre erste Anfrage fehlschlägt, warten Sie einige Minuten und versuchen Sie es dann noch einmal. Nachfolgende Bewertungsanfragen werden in der Regel innerhalb von 60 Sekunden abgeschlossen.

Die maximalen Eingabe- und Ausgabetokens für modellbasierte Messwerte hängen vom Modell ab, das als Judge-Modell verwendet wird. Eine Liste der Modelle finden Sie unter Google-Modelle.

Kontingente für Pipelines der Gemini Enterprise Agent Platform

Jeder Abstimmungsjob verwendet Gemini Enterprise Agent Platform Pipelines. Weitere Informationen finden Sie unter Kontingente und Limits für Agent Platform Pipelines.

Nächste Schritte

Übersicht

Kontingente und Systemlimits für generative KI auf der Gemini Enterprise Agent Platform

Kontingente für abgestimmte Modelle

Einschränkungen beim Einbetten

Kontingente für Vertex AI Agent Engine

Batch-Vorhersage

Gleichzeitige Batchinferenzjob-Limits für Gemini-Modelle

Kontingente für gleichzeitige Batchinferenzjobs für andere Modelle als Gemini

Kontingente in der Google Cloud Console ansehen und bearbeiten

RAG Engine auf der Gemini Enterprise Agent Platform

Gen AI Evaluation Service

Kontingente für Pipelines der Gemini Enterprise Agent Platform

Nächste Schritte

Standard-Pay-as-you-go

Kontingente und Systemlimits der Agent Platform

Google Cloud-Kontingente

Kontingente und Systemlimits für generative KI auf der Gemini Enterprise Agent Platform Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Kontingente für abgestimmte Modelle

Einschränkungen beim Einbetten

Kontingente für Vertex AI Agent Engine

Batch-Vorhersage

Gleichzeitige Batchinferenzjob-Limits für Gemini-Modelle

Kontingente für gleichzeitige Batchinferenzjobs für andere Modelle als Gemini

Kontingente in der Google Cloud Console ansehen und bearbeiten

RAG Engine auf der Gemini Enterprise Agent Platform

Gen AI Evaluation Service

Kontingente für Pipelines der Gemini Enterprise Agent Platform

Nächste Schritte

Standard-Pay-as-you-go

Kontingente und Systemlimits der Agent Platform

Google Cloud-Kontingente

Kontingente und Systemlimits für generative KI auf der Gemini Enterprise Agent Platform