Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Kontingente und Systemlimits für Agents in der Agent Platform

In diesem Dokument sind die Kontingente und Systemlimits für die Gemini Enterprise Agent Platform aufgeführt.

Kontingente haben Standardwerte, aber Sie können in der Regel Anpassungen anfordern.
Systemlimits sind feste Werte, die nicht geändert werden können.

Google Cloud nutzt Kontingente, um für Fairness zu sorgen und Spitzen bei der Ressourcennutzung und ‑verfügbarkeit zu reduzieren. Ein Kontingent schränkt ein, wie viel von einerGoogle Cloud Ressource Ihr Google Cloud Projekt nutzen kann. Kontingente gelten für eine Reihe von Ressourcentypen, einschließlich Hardware, Software und Netzwerkkomponenten. Mit Kontingenten können Sie beispielsweise die Anzahl der API-Aufrufe an einen Dienst, die Anzahl der von Ihrem Projekt nebenläufig verwendeten Load Balancer oder die Anzahl der Projekte begrenzen, die Sie erstellen können. Kontingente sollen eine Überlastung von Diensten verhindern und dadurch die Community derGoogle Cloud Nutzer schützen. Sie helfen Ihnen auch bei der Verwaltung Ihrer eigenen Google Cloud Ressourcen.

Das Cloud-Kontingentsystem tut Folgendes:

Es überwacht Ihren Verbrauch von Google Cloud Produkten und Diensten.
Es schränkt Ihren Verbrauch dieser Ressourcen ein.
Es bietet eine Möglichkeit, Änderungen am Kontingentwert zu beantragen und Kontingentanpassungen zu automatisieren.

Wenn Sie versuchen, mehr von einer Ressource zu verbrauchen, als das Kontingent zulässt, blockiert das System in den meisten Fällen den Zugriff auf die Ressource. Die Aufgabe, die Sie auszuführen versuchen, schlägt dann fehl.

Kontingente gelten in der Regel auf Google Cloud Projektebene. Die Nutzung einer Ressource in einem Projekt hat keinen Einfluss auf das verfügbare Kontingent in einem anderen Projekt. Innerhalb eines Google Cloud Projekts werden die Kontingente für alle Anwendungen und IP-Adressen gemeinsam genutzt.

Weitere Informationen finden Sie unter Cloud-Kontingente – Übersicht.

Kontingente

Die folgenden Kontingente gelten für Agents, die auf der Agent Platform für ein bestimmtes Projekt in jeder Region bereitgestellt werden:

Beschreibung	Kontingent	Messwert
Agent Platform-Ressourcen pro Minute erstellen, löschen oder aktualisieren	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Agent Platform-Sitzungen pro Minute erstellen, löschen oder aktualisieren	100	`aiplatform.googleapis.com/session_write_requests`
`Query` oder `StreamQuery` Agent Platform pro Minute	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Ereignis pro Minute an Agent Platform-Sitzungen anhängen	300	`aiplatform.googleapis.com/session_event_append_requests`
Maximale Anzahl von Agent Platform-Ressourcen	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Agent Platform-Speicherressourcen pro Minute erstellen, löschen oder aktualisieren	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Abrufen, Auflisten oder Abrufen aus der Memory Bank der Agent Platform pro Minute	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Sandbox-Umgebung (Codeausführung): „execute“-Anfragen pro Minute	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Sandbox-Umgebung (Codeausführung) – Einheiten pro Region	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Schreibanfragen pro Minute für die Sandbox-Umgebung (Codeausführung)	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
A2A-Agent-POST-Anfragen wie `sendMessage` und `cancelTask` pro Minute	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
A2A-Agent-Get-Anfragen wie `getTask` und `getCard` pro Minute	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Gleichzeitige bidirektionale Live-Verbindungen über die `BidiStreamQuery` API pro Minute	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Kontingentverwaltung für Produktionslasten

Wenn Ihr Traffic steigt, müssen Sie wahrscheinlich Erhöhungen für bestimmte Agent Platform API-Kontingente anfordern, um 429 Resource Exhausted-Fehler zu vermeiden. Sie können die Laufzeit proaktiv konfigurieren und Ihre Kontingente erhöhen, damit Ihre Agent Runtime-Instanz unter Produktionslast reaktionsschnell, skalierbar und zuverlässig bleibt.

Informationen zum Optimieren und Skalieren der Leistung von Agent Runtime finden Sie unter Leistung von Agent Runtime optimieren und skalieren.

So schätzen Sie Ihren Spitzenbedarf an Kontingent:

Variablen definieren:
- U: Maximale Anzahl gleichzeitiger Nutzer (z. B. 250).
- X: Durchschnittliche Anfragen pro Nutzer und Minute (z. B. 2).
- Y: Durchschnittliche Anzahl der Sitzungsereignisse, die pro Anfrage generiert werden (z. B. 12 für eine komplexe Kette mit mehreren Tool-Aufrufen).
So berechnen Sie die Spitzenlast:
- Berechnen Sie den Spitzenwert der Abfragen pro Minute (QPM): U × X
- Berechnen Sie die Anzahl der Ereignisse in der Spitzensitzung pro Minute: Spitzen-QPM * Y
Kontingent mit Puffer anfordern: Wenn Sie eine Kontingenterhöhung anfordern, fügen Sie Ihrem berechneten Höchstwert einen Puffer hinzu (z. B. 50%), um unerwartete Spitzen abzufangen.

In der folgenden Tabelle sind Berechnungen für wichtige leistungsbezogene Kontingente für die Agent Platform aufgeführt. Dabei werden die Beispielvariablen peak concurrent users=250, average requests per user per minute=2 und average session events generated per request=12 verwendet:

Kontingentname Kontingentbeschreibung Basisberechnung (Spitze) Empfohlener Wert (mit 50% Puffer)

Abfrage der Agent Engine pro Minute (aiplatform.googleapis.com/reasoning_engine_service_query_requests) Die Gesamtzahl der query- oder stream_query-Aufrufe, die Ihr Agent pro Minute empfangen kann. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750

Kontingentname	Kontingentbeschreibung	Basisberechnung (Spitze)	Empfohlener Wert (mit 50% Puffer)
Abfrage der Agent Engine pro Minute (`aiplatform.googleapis.com/reasoning_engine_service_query_requests`)	Die Gesamtzahl der `query`- oder `stream_query`-Aufrufe, die Ihr Agent pro Minute empfangen kann.	`250 users * 2 req/min = 500 QPM`	`500 * 1.5 =` `750`
Sitzungsereignisse pro Minute anhängen (`aiplatform.googleapis.com/session_event_append_requests`)	Die Anzahl der Züge oder Ereignisse in allen laufenden Sitzungen. Eine einzelne Anfrage kann mehrere Sitzungsereignisse in einer Kette generieren, z. B.: LLM aufrufen. LLM-Antwort: Tool verwenden. Tool ausführen LLM mit Tool-Antwort aufrufen. Das LLM gibt die endgültige Antwort.	`500 QPM * 12 events/req = 6,000`	`6,000 * 1.5 =` `9,000`
Sitzungsschreibvorgänge pro Minute (`aiplatform.googleapis.com/session_write_requests`)	Die Rate, mit der Sitzungsressourcen erstellt oder aktualisiert werden. Dieser Wert ist in der Regel kleiner oder gleich der Abfragerate.	Normalerweise <= Spitzen-QPM (`500`)	In der Regel <= Anfragekontingent (`750`)

Sitzungsereignisse pro Minute anhängen (aiplatform.googleapis.com/session_event_append_requests)

Die Anzahl der Züge oder Ereignisse in allen laufenden Sitzungen. Eine einzelne Anfrage kann mehrere Sitzungsereignisse in einer Kette generieren, z. B.:

LLM aufrufen.
LLM-Antwort: Tool verwenden.
Tool ausführen
LLM mit Tool-Antwort aufrufen.
Das LLM gibt die endgültige Antwort.

500 QPM * 12 events/req = 6,000

6,000 * 1.5 = 9,000

Sitzungsschreibvorgänge pro Minute (aiplatform.googleapis.com/session_write_requests) Die Rate, mit der Sitzungsressourcen erstellt oder aktualisiert werden. Dieser Wert ist in der Regel kleiner oder gleich der Abfragerate. Normalerweise <= Spitzen-QPM (500) In der Regel <= Anfragekontingent (750)

Kontingentanpassung anfordern

Die meisten Kontingente können Sie in der Google Cloud Console anpassen. Weitere Informationen finden Sie unter Kontingentanpassung anfordern.

Kontingente für den Agent Platform Express-Modus

Nutzer des Expressmodus der Agent Platform Kostenlose Stufe haben die folgenden Kontingente für Agent Platform-Dienste kostenlos. Weitere Informationen zur kostenlosen Stufe und zum Expressmodus finden Sie unter Agent Platform im Expressmodus – Übersicht.

Die folgenden Kontingente gelten für Agents, die auf der Agent Platform für ein bestimmtes Projekt im Express-Modus in jeder Region bereitgestellt werden:

Beschreibung	Kontingent	Messwert
Maximale Anzahl von Agent Platform-Ressourcen	10	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Agent Platform-Ressourcen pro Minute erstellen, löschen oder aktualisieren	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
`Query` oder `StreamQuery` Agent Platform pro Minute	10	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Gleichzeitige bidirektionale Live-Verbindungen über die `BidiStreamQuery` API pro Minute	1	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`
Agent Platform-Sitzungen pro Minute erstellen, löschen oder aktualisieren	10	`aiplatform.googleapis.com/session_write_requests`
Ereignis pro Minute an Agent Platform-Sitzungen anhängen	30	`aiplatform.googleapis.com/session_event_append_requests`
Agent Platform-Speicherressourcen pro Minute erstellen, löschen oder aktualisieren	10	`aiplatform.googleapis.com/memory_bank_write_requests`
Pro Minute auf Memory Bank zugreifen, sie auflisten oder daraus abrufen	10	`aiplatform.googleapis.com/memory_bank_read_requests`