Kontingente und Systemlimits

In diesem Dokument sind die Kontingente und Systemlimits für Vertex AI Agent Builder aufgeführt.

  • Kontingente haben Standardwerte, aber Sie können in der Regel Anpassungen anfordern.
  • Systemlimits sind feste Werte, die nicht geändert werden können.

Google Cloud nutzt Kontingente, um für Fairness zu sorgen und Spitzen bei der Ressourcennutzung und ‑verfügbarkeit zu reduzieren. Ein Kontingent schränkt ein, wie viel von einerGoogle Cloud Ressource Ihr Google Cloud Projekt nutzen kann. Kontingente gelten für eine Reihe von Ressourcentypen, einschließlich Hardware, Software und Netzwerkkomponenten. Mit Kontingenten können Sie beispielsweise die Anzahl der API-Aufrufe an einen Dienst, die Anzahl der von Ihrem Projekt nebenläufig verwendeten Load Balancer oder die Anzahl der Projekte begrenzen, die Sie erstellen können. Kontingente sollen eine Überlastung von Diensten verhindern und dadurch die Community derGoogle Cloud Nutzer schützen. Sie helfen Ihnen auch bei der Verwaltung Ihrer eigenen Google Cloud Ressourcen.

Das Cloud-Kontingentsystem tut Folgendes:

Wenn Sie versuchen, mehr von einer Ressource zu verbrauchen, als das Kontingent zulässt, blockiert das System in den meisten Fällen den Zugriff auf die Ressource. Die Aufgabe, die Sie auszuführen versuchen, schlägt dann fehl.

Kontingente gelten in der Regel auf Google Cloud Projektebene. Die Nutzung einer Ressource in einem Projekt hat keinen Einfluss auf das verfügbare Kontingent in einem anderen Projekt. Innerhalb eines Google Cloud Projekts werden die Kontingente für alle Anwendungen und IP-Adressen gemeinsam genutzt.

Weitere Informationen finden Sie unter Cloud-Kontingente – Übersicht.

Kontingente für Vertex AI Agent Engine

Für Vertex AI Agent Engine gelten die folgenden Kontingente für ein bestimmtes Projekt in den einzelnen Regionen:
Beschreibung Kontingent Messwert
Vertex AI Agent Engine-Ressourcen pro Minute erstellen, löschen oder aktualisieren 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Vertex AI Agent Engine-Sitzungen pro Minute erstellen, löschen oder aktualisieren 100 aiplatform.googleapis.com/session_write_requests
Query oder StreamQuery Vertex AI Agent Engine pro Minute 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Ereignis an Vertex AI Agent Engine-Sitzungen pro Minute anhängen 300 aiplatform.googleapis.com/session_event_append_requests
Maximale Anzahl von Vertex AI Agent Engine-Ressourcen 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Vertex AI Agent Engine-Speicherressourcen pro Minute erstellen, löschen oder aktualisieren 100 aiplatform.googleapis.com/memory_bank_write_requests
Abrufen, Auflisten oder Abrufen aus der Vertex AI Agent Engine Memory Bank pro Minute 300 aiplatform.googleapis.com/memory_bank_read_requests
Sandbox-Umgebung (Codeausführung): „execute“-Anfragen pro Minute 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Sandbox-Umgebung (Codeausführung) – Einheiten pro Region 1000 aiplatform.googleapis.com/sandbox_environment_entities
A2A-Agent-Post-Anfragen wie sendMessage und cancelTask pro Minute 60 aiplatform.googleapis.com/a2a_agent_post_requests
A2A-Agent-Get-Anfragen wie getTask und getCard pro Minute 600 aiplatform.googleapis.com/a2a_agent_get_requests
Gleichzeitige bidirektionale Live-Verbindungen über die BidiStreamQuery API pro Minute 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Kontingentverwaltung für Produktionslasten

Wenn Ihr Traffic skaliert wird, müssen Sie wahrscheinlich Erhöhungen für bestimmte Vertex AI API-Kontingente anfordern, um 429 Resource Exhausted-Fehler zu vermeiden. Sie können Ihre Laufzeit proaktiv konfigurieren und Ihre Kontingente erhöhen, damit die Vertex AI Agent Engine-Laufzeit unter Produktionslast reaktionsschnell, skalierbar und zuverlässig bleibt.

Informationen zum Optimieren und Skalieren der Leistung von Vertex AI Agent Engine finden Sie unter Laufzeitleistung von Vertex AI Agent Engine optimieren und skalieren.

So schätzen Sie Ihren Spitzenbedarf an Kontingent:

  1. Variablen definieren:

    • U: Maximale Anzahl gleichzeitiger Nutzer (z. B. 250).

    • X: Durchschnittliche Anfragen pro Nutzer und Minute (z. B. 2).

    • Y: Durchschnittliche Anzahl der Sitzungsereignisse, die pro Anfrage generiert werden (z. B. 12 für eine komplexe Kette mit mehreren Tool-Aufrufen).

  2. So berechnen Sie die Spitzenlast:

    • Berechnen Sie den Spitzenwert der Abfragen pro Minute (QPM): U × X

    • Berechnen Sie die maximale Anzahl von Ereignissen pro Minute in der Sitzung: Spitzen-QPM * Y

  3. Kontingent mit Puffer anfordern: Wenn Sie eine Kontingenterhöhung anfordern, fügen Sie Ihrem berechneten Höchstwert einen Puffer hinzu (z. B. 50%), um unerwartete Spitzen zu bewältigen.

In der folgenden Tabelle sind Berechnungen für wichtige leistungsbezogene Kontingente für Vertex AI Agent Engine aufgeführt. Dabei werden die Beispielvariablen peak concurrent users=250, average requests per user per minute=2 und average session events generated per request=12 verwendet:

Kontingentname Kontingentbeschreibung Basisberechnung (Spitze) Empfohlener Wert (mit 50% Puffer)
Abfrage der Agent Engine pro Minute (aiplatform.googleapis.com/reasoning_engine_service_query_requests) Die Gesamtzahl der query- oder stream_query-Aufrufe, die Ihr Agent pro Minute empfangen kann. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750
Sitzungsereignisse pro Minute anhängen (aiplatform.googleapis.com/session_event_append_requests)

Die Anzahl der Züge oder Ereignisse in allen laufenden Sitzungen. Eine einzelne Anfrage kann mehrere Sitzungsereignisse in einer Kette generieren, z. B.:

  1. LLM aufrufen.
  2. LLM-Antwort: Tool verwenden.
  3. Tool ausführen
  4. LLM mit Tool-Antwort aufrufen.
  5. Das LLM gibt die endgültige Antwort.
500 QPM * 12 events/req = 6,000 6,000 * 1.5 = 9,000
Schreibvorgänge pro Minute in der Sitzung (aiplatform.googleapis.com/session_write_requests) Die Rate, mit der Sitzungsressourcen erstellt oder aktualisiert werden. Dieser Wert ist in der Regel kleiner oder gleich der Abfragerate. In der Regel <= Spitzenwert für QPM (500) In der Regel <= Anfragekontingent (750)

Kontingentanpassung anfordern

Die meisten Kontingente können Sie in der Google Cloud Console anpassen. Weitere Informationen finden Sie unter Kontingentanpassung anfordern.

Kontingente für den Express-Modus von Vertex AI Agent Engine

Nutzer des Expressmodus im kostenlosen Kontingent von Vertex AI haben die folgenden Kontingente für Vertex AI Agent Engine-Dienste ohne Kosten. Weitere Informationen zum kostenlosen Kontingent und zum Express-Modus finden Sie in der Übersicht zu Vertex AI im Express-Modus. Für Vertex AI Agent Engine gelten die folgenden Kontingente für ein bestimmtes Projekt im Express-Modus in jeder Region:
Beschreibung Kontingent Messwert
Maximale Anzahl von Vertex AI Agent Engine-Ressourcen 10 aiplatform.googleapis.com/reasoning_engine_service_entities
Vertex AI Agent Engine-Ressourcen pro Minute erstellen, löschen oder aktualisieren 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Query oder StreamQuery Vertex AI Agent Engine pro Minute 10 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Gleichzeitige bidirektionale Live-Verbindungen über die BidiStreamQuery API pro Minute 1 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
Vertex AI Agent Engine-Sitzungen pro Minute erstellen, löschen oder aktualisieren 10 aiplatform.googleapis.com/session_write_requests
Ereignis an Vertex AI Agent Engine-Sitzungen pro Minute anhängen 30 aiplatform.googleapis.com/session_event_append_requests
Vertex AI Agent Engine-Speicherressourcen pro Minute erstellen, löschen oder aktualisieren 10 aiplatform.googleapis.com/memory_bank_write_requests
Abrufen, Auflisten oder Abrufen aus der Vertex AI Agent Engine Memory Bank pro Minute 10 aiplatform.googleapis.com/memory_bank_read_requests