Quotas et limites du système

Ce document répertorie les quotas et limites système qui s'appliquent à Vertex AI Agent Builder.

Les quotas ont des valeurs par défaut, mais vous pouvez généralement demander des ajustements.
Les limites système sont des valeurs fixes qui ne peuvent pas être modifiées.

Google Cloud utilise des quotas pour garantir l'équité et réduire les pics d'utilisation et de disponibilité des ressources. Un quota limite la quantité d'une ressourceGoogle Cloud que votre projet Google Cloud peut utiliser. Les quotas s'appliquent à différents types de ressources, y compris les composants matériels, logiciels et réseau. Par exemple, ils peuvent limiter le nombre d'appels d'API à un service, le nombre d'équilibreurs de charge utilisés simultanément par votre projet ou le nombre de projets que vous pouvez créer. Ils protègent la communauté des utilisateurs deGoogle Cloud en empêchant la surcharge des services. Les quotas vous aident également à gérer vos propres ressources Google Cloud .

Le système Cloud Quotas permet d'effectuer les opérations suivantes :

Surveiller votre consommation de produits et services Google Cloud
Limiter votre consommation de ces ressources
Demander des modifications de la valeur du quota et automatiser les ajustements de quota

Dans la plupart des cas, lorsque vous tentez d'utiliser une ressource plus que son quota ne le permet, le système bloque l'accès à la ressource et la tâche que vous essayez d'effectuer échoue.

Les quotas s'appliquent généralement au niveau du projet Google Cloud . Votre utilisation d'une ressource dans un projet n'affecte pas votre quota disponible dans un autre projet. Dans un projet Google Cloud , les quotas sont partagés entre toutes les applications et adresses IP.

Pour en savoir plus, consultez la présentation des quotas Cloud.

Quotas de Vertex AI Agent Engine

Les quotas suivants s'appliquent à Vertex AI Agent Engine pour un projet donné dans chaque région :

Description	Quota	Métrique
Créer, supprimer ou mettre à jour des ressources Vertex AI Agent Engine par minute	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Créer, supprimer ou mettre à jour des sessions Vertex AI Agent Engine par minute	100	`aiplatform.googleapis.com/session_write_requests`
`Query` ou `StreamQuery` Vertex AI Agent Engine par minute	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Ajouter un événement aux sessions Vertex AI Agent Engine par minute	300	`aiplatform.googleapis.com/session_event_append_requests`
Nombre maximal de ressources Vertex AI Agent Engine	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Créer, supprimer ou mettre à jour des ressources de mémoire Vertex AI Agent Engine par minute	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Obtenir, lister ou récupérer des données depuis Vertex AI Agent Engine Memory Bank par minute	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Requêtes d'exécution par minute dans l'environnement de bac à sable (exécution de code)	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entités de l'environnement de bac à sable (exécution de code) par région	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Requêtes de publication d'agent A2A telles que `sendMessage` et `cancelTask` par minute	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
Requêtes GET d'agent A2A telles que `getTask` et `getCard` par minute	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Connexions bidirectionnelles simultanées en direct à l'aide de l'API `BidiStreamQuery` par minute	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Gestion des quotas pour les charges de travail de production

À mesure que votre trafic augmente, vous devrez probablement demander des augmentations pour des quotas d'API Vertex AI spécifiques afin d'éviter les erreurs 429 Resource Exhausted. Vous pouvez configurer votre environnement d'exécution et augmenter vos quotas de manière proactive pour que votre environnement d'exécution Vertex AI Agent Engine reste réactif, évolutif et fiable sous charge de production.

Pour savoir comment optimiser et faire évoluer les performances de Vertex AI Agent Engine, consultez Optimiser et faire évoluer les performances du runtime de Vertex AI Agent Engine.

Pour estimer vos besoins en quota maximal, procédez comme suit :

Définissez vos variables :
- U : nombre maximal d'utilisateurs simultanés (par exemple, 250).
- X : nombre moyen de requêtes par utilisateur et par minute (par exemple, 2).
- Y : nombre moyen d'événements de session générés par requête (par exemple, 12 pour une chaîne complexe impliquant plusieurs appels d'outils).
Calculez votre charge maximale :
- Calculez votre nombre maximal de requêtes par minute (RPM) : U * X
- Calculez le nombre maximal d'événements de session par minute : QPM maximal * Y
Demandez un quota avec une marge : lorsque vous demandez une augmentation de quota, ajoutez une marge (par exemple, 50 %) en plus de votre pic calculé pour gérer les pics inattendus.

Le tableau suivant présente les calculs des principaux quotas liés aux performances pour Vertex AI Agent Engine, en utilisant les variables d'exemple peak concurrent users=250, average requests per user per minute=2 et average session events generated per request=12 :

Nom du quota Description du quota Calcul de base (pic) Valeur recommandée (avec une marge de 50 %)

Nombre de requêtes Agent Engine par minute (aiplatform.googleapis.com/reasoning_engine_service_query_requests) Nombre total d'appels query ou stream_query que votre agent peut recevoir par minute. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750

Nom du quota	Description du quota	Calcul de base (pic)	Valeur recommandée (avec une marge de 50 %)
Nombre de requêtes Agent Engine par minute (`aiplatform.googleapis.com/reasoning_engine_service_query_requests`)	Nombre total d'appels `query` ou `stream_query` que votre agent peut recevoir par minute.	`250 users * 2 req/min = 500 QPM`	`500 * 1.5 =` `750`
Ajouter les événements de session par minute (`aiplatform.googleapis.com/session_event_append_requests`)	Nombre de tours ou d'événements dans toutes les sessions en cours. Une seule requête peut générer plusieurs événements de session dans une chaîne, par exemple : Appelez le LLM. Réponse du LLM : utiliser l'outil. Exécutez l'outil. Appelez le LLM avec la réponse de l'outil. Le LLM fournit la réponse finale.	`500 QPM * 12 events/req = 6,000`	`6,000 * 1.5 =` `9,000`
Écritures de session par minute (`aiplatform.googleapis.com/session_write_requests`)	Fréquence de création ou de mise à jour des ressources de session. Elle est généralement inférieure ou égale au taux de requêtes.	Généralement <= QPM maximal (`500`)	Généralement inférieur ou égal au quota de requêtes (`750`)

Ajouter les événements de session par minute (aiplatform.googleapis.com/session_event_append_requests)

Nombre de tours ou d'événements dans toutes les sessions en cours. Une seule requête peut générer plusieurs événements de session dans une chaîne, par exemple :

Appelez le LLM.
Réponse du LLM : utiliser l'outil.
Exécutez l'outil.
Appelez le LLM avec la réponse de l'outil.
Le LLM fournit la réponse finale.

500 QPM * 12 events/req = 6,000

6,000 * 1.5 = 9,000

Écritures de session par minute (aiplatform.googleapis.com/session_write_requests) Fréquence de création ou de mise à jour des ressources de session. Elle est généralement inférieure ou égale au taux de requêtes. Généralement <= QPM maximal (500) Généralement inférieur ou égal au quota de requêtes (750)

Demander un ajustement de quota

Pour ajuster la plupart des quotas, utilisez la console Google Cloud . Pour en savoir plus, consultez Demander un ajustement de quota.

Quotas du mode Express de Vertex AI Agent Engine

Les utilisateurs du mode Express du niveau gratuit Vertex AI disposent des quotas suivants pour les services Vertex AI Agent Engine, sans frais. Pour en savoir plus sur le niveau gratuit et le mode Express, consultez la présentation de Vertex AI en mode Express. Les quotas suivants s'appliquent à Vertex AI Agent Engine pour un projet en mode express donné dans chaque région :

Description	Quota	Métrique
Nombre maximal de ressources Vertex AI Agent Engine	10	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Créer, supprimer ou mettre à jour des ressources Vertex AI Agent Engine par minute	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
`Query` ou `StreamQuery` Vertex AI Agent Engine par minute	10	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Connexions bidirectionnelles simultanées en direct à l'aide de l'API `BidiStreamQuery` par minute	1	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`
Créer, supprimer ou mettre à jour des sessions Vertex AI Agent Engine par minute	10	`aiplatform.googleapis.com/session_write_requests`
Ajouter un événement aux sessions Vertex AI Agent Engine par minute	30	`aiplatform.googleapis.com/session_event_append_requests`
Créer, supprimer ou mettre à jour des ressources de mémoire Vertex AI Agent Engine par minute	10	`aiplatform.googleapis.com/memory_bank_write_requests`
Obtenir, lister ou récupérer des données depuis Vertex AI Agent Engine Memory Bank par minute	10	`aiplatform.googleapis.com/memory_bank_read_requests`