Ce document répertorie les quotas et limites système qui s'appliquent à Vertex AI Agent Builder.
- Les quotas ont des valeurs par défaut, mais vous pouvez généralement demander des ajustements.
- Les limites système sont des valeurs fixes qui ne peuvent pas être modifiées.
Google Cloud utilise des quotas pour garantir l'équité et réduire les pics d'utilisation et de disponibilité des ressources. Un quota limite la quantité d'une ressourceGoogle Cloud que votre projet Google Cloud peut utiliser. Les quotas s'appliquent à différents types de ressources, y compris les composants matériels, logiciels et réseau. Par exemple, ils peuvent limiter le nombre d'appels d'API à un service, le nombre d'équilibreurs de charge utilisés simultanément par votre projet ou le nombre de projets que vous pouvez créer. Ils protègent la communauté des utilisateurs deGoogle Cloud en empêchant la surcharge des services. Les quotas vous aident également à gérer vos propres ressources Google Cloud .
Le système Cloud Quotas permet d'effectuer les opérations suivantes :
- Surveiller votre consommation de produits et services Google Cloud
- Limiter votre consommation de ces ressources
- Demander des modifications de la valeur du quota et automatiser les ajustements de quota
Dans la plupart des cas, lorsque vous tentez d'utiliser une ressource plus que son quota ne le permet, le système bloque l'accès à la ressource et la tâche que vous essayez d'effectuer échoue.
Les quotas s'appliquent généralement au niveau du projet Google Cloud . Votre utilisation d'une ressource dans un projet n'affecte pas votre quota disponible dans un autre projet. Dans un projet Google Cloud , les quotas sont partagés entre toutes les applications et adresses IP.
Pour en savoir plus, consultez la présentation des quotas Cloud.
Quotas de Vertex AI Agent Engine
Les quotas suivants s'appliquent à Vertex AI Agent Engine pour un projet donné dans chaque région :| Description | Quota | Métrique |
|---|---|---|
| Créer, supprimer ou mettre à jour des ressources Vertex AI Agent Engine par minute | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Créer, supprimer ou mettre à jour des sessions Vertex AI Agent Engine par minute | 100 | aiplatform.googleapis.com/session_write_requests |
Query ou StreamQuery Vertex AI Agent Engine par minute |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Ajouter un événement aux sessions Vertex AI Agent Engine par minute | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Nombre maximal de ressources Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Créer, supprimer ou mettre à jour des ressources de mémoire Vertex AI Agent Engine par minute | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Obtenir, lister ou récupérer des données depuis Vertex AI Agent Engine Memory Bank par minute | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Requêtes d'exécution par minute dans l'environnement de bac à sable (exécution de code) | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entités de l'environnement de bac à sable (exécution de code) par région | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Requêtes de publication d'agent A2A telles que sendMessage et cancelTask par minute |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Requêtes GET d'agent A2A telles que getTask et getCard par minute |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Connexions bidirectionnelles simultanées en direct à l'aide de l'API BidiStreamQuery par minute |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Gestion des quotas pour les charges de travail de production
À mesure que votre trafic augmente, vous devrez probablement demander des augmentations pour des quotas d'API Vertex AI spécifiques afin d'éviter les erreurs 429 Resource Exhausted. Vous pouvez configurer votre environnement d'exécution et augmenter vos quotas de manière proactive pour que votre environnement d'exécution Vertex AI Agent Engine reste réactif, évolutif et fiable sous charge de production.
Pour savoir comment optimiser et faire évoluer les performances de Vertex AI Agent Engine, consultez Optimiser et faire évoluer les performances du runtime de Vertex AI Agent Engine.
Pour estimer vos besoins en quota maximal, procédez comme suit :
Définissez vos variables :
U: nombre maximal d'utilisateurs simultanés (par exemple, 250).X: nombre moyen de requêtes par utilisateur et par minute (par exemple, 2).Y: nombre moyen d'événements de session générés par requête (par exemple, 12 pour une chaîne complexe impliquant plusieurs appels d'outils).
Calculez votre charge maximale :
Calculez votre nombre maximal de requêtes par minute (RPM) : U * X
Calculez le nombre maximal d'événements de session par minute : QPM maximal * Y
Demandez un quota avec une marge : lorsque vous demandez une augmentation de quota, ajoutez une marge (par exemple, 50 %) en plus de votre pic calculé pour gérer les pics inattendus.
Le tableau suivant présente les calculs des principaux quotas liés aux performances pour Vertex AI Agent Engine, en utilisant les variables d'exemple peak concurrent users=250, average requests per user per minute=2 et average session events generated
per request=12 :
| Nom du quota | Description du quota | Calcul de base (pic) | Valeur recommandée (avec une marge de 50 %) |
|---|---|---|---|
Nombre de requêtes Agent Engine par minute (aiplatform.googleapis.com/reasoning_engine_service_query_requests) |
Nombre total d'appels query ou stream_query que votre agent peut recevoir par minute. |
250 users * 2 req/min = 500 QPM |
500 * 1.5 = 750 |
Ajouter les événements de session par minute (aiplatform.googleapis.com/session_event_append_requests) |
Nombre de tours ou d'événements dans toutes les sessions en cours. Une seule requête peut générer plusieurs événements de session dans une chaîne, par exemple :
|
500 QPM * 12 events/req = 6,000 |
6,000 * 1.5 = 9,000 |
Écritures de session par minute (aiplatform.googleapis.com/session_write_requests) |
Fréquence de création ou de mise à jour des ressources de session. Elle est généralement inférieure ou égale au taux de requêtes. | Généralement <= QPM maximal (500) |
Généralement inférieur ou égal au quota de requêtes (750) |
Demander un ajustement de quota
Pour ajuster la plupart des quotas, utilisez la console Google Cloud . Pour en savoir plus, consultez Demander un ajustement de quota.
Quotas du mode Express de Vertex AI Agent Engine
Les utilisateurs du mode Express du niveau gratuit Vertex AI disposent des quotas suivants pour les services Vertex AI Agent Engine, sans frais. Pour en savoir plus sur le niveau gratuit et le mode Express, consultez la présentation de Vertex AI en mode Express. Les quotas suivants s'appliquent à Vertex AI Agent Engine pour un projet en mode express donné dans chaque région :| Description | Quota | Métrique |
|---|---|---|
| Nombre maximal de ressources Vertex AI Agent Engine | 10 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Créer, supprimer ou mettre à jour des ressources Vertex AI Agent Engine par minute | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
Query ou StreamQuery Vertex AI Agent Engine par minute |
10 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
Connexions bidirectionnelles simultanées en direct à l'aide de l'API BidiStreamQuery par minute |
1 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
| Créer, supprimer ou mettre à jour des sessions Vertex AI Agent Engine par minute | 10 | aiplatform.googleapis.com/session_write_requests |
| Ajouter un événement aux sessions Vertex AI Agent Engine par minute | 30 | aiplatform.googleapis.com/session_event_append_requests |
| Créer, supprimer ou mettre à jour des ressources de mémoire Vertex AI Agent Engine par minute | 10 | aiplatform.googleapis.com/memory_bank_write_requests |
| Obtenir, lister ou récupérer des données depuis Vertex AI Agent Engine Memory Bank par minute | 10 | aiplatform.googleapis.com/memory_bank_read_requests |