Quotas et limites du système

Ce document répertorie les quotas et limites système qui s'appliquent à Vertex AI Agent Builder.

  • Les quotas ont des valeurs par défaut, mais vous pouvez généralement demander des ajustements.
  • Les limites système sont des valeurs fixes qui ne peuvent pas être modifiées.

Google Cloud utilise des quotas pour garantir l'équité et réduire les pics d'utilisation et de disponibilité des ressources. Un quota limite la quantité d'une ressourceGoogle Cloud que votre projet Google Cloud peut utiliser. Les quotas s'appliquent à différents types de ressources, y compris les composants matériels, logiciels et réseau. Par exemple, ils peuvent limiter le nombre d'appels d'API à un service, le nombre d'équilibreurs de charge utilisés simultanément par votre projet ou le nombre de projets que vous pouvez créer. Ils protègent la communauté des utilisateurs deGoogle Cloud en empêchant la surcharge des services. Les quotas vous aident également à gérer vos propres ressources Google Cloud .

Le système Cloud Quotas permet d'effectuer les opérations suivantes :

Dans la plupart des cas, lorsque vous tentez d'utiliser une ressource plus que son quota ne le permet, le système bloque l'accès à la ressource et la tâche que vous essayez d'effectuer échoue.

Les quotas s'appliquent généralement au niveau du projet Google Cloud . Votre utilisation d'une ressource dans un projet n'affecte pas votre quota disponible dans un autre projet. Dans un projet Google Cloud , les quotas sont partagés entre toutes les applications et adresses IP.

Pour en savoir plus, consultez la présentation des quotas Cloud.

Quotas de Vertex AI Agent Engine

Les quotas suivants s'appliquent à Vertex AI Agent Engine pour un projet donné dans chaque région :
Description Quota Métrique
Créer, supprimer ou mettre à jour des ressources Vertex AI Agent Engine par minute 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Créer, supprimer ou mettre à jour des sessions Vertex AI Agent Engine par minute 100 aiplatform.googleapis.com/session_write_requests
Query ou StreamQuery Vertex AI Agent Engine par minute 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Ajouter un événement aux sessions Vertex AI Agent Engine par minute 300 aiplatform.googleapis.com/session_event_append_requests
Nombre maximal de ressources Vertex AI Agent Engine 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Créer, supprimer ou mettre à jour des ressources de mémoire Vertex AI Agent Engine par minute 100 aiplatform.googleapis.com/memory_bank_write_requests
Obtenir, lister ou récupérer des données depuis Vertex AI Agent Engine Memory Bank par minute 300 aiplatform.googleapis.com/memory_bank_read_requests
Requêtes d'exécution par minute dans l'environnement de bac à sable (exécution de code) 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entités de l'environnement de bac à sable (exécution de code) par région 1000 aiplatform.googleapis.com/sandbox_environment_entities
Requêtes de publication d'agent A2A telles que sendMessage et cancelTask par minute 60 aiplatform.googleapis.com/a2a_agent_post_requests
Requêtes GET d'agent A2A telles que getTask et getCard par minute 600 aiplatform.googleapis.com/a2a_agent_get_requests
Connexions bidirectionnelles simultanées en direct à l'aide de l'API BidiStreamQuery par minute 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Gestion des quotas pour les charges de travail de production

À mesure que votre trafic augmente, vous devrez probablement demander des augmentations pour des quotas d'API Vertex AI spécifiques afin d'éviter les erreurs 429 Resource Exhausted. Vous pouvez configurer votre environnement d'exécution et augmenter vos quotas de manière proactive pour que votre environnement d'exécution Vertex AI Agent Engine reste réactif, évolutif et fiable sous charge de production.

Pour savoir comment optimiser et faire évoluer les performances de Vertex AI Agent Engine, consultez Optimiser et faire évoluer les performances du runtime de Vertex AI Agent Engine.

Pour estimer vos besoins en quota maximal, procédez comme suit :

  1. Définissez vos variables :

    • U : nombre maximal d'utilisateurs simultanés (par exemple, 250).

    • X : nombre moyen de requêtes par utilisateur et par minute (par exemple, 2).

    • Y : nombre moyen d'événements de session générés par requête (par exemple, 12 pour une chaîne complexe impliquant plusieurs appels d'outils).

  2. Calculez votre charge maximale :

    • Calculez votre nombre maximal de requêtes par minute (RPM) : U * X

    • Calculez le nombre maximal d'événements de session par minute : QPM maximal * Y

  3. Demandez un quota avec une marge : lorsque vous demandez une augmentation de quota, ajoutez une marge (par exemple, 50 %) en plus de votre pic calculé pour gérer les pics inattendus.

Le tableau suivant présente les calculs des principaux quotas liés aux performances pour Vertex AI Agent Engine, en utilisant les variables d'exemple peak concurrent users=250, average requests per user per minute=2 et average session events generated per request=12 :

Nom du quota Description du quota Calcul de base (pic) Valeur recommandée (avec une marge de 50 %)
Nombre de requêtes Agent Engine par minute (aiplatform.googleapis.com/reasoning_engine_service_query_requests) Nombre total d'appels query ou stream_query que votre agent peut recevoir par minute. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750
Ajouter les événements de session par minute (aiplatform.googleapis.com/session_event_append_requests)

Nombre de tours ou d'événements dans toutes les sessions en cours. Une seule requête peut générer plusieurs événements de session dans une chaîne, par exemple :

  1. Appelez le LLM.
  2. Réponse du LLM : utiliser l'outil.
  3. Exécutez l'outil.
  4. Appelez le LLM avec la réponse de l'outil.
  5. Le LLM fournit la réponse finale.
500 QPM * 12 events/req = 6,000 6,000 * 1.5 = 9,000
Écritures de session par minute (aiplatform.googleapis.com/session_write_requests) Fréquence de création ou de mise à jour des ressources de session. Elle est généralement inférieure ou égale au taux de requêtes. Généralement <= QPM maximal (500) Généralement inférieur ou égal au quota de requêtes (750)

Demander un ajustement de quota

Pour ajuster la plupart des quotas, utilisez la console Google Cloud . Pour en savoir plus, consultez Demander un ajustement de quota.

Quotas du mode Express de Vertex AI Agent Engine

Les utilisateurs du mode Express du niveau gratuit Vertex AI disposent des quotas suivants pour les services Vertex AI Agent Engine, sans frais. Pour en savoir plus sur le niveau gratuit et le mode Express, consultez la présentation de Vertex AI en mode Express. Les quotas suivants s'appliquent à Vertex AI Agent Engine pour un projet en mode express donné dans chaque région :
Description Quota Métrique
Nombre maximal de ressources Vertex AI Agent Engine 10 aiplatform.googleapis.com/reasoning_engine_service_entities
Créer, supprimer ou mettre à jour des ressources Vertex AI Agent Engine par minute 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Query ou StreamQuery Vertex AI Agent Engine par minute 10 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Connexions bidirectionnelles simultanées en direct à l'aide de l'API BidiStreamQuery par minute 1 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
Créer, supprimer ou mettre à jour des sessions Vertex AI Agent Engine par minute 10 aiplatform.googleapis.com/session_write_requests
Ajouter un événement aux sessions Vertex AI Agent Engine par minute 30 aiplatform.googleapis.com/session_event_append_requests
Créer, supprimer ou mettre à jour des ressources de mémoire Vertex AI Agent Engine par minute 10 aiplatform.googleapis.com/memory_bank_write_requests
Obtenir, lister ou récupérer des données depuis Vertex AI Agent Engine Memory Bank par minute 10 aiplatform.googleapis.com/memory_bank_read_requests