Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Quotas et limites système de l'IA générative sur Gemini Enterprise Agent Platform

Cette page fournit une liste des quotas par région et par modèle, et vous explique comment afficher et modifier vos quotas dans la console Google Cloud .

Quotas de modèles réglés

L'inférence du modèle réglé partage le même quota que le modèle de base. Il n'existe pas de quota distinct pour l'inférence de modèles ajustés.

Limites d'intégration

Les requêtes pour gemini-embedding-001 sont soumises à des quotas régionaux, tandis que les requêtes pour gemini-embedding-2 sont soumises à des quotas mondiaux.

Modèle de base	Quota	Métrique
base_model: gemini-embedding	5 000 000	`aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	10 000 000	`aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	40 000	`aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model`

Les requêtes pour gemini-embedding-001 à l'aide de l'API predict sont également soumises aux quotas suivants :

Modèle de base	Quota	Métrique
base_model: gemini-embedding	100 000	`aiplatform.googleapis.com/online_prediction_requests_per_base_model`
base_model : N/A	30 000	`aiplatform.googleapis.com/online_prediction_requests`

Quotas de Vertex AI Agent Engine

Les quotas suivants s'appliquent à Vertex AI Agent Engine pour un projet donné dans chaque région :

Description	Quota	Métrique
Créer, supprimer ou mettre à jour des ressources Vertex AI Agent Engine par minute	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Créer, supprimer ou mettre à jour des sessions Vertex AI Agent Engine par minute	100	`aiplatform.googleapis.com/session_write_requests`
Obtenir, lister ou récupérer les sessions Vertex AI Agent Engine par minute	10000	`aiplatform.googleapis.com/session_read_requests`
`Query` ou `StreamQuery` Vertex AI Agent Engine par minute	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Ajouter un événement aux sessions Vertex AI Agent Engine par minute	300	`aiplatform.googleapis.com/session_event_append_requests`
Nombre maximal de ressources Vertex AI Agent Engine	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Créer, supprimer ou mettre à jour des ressources de mémoire Vertex AI Agent Engine par minute	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Obtenir, lister ou récupérer des données depuis Vertex AI Agent Engine Memory Bank par minute	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Requêtes d'exécution par minute dans l'environnement de bac à sable (exécution de code)	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entités d'environnement de bac à sable (exécution de code) par région	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Requêtes d'écriture par minute dans l'environnement de bac à sable (exécution de code)	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
Requêtes de publication d'agent A2A telles que `sendMessage` et `cancelTask` par minute	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
Requêtes GET de l'agent A2A telles que `getTask` et `getCard` par minute	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Connexions bidirectionnelles simultanées en direct à l'aide de l'API `BidiStreamQuery` par minute	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Prédiction par lot

Les quotas et les limites des jobs d'inférence par lot sont les mêmes dans toutes les régions.

Limites de jobs d'inférence par lot simultanés pour les modèles Gemini

Il n'existe aucune limite de quota prédéfinie pour l'inférence par lot pour les modèles Gemini. Au lieu de cela, le service de traitement par lot donne accès à un grand pool de ressources partagées, allouées de manière dynamique en fonction de la disponibilité en temps réel du modèle et de la demande pour ce modèle auprès de tous les clients. Lorsque davantage de clients sont actifs et que la capacité du modèle est saturée, vos requêtes par lot peuvent être mises en file d'attente en raison de la capacité.

Quotas de tâches d'inférence par lot simultanées pour les modèles autres que Gemini

Le tableau suivant répertorie les quotas pour le nombre de jobs d'inférence par lot simultanés, qui ne s'appliquent pas aux modèles Gemini :

Quota	Valeur
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

Si le nombre de tâches envoyées dépasse le quota alloué, elles sont placées dans une file d'attente et traitées lorsque la capacité de quota devient disponible.

Afficher et modifier les quotas dans la console Google Cloud

Pour afficher et modifier les quotas dans la console Google Cloud , procédez comme suit :

Accédez à la page Quotas et limites du système.

Accéder à la page "Quotas et limites du système"

Pour ajuster le quota, copiez et collez la propriété aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs dans le Filtre. Appuyez sur Entrée.
Cliquez sur les trois points à la fin de la ligne, puis sélectionnez Modifier le quota.
Saisissez une nouvelle valeur de quota dans le volet, puis cliquez sur Envoyer la demande.

Moteur RAG sur Gemini Enterprise Agent Platform

Pour que chaque service effectue une génération augmentée par récupération (RAG) à l'aide du moteur RAG, les quotas suivants s'appliquent. Ils sont mesurés en requêtes par minute (RPM).

Service	Quota	Métrique
API de gestion des données du moteur RAG	60 tr/min	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	600 tr/min	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1 500 RPM	`Online prediction requests per base model per minute per region per base_model` Un autre filtre que vous pouvez spécifier est `base_model: textembedding-gecko`

Les limites suivantes s'appliquent :

Service	Limite	Métrique
Requêtes `ImportRagFiles` simultanées	3 RPM	`VertexRagService concurrent import requests per region`
Nombre maximal de fichiers par requête `ImportRagFiles`	10 000	`VertexRagService import rag files requests per region`

Pour en savoir plus sur les limites de débit et les quotas, consultez Limites de débit de l'IA générative sur Gemini Enterprise Agent Platform.

Gen AI Evaluation Service

Le service d'évaluation de l'IA générative utilise Gemini 2.5 Flash comme modèle d'évaluation par défaut pour les métriques basées sur les modèles. Une seule requête d'évaluation pour une métrique basée sur un modèle peut entraîner plusieurs requêtes sous-jacentes adressées à Gen AI Evaluation Service. La consommation de chaque modèle est calculée au niveau de l'organisation. Cela signifie que toutes les requêtes dirigées vers le modèle d'évaluation pour l'inférence de modèle et l'évaluation basée sur les modèles contribuent à la consommation du modèle. Les quotas pour le service d'évaluation de l'IA générative et le modèle d'évaluation sous-jacent sont indiqués dans le tableau suivant :

Demander un quota	Quota par défaut
Requêtes de Gen AI Evaluation Service par minute	1 000 requêtes par projet et par région
Débit de Gemini	Dépend du modèle et de l'option de consommation
Exécutions d'évaluation simultanées	20 exécutions d'évaluation simultanées par projet et par région

Si vous recevez une erreur liée aux quotas lors de l'utilisation du service d'évaluation de l'IA générative, vous devrez peut-être envoyer une demande d'augmentation de quota. Pour en savoir plus, consultez Afficher et gérer les quotas.

Limite	Valeur
Délai de requête Gen AI Evaluation Service	60 secondes

Lorsque vous utilisez le service d'évaluation de l'IA générative pour la première fois dans un nouveau projet, vous pouvez rencontrer un délai de configuration initiale de deux minutes. Si votre première requête échoue, attendez quelques minutes, puis réessayez. Les requêtes d'évaluation ultérieures sont généralement traitées dans un délai de 60 secondes.

Le nombre maximal de jetons d'entrée et de sortie pour les métriques basées sur un modèle dépend du modèle utilisé en tant que modèle de jugement. Pour obtenir la liste des modèles, consultez Modèles Google.

Quotas des pipelines Gemini Enterprise Agent Platform

Chaque tâche de réglage utilise les pipelines Gemini Enterprise Agent Platform. Pour en savoir plus, consultez les quotas et limites des pipelines Agent Platform.

Étapes suivantes

Présentation

Quotas et limites système de l'IA générative sur Gemini Enterprise Agent Platform

Quotas de modèles réglés

Limites d'intégration

Quotas de Vertex AI Agent Engine

Prédiction par lot

Limites de jobs d'inférence par lot simultanés pour les modèles Gemini

Quotas de tâches d'inférence par lot simultanées pour les modèles autres que Gemini

Afficher et modifier les quotas dans la console Google Cloud

Moteur RAG sur Gemini Enterprise Agent Platform

Gen AI Evaluation Service

Quotas des pipelines Gemini Enterprise Agent Platform

Étapes suivantes

Standard PayGo

Quotas et limites du système Agent Platform

Quotas Google Cloud

Quotas et limites système de l'IA générative sur Gemini Enterprise Agent Platform Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Quotas de modèles réglés

Limites d'intégration

Quotas de Vertex AI Agent Engine

Prédiction par lot

Limites de jobs d'inférence par lot simultanés pour les modèles Gemini

Quotas de tâches d'inférence par lot simultanées pour les modèles autres que Gemini

Afficher et modifier les quotas dans la console Google Cloud

Moteur RAG sur Gemini Enterprise Agent Platform

Gen AI Evaluation Service

Quotas des pipelines Gemini Enterprise Agent Platform

Étapes suivantes

Standard PayGo

Quotas et limites du système Agent Platform

Quotas Google Cloud

Quotas et limites système de l'IA générative sur Gemini Enterprise Agent Platform