Cette page fournit une liste des quotas par région et par modèle, et vous explique comment afficher et modifier vos quotas dans la console Google Cloud .
Quotas de modèles réglés
L'inférence de modèle réglé partage le même quota que le modèle de base. Il n'existe pas de quota distinct pour l'inférence de modèles ajustés.
Limites d'embedding textuel
Chaque requête peut comporter jusqu'à 250 textes d'entrée (générant un embedding par texte d'entrée) et 20 000 jetons par requête. Seuls les 2 048 premiers jetons de chaque texte d'entrée sont utilisés pour calculer les embeddings. Pourgemini-embedding-001, le quota est indiqué sous le nom gemini-embedding.
Jetons d'entrée de contenu à intégrer par minute et par modèle de base
Contrairement aux modèles d'embedding précédents, qui étaient principalement limités par des quotas de requêtes par minute, le quota du modèle Gemini Embedding limite le nombre de jetons pouvant être envoyés par minute et par projet.
| Quota | Valeur |
|---|---|
| Nombre de jetons d'entrée de contenu à intégrer par minute | 5 000 000 |
Quotas de Vertex AI Agent Engine
Les quotas suivants s'appliquent à Vertex AI Agent Engine pour un projet donné dans chaque région :| Description | Quota | Métrique |
|---|---|---|
| Créer, supprimer ou mettre à jour des ressources Vertex AI Agent Engine par minute | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Créer, supprimer ou mettre à jour des sessions Vertex AI Agent Engine par minute | 100 | aiplatform.googleapis.com/session_write_requests |
Query ou StreamQuery Vertex AI Agent Engine par minute |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Ajouter un événement aux sessions Vertex AI Agent Engine par minute | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Nombre maximal de ressources Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Créer, supprimer ou mettre à jour des ressources de mémoire Vertex AI Agent Engine par minute | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Obtenir, lister ou récupérer des données depuis Vertex AI Agent Engine Memory Bank par minute | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Requêtes d'exécution (exécution de code) par minute dans l'environnement de bac à sable | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entités d'environnement de bac à sable (exécution de code) par région | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Requêtes de publication d'agent A2A telles que sendMessage et cancelTask par minute |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Requêtes GET d'agent A2A telles que getTask et getCard par minute |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Connexions bidirectionnelles simultanées en direct à l'aide de l'API BidiStreamQuery par minute |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Prédiction par lot
Les quotas et les limites des jobs d'inférence par lot sont les mêmes dans toutes les régions.Limites de jobs d'inférence par lot simultanés pour les modèles Gemini
Il n'existe aucune limite de quota prédéfinie pour l'inférence par lot pour les modèles Gemini. Au lieu de cela, le service de traitement par lot donne accès à un grand pool de ressources partagées, allouées de manière dynamique en fonction de la disponibilité en temps réel du modèle et de la demande de ce modèle par tous les clients. Lorsque davantage de clients sont actifs et que la capacité du modèle est saturée, vos requêtes par lot peuvent être mises en file d'attente en raison de la capacité.Quotas de jobs d'inférence par lot simultanés pour les modèles non Gemini
Le tableau suivant répertorie les quotas pour le nombre de jobs d'inférence par lot simultanés, qui ne s'appliquent pas aux modèles Gemini :| Quota | Valeur |
|---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Afficher et modifier les quotas dans la console Google Cloud
Pour afficher et modifier les quotas dans la console Google Cloud , procédez comme suit :- Accédez à la page Quotas et limites du système.
- Pour ajuster le quota, copiez et collez la propriété
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobsdans le filtre. Appuyez sur Entrée. - Cliquez sur les trois points à la fin de la ligne, puis sélectionnez Modifier le quota.
- Saisissez une nouvelle valeur de quota dans le volet, puis cliquez sur Envoyer la demande.
Accéder à la page "Quotas et limites du système"
Moteur Vertex AI RAG
Pour que chaque service puisse effectuer une génération augmentée par récupération (RAG) à l'aide du moteur RAG, les quotas suivants s'appliquent. Ils sont mesurés en requêtes par minute (RPM).| Service | Quota | Métrique |
|---|---|---|
| API de gestion des données du moteur RAG | 60 tr/min | VertexRagDataService requests per minute per region |
RetrievalContexts API |
600 tr/min | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1 500 RPM | Online prediction requests per base model per minute per region per base_modelUn autre filtre que vous pouvez spécifier est base_model: textembedding-gecko |
| Service | Limite | Métrique |
|---|---|---|
Requêtes ImportRagFiles simultanées |
3 RPM | VertexRagService concurrent import requests per region |
Nombre maximal de fichiers par requête ImportRagFiles |
10 000 | VertexRagService import rag files requests per region |
Pour en savoir plus sur les limites de débit et les quotas, consultez Limites de débit de l'IA générative sur Vertex AI.
Gen AI Evaluation Service
Le service d'évaluation de l'IA générative utilise Gemini 2.5 Flash comme modèle d'évaluation par défaut pour les métriques basées sur les modèles. Une seule requête d'évaluation pour une métrique basée sur un modèle peut entraîner plusieurs requêtes sous-jacentes adressées à Gen AI Evaluation Service. La consommation de chaque modèle est calculée au niveau de l'organisation. Cela signifie que toutes les requêtes dirigées vers le modèle d'évaluation pour l'inférence de modèle et l'évaluation basée sur les modèles contribuent à la consommation du modèle. Les quotas pour le service d'évaluation de l'IA générative et le modèle d'évaluation sous-jacent sont indiqués dans le tableau suivant :| Demander un quota | Quota par défaut |
|---|---|
| Requêtes de Gen AI Evaluation Service par minute | 1 000 requêtes par projet et par région |
| Débit Gemini | Dépend du modèle et de l'option de consommation |
| Exécutions d'évaluation simultanées | 20 exécutions d'évaluation simultanées par projet et par région |
Si vous recevez une erreur liée aux quotas lors de l'utilisation du service d'évaluation de l'IA générative, vous devrez peut-être envoyer une demande d'augmentation de quota. Pour en savoir plus, consultez Afficher et gérer les quotas.
| Limite | Valeur |
|---|---|
| Délai de requête Gen AI Evaluation Service | 60 secondes |
Lorsque vous utilisez le service d'évaluation de l'IA générative pour la première fois dans un nouveau projet, vous pouvez rencontrer un délai de configuration initiale de deux minutes. Si votre première requête échoue, attendez quelques minutes, puis réessayez. Les requêtes d'évaluation ultérieures sont généralement traitées dans un délai de 60 secondes.
Le nombre maximal de jetons d'entrée et de sortie pour les métriques basées sur un modèle dépend du modèle utilisé comme modèle de jugement. Pour obtenir la liste des modèles, consultez Modèles Google.
Quotas Vertex AI Pipelines
Chaque tâche de réglage utilise Vertex AI Pipelines. Pour en savoir plus, consultez les quotas et limites de Vertex AI Pipelines.
Étapes suivantes
- Pour en savoir plus sur Standard PayGo, consultez Standard PayGo.
- Pour en savoir plus sur les quotas et les limites de Vertex AI, consultez la section Quotas et limites de Vertex AI.
- Pour en savoir plus sur les quotas et les limites du système Google Cloud , consultez la documentation sur les quotas Cloud.