Ce document répertorie les quotas et limites qui s'appliquent à Document AI.
- Les quotas ont des valeurs par défaut, mais vous pouvez généralement demander des ajustements.
- Les limites système sont des valeurs fixes qui ne peuvent pas être modifiées.
Google Cloud utilise des quotas pour garantir l'équité et réduire les pics d'utilisation et de disponibilité des ressources. Un quota limite la quantité d'une ressourceGoogle Cloud que votre projet Google Cloud peut utiliser. Les quotas s'appliquent à différents types de ressources, y compris les composants matériels, logiciels et réseau. Par exemple, ils peuvent limiter le nombre d'appels d'API à un service, le nombre d'équilibreurs de charge utilisés simultanément par votre projet ou le nombre de projets que vous pouvez créer. Ils protègent la communauté des utilisateurs deGoogle Cloud en empêchant la surcharge des services. Les quotas vous aident également à gérer vos propres ressources Google Cloud .
Le système Cloud Quotas permet d'effectuer les opérations suivantes :
- Surveiller votre consommation de produits et services Google Cloud
- Limiter votre consommation de ces ressources
- Demander des modifications de la valeur du quota et automatiser les ajustements de quota
Dans la plupart des cas, lorsque vous tentez d'utiliser une ressource plus que son quota ne le permet, le système bloque l'accès à la ressource et la tâche que vous essayez d'effectuer échoue.
Les quotas s'appliquent généralement au niveau du projet Google Cloud . Votre utilisation d'une ressource dans un projet n'affecte pas votre quota disponible dans un autre projet. Dans un projet Google Cloud , les quotas sont partagés entre toutes les applications et adresses IP.
Pour en savoir plus, consultez la présentation des quotas Cloud.
Pour augmenter la capacité disponible de vos projets, consultez Demandes de réservation de capacité.
Niveaux de service en ligne
Document AI est compatible avec deux niveaux de service et les quotas associés pour les requêtes de traitement en ligne adressées aux versions de processeur basées sur l'IA générative : les niveaux provisionné et optimisation limitée.
Le quota du niveau provisionné fournit 120 pages par minute pour les versions de processeur de base, telles que l'extracteur personnalisé v1.4 et v1.5, et 30 pages par minute pour les versions de processeur de base comme l'extracteur personnalisé v1.5 Pro.
Le quota du niveau optimisation limitée fournit 120 pour les versions de processeur de base comme l'extracteur personnalisé v1.4 et v1.5, 60 pour les versions de processeur Pro telles que l'extracteur personnalisé v1.5 Pro, et n'est utilisé qu'une fois le quota provisionné épuisé. Cela s'applique aux quotas BestEffortOnlineProcessDocumentPagesPerMinutePerProjectUS (métrique best_effort_online_process_document_pages_us) et BestEffortOnlineProcessDocumentPagesPerMinutePerProjectEU (métrique best_effort_online_process_document_pages_eu) dans la console.
| Remarques | Processeurs basés sur Gemini 2.0 Flash | Processeurs basés sur Gemini 2.5 Flash | Processeurs basés sur Gemini 2.5 Pro |
|---|---|---|---|
| Processeurs tels que : | Extracteur personnalisé v1.4 | Extracteur personnalisé v1.5 | Toutes les versions Pro telles que l'extracteur personnalisé v1.5 Pro et v1.6 Pro |
| Provisionné | 120 | 120 | 30 |
| Optimisation limitée | 120 | 120 | 60 |
| Optimisation limitée avec une demande d'augmentation de quota | 240 | 240 | 120 |
| Provisionné au niveau de l'organisation | 240 | 240 | 60 |
| Capacité réservée, achetée | Disponible | Disponible | Non disponible |
Si vous avez besoin de plus que les quotas d'optimisation limitée indiqués, vous pouvez envoyer une demande d'augmentation de quota en contactant l'équipe commerciale.
Pour sécuriser davantage de capacité disponible en cas de trafic élevé, consultez la section sur la façon de faire une demande de réservation de capacité.
Aucun contrat de niveau de service n'est appliqué au niveau optimisation limitée.
Liste des quotas
Les quotas suivants s'appliquent à Document AI. Ces quotas s'appliquent à tous les projets de la console Google Cloud . Ils sont partagés entre toutes les applications et adresses IP associées à chacun des projets.
Si vous souhaitez traiter davantage de requêtes, envoyez une demande de quota Document AI pour votre projet dans la Google Cloud console.
Fournissez des informations sur vos besoins spécifiques et votre cas d'utilisation dans la demande.
| Requêtes de base par minute (RPM) | Valeur par défaut | Remarques |
|---|---|---|
| Requêtes par minute | 1 800 par utilisateur1 | Afficher le quota dans la console Google Cloud |
| RPM générique provisionné pour la synchronisation | ||
| Requêtes de traitement en ligne par minute (États-Unis) | 120 par projet et par type de processeur | Afficher le quota dans la console Google Cloud |
| Requêtes de traitement en ligne par minute (Europe) | 120 par projet et par type de processeur | Afficher le quota dans la console Google Cloud |
| Requêtes de traitement en ligne par minute (région unique) | 6 par projet et par type de processeur | Afficher le quota dans la console Google Cloud |
| PPM de synchronisation de l'IA générative | ||
| Nombre de pages de traitement de documents en ligne (États-Unis) par minute, par type de processeur et par version de modèle (extracteur personnalisé v1.4 avec Gemini 2.0 Flash uniquement) | 120 pages par minute2 | Afficher le quota dans la console Google Cloud |
| Nombre de pages de traitement de documents en ligne (Europe) par minute, par type de processeur et par version de modèle (extracteur personnalisé v1.4 avec Gemini 2.0 Flash uniquement) | 120 pages par minute2 | Afficher le quota dans la console Google Cloud |
| Nombre de pages de traitement de documents en ligne (États-Unis) par minute, par type de processeur et par version de modèle (extracteur personnalisé v1.5 avec Gemini 2.5 Flash uniquement) | 120 pages par minute2 | Afficher le quota dans la console Google Cloud |
| Nombre de pages de traitement de documents en ligne (Europe) par minute, par type de processeur et par version de modèle (extracteur personnalisé v1.5 avec Gemini 2.5 Flash uniquement) | 120 pages par minute2 | Afficher le quota dans la console Google Cloud |
| PPM de synchronisation avec optimisation limitée | ||
| Nombre de pages de traitement de documents en ligne avec optimisation limitée (États-Unis) par minute, par type de processeur et par version de modèle | 120 pages par minute4 | Afficher le quota dans la console Google Cloud |
| Nombre de pages de traitement de documents en ligne avec optimisation limitée (Europe) par minute, par type de processeur et par version de modèle | 120 pages par minute4 | Afficher le quota dans la console Google Cloud |
| Nombre de pages de traitement de documents en ligne avec optimisation limitée (région unique) par minute, par type de processeur et par version de modèle | 120 pages par minute4 | Afficher le quota dans la console Google Cloud |
| Lots simultanés | ||
| Requêtes de traitement par lot simultanées par projet et par région (États-Unis) | 5 par projet | Afficher le quota dans la console Google Cloud |
| Requêtes de traitement par lot simultanées par projet et par région (Europe) | 5 par projet | Afficher le quota dans la console Google Cloud |
| Requêtes de traitement par lot simultanées par processeur (région unique) | 5 par projet | Afficher le quota dans la console Google Cloud |
| Entraînement simultané | ||
| Requêtes d'entraînement simultanées pour la version du processeur (États-Unis) | 1 par projet | Afficher le quota dans la console Google Cloud |
| Requêtes d'entraînement simultanées pour la version du processeur (Europe) | 1 par projet | Afficher le quota dans la console Google Cloud |
| Requêtes d'entraînement simultanées pour la version du processeur (région unique) | 1 par projet3 | Afficher le quota dans la console Google Cloud |
| Processeurs déployés | ||
| Versions de processeur personnalisé déployées (États-Unis) | 5 par projet | Afficher le quota dans la console Google Cloud |
| Versions de processeur personnalisé déployées (Europe) | 5 par projet | Afficher le quota dans la console Google Cloud |
| Versions de processeur personnalisé déployées (région unique) | 5 par projet | Afficher le quota dans la console Google Cloud |
| Processeurs d'IA générative déployés | ||
| Versions de processeur génératif déployées (États-Unis) | 100 par projet et par processeur d'extraction personnalisé | Afficher le quota dans la console Google Cloud |
| Versions de processeur génératif déployées (Europe) | 100 par projet et par processeur d'extraction personnalisé | Afficher le quota dans la console Google Cloud |
| Versions de processeur génératif déployées (région unique) | 100 par projet et par processeur d'extraction personnalisé | Afficher le quota dans la console Google Cloud |
| Importation simultanée | ||
| Requêtes d'importation de documents simultanées (États-Unis) | 3 par projet | Afficher le quota dans la console Google Cloud |
| Requêtes d'importation de documents simultanées (Europe) | 3 par projet | Afficher le quota dans la console Google Cloud |
| Requêtes d'importation de documents simultanées (région unique) | 3 par projet | Afficher le quota dans la console Google Cloud |
| Exportation simultanée | ||
| Requêtes d'exportation de documents simultanées (États-Unis) | 1 par projet | Afficher le quota dans la console Google Cloud |
| Requêtes d'exportation de documents simultanées (Europe) | 1 par projet | Afficher le quota dans la console Google Cloud |
| Requêtes d'exportation de documents simultanées (région unique) | 1 par projet | Afficher le quota dans la console Google Cloud |
- Le lot de quotas de requêtes par minute correspond au nombre de documents demandés par minute, et non au nombre de pages ni aux appels d'API `batchProcess`.
- Les demandes d'ajustement de quota ne sont pas encore compatibles avec cette version.
- Compatible avec
australia-southeast1avec une demande d'ajustement de quota. - Varie en fonction de la version de Gemini. Consultez Niveaux de service. Découvrez comment envoyer une demande de réservation de capacité.
Si votre projet nécessite plus de capacité, consultez Réservation de capacité.