Neste documento, listamos as cotas e os limites do sistema que se aplicam à Document AI.
- As cotas têm valores definidos por padrão, mas geralmente é possível solicitar ajustes.
- Os limites do sistema são valores fixos que não podem ser alterados.
OGoogle Cloud usa cotas para garantir a distribuição justa e reduzir sobrecargas no uso e na disponibilidade dos recursos. Uma cota restringe a alocação de um recurso doGoogle Cloud para uso do seu projeto do Google Cloud . As cotas se aplicam a vários tipos de recursos, incluindo hardware, software e componentes de rede. Por exemplo, elas podem restringir o número de chamadas de API para um serviço, o número de balanceadores de carga usados simultaneamente pelo projeto ou o número de projetos que podem ser criados. As cotas protegem a comunidade de usuários doGoogle Cloud , impedindo a sobrecarga de serviços. Elas também ajudam você a gerenciar seus próprios recursos do Google Cloud .
O sistema de cotas do Cloud faz o seguinte:
- Monitora o consumo de produtos e serviços do Google Cloud .
- Restringe o consumo desses recursos.
- Possibilita a solicitação de mudanças no valor das cotas e a automatização de ajustes de cotas.
Na maioria dos casos, quando você tenta consumir mais de um recurso do que a cota permite, o sistema bloqueia o acesso ao recurso, e a tarefa que você está tentando executar falha.
As cotas geralmente se aplicam ao nível do projeto do Google Cloud . O uso de um recurso em um projeto não afeta a cota disponível em outro. Em um projeto do Google Cloud , as cotas são compartilhadas entre todos os aplicativos e endereços IP.
Saiba mais em Visão geral das cotas do Cloud.
Para aumentar a capacidade disponível dos seus projetos, leia sobre solicitações de reserva de capacidade.
Níveis de serviço on-line
A Document AI oferece suporte a dois níveis de serviço e cotas associadas para solicitações de processo on-line para versões de processador com tecnologia de IA generativa: níveis provisionado e da melhor maneira possível.
A cota do nível provisionado oferece 120 páginas por minuto para versões básicas do processador, como extrator personalizado v1.4 e v1.5, e 30 páginas por minuto para versões básicas do processador, como extrator personalizado v1.5 Pro.
A cota do nível de melhor esforço oferece 120 para versões básicas do processador, como extrator personalizado v1.4 e v1.5, e 60 para versões do processador Pro, como extrator personalizado v1.5 Pro. Ela só é usada depois que a cota provisionada é esgotada. Isso se aplica a
cotas BestEffortOnlineProcessDocumentPagesPerMinutePerProjectUS
(métrica best_effort_online_process_document_pages_us) e
BestEffortOnlineProcessDocumentPagesPerMinutePerProjectEU
(métrica best_effort_online_process_document_pages_eu) no console.
| Observações | Processadores baseados no Gemini 2.0 Flash | Processadores baseados no Gemini 2.5 Flash | Processadores baseados no Gemini 2.5 Pro |
|---|---|---|---|
| Processadores como: | Extrator personalizado v1.4 | Extrator personalizado v1.5 | Todas as versões do Pro, como o extrator personalizado v1.5 Pro e v1.6 Pro |
| Provisionado | 120 | 120 | 30 |
| Melhor esforço | 120 | 120 | 60 |
| Melhor esforço com uma solicitação de aumento de cota | 240 | 240 | 120 |
| Provisionado no nível da organização | 240 | 240 | 60 |
| Capacidade reservada, comprada | Disponível | Disponível | Indisponível |
Se você precisar de mais do que as cotas de melhor esforço listadas, entre em contato com a equipe de vendas para fazer uma solicitação de aumento de cota (QIR, na sigla em inglês).
Para garantir mais capacidade disponível durante períodos de alto volume de tráfego, leia a seção sobre como fazer uma solicitação de reserva de capacidade.
Não há um contrato de nível de serviço para o nível de melhor esforço.
Lista de cotas
As cotas a seguir se aplicam à Document AI. Essas cotas são aplicadas a cada projeto do console do Google Cloud e compartilhadas com todos os aplicativos e endereços IP que usam esse projeto.
Se quiser processar mais solicitações, envie uma solicitação de cota da Document AI para seu projeto no Google Cloud console.
Forneça informações sobre suas necessidades específicas e caso de uso na solicitação.
| Solicitações por minuto (RPM) básicas | Valor padrão | Observações |
|---|---|---|
| Solicitações por minuto | 1.800 por usuário1 | Ver cota no console Google Cloud |
| RPM genérico de sincronização provisionada | ||
| Solicitações de processo on-line por minuto (EUA) | 120 por projeto por tipo de processador | Ver cota no console Google Cloud |
| Solicitações de processo on-line por minuto (UE) | 120 por projeto por tipo de processador | Ver cota no console Google Cloud |
| Solicitações de processo on-line por minuto (região única) | 6 por projeto e por tipo de processador | Ver cota no console Google Cloud |
| PPM de sincronização da IA generativa | ||
| Número de páginas de documentos de processo on-line (EUA) por minuto, tipo de processador e versão do modelo (somente Extrator personalizado v1.4 com Gemini 2.0 Flash) | 120 páginas por minuto2 | Ver cota no console Google Cloud |
| Número de páginas de documentos de processo on-line (UE) por minuto, tipo de processador e versão do modelo (Custom Extractor v1.4 com Gemini 2.0 Flash apenas) | 120 páginas por minuto2 | Ver cota no console Google Cloud |
| Número de páginas de documentos de processo on-line (EUA) por minuto, por tipo de processador e versão do modelo (somente Extrator personalizado v1.5 com Gemini 2.5 Flash) | 120 páginas por minuto2 | Ver cota no console Google Cloud |
| Número de páginas de documentos de processo on-line (UE) por minuto, tipo de processador e versão do modelo (Custom Extractor v1.5 somente com o Gemini 2.5 Flash) | 120 páginas por minuto2 | Ver cota no console Google Cloud |
| Sincronização de melhor esforço do PPM | ||
| Número de páginas de documentos de processo on-line com o melhor esforço (EUA) por minuto, por tipo de processador e versão do modelo | 120 páginas por minuto4 | Ver cota no console Google Cloud |
| Número de páginas de documentos de processo on-line com o melhor esforço (UE) por minuto, por tipo de processador e versão do modelo | 120 páginas por minuto4 | Ver cota no console Google Cloud |
| Número de páginas de documentos de processo on-line de melhor esforço (região única) por minuto, por tipo de processador e versão do modelo | 120 páginas por minuto4 | Ver cota no console Google Cloud |
| Lotes simultâneos | ||
| Solicitações simultâneas de processo em lote por projeto e região (EUA) | 5 por projeto | Ver cota no console Google Cloud |
| Solicitações simultâneas de processos em lote por projeto e região (UE) | 5 por projeto | Ver cota no console Google Cloud |
| Solicitações simultâneas de processamento em lote por processador (região única) | 5 por projeto | Ver cota no console Google Cloud |
| Treinamento simultâneo | ||
| Solicitações simultâneas de treinamento de versão do processador (EUA) | 1 por projeto | Ver cota no console Google Cloud |
| Solicitações simultâneas de treinamento de versão do processador (UE) | 1 por projeto | Ver cota no console Google Cloud |
| Solicitações simultâneas de treinamento de versão do processador (região única) | 1 por projeto3 | Ver cota no console Google Cloud |
| Processadores implantados | ||
| Versões implantadas de processadores personalizados (EUA) | 5 por projeto | Ver cota no console Google Cloud |
| Versões implantadas de processadores personalizados (UE) | 5 por projeto | Ver cota no console Google Cloud |
| Versões implantadas de processadores personalizados (região única) | 5 por projeto | Ver cota no console Google Cloud |
| Processadores de IA generativa implantados | ||
| Versões implantadas do processador generativo (EUA) | 100 por projeto por processador de extração personalizada | Ver cota no console Google Cloud |
| Versões implantadas do processador generativo (UE) | 100 por projeto por processador de extração personalizada | Ver cota no console Google Cloud |
| Versões implantadas do processador generativo (região única) | 100 por projeto por processador de extração personalizada | Ver cota no console Google Cloud |
| Importação simultânea | ||
| Solicitações simultâneas de documentos de importação (EUA) | 3 por projeto | Ver cota no console Google Cloud |
| Solicitações simultâneas de importação de documentos (UE) | 3 por projeto | Ver cota no console Google Cloud |
| Solicitações simultâneas de importação de documentos (região única) | 3 por projeto | Ver cota no console Google Cloud |
| Exportação simultânea | ||
| Solicitações simultâneas de exportação de documentos (EUA) | 1 por projeto | Ver cota no console Google Cloud |
| Solicitações simultâneas de exportação de documentos (UE) | 1 por projeto | Ver cota no console Google Cloud |
| Solicitações simultâneas de exportação de documentos (região única) | 1 por projeto | Ver cota no console Google Cloud |
- A cota de solicitações por minuto em lote é para o número de documentos solicitados por minuto, não o número de páginas ou chamadas de API "batchProcess".
- Ainda não é possível fazer solicitações de ajuste de cota nesta versão.
- Compatível com
australia-southeast1em uma solicitação de ajuste de cota. - Varia de acordo com a versão do Gemini. Consulte os níveis de serviço. Confira como fazer uma solicitação de reserva de capacidade.
Se o projeto precisar de mais capacidade, leia sobre Reserva de capacidade.