本文档列出了适用于 Document AI 的配额和系统限制。
- 配额具有默认值,但您通常可以申请 调整。
- 系统限制是无法更改的固定值。
Google Cloud 使用配额来帮助确保公平性并减少资源使用和可用性的激增。配额用于限制您的 Google Cloud 项目可使用多少Google Cloud 资源。配额适用于一系列资源类型,包括硬件、软件和网络组件。例如,配额可以限制对某项服务的 API 调用次数、您的项目并发使用的负载均衡器数量或者您可以创建的项目数量。配额可以防止服务过载,从而保护Google Cloud 用户社区。配额还可以帮助您管理自己的 Google Cloud 资源。
Cloud 配额系统执行以下操作:
在大多数情况下,当您尝试消耗的资源超出其配额允许的范围时,系统会阻止对资源的访问,并且您尝试执行的任务会失败。
配额通常在 Google Cloud 项目级别应用。您在一个项目中使用资源不会影响您在另一个项目中的可用配额。在 Google Cloud 项目中,配额在所有应用和 IP 地址间共享。
如需了解详情,请参阅 Cloud 配额概览。
如需增加项目的可用容量,请了解 容量预留请求。
在线服务层级
Document AI 支持两个服务层级以及与基于生成式 AI 的处理器版本的在线处理请求相关的配额:预配层级和尽力而为层级。
预配层级配额为基本处理器版本(例如自定义提取器 v1.4 和 v1.5)提供每分钟 120 页,为基本处理器版本(例如自定义提取器 v1.5 Pro)提供每分钟 30 页。
尽力而为层级配额为基本处理器版本(例如自定义提取器 v1.4 和 v1.5)提供 120,为 Pro 处理器版本(例如自定义提取器 v1.5
Pro)提供 60,并且仅在预配配额用完后使用。这适用于控制台中的配额 BestEffortOnlineProcessDocumentPagesPerMinutePerProjectUS(指标
best_effort_online_process_document_pages_us)和
BestEffortOnlineProcessDocumentPagesPerMinutePerProjectEU(指标
best_effort_online_process_document_pages_eu)。
| 备注 | 基于 Gemini 2.0 Flash 的处理器 | 基于 Gemini 2.5 Flash 的处理器 | 基于 Gemini 2.5 Pro 的处理器 |
|---|---|---|---|
| 处理器,例如: | 自定义提取器 v1.4 | 自定义提取器 v1.5 | 所有 Pro 版本,例如自定义提取器 v1.5 Pro 和 v1.6 Pro |
| 已预配 | 120 | 120 | 30 |
| 尽力而为 | 120 | 120 | 60 |
| 尽力而为,并申请增加配额 | 240 | 240 | 120 |
| 组织级预配 | 240 | 240 | 60 |
| 已购买的预留容量 | 可用 | 可用 | 不可用 |
如果您需要的配额超出尽力而为配额中列出的配额,可以与销售团队联系,提出配额 增加请求 (QIR)。
如需在流量高峰期间确保更多可用容量,请参阅有关如何提出容量预留请求的部分。
尽力而为层级没有服务等级协议。
配额列表
以下配额适用于 Document AI。 这些配额适用于每个 Google Cloud 控制台项目,并由使用该项目的所有应用和 IP 地址共享 。
如果您想处理更多请求,请在 Google Cloud 控制台中为您的项目提交 Document AI 配额 申请。
在请求中提供有关您的具体需求和使用场景的信息。
| 每分钟基本请求数 (RPM) | 默认值 | 备注 |
|---|---|---|
| 每分钟请求数 | 每位用户 1,800 个1 | 在 Google Cloud 控制台中查看配额 |
| 预配同步通用 RPM | ||
| 每分钟在线处理请求数(美国) | 每个项目每种处理器类型 120 个 | 在 Google Cloud 控制台中查看配额 |
| 每分钟在线处理请求数(欧盟) | 每个项目每种处理器类型 120 个 | 在 Google Cloud 控制台中查看配额 |
| 每分钟在线处理请求数(单个区域) | 每个项目每种处理器类型 6 个 | 在 Google Cloud 控制台中查看配额 |
| 生成式 AI 同步 PPM | ||
| 每分钟每种处理器类型和模型版本的在线处理文档页数(美国)(仅限使用 Gemini 2.0 Flash 的自定义提取器 v1.4) | 每分钟 120 页2 | 在 Google Cloud 控制台中查看配额 |
| 每分钟每种处理器类型和模型版本的在线处理文档页数(欧盟)(仅限使用 Gemini 2.0 Flash 的自定义提取器 v1.4) | 每分钟 120 页2 | 在 Google Cloud 控制台中查看配额 |
| 每分钟每种处理器类型和模型版本的在线处理文档页数(美国)(仅限使用 Gemini 2.5 Flash 的自定义提取器 v1.5) | 每分钟 120 页2 | 在 Google Cloud 控制台中查看配额 |
| 每分钟每种处理器类型和模型版本的在线处理文档页数(欧盟)(仅限使用 Gemini 2.5 Flash 的自定义提取器 v1.5) | 每分钟 120 页2 | 在 Google Cloud 控制台中查看配额 |
| 尽力而为同步 PPM | ||
| 每分钟每种处理器类型和模型版本的在线尽力而为处理文档页数(美国) | 每分钟 120 页4 | 在 Google Cloud 控制台中查看配额 |
| 每分钟每种处理器类型和模型版本的在线尽力而为处理文档页数(欧盟) | 每分钟 120 页4 | 在 Google Cloud 控制台中查看配额 |
| 每分钟每种处理器类型和模型版本的在线尽力而为处理文档页数(单个区域) | 每分钟 120 页4 | 在 Google Cloud 控制台中查看配额 |
| 并发批次 | ||
| 每个项目和区域的并发批量处理请求数(美国) | 每个项目 5 个 | 在 Google Cloud 控制台中查看配额 |
| 每个项目和区域的并发批量处理请求数(欧盟) | 每个项目 5 个 | 在 Google Cloud 控制台中查看配额 |
| 每个处理器的并发批量处理请求数(单个区域) | 每个项目 5 个 | 在 Google Cloud 控制台中查看配额 |
| 并发训练 | ||
| 并发处理器版本训练请求数(美国) | 每个项目 1 个 | 在 Google Cloud 控制台中查看配额 |
| 并发处理器版本训练请求数(欧盟) | 每个项目 1 个 | 在 Google Cloud 控制台中查看配额 |
| 并发处理器版本训练请求数(单个区域) | 每个项目 1 个3 | 在 Google Cloud 控制台中查看配额 |
| 已部署的处理器 | ||
| 已部署的自定义处理器版本(美国) | 每个项目 5 个 | 在 Google Cloud 控制台中查看配额 |
| 已部署的自定义处理器版本(欧盟) | 每个项目 5 个 | 在 Google Cloud 控制台中查看配额 |
| 已部署的自定义处理器版本(单个区域) | 每个项目 5 个 | 在 Google Cloud 控制台中查看配额 |
| 已部署的生成式 AI 处理器 | ||
| 已部署的生成式处理器版本(美国) | 每个项目每个自定义提取处理器 100 个 | 在 Google Cloud 控制台中查看配额 |
| 已部署的生成式处理器版本(欧盟) | 每个项目每个自定义提取处理器 100 个 | 在 Google Cloud 控制台中查看配额 |
| 已部署的生成式处理器版本(单个区域) | 每个项目每个自定义提取处理器 100 个 | 在 Google Cloud 控制台中查看配额 |
| 并发导入 | ||
| 并发导入文档请求数(美国) | 每个项目 3 个 | 在 Google Cloud 控制台中查看配额 |
| 并发导入文档请求数(欧盟) | 每个项目 3 个 | 在 Google Cloud 控制台中查看配额 |
| 并发导入文档请求数(单个区域) | 每个项目 3 个 | 在 Google Cloud 控制台中查看配额 |
| 并发导出 | ||
| 并发导出文档请求数(美国) | 每个项目 1 个 | 在 Google Cloud 控制台中查看配额 |
| 并发导出文档请求数(欧盟) | 每个项目 1 个 | 在 Google Cloud 控制台中查看配额 |
| 并发导出文档请求数(单个区域) | 每个项目 1 个 | 在 Google Cloud 控制台中查看配额 |
- 每分钟请求数配额批次是指每分钟请求的文档数量,而不是页数或 `batchProcess` API 调用次数。
- 此版本尚不支持配额调整请求。
- 在
australia-southeast1中受支持,并提供配额调整请求。 - 因 Gemini 版本而异,请参阅服务层级。了解如何提出容量预留请求。
如果您的项目需要更多容量,请了解容量 预留。