本文档列出了适用于 Vertex AI Agent Builder 的配额和系统限制。
- 配额具有默认值,但您通常可以申请调整。
- 系统限制是无法更改的固定值。
Google Cloud 使用配额来帮助确保公平性并减少资源使用和可用性的激增。配额用于限制您的 Google Cloud 项目可使用多少Google Cloud 资源。配额适用于一系列资源类型,包括硬件、软件和网络组件。例如,配额可以限制对某项服务的 API 调用次数、您的项目并发使用的负载均衡器数量或者您可以创建的项目数量。配额可以防止服务过载,从而保护Google Cloud 用户社区。配额还可以帮助您管理自己的 Google Cloud 资源。
Cloud 配额系统执行以下操作:
在大多数情况下,当您尝试消耗的资源超出其配额允许的范围时,系统会阻止对资源的访问,并且您尝试执行的任务会失败。
配额通常在 Google Cloud 项目级别应用。您在一个项目中使用资源不会影响您在另一个项目中的可用配额。在 Google Cloud 项目中,配额在所有应用和 IP 地址间共享。
如需了解详情,请参阅 Cloud 配额概览。
Vertex AI Agent Engine 配额
以下配额适用于每个区域中给定项目的 Vertex AI Agent Engine:| 说明 | Quota | 指标 |
|---|---|---|
| 每分钟创建、删除或更新的 Vertex AI Agent Engine 资源数 | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| 每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数 | 100 | aiplatform.googleapis.com/session_write_requests |
每分钟 Query 或 StreamQuery Vertex AI Agent Engine 数 |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| 每分钟向 Vertex AI Agent Engine 会话附加的事件数 | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Vertex AI Agent Engine 资源数上限 | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| 每分钟创建、删除或更新的 Vertex AI Agent Engine 内存资源数 | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| 每分钟从 Vertex AI Agent Engine 记忆库中获取、列出或检索的次数 | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| 每分钟的沙盒环境(代码执行)执行请求数 | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| 每个区域的沙盒环境(代码执行)实体数 | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
每分钟的 A2A 智能体 POST 请求数(例如 sendMessage 和 cancelTask) |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
每分钟的 A2A 智能体 GET 请求数(例如 getTask 和 getCard) |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
每分钟使用 BidiStreamQuery API 的并发实时双向连接数 |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
生产负载的配额管理
随着流量的增加,您可能需要申请增加特定的 Vertex AI API 配额,以避免出现 429 Resource Exhausted 错误。您可以主动配置运行时并提高配额,以确保 Vertex AI Agent Engine Runtime 在生产负载下保持响应性、可伸缩性和可靠性。
如需了解如何优化和扩缩 Vertex AI Agent Engine 运行时性能,请参阅优化和扩缩 Vertex AI Agent Engine 运行时性能。
请按以下步骤估算您的峰值配额需求:
定义变量:
U:并发用户峰值(例如 250)。X:每位用户每分钟的平均请求数(例如 2)。Y:每个请求生成的平均会话事件数(例如,对于涉及多次工具调用的复杂链,该值为 12)。
计算峰值负载:
计算每分钟查询次数 (QPM) 峰值:U * X
计算每分钟的峰值会话事件数:峰值 QPM * Y
申请配额时预留缓冲空间:申请增加配额时,请在计算出的峰值基础上预留缓冲空间(例如 50%),以应对意外的峰值。
下表显示了 Vertex AI Agent Engine 的关键性能相关配额的计算方式,其中使用了 peak concurrent users=250、average requests per user per minute=2 和 average session events generated
per request=12 的示例变量:
| 配额名称 | 配额说明 | 基本计算(峰值) | 建议值(含 50% 的缓冲) |
|---|---|---|---|
每分钟的 Query Agent Engine 数 (aiplatform.googleapis.com/reasoning_engine_service_query_requests) |
您的代理每分钟可接听的 query 或 stream_query 通话总数。 |
250 users * 2 req/min = 500 QPM |
500 * 1.5 = 750 |
附加每分钟会话事件数 (aiplatform.googleapis.com/session_event_append_requests) |
所有正在进行的会话中的对话轮数或事件数。 单个查询可以生成链式会话事件,例如:
|
500 QPM * 12 events/req = 6,000 |
6,000 * 1.5 = 9,000 |
每分钟会话写入次数 (aiplatform.googleapis.com/session_write_requests) |
创建或更新会话资源的比率。此值通常小于或等于查询速率。 | 通常 <= 峰值 QPM (500) |
通常 <= 查询配额 (750) |
申请配额调整
如需调整大多数配额,请使用 Google Cloud 控制台。如需了解详情,请参阅申请配额调整。
Vertex AI Agent Engine 快速模式配额
Vertex AI 免费层级快速模式用户可免费使用 Vertex AI Agent Engine 服务,但需遵守以下配额。如需详细了解免费层级和快速模式,请参阅 Vertex AI 快速模式概览。 以下配额适用于每个区域中给定快速模式项目的 Vertex AI Agent Engine:| 说明 | Quota | 指标 |
|---|---|---|
| Vertex AI Agent Engine 资源数上限 | 10 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| 每分钟创建、删除或更新的 Vertex AI Agent Engine 资源数 | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
每分钟 Query 或 StreamQuery Vertex AI Agent Engine 数 |
10 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
每分钟使用 BidiStreamQuery API 的并发实时双向连接数 |
1 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
| 每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数 | 10 | aiplatform.googleapis.com/session_write_requests |
| 每分钟向 Vertex AI Agent Engine 会话附加的事件数 | 30 | aiplatform.googleapis.com/session_event_append_requests |
| 每分钟创建、删除或更新的 Vertex AI Agent Engine 内存资源数 | 10 | aiplatform.googleapis.com/memory_bank_write_requests |
| 每分钟从 Vertex AI Agent Engine 记忆库中获取、列出或检索的次数 | 10 | aiplatform.googleapis.com/memory_bank_read_requests |