配额和系统限制

本文档列出了适用于 Vertex AI Agent Builder 的配额和系统限制。

配额具有默认值，但您通常可以申请调整。
系统限制是无法更改的固定值。

Google Cloud 使用配额来帮助确保公平性并减少资源使用和可用性的激增。配额用于限制您的 Google Cloud 项目可使用多少Google Cloud 资源。配额适用于一系列资源类型，包括硬件、软件和网络组件。例如，配额可以限制对某项服务的 API 调用次数、您的项目并发使用的负载均衡器数量或者您可以创建的项目数量。配额可以防止服务过载，从而保护Google Cloud 用户社区。配额还可以帮助您管理自己的 Google Cloud 资源。

Cloud 配额系统执行以下操作：

监控 Google Cloud 产品和服务的消耗情况
限制这些资源的消耗量
提供了请求更改配额值和自动调整配额的途径

在大多数情况下，当您尝试消耗的资源超出其配额允许的范围时，系统会阻止对资源的访问，并且您尝试执行的任务会失败。

配额通常在 Google Cloud 项目级别应用。您在一个项目中使用资源不会影响您在另一个项目中的可用配额。在 Google Cloud 项目中，配额在所有应用和 IP 地址间共享。

如需了解详情，请参阅 Cloud 配额概览。

Vertex AI Agent Engine 配额

以下配额适用于每个区域中给定项目的 Vertex AI Agent Engine：

说明	Quota	指标
每分钟创建、删除或更新的 Vertex AI Agent Engine 资源数	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数	100	`aiplatform.googleapis.com/session_write_requests`
每分钟 `Query` 或 `StreamQuery` Vertex AI Agent Engine 数	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
每分钟向 Vertex AI Agent Engine 会话附加的事件数	300	`aiplatform.googleapis.com/session_event_append_requests`
Vertex AI Agent Engine 资源数上限	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
每分钟创建、删除或更新的 Vertex AI Agent Engine 内存资源数	100	`aiplatform.googleapis.com/memory_bank_write_requests`
每分钟从 Vertex AI Agent Engine 记忆库中获取、列出或检索的次数	300	`aiplatform.googleapis.com/memory_bank_read_requests`
每分钟的沙盒环境（代码执行）执行请求数	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
每个区域的沙盒环境（代码执行）实体数	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
每分钟的沙盒环境（代码执行）写入请求数	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
每分钟的 A2A 智能体 POST 请求数（例如 `sendMessage` 和 `cancelTask`）	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
每分钟的 A2A 智能体 GET 请求数（例如 `getTask` 和 `getCard`）	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
每分钟使用 `BidiStreamQuery` API 的并发实时双向连接数	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

生产负载的配额管理

随着流量的增加，您可能需要申请增加特定的 Vertex AI API 配额，以避免出现 429 Resource Exhausted 错误。您可以主动配置运行时并提高配额，以确保 Vertex AI Agent Engine Runtime 在生产负载下保持响应性、可伸缩性和可靠性。

如需了解如何优化和扩缩 Vertex AI Agent Engine 性能，请参阅优化和扩缩 Vertex AI Agent Engine 运行时性能。

请按以下步骤估算您的峰值配额需求：

定义变量：
- U：并发用户峰值（例如 250）。
- X：每位用户每分钟的平均请求数（例如 2）。
- Y：每个请求生成的平均会话事件数（例如，对于涉及多次工具调用的复杂链，此值为 12）。
计算峰值负载：
- 计算每分钟查询次数 (QPM) 峰值：U * X
- 计算每分钟的峰值会话事件数：峰值 QPM * Y
申请配额时预留缓冲空间：申请增加配额时，请在计算出的峰值基础上增加缓冲空间（例如 50%），以应对意外的峰值。

下表显示了 Vertex AI Agent Engine 的关键性能相关配额的计算方式，其中使用了 peak concurrent users=250、average requests per user per minute=2 和 average session events generated per request=12 的示例变量：

配额名称配额说明基本计算（峰值）建议值（含 50% 的缓冲）

每分钟的 Query Agent Engine 数 (aiplatform.googleapis.com/reasoning_engine_service_query_requests) 您的代理每分钟可接听的 query 或 stream_query 通话总数。 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750

配额名称	配额说明	基本计算（峰值）	建议值（含 50% 的缓冲）
每分钟的 Query Agent Engine 数 (`aiplatform.googleapis.com/reasoning_engine_service_query_requests`)	您的代理每分钟可接听的 `query` 或 `stream_query` 通话总数。	`250 users * 2 req/min = 500 QPM`	`500 * 1.5 =` `750`
附加每分钟会话事件数 (`aiplatform.googleapis.com/session_event_append_requests`)	所有正在进行的会话中的对话轮数或事件数。单个查询可以在链中生成多个会话事件，例如：调用 LLM。 LLM 回答：使用工具。执行工具。使用工具响应调用 LLM。 LLM 提供最终回答。	`500 QPM * 12 events/req = 6,000`	`6,000 * 1.5 =` `9,000`
每分钟会话写入次数 (`aiplatform.googleapis.com/session_write_requests`)	创建或更新会话资源的比率。此值通常小于或等于查询速率。	通常 <= 峰值 QPM (`500`)	通常 <= 查询配额 (`750`)

附加每分钟会话事件数 (aiplatform.googleapis.com/session_event_append_requests)

所有正在进行的会话中的对话轮数或事件数。单个查询可以在链中生成多个会话事件，例如：

调用 LLM。
LLM 回答：使用工具。
执行工具。
使用工具响应调用 LLM。
LLM 提供最终回答。

500 QPM * 12 events/req = 6,000

6,000 * 1.5 = 9,000

每分钟会话写入次数 (aiplatform.googleapis.com/session_write_requests) 创建或更新会话资源的比率。此值通常小于或等于查询速率。通常 <= 峰值 QPM (500) 通常 <= 查询配额 (750)

申请配额调整

如需调整大多数配额，请使用 Google Cloud 控制台。如需了解详情，请参阅申请配额调整。

Vertex AI Agent Engine 快速模式配额

Vertex AI 免费层级快速模式用户可免费使用 Vertex AI Agent Engine 服务，但需遵守以下配额。如需详细了解免费层级和快速模式，请参阅 Vertex AI 快速模式概览。以下配额适用于每个区域中给定快速模式项目的 Vertex AI Agent Engine：

说明	Quota	指标
Vertex AI Agent Engine 资源数上限	10	`aiplatform.googleapis.com/reasoning_engine_service_entities`
每分钟创建、删除或更新的 Vertex AI Agent Engine 资源数	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
每分钟 `Query` 或 `StreamQuery` Vertex AI Agent Engine 数	10	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
每分钟使用 `BidiStreamQuery` API 的并发实时双向连接数	1	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`
每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数	10	`aiplatform.googleapis.com/session_write_requests`
每分钟向 Vertex AI Agent Engine 会话附加的事件数	30	`aiplatform.googleapis.com/session_event_append_requests`
每分钟创建、删除或更新的 Vertex AI Agent Engine 内存资源数	10	`aiplatform.googleapis.com/memory_bank_write_requests`
每分钟从 Vertex AI Agent Engine 记忆库中获取、列出或检索的次数	10	`aiplatform.googleapis.com/memory_bank_read_requests`