配额和系统限制

本文档列出了适用于 Vertex AI Agent Builder 的配额和系统限制。

  • 配额具有默认值,但您通常可以申请调整。
  • 系统限制是无法更改的固定值。

Google Cloud 使用配额来帮助确保公平性并减少资源使用和可用性的激增。配额用于限制您的 Google Cloud 项目可使用多少Google Cloud 资源。配额适用于一系列资源类型,包括硬件、软件和网络组件。例如,配额可以限制对某项服务的 API 调用次数、您的项目并发使用的负载均衡器数量或者您可以创建的项目数量。配额可以防止服务过载,从而保护Google Cloud 用户社区。配额还可以帮助您管理自己的 Google Cloud 资源。

Cloud 配额系统执行以下操作:

在大多数情况下,当您尝试消耗的资源超出其配额允许的范围时,系统会阻止对资源的访问,并且您尝试执行的任务会失败。

配额通常在 Google Cloud 项目级别应用。您在一个项目中使用资源不会影响您在另一个项目中的可用配额。在 Google Cloud 项目中,配额在所有应用和 IP 地址间共享。

如需了解详情,请参阅 Cloud 配额概览

Vertex AI Agent Engine 配额

以下配额适用于每个区域中给定项目的 Vertex AI Agent Engine
说明 Quota 指标
每分钟创建、删除或更新的 Vertex AI Agent Engine 资源数 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数 100 aiplatform.googleapis.com/session_write_requests
每分钟 QueryStreamQuery Vertex AI Agent Engine 数 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
每分钟向 Vertex AI Agent Engine 会话附加的事件数 300 aiplatform.googleapis.com/session_event_append_requests
Vertex AI Agent Engine 资源数上限 100 aiplatform.googleapis.com/reasoning_engine_service_entities
每分钟创建、删除或更新的 Vertex AI Agent Engine 内存资源数 100 aiplatform.googleapis.com/memory_bank_write_requests
每分钟从 Vertex AI Agent Engine 记忆库中获取、列出或检索的次数 300 aiplatform.googleapis.com/memory_bank_read_requests
每分钟的沙盒环境(代码执行)执行请求数 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
每个区域的沙盒环境(代码执行)实体数 1000 aiplatform.googleapis.com/sandbox_environment_entities
每分钟的 A2A 智能体 POST 请求数(例如 sendMessagecancelTask 60 aiplatform.googleapis.com/a2a_agent_post_requests
每分钟的 A2A 智能体 GET 请求数(例如 getTaskgetCard 600 aiplatform.googleapis.com/a2a_agent_get_requests
每分钟使用 BidiStreamQuery API 的并发实时双向连接数 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

生产负载的配额管理

随着流量的增加,您可能需要申请增加特定的 Vertex AI API 配额,以避免出现 429 Resource Exhausted 错误。您可以主动配置运行时提高配额,以确保 Vertex AI Agent Engine Runtime 在生产负载下保持响应性、可伸缩性和可靠性。

如需了解如何优化和扩缩 Vertex AI Agent Engine 运行时性能,请参阅优化和扩缩 Vertex AI Agent Engine 运行时性能

请按以下步骤估算您的峰值配额需求:

  1. 定义变量:

    • U:并发用户峰值(例如 250)。

    • X:每位用户每分钟的平均请求数(例如 2)。

    • Y:每个请求生成的平均会话事件数(例如,对于涉及多次工具调用的复杂链,该值为 12)。

  2. 计算峰值负载:

    • 计算每分钟查询次数 (QPM) 峰值:U * X

    • 计算每分钟的峰值会话事件数:峰值 QPM * Y

  3. 申请配额时预留缓冲空间:申请增加配额时,请在计算出的峰值基础上预留缓冲空间(例如 50%),以应对意外的峰值。

下表显示了 Vertex AI Agent Engine 的关键性能相关配额的计算方式,其中使用了 peak concurrent users=250average requests per user per minute=2average session events generated per request=12 的示例变量:

配额名称 配额说明 基本计算(峰值) 建议值(含 50% 的缓冲)
每分钟的 Query Agent Engine 数 (aiplatform.googleapis.com/reasoning_engine_service_query_requests) 您的代理每分钟可接听的 querystream_query 通话总数。 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750
附加每分钟会话事件数 (aiplatform.googleapis.com/session_event_append_requests)

所有正在进行的会话中的对话轮数或事件数。 单个查询可以生成链式会话事件,例如:

  1. 调用 LLM。
  2. LLM 回答:使用工具。
  3. 执行工具。
  4. 使用工具响应调用 LLM。
  5. LLM 给出最终回答。
500 QPM * 12 events/req = 6,000 6,000 * 1.5 = 9,000
每分钟会话写入次数 (aiplatform.googleapis.com/session_write_requests) 创建或更新会话资源的比率。此值通常小于或等于查询速率。 通常 <= 峰值 QPM (500) 通常 <= 查询配额 (750)

申请配额调整

如需调整大多数配额,请使用 Google Cloud 控制台。如需了解详情,请参阅申请配额调整

Vertex AI Agent Engine 快速模式配额

Vertex AI 免费层级快速模式用户可免费使用 Vertex AI Agent Engine 服务,但需遵守以下配额。如需详细了解免费层级和快速模式,请参阅 Vertex AI 快速模式概览 以下配额适用于每个区域中给定快速模式项目的 Vertex AI Agent Engine
说明 Quota 指标
Vertex AI Agent Engine 资源数上限 10 aiplatform.googleapis.com/reasoning_engine_service_entities
每分钟创建、删除或更新的 Vertex AI Agent Engine 资源数 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
每分钟 QueryStreamQuery Vertex AI Agent Engine 数 10 aiplatform.googleapis.com/reasoning_engine_service_query_requests
每分钟使用 BidiStreamQuery API 的并发实时双向连接数 1 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
每分钟创建、删除或更新的 Vertex AI Agent Engine 会话数 10 aiplatform.googleapis.com/session_write_requests
每分钟向 Vertex AI Agent Engine 会话附加的事件数 30 aiplatform.googleapis.com/session_event_append_requests
每分钟创建、删除或更新的 Vertex AI Agent Engine 内存资源数 10 aiplatform.googleapis.com/memory_bank_write_requests
每分钟从 Vertex AI Agent Engine 记忆库中获取、列出或检索的次数 10 aiplatform.googleapis.com/memory_bank_read_requests