配額與系統限制

這份文件列出 Vertex AI Agent Builder 適用的配額和系統限制。

「配額」有預設值，但通常可以申請調整。
「系統限制」是固定值，無法變更。

Google Cloud 使用配額來確保公平性，並減少資源使用量和可用性出現劇烈波動的情況。配額會限制 Google Cloud 專案可使用的Google Cloud 資源數量，且適用多種資源類型，包括軟硬體和網路元件。舉例來說，配額可能會限制能向特定服務發出的 API 呼叫次數、專案可同時使用的負載平衡器數量，或是可建立的專案數量。配額機制可防止服務過載，保障Google Cloud 使用者社群的權益，同時也有助於您管理自己的 Google Cloud 資源。

Cloud Quotas 系統具備以下功能：

監控 Google Cloud 產品和服務的用量
限制這些資源的用量
提供申請調整配額值和自動調整配額的管道

如果嘗試使用的資源量超過配額限制，系統通常會阻擋該資源的存取活動，您所執行的工作就會失敗。

配額的計算通常是以 Google Cloud 專案為基準。在某個專案中使用資源，不會影響另一個專案的可用配額。在同一個 Google Cloud 專案內，所有應用程式和 IP 位址會共用配額。

詳情請參閱「Cloud Quotas 總覽」。

Vertex AI Agent Engine 配額

下列配額適用於每個區域的特定專案 Vertex AI Agent Engine：

說明	配額	指標
每分鐘建立、刪除或更新 Vertex AI Agent Engine 資源	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
每分鐘建立、刪除或更新 Vertex AI Agent Engine 工作階段	100	`aiplatform.googleapis.com/session_write_requests`
`Query` 或 `StreamQuery` Vertex AI Agent Engine 每分鐘	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
每分鐘將事件附加至 Vertex AI Agent Engine 工作階段	300	`aiplatform.googleapis.com/session_event_append_requests`
Vertex AI Agent Engine 資源數量上限	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
每分鐘建立、刪除或更新 Vertex AI Agent Engine 記憶體資源	100	`aiplatform.googleapis.com/memory_bank_write_requests`
每分鐘從 Vertex AI Agent Engine Memory Bank 取得、列出或擷取資料	300	`aiplatform.googleapis.com/memory_bank_read_requests`
沙箱環境 (程式碼執行) 每分鐘的執行要求數	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
每個區域的沙箱環境 (程式碼執行) 實體	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
沙箱環境 (程式碼執行) 每分鐘寫入要求數	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
每分鐘的 A2A 代理程式 POST 要求，例如 `sendMessage` 和 `cancelTask`	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
每分鐘的 A2A 代理程式 get 要求，例如 `getTask` 和 `getCard`	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
每分鐘使用 `BidiStreamQuery` API 的並行即時雙向連線數	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

管理正式環境工作負載的配額

隨著流量增加，您可能需要申請提高特定 Vertex AI API 配額，避免發生 429 Resource Exhausted 錯誤。您可以主動設定執行階段和提高配額，確保 Vertex AI Agent Engine 執行階段在正式環境負載下，仍能保持回應能力、可擴充性和可靠性。

如要瞭解如何最佳化及擴展 Vertex AI Agent Engine 效能，請參閱「最佳化及擴展 Vertex AI Agent Engine 執行階段效能」。

請按照下列步驟估算尖峰配額需求：

定義變數：
- U：尖峰時段的並行使用者人數 (例如 250 人)。
- X：每位使用者每分鐘的平均要求數 (例如 2)。
- Y：每個要求產生的平均工作階段事件數 (例如，涉及多個工具呼叫的複雜鏈結為 12)。
計算尖峰負載：
- 計算每分鐘尖峰查詢次數 (QPM)：U * X
- 計算每分鐘的尖峰工作階段事件數：尖峰 QPM * Y
申請配額時加入緩衝區：申請提高配額時，請在計算出的尖峰用量基礎上加入緩衝區 (例如 50%)，以因應非預期的用量暴增。

下表顯示 Vertex AI Agent Engine 主要效能相關配額的計算方式，並使用 peak concurrent users=250、average requests per user per minute=2 和 average session events generated per request=12 這些範例變數：

配額名稱配額說明基本計算 (尖峰) 建議值 (緩衝區為 50%)

每分鐘查詢 Agent Engine (aiplatform.googleapis.com/reasoning_engine_service_query_requests) 代理人每分鐘可接聽的 query 或 stream_query 呼叫總數。 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750

配額名稱	配額說明	基本計算 (尖峰)	建議值 (緩衝區為 50%)
每分鐘查詢 Agent Engine (`aiplatform.googleapis.com/reasoning_engine_service_query_requests`)	代理人每分鐘可接聽的 `query` 或 `stream_query` 呼叫總數。	`250 users * 2 req/min = 500 QPM`	`500 * 1.5 =` `750`
每分鐘附加工作階段事件 (`aiplatform.googleapis.com/session_event_append_requests`)	所有進行中工作階段的輪流次數或事件數。單一查詢可能會在鏈結中產生多個工作階段事件，例如：呼叫 LLM。 LLM 回覆：使用工具。執行工具。使用工具回應呼叫 LLM。 LLM 提供最終回覆。	`500 QPM * 12 events/req = 6,000`	`6,000 * 1.5 =` `9,000`
每分鐘工作階段寫入次數 (`aiplatform.googleapis.com/session_write_requests`)	建立或更新工作階段資源的速率。這通常小於或等於查詢率。	通常 <= 最高 QPM (`500`)	通常 <= 查詢配額 (`750`)

每分鐘附加工作階段事件 (aiplatform.googleapis.com/session_event_append_requests)

所有進行中工作階段的輪流次數或事件數。單一查詢可能會在鏈結中產生多個工作階段事件，例如：

呼叫 LLM。
LLM 回覆：使用工具。
執行工具。
使用工具回應呼叫 LLM。
LLM 提供最終回覆。

500 QPM * 12 events/req = 6,000

6,000 * 1.5 = 9,000

每分鐘工作階段寫入次數 (aiplatform.googleapis.com/session_write_requests) 建立或更新工作階段資源的速率。這通常小於或等於查詢率。通常 <= 最高 QPM (500) 通常 <= 查詢配額 (750)

要求調整配額

如要調整大部分配額，請使用 Google Cloud 控制台。詳情請參閱「要求調整配額」。

Vertex AI Agent Engine Express 模式配額

Vertex AI 免費層級快捷模式使用者可免費使用 Vertex AI Agent Engine 服務，配額如下。如要進一步瞭解免費方案和快速模式，請參閱 Vertex AI 快速模式總覽。下列配額適用於各區域的特定快速模式專案 Vertex AI Agent Engine：

說明	配額	指標
Vertex AI Agent Engine 資源數量上限	10	`aiplatform.googleapis.com/reasoning_engine_service_entities`
每分鐘建立、刪除或更新 Vertex AI Agent Engine 資源	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
`Query` 或 `StreamQuery` Vertex AI Agent Engine 每分鐘	10	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
每分鐘使用 `BidiStreamQuery` API 的並行即時雙向連線數	1	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`
每分鐘建立、刪除或更新 Vertex AI Agent Engine 工作階段	10	`aiplatform.googleapis.com/session_write_requests`
每分鐘將事件附加至 Vertex AI Agent Engine 工作階段	30	`aiplatform.googleapis.com/session_event_append_requests`
每分鐘建立、刪除或更新 Vertex AI Agent Engine 記憶體資源	10	`aiplatform.googleapis.com/memory_bank_write_requests`
每分鐘從 Vertex AI Agent Engine Memory Bank 取得、列出或擷取資料	10	`aiplatform.googleapis.com/memory_bank_read_requests`