這份文件列出 Vertex AI Agent Builder 適用的配額和系統限制。
- 「配額」有預設值,但通常可以申請調整。
- 「系統限制」是固定值,無法變更。
Google Cloud 使用配額來確保公平性,並減少資源使用量和可用性出現劇烈波動的情況。配額會限制 Google Cloud 專案可使用的Google Cloud 資源數量,且適用多種資源類型,包括軟硬體和網路元件。舉例來說,配額可能會限制能向特定服務發出的 API 呼叫次數、專案可同時使用的負載平衡器數量,或是可建立的專案數量。配額機制可防止服務過載,保障Google Cloud 使用者社群的權益,同時也有助於您管理自己的 Google Cloud 資源。
Cloud Quotas 系統具備以下功能:
如果嘗試使用的資源量超過配額限制,系統通常會阻擋該資源的存取活動,您所執行的工作就會失敗。
配額的計算通常是以 Google Cloud 專案為基準。在某個專案中使用資源,不會影響另一個專案的可用配額。在同一個 Google Cloud 專案內,所有應用程式和 IP 位址會共用配額。
詳情請參閱「Cloud Quotas 總覽」。
Vertex AI Agent Engine 配額
下列配額適用於每個區域的特定專案 Vertex AI Agent Engine:| 說明 | 配額 | 指標 |
|---|---|---|
| 每分鐘建立、刪除或更新 Vertex AI Agent Engine 資源 | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| 每分鐘建立、刪除或更新 Vertex AI Agent Engine 工作階段 | 100 | aiplatform.googleapis.com/session_write_requests |
Query 或 StreamQuery Vertex AI Agent Engine 每分鐘 |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| 每分鐘將事件附加至 Vertex AI Agent Engine 工作階段 | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Vertex AI Agent Engine 資源數量上限 | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| 每分鐘建立、刪除或更新 Vertex AI Agent Engine 記憶體資源 | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| 每分鐘從 Vertex AI Agent Engine Memory Bank 取得、列出或擷取資料 | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| 沙箱環境 (程式碼執行) 每分鐘的執行要求數 | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| 每個區域的沙箱環境 (程式碼執行) 實體 | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
每分鐘的 A2A Agent POST 要求,例如 sendMessage 和 cancelTask |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
每分鐘的 A2A 代理程式 get 要求,例如 getTask 和 getCard |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
每分鐘使用 BidiStreamQuery API 的並行即時雙向連線數 |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
正式環境負載的配額管理
隨著流量增加,您可能需要申請提高特定 Vertex AI API 配額,避免發生 429 Resource Exhausted 錯誤。您可以主動設定執行階段和提高配額,確保 Vertex AI Agent Engine 執行階段在生產環境負載下,仍能保持回應能力、擴充性和可靠性。
如要瞭解如何提升及擴充 Vertex AI Agent Engine 的效能,請參閱「提升及擴充 Vertex AI Agent Engine 執行階段效能」。
請按照下列步驟估算尖峰配額需求:
定義變數:
U:最多同時線上使用者人數 (例如 250 人)。X:每位使用者每分鐘的平均要求數 (例如 2)。Y:每個要求產生的平均工作階段事件數 (例如,涉及多個工具呼叫的複雜鏈結為 12)。
計算尖峰負載:
計算每分鐘尖峰查詢次數 (QPM):U * X
計算每分鐘的尖峰工作階段事件:尖峰 QPM * Y
申請配額時加入緩衝區:申請提高配額時,請在計算出的尖峰用量基礎上,加入緩衝區 (例如 50%),以處理非預期的尖峰用量。
下表顯示 Vertex AI Agent Engine 主要效能相關配額的計算方式,並使用 peak concurrent users=250、average requests per user per minute=2 和 average session events generated
per request=12 這些範例變數:
| 配額名稱 | 配額說明 | 基本計算 (尖峰) | 建議值 (含 50% 緩衝區) |
|---|---|---|---|
每分鐘查詢 Agent Engine (aiplatform.googleapis.com/reasoning_engine_service_query_requests) |
每分鐘可接聽 query 或 stream_query 呼叫的總數。 |
250 users * 2 req/min = 500 QPM |
500 * 1.5 = 750 |
每分鐘附加工作階段事件 (aiplatform.googleapis.com/session_event_append_requests) |
所有進行中工作階段的輪流次數或事件數。 單一查詢可能會在鏈結中產生多個工作階段事件,例如:
|
500 QPM * 12 events/req = 6,000 |
6,000 * 1.5 = 9,000 |
每分鐘工作階段寫入次數 (aiplatform.googleapis.com/session_write_requests) |
建立或更新工作階段資源的速率。這通常小於或等於查詢率。 | 通常 <= 最高 QPM (500) |
通常 <= 查詢配額 (750) |
要求調整配額
如要調整大部分配額,請使用 Google Cloud 控制台。詳情請參閱「要求調整配額」。
Vertex AI Agent Engine Express 模式配額
Vertex AI 免費層級的快捷模式使用者可免費使用 Vertex AI Agent Engine 服務,但有下列配額限制。如要進一步瞭解免費方案和快速模式,請參閱 Vertex AI 快速模式總覽。 下列配額適用於每個區域的特定快速模式專案 Vertex AI Agent Engine:| 說明 | 配額 | 指標 |
|---|---|---|
| Vertex AI Agent Engine 資源數量上限 | 10 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| 每分鐘建立、刪除或更新 Vertex AI Agent Engine 資源 | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
Query 或 StreamQuery Vertex AI Agent Engine 每分鐘 |
10 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
每分鐘使用 BidiStreamQuery API 的並行即時雙向連線數 |
1 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
| 每分鐘建立、刪除或更新 Vertex AI Agent Engine 工作階段 | 10 | aiplatform.googleapis.com/session_write_requests |
| 每分鐘將事件附加至 Vertex AI Agent Engine 工作階段 | 30 | aiplatform.googleapis.com/session_event_append_requests |
| 每分鐘建立、刪除或更新 Vertex AI Agent Engine 記憶體資源 | 10 | aiplatform.googleapis.com/memory_bank_write_requests |
| 每分鐘從 Vertex AI Agent Engine Memory Bank 取得、列出或擷取資料 | 10 | aiplatform.googleapis.com/memory_bank_read_requests |