配額與系統限制

這份文件列出 Vertex AI Agent Builder 適用的配額和系統限制。

  • 「配額」有預設值,但通常可以申請調整。
  • 「系統限制」是固定值,無法變更。

Google Cloud 使用配額來確保公平性,並減少資源使用量和可用性出現劇烈波動的情況。配額會限制 Google Cloud 專案可使用的Google Cloud 資源數量,且適用多種資源類型,包括軟硬體和網路元件。舉例來說,配額可能會限制能向特定服務發出的 API 呼叫次數、專案可同時使用的負載平衡器數量,或是可建立的專案數量。配額機制可防止服務過載,保障Google Cloud 使用者社群的權益,同時也有助於您管理自己的 Google Cloud 資源。

Cloud Quotas 系統具備以下功能:

如果嘗試使用的資源量超過配額限制,系統通常會阻擋該資源的存取活動,您所執行的工作就會失敗。

配額的計算通常是以 Google Cloud 專案為基準。在某個專案中使用資源,不會影響另一個專案的可用配額。在同一個 Google Cloud 專案內,所有應用程式和 IP 位址會共用配額。

詳情請參閱「Cloud Quotas 總覽」。

Vertex AI Agent Engine 配額

下列配額適用於每個區域的特定專案 Vertex AI Agent Engine
說明 配額 指標
每分鐘建立、刪除或更新 Vertex AI Agent Engine 資源 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
每分鐘建立、刪除或更新 Vertex AI Agent Engine 工作階段 100 aiplatform.googleapis.com/session_write_requests
QueryStreamQuery Vertex AI Agent Engine 每分鐘 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
每分鐘將事件附加至 Vertex AI Agent Engine 工作階段 300 aiplatform.googleapis.com/session_event_append_requests
Vertex AI Agent Engine 資源數量上限 100 aiplatform.googleapis.com/reasoning_engine_service_entities
每分鐘建立、刪除或更新 Vertex AI Agent Engine 記憶體資源 100 aiplatform.googleapis.com/memory_bank_write_requests
每分鐘從 Vertex AI Agent Engine Memory Bank 取得、列出或擷取資料 300 aiplatform.googleapis.com/memory_bank_read_requests
沙箱環境 (程式碼執行) 每分鐘的執行要求數 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
每個區域的沙箱環境 (程式碼執行) 實體 1000 aiplatform.googleapis.com/sandbox_environment_entities
每分鐘的 A2A Agent POST 要求,例如 sendMessagecancelTask 60 aiplatform.googleapis.com/a2a_agent_post_requests
每分鐘的 A2A 代理程式 get 要求,例如 getTaskgetCard 600 aiplatform.googleapis.com/a2a_agent_get_requests
每分鐘使用 BidiStreamQuery API 的並行即時雙向連線數 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

正式環境負載的配額管理

隨著流量增加,您可能需要申請提高特定 Vertex AI API 配額,避免發生 429 Resource Exhausted 錯誤。您可以主動設定執行階段提高配額,確保 Vertex AI Agent Engine 執行階段在生產環境負載下,仍能保持回應能力、擴充性和可靠性。

如要瞭解如何提升及擴充 Vertex AI Agent Engine 的效能,請參閱「提升及擴充 Vertex AI Agent Engine 執行階段效能」。

請按照下列步驟估算尖峰配額需求:

  1. 定義變數:

    • U:最多同時線上使用者人數 (例如 250 人)。

    • X:每位使用者每分鐘的平均要求數 (例如 2)。

    • Y:每個要求產生的平均工作階段事件數 (例如,涉及多個工具呼叫的複雜鏈結為 12)。

  2. 計算尖峰負載:

    • 計算每分鐘尖峰查詢次數 (QPM):U * X

    • 計算每分鐘的尖峰工作階段事件:尖峰 QPM * Y

  3. 申請配額時加入緩衝區:申請提高配額時,請在計算出的尖峰用量基礎上,加入緩衝區 (例如 50%),以處理非預期的尖峰用量。

下表顯示 Vertex AI Agent Engine 主要效能相關配額的計算方式,並使用 peak concurrent users=250average requests per user per minute=2average session events generated per request=12 這些範例變數:

配額名稱 配額說明 基本計算 (尖峰) 建議值 (含 50% 緩衝區)
每分鐘查詢 Agent Engine (aiplatform.googleapis.com/reasoning_engine_service_query_requests) 每分鐘可接聽 querystream_query 呼叫的總數。 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750
每分鐘附加工作階段事件 (aiplatform.googleapis.com/session_event_append_requests)

所有進行中工作階段的輪流次數或事件數。 單一查詢可能會在鏈結中產生多個工作階段事件,例如:

  1. 呼叫 LLM。
  2. LLM 回覆:使用工具。
  3. 執行工具。
  4. 使用工具回應呼叫 LLM。
  5. LLM 提供最終回覆。
500 QPM * 12 events/req = 6,000 6,000 * 1.5 = 9,000
每分鐘工作階段寫入次數 (aiplatform.googleapis.com/session_write_requests) 建立或更新工作階段資源的速率。這通常小於或等於查詢率。 通常 <= 最高 QPM (500) 通常 <= 查詢配額 (750)

要求調整配額

如要調整大部分配額,請使用 Google Cloud 控制台。詳情請參閱「要求調整配額」。

Vertex AI Agent Engine Express 模式配額

Vertex AI 免費層級的快捷模式使用者可免費使用 Vertex AI Agent Engine 服務,但有下列配額限制。如要進一步瞭解免費方案和快速模式,請參閱 Vertex AI 快速模式總覽 下列配額適用於每個區域的特定快速模式專案 Vertex AI Agent Engine
說明 配額 指標
Vertex AI Agent Engine 資源數量上限 10 aiplatform.googleapis.com/reasoning_engine_service_entities
每分鐘建立、刪除或更新 Vertex AI Agent Engine 資源 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
QueryStreamQuery Vertex AI Agent Engine 每分鐘 10 aiplatform.googleapis.com/reasoning_engine_service_query_requests
每分鐘使用 BidiStreamQuery API 的並行即時雙向連線數 1 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests
每分鐘建立、刪除或更新 Vertex AI Agent Engine 工作階段 10 aiplatform.googleapis.com/session_write_requests
每分鐘將事件附加至 Vertex AI Agent Engine 工作階段 30 aiplatform.googleapis.com/session_event_append_requests
每分鐘建立、刪除或更新 Vertex AI Agent Engine 記憶體資源 10 aiplatform.googleapis.com/memory_bank_write_requests
每分鐘從 Vertex AI Agent Engine Memory Bank 取得、列出或擷取資料 10 aiplatform.googleapis.com/memory_bank_read_requests