Vertex AI 提供多種管理生成式 AI 模型處理量的方式,協助您兼顧成本和效能。本文將說明可用的選項:彈性的即付即用模式,以及可預測輸送量的預留容量。
受管理模型配額
Vertex AI 提供兩種方式,可管理 Vertex AI 上受管理生成式 AI 模型的輸送量,讓您兼顧成本、彈性和效能。您可以採用彈性的即付即用模式,或是以固定價格預留特定量的輸送量。
即付即用
在預設的隨用隨付模型中,Vertex AI 會使用動態共用配額,而是根據即時可用性和需求,動態分配大型共用資源集區的資源。
這個模型可讓工作負載在資源可用時使用更多資源。
如果收到 resource exhausted (429) 錯誤,表示共用集區暫時有大量使用者同時提出要求,您應在應用程式中實作重試機制,因為可用性可能會快速變更。
預留容量
對於需要穩定效能和可預測成本的重要生產應用程式,您可以採用佈建輸送量。「佈建的處理量」是費率固定的訂閱服務,可為所選地區的模型預留特定處理量。
生成式 AI 服務的配額
Vertex AI 提供一系列生成式 AI 服務,例如模型微調、模型評估、批次預測、嵌入和檢索增強生成。如要進一步瞭解這些服務的配額,請參閱「Vertex AI 的生成式 AI 配額和系統限制」。
後續步驟
- 進一步瞭解動態共用配額。
- 進一步瞭解已佈建的處理量。
- 進一步瞭解生成式 AI 配額和系統限制。
- 進一步瞭解 Google Cloud 配額。