處理量配額

Vertex AI 提供多種管理生成式 AI 模型處理量的方式,協助您兼顧成本和效能。本文將說明可用的選項:彈性的即付即用模式,以及可預測輸送量的預留容量。

受管理模型配額

Vertex AI 提供兩種方式,可管理 Vertex AI 上受管理生成式 AI 模型的輸送量,讓您兼顧成本、彈性和效能。您可以採用彈性的即付即用模式,或是以固定價格預留特定量的輸送量。

即付即用

在預設的隨用隨付模型中,Vertex AI 會使用動態共用配額,而是根據即時可用性和需求,動態分配大型共用資源集區的資源。

這個模型可讓工作負載在資源可用時使用更多資源。 如果收到 resource exhausted (429) 錯誤,表示共用集區暫時有大量使用者同時提出要求,您應在應用程式中實作重試機制,因為可用性可能會快速變更。

預留容量

對於需要穩定效能和可預測成本的重要生產應用程式,您可以採用佈建輸送量。「佈建的處理量」是費率固定的訂閱服務,可為所選地區的模型預留特定處理量。

生成式 AI 服務的配額

Vertex AI 提供一系列生成式 AI 服務,例如模型微調、模型評估、批次預測、嵌入和檢索增強生成。如要進一步瞭解這些服務的配額,請參閱「Vertex AI 的生成式 AI 配額和系統限制」。

後續步驟