處理量配額

Vertex AI 提供多種管理生成式 AI 模型處理量的方式，協助您兼顧成本和效能。本文將說明可用的選項：彈性的即付即用模式，以及可預測輸送量的預留容量。

受管理模型配額

Vertex AI 提供兩種方式，可管理 Vertex AI 上受管理生成式 AI 模型的輸送量，讓您兼顧成本、彈性和效能。您可以採用彈性的即付即用模式，或是以固定價格預留特定量的輸送量。

即付即用

在預設的隨用隨付模型中，Vertex AI 會使用動態共用配額，而是根據即時可用性和需求，動態分配大型共用資源集區的資源。

這個模型可讓工作負載在資源可用時使用更多資源。如果收到 resource exhausted (429) 錯誤，表示共用集區暫時有大量使用者同時提出要求，您應在應用程式中實作重試機制，因為可用性可能會快速變更。

預留容量

對於需要穩定效能和可預測成本的重要生產應用程式，您可以採用佈建輸送量。「佈建的處理量」是費率固定的訂閱服務，可為所選地區的模型預留特定處理量。

生成式 AI 服務的配額

Vertex AI 提供一系列生成式 AI 服務，例如模型微調、模型評估、批次預測、嵌入和檢索增強生成。如要進一步瞭解這些服務的配額，請參閱「Vertex AI 的生成式 AI 配額和系統限制」。

後續步驟

進一步瞭解動態共用配額。
進一步瞭解已佈建的處理量。
進一步瞭解生成式 AI 配額和系統限制。
進一步瞭解 Google Cloud 配額。

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。

上次更新時間：2026-01-22 (世界標準時間)。