處理量配額
透過集合功能整理內容
你可以依據偏好儲存及分類內容。
Vertex AI 提供兩種管理生成式 AI 模型輸送量的方式,可協助您在成本、彈性和效能之間取得平衡。您可以選擇彈性的即付即用模式,也可以預留固定量的輸送量,並支付固定價格。
即付即用
在預設的隨用隨付模式中,Vertex AI 會使用動態共用配額,而是根據即時可用性和需求,動態分配大型共用資源集區的資源。
這個模型可讓工作負載在資源可用時使用更多資源。
如果收到 resource exhausted
(429) 錯誤,表示共用集區暫時有許多使用者同時提出要求,您應在應用程式中實作重試機制,因為可用性可能會快速變更。
預留容量
對於需要穩定效能和可預測費用的重要生產應用程式,您可以使用佈建輸送量。「佈建的處理量」是固定費用的訂閱服務,可為所選地區的模型預留特定處理量。
後續步驟
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2025-10-19 (世界標準時間)。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["難以理解","hardToUnderstand","thumb-down"],["資訊或程式碼範例有誤","incorrectInformationOrSampleCode","thumb-down"],["缺少我需要的資訊/範例","missingTheInformationSamplesINeed","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2025-10-19 (世界標準時間)。"],[],[]]