標準即付即用

標準隨用隨付 (標準 PayGo) 是一種消費選項,可供使用 Vertex AI 的全套生成式 AI 模型,包括 Gemini 和 Imagen on Vertex AI 模型系列。標準隨用隨付方案讓您只需要為耗用的資源付費,無須預付任何費用。為可擴充的工作負載提供更可預測的效能,標準隨用隨付方案採用用量等級制度。Vertex AI 會根據貴機構在過去 30 天內,於符合資格的 Vertex AI 服務上的總支出,動態調整基準處理量。隨著貴機構的支出增加,系統會自動將其升級至較高的級別,提供更多共用資源和更高的成效門檻。

用量層級和處理量

每個標準隨用隨付用量層級都旨在提供以每分鐘權杖數 (TPM) 衡量的基準輸送量,做為貴機構流量的可預測效能下限。輸送量限制是以傳送至全域端點的要求為準。建議使用全域端點,因為這樣可以存取更大的多區域輸送量容量集區,並將要求轉送至可用性最高的地區,盡可能提升效能。

您的流量不會嚴格限制在基準輸送量上限。 Vertex AI 會盡量讓流量超出這個限制。不過,在 Vertex AI 平台需求量較高的時段,這類過多的爆量流量可能會導致效能變異性較高。為提升效能並盡可能減少收到這類錯誤,最佳做法是盡量平均分配每分鐘的流量。避免在第二層尖峰時段傳送大量要求。即使每分鐘平均用量低於上限,流量突然暴增仍可能導致節流。更平均地分配 API 呼叫,有助於系統預測負載並加以管理,進而提升整體效能。

標準隨用隨付方案提供下列等級:

型號系列 級別 顧客支出 (30 天) 流量 TPM (機構層級)
Gemini Pro 模型 級別 1 $10 至 $250 美元 500,000
級別 2 $250 至 $2,000 美元 1,000,000
第 3 級 > $2000 2,000,000
Gemini Flash 和 Flash-Lite 模型 級別 1 $10 至 $250 美元 2,000,000
級別 2 $250 至 $2,000 美元 4,000,000
第 3 級 > $2000 10,000,000

請注意,模型系列顯示的輸送量上限會分別套用至該系列中的每個模型。舉例來說,第 3 級的客戶使用 Gemini 2.5 Flash 時,基準輸送量為 10,000,000 TPM,使用 Gemini 2.0 Flash 時,基準輸送量則為 10,000,000 TPM。使用其中一項限制不會影響其他模型的輸送量。各層級沒有個別的每分鐘要求數 (RPM) 限制。不過,每個模型每個區域的系統限制為每分鐘 30,000 個要求。如果 Gemini 請求包含多模態輸入內容,則須遵守相應的系統速率限制,包括圖片音訊影片文件

如果企業用例需要較高的處理量,請與帳戶團隊聯絡,進一步瞭解自訂層級。

用量層級的運作方式

系統會根據貴機構在過去 30 天內,符合資格的 Vertex AI 服務總支出,自動決定使用層級。隨著機構的支出增加,系統會將您升級至總處理量更高的層級。

支出計算

這項計算涵蓋各種服務,包括所有 Gemini 模型系列的預測,以及 Vertex AI CPU、GPU 和 TPU 執行個體,還有以承諾為基礎的 SKU,例如佈建輸送量。

按一下即可進一步瞭解支出計算中包含的 SKU。

下表列出計入總支出的 Google Cloud SKU 類別。

類別 內含 SKU 的說明
Gemini 模型 所有 Gemini 模型系列 (例如 2.0、2.5、3.0 (Pro、Flash 和 Lite 版本) 的預測功能,適用於所有模態 (文字、圖像、音訊、影片),包括批次、長脈絡、微調和「思考」變體
Gemini 模型功能 所有相關的 Gemini SKU,適用於所有模式和模型版本,包括快取、快取儲存空間和優先順序層級等功能
Vertex AI CPU 所有以 CPU 為基礎的執行個體系列 (例如 C2、 C3、E2、N1、N2 和這些系列的變體)
Vertex AI GPU 在所有 NVIDIA GPU 加速執行個體上進行線上和批次預測 (例如 A100、H100、H200、B200、L4、T4、V100 和 RTX 系列)
Vertex AI TPU 在所有以 TPU 為基礎的執行個體上進行線上和批次預測 (例如 TPU-v5e、v6e)
管理與費用 與各種 Vertex AI 預測執行個體相關的所有「管理費」SKU
佈建輸送量 所有以承諾為準的佈建處理量 SKU
其他服務 專業服務,例如「LLM Grounding for Gemini... with Google Search tool」

確認用量層級

如要驗證貴機構的使用層級,請前往 Google Cloud 控制台的 Vertex AI 資訊主頁。

前往 Vertex AI 資訊主頁

驗證支出

如要查看 Vertex AI 支出,請前往Google Cloud 控制台的 Cloud Billing 頁面。請注意,支出是在機構層級彙整。

前往 Cloud Billing

資源用盡 (429) 錯誤

如果收到 429 錯誤,並不代表您已達到固定配額。這表示特定共用資源暫時出現高爭用情形。建議您實作指數輪詢重試策略來處理這些錯誤,因為這個動態環境的可用性可能會快速變更。除了重試策略,我們也建議使用全域端點。與地區端點 (例如 us-central1) 不同,全域端點會動態將要求傳送至當時可用容量最多的區域。這可讓應用程式存取更大的多區域共用容量集區,大幅提高爆量成功率,並降低發生 429 錯誤的可能性。

為獲得最佳成效,請搭配使用全域端點和流量平滑化功能。 請避免在尖峰時段傳送要求,因為即使每分鐘的平均用量在基準輸送量限制內,瞬間流量過高仍可能導致節流。更平均地分配 API 呼叫,有助於系統預測負載並提升整體效能。如要進一步瞭解如何處理資源耗盡錯誤,請參閱「處理 429 錯誤的指南」和「錯誤代碼 429」。

支援的模型

下列正式發布 (GA) 的 Gemini 模型及其監督式微調模型支援標準隨用隨付方案 (含用量層級)

下列 GA Gemini 模型和監督式微調模型也支援標準隨用隨付方案,但用量層級不適用於這些模型:

請注意,這些層級不適用於預先發布模型。如需最準確的最新資訊,請參閱各模型的專屬官方說明文件。

監控輸送量和效能

如要監控貴機構的即時權杖用量,請前往 Cloud Monitoring 的 Metrics Explorer。

前往「Metrics Explorer」

如要進一步瞭解如何監控模型端點流量,請參閱「監控模型」。

請注意,用量級別適用於機構層級。如要瞭解如何設定可觀測性範圍,以便繪製機構內多項專案的輸送量圖表,請參閱「設定可觀測性範圍,以便查詢多項專案」。

後續步驟