使用生成模型時,Vertex AI 提供多種選項,可取得及使用運算資源。這些消耗量選項可滿足任何工作負載的需求,從初始原型設計到實際工作環境部署作業,都能派上用場。選取合適的選項,對於兼顧效能、可靠性和成本至關重要。
本指南詳細說明可用的消耗量選項,協助您根據特定工作負載需求對應這些選項,並提供最佳化延遲時間、可用性和成本的策略。
用量方案
Vertex AI 提供五種消費選項,可因應不同的流量模式和業務需求:
| 用量方案 | 說明 | 適用情況 | 定價 | |
|---|---|---|---|---|
| 佈建輸送量 | 在承諾期間內提供保證處理量 | 需要服務水準協議的重要、穩定狀態、持續運作工作負載 | 承諾方案 (提供 1 週、1 個月、3 個月和 1 年方案) | |
| 即付即用 | 標準 | 彈性的即付即用選項,無須預繳費用 | 適用於日常用途,可因應流量需求變化 | 每詞元 (高費率) |
| 優先順序 | 透過優先處理程序提高可靠性,同時維持隨用隨付的彈性 | 重要工作負載,需要比標準隨用隨付方案更高的可靠性和限制 | 每權杖 (標準費率) | |
| Flex | 適用於可容許延遲的工作負載,且符合成本效益 | 可容許較慢的回應時間和較高的節流,但價格較低的作業 | 每單位權杖 (折扣費率) | |
| 批次推論 | 以最具成本效益的方式處理大量非同步作業 | 需要較長時間才能取得結果的大型工作 | 每單位權杖 (折扣費率) | |
如需定價資訊,請參閱定價頁面。
為工作負載選擇合適的選項
容易受到延遲影響的工作負載
機構在選擇合適的用量模式時,往往需要在可靠性和成本之間取捨。雖然「已佈建的處理量」提供最高的可靠性,但如果流量突然暴增,可能會導致資源使用率不足。同樣地,PayGo 方案的彈性最大,但無法保證服務品質。以下章節說明如何妥善結合這些機制,以達到最佳結果:
- 使用已佈建處理量涵蓋基準流量。這有助於提高預留容量的使用率,在節省費用的同時,確保核心流量的可靠性。如要達成這個目標,請執行下列操作:
- 分析以分鐘或秒為單位的流量模式。
- 判斷要由佈建輸送量涵蓋的流量。涵蓋優先順序最高的流量。
- 使用標準或優先 PayGo 管理溢出流量:根據預設,超出佈建輸送量基準的流量 (稱為溢出流量) 會由標準 PayGo 處理。如果發現要求超過 TPM 上限時,成效差異較大,可以透過最佳化來減輕影響。優先隨用隨付可讓您以較高的價格獲得可靠的成效,但須遵守升速限制。
非同步大量工作負載
如果積壓大量要求 (例如有數百萬份文件需要摘要),且不擔心延遲時間,建議您將要求彙整到 JSON 檔案或試算表中,然後提交批次工作。這項功能適用於圖片標記、大量文件處理,或對歷來資料進行情緒分析等用途。
這個選項最符合成本效益,適合大量推論作業。
對延遲不敏感,且預算有限的工作負載
如果您需要處理要求 (例如資料註解或目錄建構),且應用程式可以等待回應,但降低成本是首要考量,則應使用 Flex PayGo。彈性隨用隨付方案可降低每個權杖的價格,適用於不需要立即執行的要求。這個選項適用於離線分析、資料註解、建立產品目錄或翻譯等用途。
最佳化策略
選取耗用量模式後,請使用下列策略進一步最佳化延遲時間、可用性和成本。
延遲時間
如要盡量縮短延遲時間,請採取下列做法:
- 根據用途選取合適的模型:Vertex AI 提供多種模型,功能和效能特徵各不相同。請仔細評估您對速度和輸出品質的要求,然後選擇最符合用途的模型。如要查看可用模型清單,請參閱 Model Garden。
- 縮減提示大小:製作清楚簡潔的提示,有效傳達意圖,避免不必要的細節或重複內容。縮短提示可縮短第一個權杖的生成時間。
- 限制輸出權杖:
- 使用系統指令控制回覆長度。指示模型提供簡潔的答案,或將輸出內容限制在特定句數或段落數。這項策略可縮短取得最後一個權杖的時間。
- 設定限制來限制輸出內容。使用
max_output_tokens參數設定生成的回覆長度上限,避免輸出內容過長。延遲時間與生成的權杖數量成正比,因此生成的權杖越少,回覆速度就越快。不過請注意,這可能會導致回覆在句子中途截斷。
- 使用佈建的處理量:如要獲得最穩定的效能,請使用佈建的處理量。這樣就能消除「冷啟動」或排隊造成的變異性,這類情況偶爾會在高流量期間發生於 PayGo 模型中。
- 限制思考預算:如果您使用的模型支援思考,可以減少思考預算,進而縮短延遲時間。限制模型在回答問題前生成的內部推理權杖,可縮短整體處理時間。不過,您必須確保預算充足,足以應付工作複雜度,以免答案品質下降。
可用性
如要針對可用性進行最佳化,請按照下列步驟操作:
- 執行重試邏輯:針對 429 錯誤執行指數輪詢,特別是使用標準隨用隨付方案時。
- 採用混合式實作方式:如先前章節所述,請勿僅依賴 PayGo 處理重要的正式版應用程式。結合佈建輸送量和隨用隨付,可提供最高保障,避免資源耗盡 (429 錯誤)。
- 管理佈建輸送量配額:定期監控 TPM 消耗量,並在預期流量事件 (例如產品發布) 發生前增加 PT GSU。您可以使用快訊政策自動執行監控作業。
- 使用全域端點:使用全域端點可運用 Google 的全域容量集區,盡量減少因區域容量限制而導致的節流。
- 盡可能減少流量尖峰,讓流量趨於平緩:隨用隨付流量費率 (TPM) 越高,節流率通常也越高。
- 將流量轉移至離峰時段:模型用量總體而言通常會遵循晝夜模式。將工作負載轉移到離峰時段或週末,可大幅提升可用性。
費用
如要盡量降低成本,請按照下列步驟操作:
- 為佈建的輸送量使用適當大小:一般來說,您不需要在尖峰時段佈建 PT,這樣可降低整體 PT 使用率,並提高總費用。根據風險容許度,設定特定百分位數的流量,其餘流量則交由 Standard PayGo 和 Priority PayGo 處理。
- 購買長期佈建輸送量:1 年期佈建輸送量比 1 個月期佈建輸送量便宜 26%,可大幅節省費用。您隨時可以在不同模型之間切換已購買的佈建輸送量 GSU,充分運用最新模型的功能。
- 使用 Flex PayGo:找出管道中對延遲不敏感的部分 (例如背景摘要、資料擷取),並移至 Flex,即可節省約 50% 的費用。
- 使用批次處理:對於處理大型資料集等非同步工作,批次處理的費用比使用標準隨用隨付方案依序處理要求便宜許多 (50%)。
- 使用脈絡快取功能:脈絡快取有助於減少含有重複內容的要求成本和延遲時間。在提示開頭放置大型且常見的內容,並在短時間內傳送具有類似前置字元的要求,即可提高快取命中率。
- 選取價格較低的型號:如果您的用途允許,請使用較小的模型,例如 Flash-Lite。這類模型每個權杖的價格比功能齊全的重型模型低。