用量方案

使用生成模型時,Gemini Enterprise Agent Platform 提供多種選項,可取得及使用運算資源。這些用量選項可滿足任何工作負載的需求,從初步原型設計到實際工作環境部署作業,都能派上用場。選取合適的選項,是兼顧效能、可靠性和成本的關鍵。

本指南詳細說明可用的消耗量選項,協助您根據特定工作負載需求對應這些選項,並提供最佳化延遲時間、可用性和成本的策略。

用量方案

Gemini Enterprise Agent Platform 提供五種用量方案,可因應不同的流量模式和業務需求:

計費方案 說明 適用情況 定價
佈建輸送量 在承諾期間內提供保證處理量 需要服務水準協議的重要、穩定狀態、持續運作工作負載 承諾使用價格 (提供 1 週、1 個月、3 個月和 1 年方案)
即付即用 標準 彈性的按用量計費選項,無須預繳費用 適用於日常用途,可因應流量需求變化 每個權杖 (標準費率)
Priority 透過優先處理程序提高可靠性,同時維持隨用隨付的彈性 重要工作負載,需要比標準 PayGo 更高的可靠性和限制 每詞元 (高費率)
Flex 適用於容許延遲的工作負載,且符合成本效益 可容許較慢的回應時間和較高的節流,但價格較低的作業 每個權杖 (折扣費率)
批次推論 以最具成本效益的方式處理大量非同步作業 需要較長時間才能取得結果的大規模工作 每個權杖 (折扣費率)

如需定價資訊,請參閱定價頁面

為工作負載選擇合適的選項

以下各節將提供指引,協助您根據工作負載的具體需求和特性,選取最合適的計費方案。

容易受到延遲影響的工作負載

選擇合適的計費模式時,機構通常必須在可靠性和成本之間取捨。佈建輸送量的可靠性最高,但如果流量突然暴增,可能會導致資源使用率不足。同樣地,「隨用隨付」模式的彈性最大,但無法保證服務品質。以下章節說明如何妥善結合這些機制,達到最佳成效:

  1. 使用已佈建處理量涵蓋基準流量。這有助於提高預留容量的使用率,在經濟實惠的同時,確保核心流量的可靠性。如要達成這個目標,請執行下列操作:
    • 分析每分鐘或每秒的流量模式。
    • 判斷要以佈建輸送量涵蓋的流量。涵蓋優先順序最高的流量。
  2. 使用標準或優先隨用隨付方案管理溢出流量:根據預設,超過佈建輸送量基準的流量 (稱為溢出流量) 會由標準隨用隨付方案處理。如果發現超過每分鐘交易數上限的要求效能差異較大,可以透過最佳化來縮小差異。優先隨用隨付方案可讓您以較高的價格獲得可靠的效能,但須遵守升級限制。

非同步大量工作負載

如果積壓大量要求 (例如有數百萬份文件需要摘要),且不擔心延遲時間,建議您將要求整理成 JSON 檔案或試算表,然後提交批次工作。這項功能適用於圖片標籤、大量文件處理或歷來資料情緒分析等用途。

這是大量推論作業最具成本效益的選擇。

對延遲不敏感,且預算有限的工作負載

如果需要處理應用程式可等待回應的要求,但降低成本是首要考量,則應使用 Flex PayGo。對於不需要立即執行的要求,Flex PayGo 可降低每權杖價格。這個選項適用於離線分析、資料註解、建立產品目錄或翻譯等用途。

最佳化策略

選取計費模式後,請使用下列策略進一步調整延遲時間、可用性和成本。

延遲時間

建構互動式應用程式時,延遲時間對使用者體驗至關重要。延遲時間是指模型處理輸入提示並生成相應輸出回覆所需的時間。使用模型檢查延遲時間時,請注意下列事項:

  • 第一個詞元生成時間 (TTFT):模型收到提示後,生成第一個回覆詞元所需的時間。TTFT 對於串流應用程式尤其重要,因為這類應用程式需要提供即時回饋。
  • 最後一個權杖的時間 (TTLT):模型處理提示並生成回覆的總時間。

如要盡量縮短延遲時間,請採取下列做法:

  • 為您的用途選取合適的模型:Gemini Enterprise Agent Platform 提供多種模型,功能和效能特徵各不相同。請仔細評估您對速度和輸出品質的要求,然後選擇最符合用途的模型。如要查看可用模型清單,請參閱 Model Garden
  • 縮減提示大小:製作簡潔明瞭的提示,有效傳達意圖,避免不必要的細節或重複內容。提示越短,產生第一個權杖所需的時間就越短。
  • 限制輸出權杖
    • 使用系統指令控制回覆長度。指示模型提供簡潔的答案,或將輸出內容限制在特定句數或段落數。這項策略可縮短最後一個權杖的產生時間。
    • 設定限制來限制輸出內容。使用 max_output_tokens 參數設定生成回覆的長度上限, 避免輸出內容過長。延遲時間與生成的權杖數量成正比,因此生成的權杖越少,回覆速度就越快。不過請注意,這可能會導致回覆在句子中途截斷。
  • 使用佈建輸送量:如要獲得最穩定的效能,請使用佈建輸送量。這樣可避免「冷啟動」或排隊等候造成變異,這類情況偶爾會在高流量期間的 PayGo 模型中發生。
  • 限制思考預算:如果您使用的模型支援「思考」,可以減少思考預算,進而縮短延遲時間。限制模型在回答問題前生成的內部推論權杖,即可縮短整體處理時間。不過,您必須確保預算足以應付工作複雜度,以免答案品質下降。
  • 使用串流功能回覆串流功能可提升回應速度,打造互動性更高的使用者體驗。啟用串流功能後,模型會在生成完整輸出內容前開始傳送回覆。這項功能可即時處理輸出內容,方便您立即更新使用者介面,並執行其他並行工作。

可用性

如要針對可用性進行最佳化,請按照下列步驟操作:

  • 執行重試邏輯:針對 429 錯誤執行指數輪詢,特別是使用標準隨用隨付方案時。
  • 採用混合式實作方式:如「為工作負載選擇合適的選項」一文所述,請勿只依賴 PayGo 執行重要的正式版應用程式。結合佈建輸送量和隨用隨付,可提供最高程度的資源耗盡 (429 錯誤) 保證。
  • 管理佈建輸送量配額:定期監控 TPM 用量,並在預期流量事件 (例如產品發布) 發生前增加 PT GSU。您可以使用快訊政策自動執行監控作業。
  • 使用全域端點:使用全域端點,運用 Google 的全域容量集區,盡量減少因區域容量限制而導致的節流。
  • 盡可能平緩流量,減少尖峰流量:隨用隨付流量費率 (TPM) 越高,節流率就越高。
  • 將流量轉移至離峰時段:模型用量通常會呈現晝夜模式。將工作負載轉移到離峰時段或週末,可大幅提升可用性。

費用

如要盡量降低成本,請採取下列做法:

  • 適當調整佈建輸送量:一般來說,您不需要佈建 PT 來因應尖峰需求。為尖峰需求量佈建資源會降低整體使用率,並提高成本。根據您的風險容許度,涵蓋特定百分位數的流量,其餘流量則交由 Standard PayGo 和 Priority PayGo 處理。
  • 購買長期佈建輸送量:與 1 個月的佈建輸送量相比,1 年期的佈建輸送量承諾可享 74 折優惠,大幅節省費用。您隨時可以變更與所購佈建輸送量 GSU 相關聯的模型,充分運用最新模型功能。
  • 使用 Flex PayGo:找出管道中對延遲不敏感的部分 (例如背景摘要、資料擷取),並移至 Flex PayGo,即可節省約 50% 的費用。
  • 使用批次處理:對於處理大型資料集等非同步工作,批次處理的費用比使用標準隨用隨付方案依序處理要求便宜許多 (50%)。
  • 使用脈絡快取脈絡快取有助於減少含有重複內容的要求成本和延遲時間。在提示開頭放置大量常見內容,並在短時間內傳送具有類似前置字元的要求,即可提高快取命中率。
  • 選用價格較低的模型:如果您的用途允許,請使用較小的模型,例如 Flash-Lite。這類模型每權杖的價格比功能齊全的重型模型低。