Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

用量方案

使用生成模型時，Gemini Enterprise Agent Platform 提供多種選項，可取得及使用運算資源。這些用量選項可滿足任何工作負載的需求，從初步原型設計到實際工作環境部署作業，都能派上用場。選取合適的選項，是兼顧效能、可靠性和成本的關鍵。

本指南詳細說明可用的消耗量選項，協助您根據特定工作負載需求對應這些選項，並提供最佳化延遲時間、可用性和成本的策略。

用量方案

Gemini Enterprise Agent Platform 提供五種用量方案，可因應不同的流量模式和業務需求：

計費方案		說明	適用情況	定價
佈建輸送量		在承諾期間內提供保證處理量	需要服務水準協議的重要、穩定狀態、持續運作工作負載	承諾使用價格 (提供 1 週、1 個月、3 個月和 1 年方案)
即付即用	標準	彈性的按用量計費選項，無須預繳費用	適用於日常用途，可因應流量需求變化	每個權杖 (標準費率)
	Priority	透過優先處理程序提高可靠性，同時維持隨用隨付的彈性	重要工作負載，需要比標準 PayGo 更高的可靠性和限制	每詞元 (高費率)
	Flex	適用於容許延遲的工作負載，且符合成本效益	可容許較慢的回應時間和較高的節流，但價格較低的作業	每個權杖 (折扣費率)
批次推論		以最具成本效益的方式處理大量非同步作業	需要較長時間才能取得結果的大規模工作	每個權杖 (折扣費率)

如需定價資訊，請參閱定價頁面。

為工作負載選擇合適的選項

以下各節將提供指引，協助您根據工作負載的具體需求和特性，選取最合適的計費方案。

容易受到延遲影響的工作負載

選擇合適的計費模式時，機構通常必須在可靠性和成本之間取捨。佈建輸送量的可靠性最高，但如果流量突然暴增，可能會導致資源使用率不足。同樣地，「隨用隨付」模式的彈性最大，但無法保證服務品質。以下章節說明如何妥善結合這些機制，達到最佳成效：

使用已佈建處理量涵蓋基準流量。這有助於提高預留容量的使用率，在經濟實惠的同時，確保核心流量的可靠性。如要達成這個目標，請執行下列操作：
- 分析每分鐘或每秒的流量模式。
- 判斷要以佈建輸送量涵蓋的流量。涵蓋優先順序最高的流量。
使用標準或優先隨用隨付方案管理溢出流量：根據預設，超過佈建輸送量基準的流量 (稱為溢出流量) 會由標準隨用隨付方案處理。如果發現超過每分鐘交易數上限的要求效能差異較大，可以透過最佳化來縮小差異。優先隨用隨付方案可讓您以較高的價格獲得可靠的效能，但須遵守升級限制。

非同步大量工作負載

如果積壓大量要求 (例如有數百萬份文件需要摘要)，且不擔心延遲時間，建議您將要求整理成 JSON 檔案或試算表，然後提交批次工作。這項功能適用於圖片標籤、大量文件處理或歷來資料情緒分析等用途。

這是大量推論作業最具成本效益的選擇。

對延遲不敏感，且預算有限的工作負載

如果需要處理應用程式可等待回應的要求，但降低成本是首要考量，則應使用 Flex PayGo。對於不需要立即執行的要求，Flex PayGo 可降低每權杖價格。這個選項適用於離線分析、資料註解、建立產品目錄或翻譯等用途。

最佳化策略

選取計費模式後，請使用下列策略進一步調整延遲時間、可用性和成本。

延遲時間

建構互動式應用程式時，延遲時間對使用者體驗至關重要。延遲時間是指模型處理輸入提示並生成相應輸出回覆所需的時間。使用模型檢查延遲時間時，請注意下列事項：

第一個詞元生成時間 (TTFT)：模型收到提示後，生成第一個回覆詞元所需的時間。TTFT 對於串流應用程式尤其重要，因為這類應用程式需要提供即時回饋。
最後一個權杖的時間 (TTLT)：模型處理提示並生成回覆的總時間。

如要盡量縮短延遲時間，請採取下列做法：

為您的用途選取合適的模型：Gemini Enterprise Agent Platform 提供多種模型，功能和效能特徵各不相同。請仔細評估您對速度和輸出品質的要求，然後選擇最符合用途的模型。如要查看可用模型清單，請參閱 Model Garden。
縮減提示大小：製作簡潔明瞭的提示，有效傳達意圖，避免不必要的細節或重複內容。提示越短，產生第一個權杖所需的時間就越短。
限制輸出權杖：
- 使用系統指令控制回覆長度。指示模型提供簡潔的答案，或將輸出內容限制在特定句數或段落數。這項策略可縮短最後一個權杖的產生時間。
- 設定限制來限制輸出內容。使用 max_output_tokens 參數設定生成回覆的長度上限，避免輸出內容過長。延遲時間與生成的權杖數量成正比，因此生成的權杖越少，回覆速度就越快。不過請注意，這可能會導致回覆在句子中途截斷。
使用佈建輸送量：如要獲得最穩定的效能，請使用佈建輸送量。這樣可避免「冷啟動」或排隊等候造成變異，這類情況偶爾會在高流量期間的 PayGo 模型中發生。
限制思考預算：如果您使用的模型支援「思考」，可以減少思考預算，進而縮短延遲時間。限制模型在回答問題前生成的內部推論權杖，即可縮短整體處理時間。不過，您必須確保預算足以應付工作複雜度，以免答案品質下降。
使用串流功能回覆：串流功能可提升回應速度，打造互動性更高的使用者體驗。啟用串流功能後，模型會在生成完整輸出內容前開始傳送回覆。這項功能可即時處理輸出內容，方便您立即更新使用者介面，並執行其他並行工作。

可用性

如要針對可用性進行最佳化，請按照下列步驟操作：

執行重試邏輯：針對 429 錯誤執行指數輪詢，特別是使用標準隨用隨付方案時。
採用混合式實作方式：如「為工作負載選擇合適的選項」一文所述，請勿只依賴 PayGo 執行重要的正式版應用程式。結合佈建輸送量和隨用隨付，可提供最高程度的資源耗盡 (429 錯誤) 保證。
管理佈建輸送量配額：定期監控 TPM 用量，並在預期流量事件 (例如產品發布) 發生前增加 PT GSU。您可以使用快訊政策自動執行監控作業。
使用全域端點：使用全域端點，運用 Google 的全域容量集區，盡量減少因區域容量限制而導致的節流。
盡可能平緩流量，減少尖峰流量：隨用隨付流量費率 (TPM) 越高，節流率就越高。
將流量轉移至離峰時段：模型用量通常會呈現晝夜模式。將工作負載轉移到離峰時段或週末，可大幅提升可用性。

費用

如要盡量降低成本，請採取下列做法：

適當調整佈建輸送量：一般來說，您不需要佈建 PT 來因應尖峰需求。為尖峰需求量佈建資源會降低整體使用率，並提高成本。根據您的風險容許度，涵蓋特定百分位數的流量，其餘流量則交由 Standard PayGo 和 Priority PayGo 處理。
購買長期佈建輸送量：與 1 個月的佈建輸送量相比，1 年期的佈建輸送量承諾可享 74 折優惠，大幅節省費用。您隨時可以變更與所購佈建輸送量 GSU 相關聯的模型，充分運用最新模型功能。
使用 Flex PayGo：找出管道中對延遲不敏感的部分 (例如背景摘要、資料擷取)，並移至 Flex PayGo，即可節省約 50% 的費用。
使用批次處理：對於處理大型資料集等非同步工作，批次處理的費用比使用標準隨用隨付方案依序處理要求便宜許多 (50%)。
使用脈絡快取：脈絡快取有助於減少含有重複內容的要求成本和延遲時間。在提示開頭放置大量常見內容，並在短時間內傳送具有類似前置字元的要求，即可提高快取命中率。
選用價格較低的模型：如果您的用途允許，請使用較小的模型，例如 Flash-Lite。這類模型每權杖的價格比功能齊全的重型模型低。

用量方案 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

用量方案

為工作負載選擇合適的選項

容易受到延遲影響的工作負載

非同步大量工作負載

對延遲不敏感，且預算有限的工作負載

最佳化策略

延遲時間

可用性

費用

用量方案