本節說明生成式 AI 擴充單元 (GSU) 和消耗率的概念。系統會使用生成式 AI 擴充單元 (GSU) 和消耗率,計算並決定佈建處理量的價格。
GSU 和消耗率
生成式 AI 擴充單元 (GSU) 是用來衡量提示和回覆處理量的單位。這個金額指定要為模型佈建多少輸送量。
消耗速率是一種比率,可將輸入和輸出單位 (例如權杖、字元或圖片) 分別轉換為每秒輸入權杖數、每秒輸入字元數或每秒輸入圖片數。這個比率代表輸送量,用於產生各模型的標準單位。
不同模型使用的輸送量不同。如要瞭解各機型的最低 GSU 購買金額和增量,請參閱本文的「支援的機型和消耗率」一節。
以下方程式說明輸送量計算方式:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
計算出的每秒處理量會決定您需要多少 GSU,才能滿足應用情境的需求。
重要事項
為協助您規劃佈建輸送量需求,請詳閱下列重要事項:
要求會優先處理。
系統會優先處理佈建輸送量客戶的要求,再處理隨選要求。
輸送量不會累積。
未使用的輸送量不會累計或轉移至下個月。
預先佈建的處理量以每秒權杖數、每秒字元數或每秒圖片數為單位。
已佈建的處理量並非僅根據每分鐘查詢次數 (QPM) 測量,這項指標是根據應用情況的查詢大小、回應大小和 QPM 計算而得。
佈建輸送量專屬於特定專案、地區、模型和版本。
佈建輸送量會指派給特定專案、區域和模型版本組合。從不同區域呼叫的相同模型不會計入佈建輸送量配額,也不會優先於隨選要求。
脈絡快取
佈建輸送量支援隱含快取和明確快取。如要瞭解支援的模型和限制,請參閱「內容快取」。
根據預設,所有 Google Cloud 專案都會啟用隱含快取。隱含快取可減少快取命中時的費用和延遲時間。快取命中時,系統會以相對於標準輸入權杖的折扣價,收取快取權杖的費用。明確快取可提供更多控制選項,並確保在參照明確快取時享有折扣。如要瞭解如何建立脈絡快取以進行明確快取,請參閱建立脈絡快取。 如要查看特定模型的折扣,請參閱「情境快取總覽」。對於佈建的處理量,系統會透過降低消耗率來套用折扣。
舉例來說,Gemini 2.5 Pro 的輸入文字權杖和快取權杖消耗率如下:
1 個輸入文字權杖 = 1 個權杖
1 個輸入快取文字權杖 = 0.1 個權杖
如果將 1,000 個輸入權杖傳送至這個模型,每秒的佈建處理量就會減少 1,000 個輸入權杖。不過,如果您將 1,000 個快取詞元傳送至 Gemini 2.5 Pro,每秒的佈建輸送量就會減少 100 個詞元。
請注意,如果權杖未快取且未套用快取折扣,類似查詢的輸送量可能會提高。
如要查看佈建輸送量支援的模型的消耗率,請參閱「支援的模型和消耗率」。
瞭解 Live API 的淘汰程序
透過 Live API 佈建的輸送量支援 Gemini 2.5 Flash。如要瞭解如何在使用 Live API 時計算消耗量,請參閱「計算 Live API 的輸送量」。
如要進一步瞭解如何搭配 Live API 使用 Gemini 2.5 Flash 的預先佈建輸送量,請參閱「Live API 的預先佈建輸送量」。
預估佈建處理量需求的範例
如要估算佈建輸送量需求,請使用 Google Cloud 控制台中的估算工具。以下範例說明如何預估模型的佈建輸送量。預估值計算時不會考量區域。
下表提供 gemini-2.0-flash 的消耗率,可用於追蹤範例。
| 型號 | 每 GSU 的總處理量 | 單位 | 最低 GSU 購買增量 | 燃盡率 |
|---|---|---|---|---|
| Gemini 2.0 Flash | 3,360 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 7 個權杖 1 個輸出文字權杖 = 4 個權杖 |
匯集相關規定。
在這個範例中,您的需求是驗證是否能支援每秒 10 次查詢 (QPS),每次查詢的輸入內容為 1,000 個文字權杖和 500 個音訊權杖,並使用
gemini-2.0-flash接收 300 個文字權杖的輸出內容。這個步驟表示您瞭解自己的用途,因為您已找出模型、QPS,以及輸入和輸出的大小。
如要計算輸送量,請參閱所選模型的消耗率。
計算處理量。
將輸入內容乘以消耗率,即可得出輸入詞元總數:
1,000*(每項輸入文字詞元 1 個詞元) + 500*(每項輸入音訊詞元 7 個詞元) = 每項查詢 4,500 個消耗調整後輸入詞元。
將輸出內容乘以消耗率,即可得出輸出內容詞元總數:
300*(4 個詞元/輸出文字詞元) = 1,200 個查詢的輸出詞元數 (經耗盡調整)
將總數加總:
4,500 個用盡額度調整後的輸入權杖 + 1,200 個用盡額度調整後的輸出權杖 = 每項查詢共 5,700 個權杖
將權杖總數乘以 QPS,即可得出每秒總輸送量:
每個查詢 5,700 個權杖 * 10 QPS = 每秒 57,000 個權杖
計算 GSU。
GSU 是每秒總權杖數除以耗盡表中的每個 GSU 每秒輸送量。
每秒總共 57,000 個權杖 ÷ 每個 GSU 每秒 3,360 個權杖的處理量 = 16.96 個 GSU
gemini-2.0-flash的最低 GSU 購買增量為 1,因此您需要 17 個 GSU 才能確保工作負載。