本節說明生成式 AI 擴充單元 (GSU) 和消耗率的概念。系統會使用生成式 AI 擴充單元 (GSU) 和消耗率,計算並決定佈建處理量的價格。
GSU 和消耗率
生成式 AI 擴充單元 (GSU) 是用來衡量提示和回覆處理量的單位。這個金額指定要為模型佈建多少輸送量。
消耗率是一種比率,可將輸入和輸出單位 (例如權杖、字元或圖片) 分別轉換為每秒輸入權杖數、每秒輸入字元數或每秒輸入圖片數。這個比率代表輸送量,用於產生各模型的標準單位。
不同模型使用的輸送量不同。如要瞭解各機型的最低 GSU 購買金額和增量,請參閱本文的「支援的機型和消耗率」一節。
以下方程式說明輸送量計算方式:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
計算出的每秒處理量會決定您需要多少 GSU,才能滿足應用情境的需求。
重要事項
為協助您規劃佈建輸送量需求,請詳閱下列重要考量事項:
要求會優先處理。
系統會優先處理佈建輸送量客戶的要求,再處理隨選要求。
輸送量不會累計。
未使用的輸送量不會累計,也無法轉移到下個月。
預先佈建的處理量以每秒權杖數、每秒字元數或每秒圖片數為單位。
已佈建的處理量並非僅根據每分鐘查詢次數 (QPM) 測量,這項指標是根據您的用途、回應大小和 QPM 計算而得。
佈建輸送量專屬於特定專案、地區、模型和版本。
佈建輸送量會指派給特定專案/區域/模型/版本組合。從不同區域呼叫的相同模型不會計入佈建輸送量配額,也不會優先於隨選要求。
脈絡快取
佈建輸送量支援隱含內容快取。不支援明確的內容快取。明確情境快取流量會從佈建輸送量移至隨用隨付。如要瞭解支援的模型和限制,請參閱「情境快取」。
根據預設,所有 Google Cloud 專案都會啟用隱含快取。隱含快取可減少快取命中期間的費用和延遲時間。快取命中時,系統會以相對於標準輸入權杖的折扣價格,收取快取權杖的費用。如要查看特定模型的折扣,請參閱「內容快取總覽」。對於佈建的處理量,系統會透過降低消耗率來套用折扣。
舉例來說,Gemini 2.5 Pro 的輸入文字權杖和快取權杖的消耗率如下:
1 個輸入文字權杖 = 1 個權杖
1 個輸入的快取文字權杖 = 0.1 個權杖
如果將 1,000 個輸入權杖傳送至這個模型,每秒的佈建處理量就會減少 1,000 個輸入權杖。不過,如果您將 1,000 個快取詞元傳送至 Gemini 2.5 Pro,每秒的佈建輸送量就會減少 100 個詞元。
請注意,如果權杖未快取,且未套用快取折扣,類似查詢的輸送量可能會提高。
如要查看佈建輸送量支援的模型的消耗率,請參閱「支援的模型和消耗率」。
瞭解 Live API 的淘汰程序
佈建輸送量支援 Gemini 2.5 Flash 和 Live API。如要瞭解如何在使用 Live API 時計算耗盡時間,請參閱「計算 Live API 的輸送量」。
如要進一步瞭解如何搭配 Live API 使用 Gemini 2.5 Flash 的預先佈建輸送量,請參閱「Live API 的預先佈建輸送量」。
預估佈建處理量需求的範例
如要估算佈建輸送量需求,請使用 Google Cloud 控制台中的估算工具。以下範例說明如何預估模型的佈建輸送量。預估值計算時不會考量區域。
下表提供 gemini-2.0-flash
的燃盡率,可用於追蹤範例。
型號 | 每 GSU 的總處理量 | 單位 | 最低 GSU 購買增量 | 燃盡率 |
---|---|---|---|---|
Gemini 2.0 Flash | 3,360 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 7 個權杖 1 個輸出文字權杖 = 4 個權杖 |
匯集相關規定。
在這個範例中,您的需求是驗證是否能支援每秒 10 次查詢 (QPS),每次查詢的輸入內容為 1,000 個文字權杖和 500 個音訊權杖,並使用
gemini-2.0-flash
接收 300 個文字權杖的輸出內容。這個步驟表示您瞭解自己的用途,因為您已識別模型、QPS,以及輸入和輸出的大小。
如要計算輸送量,請參閱所選模型的消耗率。
計算處理量。
將輸入內容乘以消耗率,即可得出輸入的權杖總數:
1,000*(每項輸入文字詞元 1 個詞元) + 500*(每項輸入音訊詞元 7 個詞元) = 每項查詢 4,500 個消耗調整後輸入詞元。
將輸出內容乘以消耗率,即可得出輸出詞元總數:
300*(每個輸出文字權杖 4 個權杖) = 1,200 個每項查詢的輸出權杖 (經燒毀調整)
將總數加總:
4,500 個用盡額度調整後的輸入權杖 + 1,200 個用盡額度調整後的輸出權杖 = 每項查詢共 5,700 個權杖
將權杖總數乘以 QPS,即可得出每秒總輸送量:
每個查詢 5,700 個權杖 * 10 QPS = 每秒 57,000 個權杖
計算 GSU。
GSU 是每秒總權杖數除以耗盡表中的每個 GSU 每秒輸送量。
每秒總共 57,000 個權杖 ÷ 每個 GSU 每秒 3,360 個權杖的處理量 = 16.96 個 GSU
gemini-2.0-flash
的最低 GSU 購買增量為 1,因此您需要 17 個 GSU 才能確保工作負載。