計算已佈建的處理量需求

本節說明生成式 AI 擴充單元 (GSU) 和消耗率的概念。系統會使用生成式 AI 擴充單元 (GSU) 和消耗率,計算並決定佈建處理量的價格。

GSU 和消耗率

生成式 AI 擴充單元 (GSU) 是用來衡量提示和回覆處理量的單位。這個金額指定要為模型佈建多少輸送量。

消耗率是一種比率,可將輸入和輸出單位 (例如權杖、字元或圖片) 分別轉換為每秒輸入權杖數、每秒輸入字元數或每秒輸入圖片數。這個比率代表輸送量,用於產生各模型的標準單位。

不同模型使用的輸送量不同。如要瞭解各機型的最低 GSU 購買金額和增量,請參閱本文的「支援的機型和消耗率」一節。

以下方程式說明輸送量計算方式:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

計算出的每秒處理量會決定您需要多少 GSU,才能滿足應用情境的需求。

重要事項

為協助您規劃佈建輸送量需求,請詳閱下列重要考量事項:

  • 要求會優先處理。

    系統會優先處理佈建輸送量客戶的要求,再處理隨選要求。

  • 輸送量不會累計。

    未使用的輸送量不會累計,也無法轉移到下個月。

  • 預先佈建的處理量以每秒權杖數、每秒字元數或每秒圖片數為單位。

    已佈建的處理量並非僅根據每分鐘查詢次數 (QPM) 測量,這項指標是根據您的用途、回應大小和 QPM 計算而得。

  • 佈建輸送量專屬於特定專案、地區、模型和版本。

    佈建輸送量會指派給特定專案/區域/模型/版本組合。從不同區域呼叫的相同模型不會計入佈建輸送量配額,也不會優先於隨選要求。

脈絡快取

佈建輸送量支援隱含內容快取。不支援明確的內容快取。明確情境快取流量會從佈建輸送量移至隨用隨付。如要瞭解支援的模型和限制,請參閱「情境快取」。

根據預設,所有 Google Cloud 專案都會啟用隱含快取。隱含快取可減少快取命中期間的費用和延遲時間。快取命中時,系統會以相對於標準輸入權杖的折扣價格,收取快取權杖的費用。如要查看特定模型的折扣,請參閱「內容快取總覽」。對於佈建的處理量,系統會透過降低消耗率來套用折扣。

舉例來說,Gemini 2.5 Pro 的輸入文字權杖和快取權杖的消耗率如下:

  • 1 個輸入文字權杖 = 1 個權杖

  • 1 個輸入的快取文字權杖 = 0.1 個權杖

如果將 1,000 個輸入權杖傳送至這個模型,每秒的佈建處理量就會減少 1,000 個輸入權杖。不過,如果您將 1,000 個快取詞元傳送至 Gemini 2.5 Pro,每秒的佈建輸送量就會減少 100 個詞元。

請注意,如果權杖未快取,且未套用快取折扣,類似查詢的輸送量可能會提高。

如要查看佈建輸送量支援的模型的消耗率,請參閱「支援的模型和消耗率」。

瞭解 Live API 的淘汰程序

佈建輸送量支援 Gemini 2.5 Flash 和 Live API。如要瞭解如何在使用 Live API 時計算耗盡時間,請參閱「計算 Live API 的輸送量」。

如要進一步瞭解如何搭配 Live API 使用 Gemini 2.5 Flash 的預先佈建輸送量,請參閱「Live API 的預先佈建輸送量」。

預估佈建處理量需求的範例

如要估算佈建輸送量需求,請使用 Google Cloud 控制台中的估算工具。以下範例說明如何預估模型的佈建輸送量。預估值計算時不會考量區域。

下表提供 gemini-2.0-flash 的燃盡率,可用於追蹤範例。

型號 每 GSU 的總處理量 單位 最低 GSU 購買增量 燃盡率
Gemini 2.0 Flash 3,360 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 7 個權杖
1 個輸出文字權杖 = 4 個權杖
  1. 匯集相關規定。

    1. 在這個範例中,您的需求是驗證是否能支援每秒 10 次查詢 (QPS),每次查詢的輸入內容為 1,000 個文字權杖和 500 個音訊權杖,並使用 gemini-2.0-flash 接收 300 個文字權杖的輸出內容。

      這個步驟表示您瞭解自己的用途,因為您已識別模型、QPS,以及輸入和輸出的大小。

    2. 如要計算輸送量,請參閱所選模型的消耗率

  2. 計算處理量。

    1. 將輸入內容乘以消耗率,即可得出輸入的權杖總數:

      1,000*(每項輸入文字詞元 1 個詞元) + 500*(每項輸入音訊詞元 7 個詞元) = 每項查詢 4,500 個消耗調整後輸入詞元。

    2. 將輸出內容乘以消耗率,即可得出輸出詞元總數:

      300*(每個輸出文字權杖 4 個權杖) = 1,200 個每項查詢的輸出權杖 (經燒毀調整)

    3. 將總數加總:

      4,500 個用盡額度調整後的輸入權杖 + 1,200 個用盡額度調整後的輸出權杖 = 每項查詢共 5,700 個權杖

    4. 將權杖總數乘以 QPS,即可得出每秒總輸送量:

      每個查詢 5,700 個權杖 * 10 QPS = 每秒 57,000 個權杖

  3. 計算 GSU。

    1. GSU 是每秒總權杖數除以耗盡表中的每個 GSU 每秒輸送量。

      每秒總共 57,000 個權杖 ÷ 每個 GSU 每秒 3,360 個權杖的處理量 = 16.96 個 GSU

    2. gemini-2.0-flash 的最低 GSU 購買增量為 1,因此您需要 17 個 GSU 才能確保工作負載。

後續步驟