使用權杖配額控管費用

本文說明如何定義及管理生成式 AI 函式耗用的輸入和輸出權杖數量每日上限。

BigQuery 生成式 AI 函式會使用大型語言模型 (LLM),在 SQL 查詢中執行進階分析。由於系統通常會根據處理的權杖數量計收 LLM 使用費,因此 BigQuery 提供權杖配額,協助您管理及控管使用這些函式所產生的費用。

權杖配額適用於所有使用 Gemini LLM 的生成式 AI 推論工作專用 BigQuery SQL 函式,例如 AI.CLASSIFYAI.GENERATE 函式。

配額詳細資料

BigQuery 會根據 LLM 權杖用量,提供下列每日配額。權杖用量與使用 Gemini 模型的 BigQuery 生成式 AI 函式 Vertex AI 帳單直接相關。這些配額會在所有區域中進行全球追蹤。

這些詞元配額會控管 LLM 為生成式 AI 函式處理的輸入和輸出詞元數量:

  • 輸入權杖:傳送至模型進行處理的權杖,包括提示文字中的權杖,以及提供給模型的任何其他輸入資料。
  • 輸出詞元:模型在回覆中生成的詞元,包括生成的文字 (候選詞元) 和內部推論步驟中生成的詞元 (思考詞元)。
配額名稱 指標 範圍 預設值
GenAiInputTokensPerDay LLM 使用的輸入內容詞元 每個專案每天 200,000,000,000
GenAiInputTokensPerUserPerDay LLM 使用的輸入內容詞元 每位使用者每日 40,000,000,000
GenAiOutputTokensPerDay LLM 使用的輸出和思考詞元 每個專案每天 20,000,000,000
GenAiOutputTokensPerUserPerDay LLM 使用的輸出和思考詞元 每位使用者每日 4,000,000,000

這些配額是以數百萬個權杖為增量單位追蹤。雖然您可以設定精確的限制,但由於權杖報表和匯總的性質,如果值小於幾百萬個權杖,可能無法完全準確反映。

快取權杖不會計入配額。

管理配額

您可以依據資源用量查看或調整權杖配額值。您可以使用 Google Cloud 控制台執行下列工作:

  1. 在 Google Cloud 控制台,依序前往「IAM & Admin」(IAM 與管理) >「Quotas & System Limits」(配額與系統限制) 頁面。

    前往「配額與系統限制」

  2. 輸入 Service: BigQuery API 即可篩選配額。

  3. 從配額清單中搜尋特定配額 (例如搜尋 GenAiInputTokensPerDay)。

  4. 按一下 [編輯]

  5. 在「配額變更」窗格中輸入新值,即可增加或減少配額。

  6. 按一下 [提交要求]

配額限制規定

BigQuery 會在查詢執行的多個階段監控權杖用量:

  • 執行前檢查:BigQuery 會先檢查可用的權杖配額,再執行含有生成式 AI 函式的查詢。如果相關配額 (例如專案每日輸入權杖) 已用盡,系統會拒絕查詢並傳回 QuotaExceeded 錯誤。
  • 執行期間:如果查詢正在執行,且消耗的權杖導致任何已設定的配額 (每個專案或每個使用者的輸入或輸出) 用盡,系統會拒絕該查詢中的新 LLM 呼叫。
    • 如果剩餘資料列依賴 LLM 呼叫,就會發生配額用盡錯誤。
    • 如果用於 AI.IF 等函式,查詢結果會取決於 max_error_ratio 引數。如果錯誤率維持在允許的限制內,系統可能會傳回部分結果。否則,整個查詢就會失敗。
    • 在每日配額重設前,後續嘗試使用生成式 AI 函式的查詢都會失敗,並顯示 QuotaExceeded 錯誤。

重要事項

  • 全域配額:配額是全域性的。系統會彙整專案在所有運作區域的權杖用量,提供統一的費用控管機制,避免因不同區域的用量而產生意外費用。
  • 預先佈建的處理量:如果您使用預先佈建處理量的 Vertex AI 模型,系統不會根據權杖用量計費。您應將這些 BigQuery 權杖配額設為高值,避免不必要地封鎖查詢。

後續步驟