使用權杖配額控管費用
本文說明如何定義及管理生成式 AI 函式耗用的輸入和輸出權杖數量每日上限。BigQuery 生成式 AI 函式會使用大型語言模型 (LLM),在 SQL 查詢中執行進階分析。由於系統通常會根據處理的權杖數量計收 LLM 使用費,因此 BigQuery 提供權杖配額,協助您管理及控管使用這些函式所產生的費用。
權杖配額適用於所有使用 Gemini LLM 的生成式 AI 推論工作專用 BigQuery SQL 函式,例如 AI.CLASSIFY 和 AI.GENERATE 函式。
配額詳細資料
BigQuery 會根據 LLM 權杖用量,提供下列每日配額。權杖用量與使用 Gemini 模型的 BigQuery 生成式 AI 函式 Vertex AI 帳單直接相關。這些配額會在所有區域中進行全球追蹤。
這些詞元配額會控管 LLM 為生成式 AI 函式處理的輸入和輸出詞元數量:
- 輸入權杖:傳送至模型進行處理的權杖,包括提示文字中的權杖,以及提供給模型的任何其他輸入資料。
- 輸出詞元:模型在回覆中生成的詞元,包括生成的文字 (候選詞元) 和內部推論步驟中生成的詞元 (思考詞元)。
| 配額名稱 | 指標 | 範圍 | 預設值 |
|---|---|---|---|
GenAiInputTokensPerDay |
LLM 使用的輸入內容詞元 | 每個專案每天 | 200,000,000,000 |
GenAiInputTokensPerUserPerDay |
LLM 使用的輸入內容詞元 | 每位使用者每日 | 40,000,000,000 |
GenAiOutputTokensPerDay |
LLM 使用的輸出和思考詞元 | 每個專案每天 | 20,000,000,000 |
GenAiOutputTokensPerUserPerDay |
LLM 使用的輸出和思考詞元 | 每位使用者每日 | 4,000,000,000 |
這些配額是以數百萬個權杖為增量單位追蹤。雖然您可以設定精確的限制,但由於權杖報表和匯總的性質,如果值小於幾百萬個權杖,可能無法完全準確反映。
快取權杖不會計入配額。
管理配額
您可以依據資源用量查看或調整權杖配額值。您可以使用 Google Cloud 控制台執行下列工作:
在 Google Cloud 控制台,依序前往「IAM & Admin」(IAM 與管理) >「Quotas & System Limits」(配額與系統限制) 頁面。
輸入
Service: BigQuery API即可篩選配額。從配額清單中搜尋特定配額 (例如搜尋
GenAiInputTokensPerDay)。按一下 [編輯]。
在「配額變更」窗格中輸入新值,即可增加或減少配額。
按一下 [提交要求]。
配額限制規定
BigQuery 會在查詢執行的多個階段監控權杖用量:
- 執行前檢查:BigQuery 會先檢查可用的權杖配額,再執行含有生成式 AI 函式的查詢。如果相關配額 (例如專案每日輸入權杖) 已用盡,系統會拒絕查詢並傳回
QuotaExceeded錯誤。 - 執行期間:如果查詢正在執行,且消耗的權杖導致任何已設定的配額 (每個專案或每個使用者的輸入或輸出) 用盡,系統會拒絕該查詢中的新 LLM 呼叫。
- 如果剩餘資料列依賴 LLM 呼叫,就會發生配額用盡錯誤。
- 如果用於
AI.IF等函式,查詢結果會取決於max_error_ratio引數。如果錯誤率維持在允許的限制內,系統可能會傳回部分結果。否則,整個查詢就會失敗。 - 在每日配額重設前,後續嘗試使用生成式 AI 函式的查詢都會失敗,並顯示
QuotaExceeded錯誤。
重要事項
- 全域配額:配額是全域性的。系統會彙整專案在所有運作區域的權杖用量,提供統一的費用控管機制,避免因不同區域的用量而產生意外費用。
- 預先佈建的處理量:如果您使用預先佈建處理量的 Vertex AI 模型,系統不會根據權杖用量計費。您應將這些 BigQuery 權杖配額設為高值,避免不必要地封鎖查詢。
後續步驟
- 進一步瞭解如何降低 AI 函式費用。
- 閱讀 BigQuery 生成式 AI 總覽。