トークン割り当てで費用を管理する
このドキュメントでは、生成 AI 関数で使用される入力トークンと出力トークンの数の 1 日あたりの上限を定義して管理する方法について説明します。BigQuery 生成 AI 関数は、大規模言語モデル(LLM)を使用して、SQL クエリ内で高度な分析を実行します。通常、LLM の使用量は処理されたトークンの数に基づいて課金されるため、BigQuery には、これらの関数の使用に関連する費用を管理および制御するためのトークン割り当てが用意されています。
トークン割り当ては、Gemini LLM を使用するすべての生成 AI 推論タスク用に設計された BigQuery SQL 関数(AI.CLASSIFY 関数や AI.GENERATE 関数など)に適用されます。
割り当ての詳細
BigQuery では、LLM トークンの使用量に基づいて次の 1 日あたりの割り当てが提供されます。トークンの使用量は、Gemini モデルを使用する BigQuery 生成 AI 関数の Vertex AI の請求額に直接関連します。これらの割り当ては、すべてのリージョンでグローバルに追跡されます。
これらのトークン割り当ては、生成 AI 関数の LLM によって処理される入力トークンと出力トークンの数を制御します。
- 入力トークン: 処理のためにモデルに送信されたトークン。これには、プロンプト テキスト内のトークンと、入力としてモデルに提供されたその他のデータが含まれます。
- 出力トークン: レスポンスでモデルによって生成されたトークン。これには、生成されたテキスト内のトークン(候補トークン)と、内部推論ステップで生成されたトークン(思考トークン)が含まれます。
| 割り当て名 | 指標 | スコープ | デフォルト値 |
|---|---|---|---|
GenAiInputTokensPerDay |
LLM で使用された入力トークン | プロジェクトごとに 1 日あたり | 200,000,000,000 |
GenAiInputTokensPerUserPerDay |
LLM で使用された入力トークン | ユーザー 1 人につき 1 日あたり | 40,000,000,000 |
GenAiOutputTokensPerDay |
LLM で使用される出力トークンと思考トークン | プロジェクトごとに 1 日あたり | 20,000,000,000 |
GenAiOutputTokensPerUserPerDay |
LLM で使用される出力トークンと思考トークン | ユーザー 1 人につき 1 日あたり | 4,000,000,000 |
これらの割り当ては、数百万単位のトークン数で追跡されます。正確な上限を設定できますが、トークンのレポートと集計の性質上、数百万トークン未満の値は完全に正確に反映されない可能性があります。
キャッシュに保存されたトークンは割り当てにカウントされません。
割り当てを管理
リソースの使用量に応じて、トークン割り当て値を増減できます。 Google Cloud コンソールを使用して、次のタスクを実行できます。
Google Cloud コンソールで、[IAM と管理>割り当てとシステム上限] ページに移動します。
Service: BigQuery APIを入力して割り当てをフィルタします。割り当てのリストから特定の割り当てを検索します(例:
GenAiInputTokensPerDayを検索します)。[編集] をクリックします。
[割り当ての変更] ペインで、新しい値を入力して割り当てを増減します。
- ワークロードでデフォルトの上限を超える容量が必要な場合は、割り当ての増加をリクエストできます。
- 予算超過を防ぐために使用量に厳しい制限を設ける場合は、割り当てのオーバーライドを作成して使用量の上限を設定できます。
[リクエストを送信] をクリックします。
割り当ての適用動作
BigQuery は、クエリ実行の複数のステージでトークンの使用量をモニタリングします。
- 実行前のチェック: BigQuery は、生成 AI 関数を含むクエリを実行する前に、使用可能なトークン割り当てを確認します。関連する割り当て(プロジェクトの 1 日の入力トークンなど)がすでに使い果たされている場合、クエリは
QuotaExceededエラーで拒否されます。 - 実行中: クエリが実行中で、トークンを消費して構成済みの割り当て(プロジェクトごとまたはユーザーごとの入力または出力)のいずれかを使い果たした場合、そのクエリ内の新しい LLM 呼び出しは拒否されます。
- LLM 呼び出しに依存する残りの行では、割り当て超過エラーが発生します。
AI.IFなどの関数で使用される場合、クエリの結果はmax_error_ratio引数によって異なります。エラー率が許容範囲内であれば、部分的な結果が返されることがあります。それ以外の場合、クエリ全体が失敗します。- 生成 AI 関数を使用しようとする後続のクエリは、1 日の割り当てがリセットされるまで
QuotaExceededエラーで失敗します。
重要な考慮事項
- グローバル割り当て: 定義された割り当てはグローバルです。トークンの使用量は、プロジェクトが動作するすべてのリージョンで集計され、統一された費用管理メカニズムが提供されます。これにより、異なるリージョンでの使用による予期しない課金を防ぐことができます。
- プロビジョンド スループット: プロビジョンド スループットで Vertex AI モデルを使用している場合、課金はトークン使用量に基づきません。クエリが不必要にブロックされないように、これらの BigQuery トークン割り当てを高い値に設定する必要があります。
次のステップ
- AI 関数の費用を最適化する方法について学習する。
- BigQuery の生成 AI の概要を確認する。