プロビジョンドスループット

プロビジョンドスループット（PT）は、Gemini Enterprise Agent Platform のスループットを予約する、固定料金の定期サブスクリプションです。このサブスクリプションは、複数の契約期間で利用できます。スループットを予約するには、モデルと、モデルが実行される利用可能なロケーションを指定する必要があります。

このページでは、プロビジョンドスループットの仕組み、超過料金を管理する方法、プロビジョンドスループットをバイパスする方法、使用状況をモニタリングする方法について説明します。

プロビジョンドスループットの使用が適切なケース

ユースケースで次のいずれかの事項が該当する場合は、プロビジョニングされたスループットの使用を検討してください。

重要なワークロードで常に高いスループットが求められる。スループットの測定はモデルによって異なります。
アプリのユーザーに、一貫性があり予測可能なエクスペリエンスを提供したい。
月額または週単位の固定料金で生成 AI の費用を管理し、超過料金を制御したい。

プロビジョンドスループットは、Gemini Enterprise Agent Platform の複数の使用オプションの 1 つです。すべての使用オプションについては、使用オプションをご覧ください。

プロビジョンドスループットの仕組み

このセクションでは、割り当ての適用期間中の割り当てチェックを使用して、プロビジョンドスループットの仕組みについて説明します。

プロビジョンドスループットの割り当ての確認

プロビジョンドスループットの最大割り当ては、購入した生成 AI スケールユニット（GSU）の数と GSU あたりのスループットの倍数です。これは、割り当て適用期間内にリクエストを送信するたびに確認されます。割り当て適用期間は、最大プロビジョンドスループット割り当てが適用される頻度です。

リクエストを受信した時点では、実際のレスポンスサイズは不明です。リアルタイムアプリケーションではレスポンスの速度が優先されるため、プロビジョンドスループットは出力トークンサイズを推定します。初期見積もりが、利用可能なプロビジョンドスループットの最大割り当てを超えると、リクエストは従量課金制として処理されます。それ以外の場合は、プロビジョンドスループットとして処理されます。これは、初期見積もりとプロビジョンドスループットの最大割り当てを比較することで行われます。

レスポンスが生成され、実際の出力トークンサイズがわかると、推定値と実際の使用量の差が、使用可能なプロビジョンドスループットの割り当て量に追加され、実際の使用量と割り当てが調整されます。

プロビジョンドスループットの割り当て適用期間

Gemini Enterprise Agent Platform は、Gemini モデルのプロビジョンドスループットの割り当てを適用する際に、動的ウィンドウを適用します。これにより、スパイクが発生しやすいトラフィックの安定性が最適化されます。Agent Platform は、固定ウィンドウではなく、モデルタイプとプロビジョニングした GSU の数に応じて自動的に調整される柔軟なウィンドウで割り当てを適用します。そのため、場合によっては、1 秒あたりの割り当て量を超える優先トラフィックが一時的に発生する可能性があります。ただし、ウィンドウ期間を超えて割り当てを超えることはできません。これらの期間は Agent Platform の内部クロック時間に基づいており、リクエストが行われた時間とは関係ありません。

割り当て適用期間の仕組み

適用期間は、スロットリングされる前に、1 秒あたりの上限を超えることができる量（バースト）を決定します。このウィンドウは自動的に適用されます。これらのウィンドウは、パフォーマンスと信頼性を最適化するために変更される場合があります。

小規模な GSU 割り当て （3 GSU 以下）: ウィンドウの範囲は 40 ～ 120 秒で、個々のリクエストを中断することなく処理できます。

たとえば、1 GSU の gemini-2.5-flash を購入すると、1 秒あたり平均 2,690 トークンの継続的なスループットが得られます。120 秒間のウィンドウでの合計使用量は、322,800 トークン（1 秒あたり 2,690 トークン * 120 秒）を超えることはできません。したがって、1 秒あたり 70,000 トークンを使用するリクエストを送信しても、120 秒間の合計使用量が 322,800 トークン未満であれば、1 秒あたり 70,000 トークンのバーストはプロビジョンドスループットとしてカウントされます。これは、平均使用量が 1 秒あたり 2,690 トークンを超えないためです。
標準（中規模）の GSU 割り当て （3 GSU 超）: 中規模の GSU デプロイ（50 GSU 未満など）の場合、ウィンドウの範囲は 5 秒～ 30 秒です。GSU のしきい値とコンテキストウィンドウはモデルによって異なります。

たとえば、25 GSU の gemini-2.5-flash を購入すると、1 秒あたり平均 67,250 トークン（1 秒あたり 2,690 トークン * 25）の継続的なスループットが得られます。30 秒間のウィンドウでの合計使用量は、2,017,500 トークン（1 秒あたり 67,250 トークン * 30 秒）を超えることはできません。したがって、1 秒あたり 1,000,000 トークンを使用するリクエストを送信しても、30 秒間の合計使用量が 2,017,500 トークン以内であれば、1 秒あたり 1,000,000 トークンのバーストはプロビジョンドスループットとしてカウントされます。これは、平均使用量が 1 秒あたり 67,250 トークンを超えないためです。
高精度（大規模）の GSU 割り当て: 大規模な GSU デプロイ（50 GSU 以上など）の場合、ウィンドウの範囲は 1 ～ 5 秒で、インフラストラクチャ全体で高頻度のリクエストが最大限の精度で処理されるようにします。

たとえば、250 GSU の gemini-2.5-flash を購入すると、1 秒あたり平均 672,500 トークン（1 秒あたり 2,690 トークン * 250）の継続的なスループットが得られます。5 秒間のウィンドウでの合計使用量は、3,362,500 トークン（1 秒あたり 672,500 トークン * 5 秒）を超えることはできません。したがって、1 秒あたり 5,000,000 トークンを使用するリクエストを送信しても、プロビジョンドスループットとして処理されません。これは、5 秒間のウィンドウで 5,000,000 トークンの合計使用量が 3,362,500 トークンの上限を超えるためです。一方、1 秒あたり 1,000,000 トークンを使用するリクエストは、5 秒間のウィンドウでの平均使用量が 1 秒あたり 672,500 トークンを超えない場合、プロビジョンドスループットとして処理できます。

過剰な使用を制御するか、プロビジョンドスループットをバイパスする

購入したスループットを超過した場合の超過料金を管理するか、リクエストごとにプロビジョンドスループットをバイパスするには、API を使用します。

各オプションを確認して、ユースケースに何が必要かを判断してください。

デフォルトの動作

リクエストが残りのプロビジョンドスループットの割り当てを超えると、デフォルトではリクエスト全体がオンデマンドリクエストとして処理され、従量課金制のレートで請求されます。この場合、トラフィックはモニタリングダッシュボードにスピルオーバー として表示されます。プロビジョンドスループットの使用量のモニタリングの詳細については、プロビジョンドスループットをモニタリングするをご覧ください。

プロビジョンドスループットの注文が有効になると、デフォルトの動作が自動的に適用されます。プロビジョニングされたリージョンで注文を使用している限り、コードを変更する必要はありません。

プロビジョンドスループットのみを使用する

オンデマンド料金を回避して費用を管理する場合は、プロビジョンドスループットのみを使用します。プロビジョンドスループットの注文量を超えるリクエストは、429 エラーを返します。

API にリクエストを送信するときは、X-Vertex-AI-LLM-Request-Type HTTP ヘッダーを dedicated に設定します。

従量課金制のみを使用する

これは、オンデマンドを使用する場合にも該当します。リクエストは、プロビジョンドスループットの注文をバイパスして、従量課金制に直接送信されます。これは、テストや開発中のアプリケーションに役立ちます。

API にリクエストを送信するときは、X-Vertex-AI-LLM-Request-Type HTTP ヘッダーを shared に設定します。

例

Python

インストール

pip install --upgrade google-genai

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Go

Go をインストールまたは更新する方法について学びます。

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"net/http"

	"google.golang.org/genai"
)

// generateText shows how to generate text Provisioned Throughput.
func generateText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{
			APIVersion: "v1",
			Headers: http.Header{
				// Options:
				// - "dedicated": Use Provisioned Throughput
				// - "shared": Use pay-as-you-go
				// https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
				"X-Vertex-AI-LLM-Request-Type": []string{"shared"},
			},
		},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("How does AI work?")

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Artificial Intelligence (AI) isn't magic, nor is it a single "thing." Instead, it's a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.
	// .....
	// In Summary:
	// ...

	return nil
}

Node.js

インストール

npm install @google/genai

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateWithProvisionedThroughput(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
    httpOptions: {
      apiVersion: 'v1',
      headers: {
        // Options:
        // - "dedicated": Use Provisioned Throughput
        // - "shared": Use pay-as-you-go
        // https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
        'X-Vertex-AI-LLM-Request-Type': 'shared',
      },
    },
  });

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: 'How does AI work?',
  });

  console.log(response.text);

  // Example response:
  //  Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
  //  Here's a simplified overview:
  //  ...

  return response.text;
}

Java

Java をインストールまたは更新します。

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.GenerateContentConfig;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import java.util.Map;

public class ProvisionedThroughputWithTxt {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates content with Provisioned Throughput.
  public static String generateContent(String modelId) {
    // Client Initialization. Once created, it can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("us-central1")
            .vertexAI(true)
            .httpOptions(
                HttpOptions.builder()
                    .apiVersion("v1")
                    .headers(
                        // Options:
                        // - "dedicated": Use Provisioned Throughput
                        // - "shared": Use pay-as-you-go
                        // https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
                        Map.of("X-Vertex-AI-LLM-Request-Type", "shared"))
                    .build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId, "How does AI work?", GenerateContentConfig.builder().build());

      System.out.println(response.text());
      // Example response:
      // At its core, **AI (Artificial Intelligence) works by enabling machines to learn,
      // reason, and make decisions in ways that simulate human intelligence.** Instead of being
      // explicitly programmed for every single task...
      return response.text();
    }
  }
}

REST

環境をセットアップしたら、REST を使用してテキストプロンプトをテストできます。次のサンプルは、パブリッシャーモデルのエンドポイントにリクエストを送信します。

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

API キーでプロビジョンドスループットを使用する

特定のプロジェクト、Google モデル、リージョンに対してプロビジョンドスループットを購入し、それを使用して API キーでリクエストを送信する場合は、リクエストのパラメータとしてプロジェクト ID、モデル、ロケーション、API キーを含める必要があります。

サービスアカウントにバインドされた Google Cloud API キーの作成方法については、API キーを取得するをご覧ください。 Google Cloud API キーを使用して Gemini API にリクエストを送信する方法については、 Gemini Enterprise Agent Platform の Gemini API API クイックスタートをご覧ください。

たとえば、次のサンプルは、プロビジョンドスループットを使用しながら API キーを使用してリクエストを送信する方法を示しています。

REST

curl \
-X POST \
-H "Content-Type: application/json" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_ID:generateContent?key=YOUR_API_KEY" \
-d $'{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Explain how AI works in a few words"
        }
      ]
    }
  ]
}'

プロビジョンドスループットをモニタリングする

プロビジョンドスループットの使用状況は、aiplatform.googleapis.com/PublisherModel リソースタイプで測定される指標のセットを使用して自己モニタリングできます。

プロビジョンドスループットのトラフィックモニタリングは、パブリックプレビュー機能です。

ディメンション

次のディメンションを使用して指標をフィルタリングできます。

ディメンション 値

type input
output

ディメンション	値
`type`	`input` `output`
`request_type`	`dedicated`: プロビジョンドスループットを使用してトラフィックが処理されます。 `spillover`: トラフィックは、プロビジョンドスループットの割り当てを超えると、従量課金制の割り当てとして処理されます。明示的なキャッシュが有効になっている場合、Gemini 2.0 モデルのプロビジョンドスループットでは `spillover` 指標はサポートされていません。これは、これらのモデルが明示的なキャッシュをサポートしていないためです。この場合、トラフィックは `shared` として表示されます。 `shared`: プロビジョンドスループットが有効になっている場合、トラフィックは共有 HTTP ヘッダーを使用して従量課金制の割り当てとして処理されます。プロビジョンドスループットが有効になっていない場合、トラフィックはデフォルトで従量課金制として処理されます。

request_type

dedicated: プロビジョンドスループットを使用してトラフィックが処理されます。

spillover: トラフィックは、プロビジョンドスループットの割り当てを超えると、従量課金制の割り当てとして処理されます。明示的なキャッシュが有効になっている場合、Gemini 2.0 モデルのプロビジョンドスループットでは spillover 指標はサポートされていません。これは、これらのモデルが明示的なキャッシュをサポートしていないためです。この場合、トラフィックは shared として表示されます。

shared: プロビジョンドスループットが有効になっている場合、トラフィックは共有 HTTP ヘッダーを使用して従量課金制の割り当てとして処理されます。プロビジョンドスループットが有効になっていない場合、トラフィックはデフォルトで従量課金制として処理されます。

パスの接頭辞

指標のパスの接頭辞は aiplatform.googleapis.com/publisher/online_serving です。

たとえば、/consumed_throughput 指標のフルパスは aiplatform.googleapis.com/publisher/online_serving/consumed_throughput です。

指標

Gemini モデルの aiplatform.googleapis.com/PublisherModel リソースでは、次の Cloud Monitoring 指標を使用できます。dedicated リクエストタイプを使用して、プロビジョンドスループットの使用状況をフィルタリングします。

指標	表示名	説明
`/dedicated_gsu_limit`	上限（GSU）	専用の上限（GSU）。この指標を使用して、プロビジョンドスループットの最大割り当て（GSU）を把握します。
`/tokens`	トークン	入出力トークン数の分布。
`/token_count`	トークン数	入力トークンと出力トークンの累積数。
`/consumed_token_throughput`	トークンのスループット	バーンダウン率を考慮したスループット使用量（トークン単位）。割り当ての調整も含まれます。プロビジョンドスループットの割り当ての確認をご覧ください。この指標を使用して、プロビジョンドスループットの割り当てがどのように使用されたかを把握します。
`/dedicated_token_limit`	上限（1 秒あたりのトークン数）	1 秒あたりのトークン数で表される専用の上限。この指標を使用して、トークンベースのモデルのプロビジョンドスループットの最大割り当てを把握します。
`/characters`	文字数	入力と出力の文字数分布。
`/character_count`	文字数	入力と出力の累積文字数。
`/consumed_throughput`	文字スループット	バーンダウン率を考慮したスループット使用量。割り当ての調整とプロビジョンドスループットの割り当ての確認が組み込まれています。この指標を使用して、プロビジョンドスループットの割り当てがどのように使用されたかを把握します。トークンベースのモデルの場合、この指標はトークンで消費されるスループットに 4 を掛けた値に相当します。
`/dedicated_character_limit`	上限（1 秒あたりの文字数）	1 秒あたりの文字数で表される専用の上限。この指標を使用して、文字ベースのモデルのプロビジョンドスループットの最大割り当てを確認します。
`/model_invocation_count`	モデルの呼び出し回数	モデル呼び出しの数（予測リクエスト）。
`/model_invocation_latencies`	モデル呼び出しのレイテンシ	モデル呼び出しのレイテンシ（予測レイテンシ）。
`/first_token_latencies`	最初のトークンのレイテンシ	リクエストを受信してから最初のトークンが返されるまでの時間。

Anthropic モデルには、プロビジョンドスループットのフィルタもありますが、tokens と token_count にのみ適用されます。

ダッシュボード

プロビジョンドスループットのデフォルトのモニタリングダッシュボードには、使用状況とプロビジョンドスループットの使用率をより詳細に把握できる指標が用意されています。ダッシュボードにアクセスする手順は次のとおりです。

コンソールで、[**プロビジョンドスループット**] ページに移動します。 Google Cloud
[プロビジョンドスループット] に移動
注文全体における各モデルのプロビジョンドスループットの使用率を表示するには、[使用率の概要] タブを選択します。

[モデル別のプロビジョンドスループットの使用率] テーブルには、選択した期間の次の情報が表示されます。
- お持ちの GSU の合計数。
- GSU で表したピーク時のスループット使用量。
- GSU の平均使用率。
- プロビジョンドスループットの上限に達した回数。
[モデル別のプロビジョンドスループット使用率] テーブルからモデルを選択すると、選択したモデルに固有の指標が表示されます。

モニタリングダッシュボードの見方

プロビジョンドスループットは、リクエストの作成時にミリ秒単位で利用可能な割り当てをリアルタイムでチェックしますが、このデータは Agent Platform の内部クロック時間に基づいてローリング割り当て適用期間と比較されます。この比較は、リクエストが行われた時間とは関係ありません。モニタリングダッシュボードには、割り当ての調整後に使用状況指標が報告されます。ただし、これらの指標は、選択した期間に基づいて、ダッシュボードのアライメント期間の平均値を提供するように集計されます。モニタリングダッシュボードでサポートされている最小粒度は分単位です。また、モニタリングダッシュボードのクロック時間は Agent Platform のクロック時間とは異なります。

タイミングの違いにより、モニタリングダッシュボードのデータとリアルタイムのパフォーマンスに差異が生じることがあります。これには、次のいずれかの理由が考えられます。

割り当てはリアルタイムで適用されますが、モニタリングチャートでは、モニタリングダッシュボードで指定された期間に応じて、データを 1 分以上の平均ダッシュボードアライメント期間に集計します。
Agent Platform とモニタリングダッシュボードは、異なるシステムクロックで実行されます。
1 秒間に、トラフィックのバーストがプロビジョンドスループットの割り当てを適用期間に基づいて超えると、リクエスト全体がスピルオーバートラフィックとして処理されます。ただし、その秒のモニタリングデータが 1 分のアライメント期間内で平均化されると、アライメント期間全体の平均使用率が 100% を超えないため、プロビジョンドスループットの使用率が低く見えることがあります。スピルオーバートラフィックが表示された場合は、特定のリクエストが行われた割り当て適用期間中にプロビジョンドスループットの割り当てが完全に使用されたことを確認します。これは、モニタリングダッシュボードに表示される平均使用率に関係なく行われます。

モニタリングデータに差異が生じる可能性の例

この例では、ウィンドウのアライメントのずれによって生じる差異を示します。図 1 は、特定の期間のスループット使用量を表しています。この図では、次のようになります。

青いバーは、プロビジョンドスループットとして許可されたトラフィックを表します。
オレンジ色のバーは、使用量を GSU の上限を超えてプッシュし、スピルオーバーとして処理されるトラフィックを表します。

スループットの使用量に基づいて、図 2 は、ウィンドウのアライメントのずれによる視覚的な差異を示しています。この図では、次のようになります。

青い線はプロビジョンドスループットトラフィックを表します。
オレンジ色の線はスピルオーバートラフィックを表します。

モニタリングデータに差異が生じる可能性がある — **図 2.**モニタリングダッシュボードに表示される可能性のある視覚的な差異

この場合、モニタリング集計期間のプロビジョンドスループットの使用量にスピルオーバーが表示されない一方で、別のモニタリング集計期間のスピルオーバーと一致する GSU の上限を下回るプロビジョンドスループットの使用量が表示されることがあります。

モニタリングダッシュボードのトラブルシューティング

ダッシュボードで予期しないスピルオーバーや 429 エラーが発生した場合は、次の手順でトラブルシューティングできます。

ズームイン: ダッシュボードの期間を 12 時間以下に設定して、最も細かいアライメント期間である 1 分にします。期間が長いと、スロットリングの原因となるスパイクが平滑化され、アライメント期間の平均値が増加します。
合計トラフィックを確認する: モデル固有のダッシュボードには、専用トラフィックとスピルオーバートラフィックが 2 つの別々の線として表示されます。これにより、プロビジョンドスループットの割り当てが完全に使用されておらず、早期にスピルオーバーしているという誤った結論に至る可能性があります。トラフィックが利用可能な割り当てを超えると、リクエスト全体がスピルオーバーとして処理されます。別の便利な可視化方法として、Metrics Explorer を使用してダッシュボードにクエリを追加し、特定のモデルとリージョンのトークンスループットを含めます。追加の集計やフィルタを含めずに、すべてのトラフィックタイプ（専用、スピルオーバー、共有）の合計トラフィックを表示します。

Genmedia モデルをモニタリングする

プロビジョンドスループットのモニタリングは、Veo 3 モデルでは使用できません。

アラート

アラートを有効にしたら、トラフィック使用量の管理に役立つデフォルトのアラートを設定します。

アラートを有効にする

ダッシュボードでアラートを有効にする手順は次のとおりです。

コンソールで、[**プロビジョンドスループット**] ページに移動します。 Google Cloud
[プロビジョンドスループット] に移動
注文全体における各モデルのプロビジョンドスループットの使用率を表示するには、[使用率の概要] タブを選択します。
[推奨アラート] を選択すると、次のアラートが表示されます。
- Provisioned Throughput Usage Reached Limit
- Provisioned Throughput Utilization Exceeded 80%
- Provisioned Throughput Utilization Exceeded 90%
トラフィックの管理に役立つアラートを確認します。

アラートの詳細を表示する

アラートの詳細を表示する手順は次のとおりです。

[インテグレーション] ページに移動します。
[インテグレーション] に移動
[フィルタ] フィールドに「vertex 」と入力し、Enter キーを押します。[Google Gemini Enterprise Agent Platform] が表示されます。
詳細を表示するには、[詳細を表示] をクリックします。[Google Gemini Enterprise Agent Platform の詳細] ペインが表示されます。
[アラート] タブを選択し、[アラートポリシー] テンプレートを選択します。

プロビジョンド スループット コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

プロビジョンド スループットの使用が適切なケース

プロビジョンド スループットの仕組み

プロビジョンド スループットの割り当ての確認

プロビジョンド スループットの割り当て適用期間

割り当て適用期間の仕組み

過剰な使用を制御するか、プロビジョンド スループットをバイパスする

デフォルトの動作

プロビジョンド スループットのみを使用する

従量課金制のみを使用する

例

Python

インストール

Go

Node.js

インストール

Java

REST

API キーでプロビジョンド スループットを使用する

REST

プロビジョンド スループットをモニタリングする

ディメンション

パスの接頭辞

指標

ダッシュボード

モニタリング ダッシュボードの見方

モニタリング データに差異が生じる可能性の例

モニタリング ダッシュボードのトラブルシューティング

Genmedia モデルをモニタリングする

アラート

アラートを有効にする

アラートの詳細を表示する

プロビジョンドスループット

プロビジョンドスループットの使用が適切なケース

プロビジョンドスループットの仕組み

プロビジョンドスループットの割り当ての確認

プロビジョンドスループットの割り当て適用期間

過剰な使用を制御するか、プロビジョンドスループットをバイパスする

プロビジョンドスループットのみを使用する

API キーでプロビジョンドスループットを使用する

プロビジョンドスループットをモニタリングする

モニタリングダッシュボードの見方

モニタリングデータに差異が生じる可能性の例

モニタリングダッシュボードのトラブルシューティング