サポートされているモデル

次の表に、プロビジョンド スループットをサポートするモデル、各生成 AI のスケール単位(GSU)のスループット、各モデルのバーンダウン率を示します。

Google モデル

プロビジョンド スループットは、特定のモデル ID を使用してプロジェクトから直接呼び出すモデルのみをサポートします。モデル エイリアスはサポートしていません。プロビジョンド スループットを使用してモデルに API 呼び出しを行うには、モデル バージョン エイリアスではなく、特定のモデル バージョン ID(gemini-2.0-flash-001 など)を使用する必要があります。

また、プロビジョンド スループットは、Vertex AI エージェントや Vertex AI Search などの他の Vertex AI プロダクトによって呼び出されるモデルをサポートしていません。たとえば、Vertex AI Search を使用中に Gemini 2.0 Flash への API 呼び出しを行う場合、Gemini 2.0 Flash のプロビジョンド スループットの注文では、Vertex AI Search によって行われた呼び出しは保証されません。

プロビジョンド スループットは、バッチ予測呼び出しをサポートしていません。

次の表に、プロビジョンド スループットをサポートする Google モデルのスループット、購入単位、バーンダウン率を示します。1 秒あたりのスループットは、すべてのリクエストにわたるプロンプト入力と生成出力を 1 秒あたりで定義したものです。

ワークロードに必要なトークン数を確認するには、SDK トークン化ツールまたは countTokens API をご覧ください。

モデル GSU ごとの 1 秒あたりのスループット 単位 GSU の最小購入単位 バーンダウン率

Live API を使用した Gemini 2.5 Flash

サポートされている最新バージョン: gemini-live-2.5-flash

1620 トークン 1 1 入力テキスト トークン = 1 入力テキスト トークン
1 入力音声トークン = 6 入力テキスト トークン
1 入力動画トークン = 6 入力テキスト トークン
1 入力セッション メモリ トークン = 1 入力テキスト トークン
1 出力テキスト トークン = 4 入力テキスト トークン
1 出力音声トークン = 24 入力テキスト トークン

Gemini 2.5 Flash 画像

サポートされている最新バージョン: gemini-2.5-flash-image

2690 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 出力テキスト トークン = 9 トークン
1 出力画像トークン = 100 トークン

Gemini 2.5 Flash-Lite

サポートされている最新バージョン(GA): gemini-2.5-flash-lite

サポートされている最新バージョン(プレビュー): gemini-2.5-flash-lite-preview-09-2025

8070 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 3 トークン
1 出力レスポンス テキスト トークン = 4 トークン
1 出力推論テキスト トークン = 4 トークン

Live API ネイティブ音声を使用した Gemini 2.5 Flash

サポートされている最新バージョン: gemini-live-2.5-flash-preview-native-audio-09-2025プレビュー

1620 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力音声トークン = 6 トークン
1 入力動画トークン = 6 トークン
1 入力画像トークン = 6 トークン
1 入力セッション メモリ トークン = 1 トークン
1 出力テキスト トークン = 4 トークン
1 出力音声トークン = 24 トークン

Gemini 2.5 Pro

サポートされている最新バージョン: gemini-2.5-pro

650 トークン 1 入力トークンが 200,000 個以下の場合:
1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 1 トークン
1 出力レスポンス テキスト トークン = 8 トークン
1 出力推論テキスト トークン = 8 トークン

入力トークンが 200,000 個を超える場合:
1 入力テキスト トークン = 2 トークン
1 入力画像トークン = 2 トークン
1 入力動画トークン = 2 トークン
1 入力音声トークン = 2 トークン
1 出力レスポンス テキスト トークン = 12 トークン
1 出力推論テキスト トークン = 12 トークン

Gemini 2.5 Flash

サポートされている最新バージョン(GA): gemini-2.5-flash

サポートされている最新バージョン(プレビュー): gemini-2.5-flash-preview-09-2025

2690 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 4 トークン
1 出力レスポンス テキスト トークン = 9 トークン
1 出力推論テキスト トークン = 9 トークン

Gemini 2.0 Flash

サポートされている最新バージョン: gemini-2.0-flash-001

3360 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 7 トークン
1 出力テキスト トークン = 4 トークン

Gemini 2.0 Flash-Lite

サポートされている最新バージョン: gemini-2.0-flash-lite-001

6720 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

Veo 3

サポートされている最新バージョン: veo-3.0-generate-001

0.0040 動画の秒数 34 出力動画 1 秒 = 出力動画 1 秒
動画と音声の秒数 67 出力動画と音声、1 秒 = 出力動画、2 秒

Veo 3 Fast

サポートされている最新バージョン: veo-3.0-fast-generate-001

0.0080 動画の秒数 17 出力動画 1 秒 = 出力動画 1 秒
動画と音声の秒数 25 出力動画と音声、1 秒 = 出力動画、1.45 秒

Imagen 4 Ultra Generate

imagen-4.0-ultra-generate-001

0.015 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。

Imagen 4 Generate

imagen-4.0-generate-001

0.02 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。

Imagen 4 Fast Generate

imagen-4.0-fast-generate-001

0.04 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。

Imagen 3 Generate 002

imagen-3.0-generate-002

0.02 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。

Imagen 3 Generate 001

imagen-3.0-generate-001

0.025 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
Imagen 3 Fast 0.05 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
MedLM medium 2,000 文字数 1 1 入力文字 = 1 文字
1 出力文字 = 2 文字
MedLM large 200 文字数 1 1 入力文字 = 1 文字
1 出力文字 = 3 文字
MedLM large 1.5 200 文字数 1 1 入力文字 = 1 文字
1 出力文字 = 3 文字

モデルの機能と入出力の制限については、モデルのドキュメントをご覧ください。

新しいモデルが利用可能になり次第、アップグレードできます。提供状況と廃止日については、Google モデルをご覧ください。

サポートされているロケーションの詳細については、利用可能なロケーションをご覧ください。

グローバル エンドポイント モデルのサポート

プロビジョンド スループットは、次のモデルのグローバル エンドポイントをサポートしています。

モデル サポートされている最新のモデル バージョン
Gemini 2.5 Flash Image gemini-2.5-flash-image
Gemini 2.5 Flash-Lite
  • gemini-2.5-flash-lite-preview-09-2025プレビュー
  • gemini-2.5-flash-lite  (GA
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

プロビジョンド スループットの割り当てを超えるトラフィックは、デフォルトでグローバル エンドポイントを使用します。

モデルのグローバル エンドポイントにプロビジョンド スループットを割り当てるには、プロビジョンド スループットを注文するときに、リージョンとして global を選択します。

教師ありファインチューニングされたモデルのサポート

教師ありファインチューニングをサポートする Google モデルでは、次のものがサポートされています。

  • プロビジョンド スループットは、ベースモデルと、それらのベースモデルの教師ありファインチューニング バージョンの両方に適用できます。

  • 教師ありファインチューニング済みモデルのエンドポイントと、それに対応するベースモデルは、同じプロビジョンド スループットの割り当てに対してカウントされます。

    たとえば、特定のプロジェクトの gemini-2.0-flash-lite-001 用に購入したプロビジョンド スループットでは、そのプロジェクト内で作成された gemini-2.0-flash-lite-001 の教師ありファインチューニング バージョンから行われたリクエストが優先されます。適切なヘッダーを使用して、トラフィックの動作を制御します。

パートナーのモデル

次の表に、プロビジョンド スループットをサポートするパートナー モデルのスループット、購入単位、バーンダウン率を示します。Claude モデルは、1 秒あたりのトークンで測定されます。これは、1 秒あたりのすべてのリクエストの入力トークンと出力トークンの合計として定義されます。

モデル GSU あたりのスループット(トークン/秒) GSU の最小購入量 GSU の購入単位 バーンダウン率
Anthropic の Claude Sonnet 4.5 350 25 1 200,000 未満の入力トークン:
1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン

200,000 以上の入力トークン:
1 入力トークン = 2 トークン
1 出力トークン = 7.5 トークン
1 キャッシュ書き込みトークン = 2.5 トークン
1 キャッシュ ヒット トークン = 0.2 トークン
Anthropic の Claude Opus 4.1 70 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic の Claude Haiku 4.5 1050 8 1 200,000 個未満の入力トークン:
1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic の Claude Opus 4 70 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic の Claude Sonnet 4 350 25 1 200,000 未満の入力トークン:
1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン

200,000 以上の入力トークン:
1 入力トークン = 2 トークン
1 出力トークン = 7.5 トークン
1 キャッシュ書き込みトークン = 2.5 トークン
1 キャッシュ ヒット トークン = 0.2 トークン
Anthropic の Claude 3.7 Sonnet 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic の Claude 3.5 Sonnet v2(非推奨) 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic の Claude 3.5 Haiku 2,000 10 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic の Claude 3 Opus 70 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic の Claude 3 Haiku 4,200 5 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic's Claude 3.5 Sonnet(非推奨) 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込みトークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン

サポートされているロケーションについては、Anthropic Claude リージョンの可用性をご覧ください。Anthropic モデル用のプロビジョンド スループットを注文するには、Google Cloud アカウント担当者にお問い合わせください。

次のステップ