サポートされているモデル

次の表に、プロビジョンド スループットをサポートするモデル、各生成 AI のスケール単位(GSU)のスループット、各モデルのバーンダウン率を示します。

Google モデル

プロビジョンド スループットは、特定のモデル ID を使用してプロジェクトから直接呼び出すモデルのみをサポートします。モデル エイリアスはサポートしていません。プロビジョンド スループットを使用してモデルに API 呼び出しを行うには、モデル バージョン エイリアスではなく、特定のモデル バージョン ID(gemini-2.0-flash-001 など)を使用する必要があります。

プロビジョンド スループットはモデル リクエストの容量を保証しますが、グラウンディングなど、使用する可能性のある他のツールの割り当ては含まれません。ワークロードのサイズによっては、これらのツールに追加の割り当てを個別にリクエストする必要があります。

また、プロビジョンド スループットは、Vertex AI エージェントや Agent Search などの他の Gemini Enterprise Agent Platform プロダクトによって呼び出されるモデルをサポートしていません。たとえば、Agent Search を使用中に Gemini 2.0 Flash への API 呼び出しを行う場合、Gemini 2.0 Flash のプロビジョンド スループットの注文では、Agent Search によって行われた呼び出しは保証されません。

プロビジョンド スループットは、バッチ予測呼び出しをサポートしていません。

次の表に、プロビジョンド スループットをサポートする Google モデルのスループット、購入単位、バーンダウン率を示します。1 秒あたりのスループットは、すべてのリクエストにわたるプロンプト入力と生成出力を 1 秒あたりで定義したものです。

ワークロードに必要なトークン数を確認するには、SDK トークン化ツールまたは countTokens API をご覧ください。

モデル GSU ごとの 1 秒あたりのスループット 単位 GSU の最小購入単位 バーンダウン率

Gemini 3 Pro Image

サポートされている最新バージョン: gemini-3-pro-image

500 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 出力レスポンス テキスト トークン = 6 トークン
1 出力推論テキスト トークン = 6 トークン
1 出力画像トークン = 60 トークン

Gemini 3.1 Flash Image

サポートされている最新バージョン: gemini-3.1-flash-image

2015 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 出力レスポンス テキスト トークン = 6 トークン
1 出力推論テキスト トークン = 6 トークン
1 出力画像トークン = 120 トークン

Gemini 3.5 Flash

サポートされている最新バージョン: gemini-3.5-flash

675 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 1 トークン
1 入力テキスト キャッシュ保存トークン = 0.1 トークン
1 入力画像キャッシュ保存トークン = 0.1 トークン
1 入力動画キャッシュ保存トークン = 0.1 トークン
1 入力音声キャッシュ保存トークン = 0.1 トークン
1 出力テキスト トークン = 6 トークン

Gemini 3.1 Flash-Lite

サポートされている最新バージョン: gemini-3.1-flash-lite

4030 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 2 トークン
1 入力テキスト キャッシュ トークン = 0.1 トークン
1 入力画像キャッシュ トークン = 0.1 トークン
1 入力動画キャッシュ トークン = 0.1 トークン
1 入力音声キャッシュ トークン = 0.2 トークン
1 出力レスポンス テキスト トークン = 6 トークン
1 出力推論テキスト トークン = 6 トークン

Gemini 3.1 Flash Image

サポートされている最新バージョン: gemini-3.1-flash-image-previewプレビュー

2015 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 出力テキスト トークン = 6 トークン
1 出力画像トークン = 120 トークン

Gemini 3.1 Pro

サポートされている最新バージョン: gemini-3.1-pro-previewプレビュー

500 トークン 1 入力トークンが 200,000 個以下の場合:
1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 1 トークン
1 入力キャッシュ トークン = 0.1 トークン
1 出力レスポンス テキスト トークン = 6 トークン
1 出力推論テキスト トークン = 6 トークン

入力トークンが 200,000 個を超える場合:
1 入力テキスト トークン = 2 トークン
1 入力画像トークン = 2 トークン
1 入力動画トークン = 2 トークン
1 入力音声トークン = 2 トークン
1 入力キャッシュ トークン = 0.2 トークン
1 出力レスポンス テキスト トークン = 9 トークン
1 出力推論テキスト トークン = 9 トークン

Gemini 3 Flash

サポートされている最新バージョン: gemini-3-flash-previewプレビュー

2015 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 2 トークン
1 入力テキスト、画像、動画のキャッシュ保存トークン = 0.1 トークン
1 入力音声のキャッシュ保存トークン = 0.2 トークン
1 出力レスポンス テキスト トークン = 6 トークン
1 出力推論テキスト トークン = 6 トークン

Gemini 3 Pro Image

サポートされている最新バージョン: gemini-3-pro-image-previewプレビュー

500 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 出力テキスト トークン = 6 トークン
1 出力思考トークン = 6 トークン
1 出力画像トークン = 60 トークン

Gemini 2.5 Pro

サポートされている最新バージョン: gemini-2.5-pro

650 トークン 1 入力トークンが 200,000 以下の場合:
1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 1 トークン
1 出力レスポンス テキスト トークン = 8 トークン
1 出力推論テキスト トークン = 8 トークン

入力トークンが 200,000 を超える場合:
1 入力テキスト トークン = 2 トークン
1 入力画像トークン = 2 トークン
1 入力動画トークン = 2 トークン
1 入力音声トークン = 2 トークン
1 出力レスポンス テキスト トークン = 12 トークン
1 出力推論テキスト トークン = 12 トークン

Gemini 2.5 Flash Image

サポートされている最新バージョン: gemini-2.5-flash-image

2,690 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 出力テキスト トークン = 9 トークン
1 出力画像トークン = 100 トークン

Gemini 2.5 Flash

サポートされている最新バージョン: gemini-2.5-flash

2690 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 4 トークン
1 出力レスポンス テキスト トークン = 9 トークン
1 出力推論テキスト トークン = 9 トークン

Gemini 2.5 Flash-Lite

サポートされている最新バージョン(GA): gemini-2.5-flash-lite

サポートされている最新バージョン(プレビュー): gemini-2.5-flash-lite-preview-09-2025

8,070 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 入力音声トークン = 3 トークン
1 出力レスポンス テキスト トークン = 4 トークン
1 出力推論テキスト トークン = 4 トークン

Gemini Live API ネイティブ音声を使用した Gemini 2.5 Flash

サポートされている最新バージョン: gemini-live-2.5-flash-native-audio

1,620 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力音声トークン = 6 トークン
1 入力動画トークン = 6 トークン
1 入力画像トークン = 6 トークン
1 入力セッション メモリ トークン = 1 トークン
1 出力テキスト トークン = 4 トークン
1 出力音声トークン = 24 トークン

Veo 3.1 Lite 生成

サポートされている最新バージョン: veo-3.1-lite-generate-001

0.0350 動画の秒数(720p) 1 出力動画 1 秒(720p)= 出力動画 1 秒
動画と音声の秒数(720p) 1 出力動画と音声(720p)、1 秒 = 出力動画、1.75 秒
動画の秒数(1080p) 1 出力動画 1 秒(1080p)= 出力動画 1.75 秒(720p)
動画と音声の秒数(1080p) 1 出力動画と音声(1080p)、1 秒 = 出力動画(720p)、2.33 秒

Veo 3.1

サポートされている最新バージョン: veo-3.1-generate-001

0.0040 動画の秒数 1 出力動画 1 秒 = 出力動画 1 秒
動画と音声の秒数 1 出力動画と音声、1 秒 = 出力動画、2 秒

Veo 3.1 Fast

サポートされている最新バージョン: veo-3.1-fast-generate-001

0.01 動画の秒数(720p) 1 出力動画 1 秒(720p)= 出力動画 1 秒
動画と音声の秒数(720p) 1 出力動画と音声(720p)、1 秒 = 出力動画、1.30 秒
動画の秒数(1080p) 1 出力動画 1 秒(1080p)= 出力動画 1.30 秒(720p)
動画と音声の秒数(1080p) 1 出力動画と音声(1080p)1 秒 = 出力動画(720p)1.60 秒
動画の秒数(4K) 1 出力動画 1 秒(4K)= 出力動画 3.40 秒(720p)
動画と音声の秒数(4K) 1 出力動画と音声(4K)1 秒 = 出力動画(720p)4 秒

Veo 3

サポートされている最新バージョン: veo-3.0-generate-001

0.0040 動画の秒数 1 出力動画 1 秒 = 出力動画 1 秒
動画と音声の秒数 1 出力動画と音声、1 秒 = 出力動画、2 秒

Veo 3 Fast

サポートされている最新バージョン: veo-3.0-fast-generate-001

0.01 動画の秒数(720p) 1 出力動画 1 秒(720p)= 出力動画 1 秒
動画と音声の秒数(720p) 1 出力動画と音声(720p)、1 秒 = 出力動画、1.30 秒
動画の秒数(1080p) 1 出力動画 1 秒(1080p)= 出力動画 1.30 秒(720p)
動画と音声の秒数(1080p) 1 出力動画と音声(1080p)1 秒 = 出力動画(720p)1.60 秒

モデルの機能と入出力の制限については、モデルのドキュメントをご覧ください。

新しいモデルが利用可能になり次第、アップグレードできます。提供状況と廃止日については、Google モデルをご覧ください。

サポートされているロケーションの詳細については、利用可能なロケーションをご覧ください。

パートナーのモデル

次の表に、プロビジョンド スループットをサポートするパートナー モデルのスループット、購入単位、バーンダウン率を示します。Claude モデルは、1 秒あたりのトークンで測定されます。これは、1 秒あたりのすべてのリクエストの入力トークンと出力トークンの合計として定義されます。

モデル GSU あたりのスループット(トークン/秒) GSU の最小購入量 GSU の購入単位 バーンダウン率
Anthropic Claude Opus 4.8 210 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic の Claude Opus 4.7 210 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic の Claude Sonnet 4.6 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic Claude Opus 4.6 210 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic Claude Opus 4.5 210 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic Claude Sonnet 4.5 350 25 1 入力トークンが 200,000 未満の場合:
1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン

入力トークンが 200,000 以上の場合:
1 入力トークン = 2 トークン
1 出力トークン = 7.5 トークン
1 キャッシュ書き込み 5 分トークン = 2.5 トークン
1 キャッシュ書き込み 1 時間トークン = 4 トークン
1 キャッシュ ヒット トークン = 0.2 トークン
Anthropic Claude Opus 4.1 70 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic Claude Haiku 4.5 1,050 8 1 200,000 個未満の入力トークン:
1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic Claude Opus 4 70 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic Claude Sonnet 4 350 25 1 入力トークンが 200,000 未満の場合:
1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン

入力トークンが 200,000 以上の場合:
1 入力トークン = 2 トークン
1 出力トークン = 7.5 トークン
1 キャッシュ書き込み 5 分トークン = 2.5 トークン
1 キャッシュ書き込み 1 時間トークン = 4 トークン
1 キャッシュ ヒット トークン = 0.2 トークン
Anthropic Claude 3.7 Sonnet(非推奨) 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic Claude 3.5 Sonnet v2(非推奨) 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic Claude 3.5 Haiku(非推奨) 2,000 10 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic Claude 3 Opus 70 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic Claude 3 Haiku(非推奨) 4,200 5 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ書き込み 1 時間トークン = 2 トークン
1 キャッシュ ヒット トークン = 0.1 トークン
Anthropic Claude 3.5 Sonnet(非推奨) 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
1 キャッシュ書き込み 5 分トークン = 1.25 トークン
1 キャッシュ ヒット トークン = 0.1 トークン

サポートされているロケーションについては、Anthropic Claude リージョンの可用性をご覧ください。Anthropic モデル用のプロビジョンド スループットを注文するには、Google Cloud アカウント担当者にお問い合わせください。

オープンモデル

次の表に、プロビジョンド スループットをサポートするオープンモデルのスループット、購入単位、バーンダウン率を示します。

モデル GSU あたりのスループット(トークン/秒) GSU の最小購入量 GSU の購入単位 バーンダウン率

DeepSeek-OCR

サポートされている最新バージョン: deepseek-ocr-maas

3,360 1 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

DeepSeek-V3.2

DeepSeek-V3.2

サポートされている最新バージョン: deepseek-v3.2-maas

1,680 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

Gemma 4 26B A4B IT

サポートされている最新バージョン: gemma-4-26b-a4b-it-maas

このモデルのプロビジョンド スループットのサポートは、Google モデルと同じ SKU で課金されますが、オープンモデルの機能の対象となります。

6,725 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

Kimi K2 Thinking

サポートされている最新バージョン: kimi-k2-thinking-maas

1,680 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

Llama 3.3 70B

サポートされている最新バージョン: llama-3.3-70b-instruct-maas

1,400 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 1 トークン

Llama 4 Maverick 17B-128E

サポートされている最新バージョン: llama-4-maverick-17b-128e-instruct-maas

2,800 1 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

Llama 4 Scout 17B-16E

サポートされている最新バージョン: llama-4-scout-17b-16e-instruct-maas

4,035 1 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 出力テキスト トークン = 3 トークン

MiniMax M2

サポートされている最新バージョン: minimax-m2-maas

3,360 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

OpenAI gpt-oss 120B

サポートされている最新バージョン: gpt-oss-120b-maas

11,205 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

OpenAI gpt-oss 20B

サポートされている最新バージョン: gpt-oss-20b-maas

14,405 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

Qwen3 235B

サポートされている最新バージョン: qwen3-235b-a22b-instruct-2507-maas

4,035 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

Qwen3 Coder

サポートされている最新バージョン: qwen3-coder-480b-a35b-instruct-maas

1,010 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

Qwen3-Next-80B Instruct

サポートされている最新バージョン: qwen3-next-80b-a3b-instruct-maas

6,725 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 8 トークン

Qwen3-Next-80B Thinking

サポートされている最新バージョン: qwen3-next-80b-a3b-thinking-maas

6,725 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 8 トークン

GLM 4.7

サポートされている最新バージョン: glm-4.7-maas

1,685 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 4 トークン

GLM 5

サポートされている最新バージョン: glm-5-maas

1,010 1 1 1 入力テキスト トークン = 1 トークン
1 出力テキスト トークン = 3 トークン

Google モデルとオープンモデルで利用可能な機能

次の表に、Google モデルとオープンモデルのプロビジョンド スループットで使用可能な機能を示します。

機能 Google モデル オープンモデル(プレビュー)
Google Cloud コンソールからの注文 はい はい
グローバル エンドポイントのサポート グローバル エンドポイント モデルのサポートをご覧ください。 グローバル エンドポイント モデルのサポートをご覧ください。
教師ありファインチューニングされたモデルのサポート はい いいえ
API キーの使用状況のサポート はい いいえ
コンテキストの暗黙的なキャッシュ保存との統合 はい なし
コンテキストの明示的なキャッシュ保存との統合 はい なし
ML 処理 特定のリージョンで利用可能。詳細については、シングルゾーン プロビジョンド スループットをご覧ください。 なし
利用可能な注文期間 1 週間、1 か月、3 か月、1 年 1 週間、1 か月、3 か月、1 年
コンソールからの注文の変更 はい いいえ
注文ステータス: 審査待ち、承認済み、有効、期限切れ はい はい
超過分はデフォルトで従量課金制にスピルオーバー はい はい
API ヘッダー制御: プロビジョンド スループットのみを使用する場合は「専用」、従量課金制のみを使用する場合は「共有」。 はい はい
モニタリング: 指標ダッシュボードアラート はい はい

グローバル エンドポイント モデルのサポート

プロビジョンド スループットは、Google モデルとオープンモデルのグローバル エンドポイントをサポートしています。

プロビジョンド スループットの割り当てを超えるトラフィックは、デフォルトでグローバル エンドポイントを使用します。

モデルのグローバル エンドポイントにプロビジョンド スループットを割り当てるには、プロビジョンド スループットを注文するときに、リージョンとして global を選択します。

グローバル エンドポイントをサポートする Google モデル

次の表に、プロビジョンド スループットがグローバル エンドポイントをサポートする Google モデルを示します。

モデル サポートされている最新のモデル バージョン
Gemini 3 Pro Image gemini-3-pro-image
Gemini 3.1 Flash Image gemini-3.1-flash-image
Gemini 3.5 Flash gemini-3.5-flash
Gemini 3.1 Flash-Lite gemini-3.1-flash-lite
Gemini 3.1 Flash Image プレビュー gemini-3.1-flash-image-preview
Gemini 3.1 Pro プレビュー gemini-3.1-pro-preview
Gemini 3 Flash プレビュー gemini-3-flash-preview
Gemini 3 Pro Image プレビュー gemini-3-pro-image-preview
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash プレビュー gemini-2.5-flash-preview-09-2025
Gemini 2.5 Flash-Lite プレビュー gemini-2.5-flash-lite-preview-09-2025
Gemini 2.5 Flash Image gemini-2.5-flash-image
Gemini 2.5 Flash gemini-2.5-flash
Gemini 2.5 Flash-Lite gemini-2.5-flash-lite

グローバル エンドポイントをサポートするオープンモデル

次の表に、プロビジョンド スループットがグローバル エンドポイントをサポートするオープンモデルを示します。

モデル サポートされている最新のモデル バージョン
DeepSeek-OCR deepseek-ocr-maas
DeepSeek-V3.2 deepseek-v3.2-maas
Kimi K2 Thinking kimi-k2-thinking-maas
MiniMax M2 minimax-m2-maas
OpenAI gpt-oss 120B gpt-oss-120b-maas
Qwen3-Next-80B Instruct qwen3-next-80b-a3b-instruct-maas
Qwen3-Next-80B Thinking qwen3-next-80b-a3b-thinking-maas
GLM 4.7 glm-4.7-maas
GLM 5 glm-5-maas

教師ありファインチューニングされたモデルのサポート

教師ありファインチューニングをサポートする Google モデルでは、次のものがサポートされています。

  • プロビジョンド スループットは、ベースモデルと、それらのベースモデルの教師ありファインチューニング バージョンの両方に適用できます。

  • 教師ありファインチューニング済みモデルのエンドポイントと、それに対応するベースモデルは、同じプロビジョンド スループットの割り当てに対してカウントされます。

    たとえば、特定のプロジェクトの gemini-2.0-flash-lite-001 用に購入したプロビジョンド スループットでは、そのプロジェクト内で作成された gemini-2.0-flash-lite-001 の教師ありファインチューニング バージョンから行われたリクエストが優先されます。適切なヘッダーを使用して、トラフィックの動作を制御します。

次のステップ