Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

サポートされているモデル

次の表に、プロビジョンドスループットをサポートするモデル、各生成 AI のスケール単位（GSU）のスループット、各モデルのバーンダウン率を示します。

Google モデル

注意: 2026 年 6 月 1 日をもって、gemini-2.0-flash-001 と gemini-2.0-flash-lite-001 は廃止され、利用できなくなります。これには、モデル提供とプロビジョンドスループットの両方が含まれます。Gemini 3.1 Flash-Lite、Gemma 4、またはそれ以降の Gemini リリースを使用します。

プロビジョンドスループットは、特定のモデル ID を使用してプロジェクトから直接呼び出すモデルのみをサポートします。モデルエイリアスはサポートしていません。プロビジョンドスループットを使用してモデルに API 呼び出しを行うには、モデルバージョンエイリアスではなく、特定のモデルバージョン ID（gemini-2.0-flash-001 など）を使用する必要があります。

プロビジョンドスループットはモデルリクエストの容量を保証しますが、グラウンディングなど、使用する可能性のある他のツールの割り当ては含まれません。ワークロードのサイズによっては、これらのツールに追加の割り当てを個別にリクエストする必要があります。

また、プロビジョンドスループットは、Vertex AI エージェントや Agent Search などの他の Gemini Enterprise Agent Platform プロダクトによって呼び出されるモデルをサポートしていません。たとえば、Agent Search を使用中に Gemini 2.0 Flash への API 呼び出しを行う場合、Gemini 2.0 Flash のプロビジョンドスループットの注文では、Agent Search によって行われた呼び出しは保証されません。

プロビジョンドスループットは、バッチ予測呼び出しをサポートしていません。

次の表に、プロビジョンドスループットをサポートする Google モデルのスループット、購入単位、バーンダウン率を示します。1 秒あたりのスループットは、すべてのリクエストにわたるプロンプト入力と生成出力を 1 秒あたりで定義したものです。

ワークロードに必要なトークン数を確認するには、SDK トークン化ツールまたは countTokens API をご覧ください。

モデル	GSU ごとの 1 秒あたりのスループット	単位	GSU の最小購入単位	バーンダウン率
Gemini 3 Pro Image サポートされている最新バージョン: `gemini-3-pro-image`	500	トークン	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 出力レスポンステキストトークン = 6 トークン 1 出力推論テキストトークン = 6 トークン 1 出力画像トークン = 60 トークン
Gemini 3.1 Flash Image サポートされている最新バージョン: `gemini-3.1-flash-image`	2015	トークン	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 出力レスポンステキストトークン = 6 トークン 1 出力推論テキストトークン = 6 トークン 1 出力画像トークン = 120 トークン
Gemini 3.5 Flash サポートされている最新バージョン: `gemini-3.5-flash`	675	トークン	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 1 トークン 1 入力テキストキャッシュ保存トークン = 0.1 トークン 1 入力画像キャッシュ保存トークン = 0.1 トークン 1 入力動画キャッシュ保存トークン = 0.1 トークン 1 入力音声キャッシュ保存トークン = 0.1 トークン 1 出力テキストトークン = 6 トークン
Gemini 3.1 Flash-Lite サポートされている最新バージョン: `gemini-3.1-flash-lite`	4030	トークン	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 2 トークン 1 入力テキストキャッシュトークン = 0.1 トークン 1 入力画像キャッシュトークン = 0.1 トークン 1 入力動画キャッシュトークン = 0.1 トークン 1 入力音声キャッシュトークン = 0.2 トークン 1 出力レスポンステキストトークン = 6 トークン 1 出力推論テキストトークン = 6 トークン
Gemini 3.1 Flash Image サポートされている最新バージョン: `gemini-3.1-flash-image-preview` （プレビュー）	2015	トークン	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 出力テキストトークン = 6 トークン 1 出力画像トークン = 120 トークン
Gemini 3.1 Pro サポートされている最新バージョン: `gemini-3.1-pro-preview` （プレビュー）	500	トークン	1	入力トークンが 200,000 個以下の場合: 1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 1 トークン 1 入力キャッシュトークン = 0.1 トークン 1 出力レスポンステキストトークン = 6 トークン 1 出力推論テキストトークン = 6 トークン入力トークンが 200,000 個を超える場合: 1 入力テキストトークン = 2 トークン 1 入力画像トークン = 2 トークン 1 入力動画トークン = 2 トークン 1 入力音声トークン = 2 トークン 1 入力キャッシュトークン = 0.2 トークン 1 出力レスポンステキストトークン = 9 トークン 1 出力推論テキストトークン = 9 トークン
Gemini 3 Flash サポートされている最新バージョン: `gemini-3-flash-preview` （プレビュー）	2015	トークン	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 2 トークン 1 入力テキスト、画像、動画のキャッシュ保存トークン = 0.1 トークン 1 入力音声のキャッシュ保存トークン = 0.2 トークン 1 出力レスポンステキストトークン = 6 トークン 1 出力推論テキストトークン = 6 トークン
Gemini 3 Pro Image サポートされている最新バージョン: `gemini-3-pro-image-preview` （プレビュー）	500	トークン	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 出力テキストトークン = 6 トークン 1 出力思考トークン = 6 トークン 1 出力画像トークン = 60 トークン
Gemini 2.5 Pro サポートされている最新バージョン: `gemini-2.5-pro`	650	トークン	1	入力トークンが 200,000 以下の場合: 1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 1 トークン 1 出力レスポンステキストトークン = 8 トークン 1 出力推論テキストトークン = 8 トークン入力トークンが 200,000 を超える場合: 1 入力テキストトークン = 2 トークン 1 入力画像トークン = 2 トークン 1 入力動画トークン = 2 トークン 1 入力音声トークン = 2 トークン 1 出力レスポンステキストトークン = 12 トークン 1 出力推論テキストトークン = 12 トークン
Gemini 2.5 Flash Image サポートされている最新バージョン: `gemini-2.5-flash-image`	2,690	トークン	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 出力テキストトークン = 9 トークン 1 出力画像トークン = 100 トークン
Gemini 2.5 Flash サポートされている最新バージョン: `gemini-2.5-flash`	2690	トークン	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 4 トークン 1 出力レスポンステキストトークン = 9 トークン 1 出力推論テキストトークン = 9 トークン
Gemini 2.5 Flash-Lite サポートされている最新バージョン（GA）: `gemini-2.5-flash-lite` サポートされている最新バージョン（プレビュー）: `gemini-2.5-flash-lite-preview-09-2025`	8,070	トークン	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 入力音声トークン = 3 トークン 1 出力レスポンステキストトークン = 4 トークン 1 出力推論テキストトークン = 4 トークン
Gemini Live API ネイティブ音声を使用した Gemini 2.5 Flash サポートされている最新バージョン: `gemini-live-2.5-flash-native-audio`	1,620	トークン	1	1 入力テキストトークン = 1 トークン 1 入力音声トークン = 6 トークン 1 入力動画トークン = 6 トークン 1 入力画像トークン = 6 トークン 1 入力セッションメモリトークン = 1 トークン 1 出力テキストトークン = 4 トークン 1 出力音声トークン = 24 トークン
Veo 3.1 Lite 生成サポートされている最新バージョン: `veo-3.1-lite-generate-001`	0.0350	動画の秒数（720p）	1	出力動画 1 秒（720p）= 出力動画 1 秒
		動画と音声の秒数（720p）	1	出力動画と音声（720p）、1 秒 = 出力動画、1.75 秒
		動画の秒数（1080p）	1	出力動画 1 秒（1080p）= 出力動画 1.75 秒（720p）
		動画と音声の秒数（1080p）	1	出力動画と音声（1080p）、1 秒 = 出力動画（720p）、2.33 秒
Veo 3.1 サポートされている最新バージョン: `veo-3.1-generate-001`	0.0040	動画の秒数	1	出力動画 1 秒 = 出力動画 1 秒
Veo 3.1 サポートされている最新バージョン: `veo-3.1-generate-001`	0.0040	動画と音声の秒数	1	出力動画と音声、1 秒 = 出力動画、2 秒
Veo 3.1 Fast サポートされている最新バージョン: `veo-3.1-fast-generate-001`	0.01	動画の秒数（720p）	1	出力動画 1 秒（720p）= 出力動画 1 秒
		動画と音声の秒数（720p）	1	出力動画と音声（720p）、1 秒 = 出力動画、1.30 秒
		動画の秒数（1080p）	1	出力動画 1 秒（1080p）= 出力動画 1.30 秒（720p）
		動画と音声の秒数（1080p）	1	出力動画と音声（1080p）1 秒 = 出力動画（720p）1.60 秒
		動画の秒数（4K）	1	出力動画 1 秒（4K）= 出力動画 3.40 秒（720p）
		動画と音声の秒数（4K）	1	出力動画と音声（4K）1 秒 = 出力動画（720p）4 秒
Veo 3 サポートされている最新バージョン: `veo-3.0-generate-001`	0.0040	動画の秒数	1	出力動画 1 秒 = 出力動画 1 秒
Veo 3 サポートされている最新バージョン: `veo-3.0-generate-001`	0.0040	動画と音声の秒数	1	出力動画と音声、1 秒 = 出力動画、2 秒
Veo 3 Fast サポートされている最新バージョン: `veo-3.0-fast-generate-001`	0.01	動画の秒数（720p）	1	出力動画 1 秒（720p）= 出力動画 1 秒
		動画と音声の秒数（720p）	1	出力動画と音声（720p）、1 秒 = 出力動画、1.30 秒
		動画の秒数（1080p）	1	出力動画 1 秒（1080p）= 出力動画 1.30 秒（720p）
		動画と音声の秒数（1080p）	1	出力動画と音声（1080p）1 秒 = 出力動画（720p）1.60 秒

モデルの機能と入出力の制限については、モデルのドキュメントをご覧ください。

アクセスをリクエストする: モデル gemini-live-2.5-flash は限定公開 GA です。このリリースへのアクセスについては、アクセスリクエストページをご覧ください。

新しいモデルが利用可能になり次第、アップグレードできます。提供状況と廃止日については、Google モデルをご覧ください。

サポートされているロケーションの詳細については、利用可能なロケーションをご覧ください。

パートナーのモデル

次の表に、プロビジョンドスループットをサポートするパートナーモデルのスループット、購入単位、バーンダウン率を示します。Claude モデルは、1 秒あたりのトークンで測定されます。これは、1 秒あたりのすべてのリクエストの入力トークンと出力トークンの合計として定義されます。

モデル	GSU あたりのスループット（トークン/秒）	GSU の最小購入量	GSU の購入単位	バーンダウン率
Anthropic Claude Opus 4.8	210	35	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic の Claude Opus 4.7	210	35	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic の Claude Sonnet 4.6	350	25	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic Claude Opus 4.6	210	35	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic Claude Opus 4.5	210	35	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic Claude Sonnet 4.5	350	25	1	入力トークンが 200,000 未満の場合: 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン入力トークンが 200,000 以上の場合: 1 入力トークン = 2 トークン 1 出力トークン = 7.5 トークン 1 キャッシュ書き込み 5 分トークン = 2.5 トークン 1 キャッシュ書き込み 1 時間トークン = 4 トークン 1 キャッシュヒットトークン = 0.2 トークン
Anthropic Claude Opus 4.1	70	35	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic Claude Haiku 4.5	1,050	8	1	200,000 個未満の入力トークン: 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic Claude Opus 4	70	35	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic Claude Sonnet 4	350	25	1	入力トークンが 200,000 未満の場合: 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン入力トークンが 200,000 以上の場合: 1 入力トークン = 2 トークン 1 出力トークン = 7.5 トークン 1 キャッシュ書き込み 5 分トークン = 2.5 トークン 1 キャッシュ書き込み 1 時間トークン = 4 トークン 1 キャッシュヒットトークン = 0.2 トークン
Anthropic Claude 3.7 Sonnet（非推奨）	350	25	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic Claude 3.5 Sonnet v2（非推奨）	350	25	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic Claude 3.5 Haiku（非推奨）	2,000	10	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic Claude 3 Opus	70	35	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic Claude 3 Haiku（非推奨）	4,200	5	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュ書き込み 1 時間トークン = 2 トークン 1 キャッシュヒットトークン = 0.1 トークン
Anthropic Claude 3.5 Sonnet（非推奨）	350	25	1	1 入力トークン = 1 トークン 1 出力トークン = 5 トークン 1 キャッシュ書き込み 5 分トークン = 1.25 トークン 1 キャッシュヒットトークン = 0.1 トークン

サポートされているロケーションについては、Anthropic Claude リージョンの可用性をご覧ください。Anthropic モデル用のプロビジョンドスループットを注文するには、Google Cloud アカウント担当者にお問い合わせください。

オープンモデル

次の表に、プロビジョンドスループットをサポートするオープンモデルのスループット、購入単位、バーンダウン率を示します。

モデル	GSU あたりのスループット（トークン/秒）	GSU の最小購入量	GSU の購入単位	バーンダウン率
DeepSeek-OCR サポートされている最新バージョン: `deepseek-ocr-maas`	3,360	1	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 出力テキストトークン = 4 トークン
DeepSeek-V3.2 DeepSeek-V3.2 サポートされている最新バージョン: `deepseek-v3.2-maas`	1,680	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 4 トークン
Gemma 4 26B A4B IT サポートされている最新バージョン: `gemma-4-26b-a4b-it-maas` このモデルのプロビジョンドスループットのサポートは、Google モデルと同じ SKU で課金されますが、オープンモデルの機能の対象となります。	6,725	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 4 トークン
Kimi K2 Thinking サポートされている最新バージョン: `kimi-k2-thinking-maas`	1,680	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 4 トークン
Llama 3.3 70B サポートされている最新バージョン: `llama-3.3-70b-instruct-maas`	1,400	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 1 トークン
Llama 4 Maverick 17B-128E サポートされている最新バージョン: `llama-4-maverick-17b-128e-instruct-maas`	2,800	1	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 出力テキストトークン = 4 トークン
Llama 4 Scout 17B-16E サポートされている最新バージョン: `llama-4-scout-17b-16e-instruct-maas`	4,035	1	1	1 入力テキストトークン = 1 トークン 1 入力画像トークン = 1 トークン 1 出力テキストトークン = 3 トークン
MiniMax M2 サポートされている最新バージョン: `minimax-m2-maas`	3,360	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 4 トークン
OpenAI gpt-oss 120B サポートされている最新バージョン: `gpt-oss-120b-maas`	11,205	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 4 トークン
OpenAI gpt-oss 20B サポートされている最新バージョン: `gpt-oss-20b-maas`	14,405	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 4 トークン
Qwen3 235B サポートされている最新バージョン: `qwen3-235b-a22b-instruct-2507-maas`	4,035	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 4 トークン
Qwen3 Coder サポートされている最新バージョン: `qwen3-coder-480b-a35b-instruct-maas`	1,010	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 4 トークン
Qwen3-Next-80B Instruct サポートされている最新バージョン: `qwen3-next-80b-a3b-instruct-maas`	6,725	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 8 トークン
Qwen3-Next-80B Thinking サポートされている最新バージョン: `qwen3-next-80b-a3b-thinking-maas`	6,725	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 8 トークン
GLM 4.7 サポートされている最新バージョン: `glm-4.7-maas`	1,685	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 4 トークン
GLM 5 サポートされている最新バージョン: `glm-5-maas`	1,010	1	1	1 入力テキストトークン = 1 トークン 1 出力テキストトークン = 3 トークン

Google モデルとオープンモデルで利用可能な機能

次の表に、Google モデルとオープンモデルのプロビジョンドスループットで使用可能な機能を示します。

機能	Google モデル	オープンモデル（プレビュー）
Google Cloud コンソールからの注文	はい	はい
グローバルエンドポイントのサポート	グローバルエンドポイントモデルのサポートをご覧ください。	グローバルエンドポイントモデルのサポートをご覧ください。
教師ありファインチューニングされたモデルのサポート	はい	いいえ
API キーの使用状況のサポート	はい	いいえ
コンテキストの暗黙的なキャッシュ保存との統合	はい	なし
コンテキストの明示的なキャッシュ保存との統合	はい	なし
ML 処理	特定のリージョンで利用可能。詳細については、シングルゾーンプロビジョンドスループットをご覧ください。	なし
利用可能な注文期間	1 週間、1 か月、3 か月、1 年	1 週間、1 か月、3 か月、1 年
コンソールからの注文の変更	はい	いいえ
注文ステータス: 審査待ち、承認済み、有効、期限切れ	はい	はい
超過分はデフォルトで従量課金制にスピルオーバー	はい	はい
API ヘッダー制御: プロビジョンドスループットのみを使用する場合は「専用」、従量課金制のみを使用する場合は「共有」。	はい	はい
モニタリング: 指標、ダッシュボード、アラート	はい	はい

グローバルエンドポイントモデルのサポート

プロビジョンドスループットは、Google モデルとオープンモデルのグローバルエンドポイントをサポートしています。

プロビジョンドスループットの割り当てを超えるトラフィックは、デフォルトでグローバルエンドポイントを使用します。

モデルのグローバルエンドポイントにプロビジョンドスループットを割り当てるには、プロビジョンドスループットを注文するときに、リージョンとして global を選択します。

グローバルエンドポイントをサポートする Google モデル

次の表に、プロビジョンドスループットがグローバルエンドポイントをサポートする Google モデルを示します。

モデル	サポートされている最新のモデルバージョン
Gemini 3 Pro Image	`gemini-3-pro-image`
Gemini 3.1 Flash Image	`gemini-3.1-flash-image`
Gemini 3.5 Flash	`gemini-3.5-flash`
Gemini 3.1 Flash-Lite	`gemini-3.1-flash-lite`
Gemini 3.1 Flash Image プレビュー	`gemini-3.1-flash-image-preview`
Gemini 3.1 Pro プレビュー	`gemini-3.1-pro-preview`
Gemini 3 Flash プレビュー	`gemini-3-flash-preview`
Gemini 3 Pro Image プレビュー	`gemini-3-pro-image-preview`
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash プレビュー	`gemini-2.5-flash-preview-09-2025`
Gemini 2.5 Flash-Lite プレビュー	`gemini-2.5-flash-lite-preview-09-2025`
Gemini 2.5 Flash Image	`gemini-2.5-flash-image`
Gemini 2.5 Flash	`gemini-2.5-flash`
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite`

グローバルエンドポイントをサポートするオープンモデル

次の表に、プロビジョンドスループットがグローバルエンドポイントをサポートするオープンモデルを示します。

モデル	サポートされている最新のモデルバージョン
DeepSeek-OCR	`deepseek-ocr-maas`
DeepSeek-V3.2	`deepseek-v3.2-maas`
Kimi K2 Thinking	`kimi-k2-thinking-maas`
MiniMax M2	`minimax-m2-maas`
OpenAI gpt-oss 120B	`gpt-oss-120b-maas`
Qwen3-Next-80B Instruct	`qwen3-next-80b-a3b-instruct-maas`
Qwen3-Next-80B Thinking	`qwen3-next-80b-a3b-thinking-maas`
GLM 4.7	`glm-4.7-maas`
GLM 5	`glm-5-maas`

教師ありファインチューニングされたモデルのサポート

教師ありファインチューニングをサポートする Google モデルでは、次のものがサポートされています。

プロビジョンドスループットは、ベースモデルと、それらのベースモデルの教師ありファインチューニングバージョンの両方に適用できます。
教師ありファインチューニング済みモデルのエンドポイントと、それに対応するベースモデルは、同じプロビジョンドスループットの割り当てに対してカウントされます。

たとえば、特定のプロジェクトの gemini-2.0-flash-lite-001 用に購入したプロビジョンドスループットでは、そのプロジェクト内で作成された gemini-2.0-flash-lite-001 の教師ありファインチューニングバージョンから行われたリクエストが優先されます。適切なヘッダーを使用して、トラフィックの動作を制御します。

次のステップ

プロビジョンドスループットの要件を計算する。

サポートされているモデル コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Google モデル

パートナーのモデル

オープンモデル

Google モデルとオープンモデルで利用可能な機能

グローバル エンドポイント モデルのサポート

グローバル エンドポイントをサポートする Google モデル

グローバル エンドポイントをサポートするオープンモデル

教師ありファインチューニングされたモデルのサポート

次のステップ

サポートされているモデル

グローバルエンドポイントモデルのサポート

グローバルエンドポイントをサポートする Google モデル

グローバルエンドポイントをサポートするオープンモデル