支持的模型

下表显示了支持预配吞吐量的模型、每个生成式 AI 扩缩单元 (GSU) 的吞吐量，以及每个模型的消耗率。

Google 模型

预配吞吐量仅支持您使用特定模型 ID（而非模型别名）直接从项目中调用的模型。如需使用预配吞吐量对模型进行 API 调用，您必须使用特定的模型版本 ID（例如 gemini-2.0-flash-001），而不是模型版本别名。

此外，预配吞吐量不支持由其他 Vertex AI 产品（例如 Vertex AI 智能体和 Vertex AI Search）调用的模型。例如，如果您在使用 Vertex AI Search 时向 Gemini 2.0 Flash 发出 API 调用，则您为 Gemini 2.0 Flash 订购的预配吞吐量无法保证 Vertex AI Search 发出的调用。

预配吞吐量不支持批量预测调用。

下表显示了支持预配吞吐量的 Google 模型的吞吐量、购买增量和消耗率。每秒吞吐量是指每秒所有请求中的提示输入和生成的输出。

如需了解您的工作负载需要多少 token，请参阅 SDK 词元化器或 countTokens API。

模型	每个 GSU 的每秒吞吐量	单位	最小 GSU 购买增量	消耗率
Gemini 3 Pro 支持的最新版本：`gemini-3-pro-preview`（预览版）	500	令牌	1	输入 token 数不超过 20 万： 1 个输入文本 token = 1 个 token 1 个输入缓存 token = 0.1 个 token 1 个输入图片 token = 1 个 token 1 个输入视频 token = 1 个 token 1 个输入音频 token = 1 个 token 1 个输出回答文本 token = 6 个 token 1 个输出推理文本 token = 6 个 token 输入 token 数超过 20 万： 1 个输入文本 token = 2 个 token 1 个输入缓存 token = 0.2 个 token 1 个输入图片 token = 2 个 token 1 个输入视频 token = 2 个 token 1 个输入音频 token = 2 个 token 1 个输出回答文本 token = 9 个 token 1 个输出推理文本 token = 9 个 token
Gemini 3 Pro Image 支持的最新版本：`gemini-3-pro-image-preview`（预览版）	500	令牌	1	1 个输入文本 token = 1 个 token 1 个输入图片 token = 1 个 token 1 个输出文本 token = 6 个 token 1 个输出思考 token = 6 个 token 1 个输出图片 token = 60 个 token
Gemini 2.5 Pro 支持的最新版本：`gemini-2.5-pro`	650	令牌	1	输入 token 不超过 20 万个： 1 个输入文本 token = 1 个 token 1 个输入缓存 token = 0.1 个 token 1 个输入图片 token = 1 个 token 1 个输入视频 token = 1 个 token 1 个输入音频 token = 1 个 token 1 个输出回答文本 token = 8 个 token 1 个输出推理文本 token = 8 个 token 输入 token 超过 20 万个： 1 个输入文本 token = 2 个 token 1 个输入缓存 token = 0.2 个 token 1 个输入图片 token = 2 个 token 1 个输入视频 token = 2 个 token 1 个输入音频 token = 2 个 token 1 个输出回答文本 token = 12 个 token 1 个输出推理文本 token = 12 个 token
Gemini 2.5 Flash 图片支持的最新版本：`gemini-2.5-flash-image`	2,690	令牌	1	1 个输入文本 token = 1 个 token 1 个输入图片 token = 1 个 token 1 个输出文本 token = 9 个 token 1 个输出图片 token = 100 个 token
Gemini 2.5 Flash 支持的最新版本 (GA)：`gemini-2.5-flash` 支持的最新版本（预览版）：`gemini-2.5-flash-preview-09-2025`	2690	令牌	1	1 个输入文本 token = 1 个 token 1 个输入缓存 token = 0.1 个 token 1 个输入图片 token = 1 个 token 1 个输入视频 token = 1 个 token 1 个输入音频 token = 4 个 token 1 个输出回答文本 token = 9 个 token 1 个输出推理文本 token = 9 个 token
Gemini 2.5 Flash-Lite 支持的最新版本 (GA)：`gemini-2.5-flash-lite` 支持的最新版本（预览版）：`gemini-2.5-flash-lite-preview-09-2025`	8,070	令牌	1	1 个输入文本 token = 1 个 token 1 个输入缓存 token = 0.1 个 token 1 个输入图片 token = 1 个 token 1 个输入视频 token = 1 个 token 1 个输入音频 token = 3 个 token 1 个输出回答文本 token = 4 个 token 1 个输出推理文本 token = 4 个 token
Gemini 2.5 Flash（支持 Live API）支持的最新版本：`gemini-live-2.5-flash`	1,620	令牌	1	1 个输入文本 token = 1 个输入文本 token 1 个输入音频 token = 6 个输入文本 token 1 个输入视频 token = 6 个输入文本 token 1 个输入会话记忆 token = 1 个输入文本 token 1 个输出文本 token = 4 个输入文本 token 1 个输出音频 token = 24 个输入文本 token
支持 Live API 原生音频的 Gemini 2.5 Flash 支持的最新版本：`gemini-live-2.5-flash-preview-native-audio-09-2025`（预览版）	1,620	令牌	1	1 个输入文本 token = 1 个 token 1 个输入音频 token = 6 个 token 1 个输入视频 token = 6 个 token 1 个输入图片 token = 6 个 token 1 个输入会话记忆 token = 1 个 token 1 个输出文本 token = 4 个 token 1 个输出音频 token = 24 个 token
Gemini 2.0 Flash 支持的最新版本：`gemini-2.0-flash-001`	3,360	令牌	1	1 个输入文本 token = 1 个 token 1 个输入图片 token = 1 个 token 1 个输入视频 token = 1 个 token 1 个输入音频 token = 7 个 token 1 个输出文本 token = 4 个 token
Gemini 2.0 Flash-Lite 支持的最新版本：`gemini-2.0-flash-lite-001`	6,720	令牌	1	1 个输入文本 token = 1 个 token 1 个输入图片 token = 1 个 token 1 个输入视频 token = 1 个 token 1 个输入音频 token = 1 个 token 1 个输出文本 token = 4 个 token
Veo 3.1 预览版支持的最新版本：`veo-3.1-generate-001`（预览版）	0.0040	视频秒数	34	1 秒输出视频 = 1 秒输出视频
Veo 3.1 预览版支持的最新版本：`veo-3.1-generate-001`（预览版）	0.0040	视频+音频秒数	67	1 秒输出视频+音频 = 2 秒输出视频
Veo 3.1 Fast 预览版支持的最新版本：`veo-3.1-fast-generate-001`（预览版）	0.0080	视频秒数	17	1 秒输出视频 = 1 秒输出视频
Veo 3.1 Fast 预览版支持的最新版本：`veo-3.1-fast-generate-001`（预览版）	0.0080	视频+音频秒数	25	1 秒输出视频+音频 = 1.45 秒输出视频
Veo 3 支持的最新版本：`veo-3.0-generate-001`	0.0040	视频秒数	34	1 秒输出视频 = 1 秒输出视频
Veo 3 支持的最新版本：`veo-3.0-generate-001`	0.0040	视频+音频秒数	67	1 秒输出视频+音频 = 2 秒输出视频
Veo 3 Fast 支持的最新版本：`veo-3.0-fast-generate-001`	0.0080	视频秒数	17	1 秒输出视频 = 1 秒输出视频
Veo 3 Fast 支持的最新版本：`veo-3.0-fast-generate-001`	0.0080	视频+音频秒数	25	1 秒输出视频+音频 = 1.45 秒输出视频
Imagen 4 Ultra Generate `imagen-4.0-ultra-generate-001`	0.015	图片	1	只有输出图片会计入预配吞吐量配额。
Imagen 4 Generate `imagen-4.0-generate-001`	0.02	图片	1	只有输出图片会计入预配吞吐量配额。
Imagen 4 Fast Generate `imagen-4.0-fast-generate-001`	0.04	图片	1	只有输出图片会计入预配吞吐量配额。
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0.02	图片	1	只有输出图片会计入预配吞吐量配额。
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0.025	图片	1	只有输出图片会计入预配吞吐量配额。
Imagen 3 Fast	0.05	图片	1	只有输出图片会计入预配吞吐量配额。

如需了解模型的功能以及输入或输出限制，请参阅相应模型的文档。

请求访问权限：模型 gemini-live-2.5-flash 为非公开正式版。如需了解如何访问此版本，请参阅访问权限请求页面。

您可以随时升级到新模型。如需了解模型可用性和停用日期，请参阅 Google 模型。

如需详细了解受支持的位置，请参阅可用位置。

合作伙伴模型

下表显示了支持预配吞吐量的合作伙伴模型的吞吐量、购买增量和消耗率。Claude 模型以每秒词元数为单位进行衡量，每秒词元数定义为所有请求中每秒的输入和输出词元的总数。

模型	每个 GSU 的吞吐量（词元数/秒）	最低 GSU 购买量	GSU 购买增量	消耗率
Anthropic 的 Claude Opus 4.5	210	35	1	1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入（5 分钟）token = 1.25 个 token 1 个缓存写入（1 小时）token = 2 个 token 1 个缓存命中 token = 0.1 个 token
Anthropic 的 Claude Sonnet 4.5	350	25	1	输入 token 不足 20 万个： 1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入（5 分钟）token = 1.25 个 token 1 个缓存写入（1 小时）token = 2 个 token 1 个缓存命中 token = 0.1 个 token 输入 token 不少于 20 万个： 1 个输入 token = 2 个 token 1 个输出 token = 7.5 个 token 1 个缓存写入（5 分钟）token = 2.5 个 token 1 个缓存写入（1 小时）token = 4 个 token 1 个缓存命中 token = 0.2 个 token
Anthropic 的 Claude Opus 4.1	70	35	1	1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入（5 分钟）token = 1.25 个 token 1 个缓存写入（1 小时）token = 2 个 token 1 个缓存命中 token = 0.1 个 token
Anthropic 的 Claude Haiku 4.5	1050	8	1	输入 token 不超过 20 万个： 1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入 5 分钟 token = 1.25 个 token 1 个缓存写入 1 小时 token = 2 个 token 1 个缓存命中 token = 0.1 个 token
Anthropic 的 Claude Opus 4	70	35	1	1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入（5 分钟）token = 1.25 个 token 1 个缓存写入（1 小时）token = 2 个 token 1 个缓存命中 token = 0.1 个 token
Anthropic 的 Claude Sonnet 4	350	25	1	输入 token 不足 20 万个： 1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入（5 分钟）token = 1.25 个 token 1 个缓存写入（1 小时）token = 2 个 token 1 个缓存命中 token = 0.1 个 token 输入 token 不少于 20 万个： 1 个输入 token = 2 个 token 1 个输出 token = 7.5 个 token 1 个缓存写入（5 分钟）token = 2.5 个 token 1 个缓存写入（1 小时）token = 4 个 token 1 个缓存命中 token = 0.2 个 token
Anthropic 的 Claude 3.7 Sonnet（已弃用）	350	25	1	1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入（5 分钟）token = 1.25 个 token 1 个缓存命中 token = 0.1 个 token
Anthropic 的 Claude 3.5 Sonnet v2（已弃用）	350	25	1	1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入（5 分钟）token = 1.25 个 token 1 个缓存命中 token = 0.1 个 token
Anthropic 的 Claude 3.5 Haiku	2,000	10	1	1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入（5 分钟）token = 1.25 个 token 1 个缓存写入（1 小时）token = 2 个 token 1 个缓存命中 token = 0.1 个 token
Anthropic 的 Claude 3 Opus	70	35	1	1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入（5 分钟）token = 1.25 个 token 1 个缓存命中 token = 0.1 个 token
Anthropic 的 Claude 3 Haiku	4,200	5	1	1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入（5 分钟）token = 1.25 个 token 1 个缓存写入（1 小时）token = 2 个 token 1 个缓存命中 token = 0.1 个 token
Anthropic 的 Claude 3.5 Sonnet（已弃用）	350	25	1	1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入（5 分钟）token = 1.25 个 token 1 个缓存命中 token = 0.1 个 token

如需了解支持的位置，请参阅 Anthropic Claude 区域可用性。如需为 Anthropic 模型订购预配吞吐量，请与您的 Google Cloud 客户代表联系。

开放模型

下表显示了支持预配吞吐量的开放模型的吞吐量、购买增量和消耗率。

模型	每个 GSU 的吞吐量（词元数/秒）	最低 GSU 购买量	GSU 购买增量	消耗率
DeepSeek-OCR 支持的最新版本：`deepseek-ocr-maas`	3,360	1	1	1 个输入文本 token = 1 个 token 1 个输入图片 token = 1 个 token 1 个输出文本 token = 4 个 token
Kimi K2 思考支持的最新版本：`kimi-k2-thinking-maas`	1,680	1	1	1 个输入文本 token = 1 个 token 1 个输出文本 token = 4 个 token
Llama 3.3 70B 支持的最新版本：`llama-3.3-70b-instruct-maas`	1400	1	1	1 个输入文本 token = 1 个 token 1 个输出文本 token = 1 个 token
Llama 4 Maverick 17B-128E 支持的最新版本：`llama-4-maverick-17b-128e-instruct-maas`	2,800	1	1	1 个输入文本 token = 1 个 token 1 个输入图片 token = 1 个 token 1 个输出文本 token = 4 个 token
Llama 4 Scout 17B-16E 支持的最新版本：`llama-4-scout-17b-16e-instruct-maas`	4,035	1	1	1 个输入文本 token = 1 个 token 1 个输入图片 token = 1 个 token 1 个输出文本 token = 3 个 token
MiniMax M2 支持的最新版本：`minimax-m2-maas`	3,360	1	1	1 个输入文本 token = 1 个 token 1 个输出文本 token = 4 个 token
OpenAI gpt-oss 120B 支持的最新版本：`gpt-oss-120b-maas`	11,205	1	1	1 个输入文本 token = 1 个 token 1 个输出文本 token = 4 个 token
OpenAI gpt-oss 20B 支持的最新版本：`gpt-oss-20b-maas`	14,405	1	1	1 个输入文本 token = 1 个 token 1 个输出文本 token = 4 个 token
Qwen3 235B 支持的最新版本：`qwen3-235b-a22b-instruct-2507-maas`	4,035	1	1	1 个输入文本 token = 1 个 token 1 个输出文本 token = 4 个 token
Qwen3 Coder 支持的最新版本：`qwen3-coder-480b-a35b-instruct-maas`	1,010	1	1	1 个输入文本 token = 1 个 token 1 个输出文本 token = 4 个 token
Qwen3-Next-80B Instruct 支持的最新版本：`qwen3-next-80b-a3b-instruct-maas`	6,725	1	1	1 个输入文本 token = 1 个 token 1 个输出文本 token = 8 个 token
Qwen3-Next-80B Thinking 支持的最新版本：`qwen3-next-80b-a3b-thinking-maas`	6,725	1	1	1 个输入文本 token = 1 个 token 1 个输出文本 token = 8 个 token

Google 模型和开放模型可用的功能

下表列出了 Google 模型和开放模型在预配吞吐量方面提供的功能：

能力	Google 模型	开放模型（预览版）
通过 Google Cloud 控制台订购	是	是
支持全球端点	请参阅全球端点模型支持。	请参阅全球端点模型支持。
支持监督式微调模型	是	否
支持使用 API 密钥	是	否
与隐式上下文缓存集成	是	不适用
已与显式上下文缓存集成	是	不适用
ML 处理	仅在特定区域提供。如需了解详情，请参阅单可用区预配吞吐量。	不适用
可用的订单条款	1 周、1 个月、3 个月和 1 年	1 个月、3 个月和 1 年
通过控制台更改订单	是	否
订单状态：待审核、已获批准、有效、已过期	是	是
超额用量默认溢出到随用随付	是	是
API 标头控制：使用“专用”表示仅使用预配吞吐量，使用“共享”表示仅使用随用随付	是	是
监控：指标、信息中心和提醒	是	是

全球端点模型支持

预配吞吐量支持 Google 模型和开放模型的全球端点。

超出预配吞吐量配额的流量默认使用全球端点。

如需为模型的全球端点分配预配吞吐量，请在下达预配吞吐量订单时选择 global 作为区域。

支持全球端点的 Google 模型

下表列出了预配吞吐量支持全球端点的 Google 模型：

模型	支持的最新模型版本
Gemini 3 Pro（预览版）	`gemini-3-pro-preview`
Gemini 3 Pro Image （预览版）	`gemini-3-pro-image-preview`
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash 图片	`gemini-2.5-flash-image`
Gemini 2.5 Flash	`gemini-2.5-flash-preview-09-2025`（预览版） `gemini-2.5-flash`（GA）
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite-preview-09-2025`（预览版） `gemini-2.5-flash-lite`（GA）
Gemini 2.0 Flash	`gemini-2.0-flash-001`
Gemini 2.0 Flash-Lite	`gemini-2.0-flash-lite-001`

支持全球端点的开放模型

下表列出了预配吞吐量支持全球端点的开放模型：

模型	支持的最新模型版本
DeepSeek-OCR	`deepseek-ocr-maas`
Kimi K2 思考	`kimi-k2-thinking-maas`
MiniMax M2	`minimax-m2-maas`
OpenAI gpt-oss 120B	`gpt-oss-120b-maas`
Qwen3-Next-80B Instruct	`qwen3-next-80b-a3b-instruct-maas`
Qwen3-Next-80B Thinking	`qwen3-next-80b-a3b-thinking-maas`

监督式微调模型支持

对于支持监督式微调的 Google 模型，支持以下功能：

预配吞吐量可应用于基本模型以及这些基本模型的监督式微调版本。
监督式微调模型端点及其对应的基础模型会计入同一预配吞吐量配额。

例如，为特定项目的 gemini-2.0-flash-lite-001 购买的预配吞吐量会优先处理使用该项目中创建的监督式微调版本的 gemini-2.0-flash-lite-001 发出的请求。使用适当的标头来控制流量行为。

后续步骤

计算预配吞吐量要求。

支持的模型 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

Google 模型

合作伙伴模型

开放模型

Google 模型和开放模型可用的功能

全球端点模型支持

支持全球端点的 Google 模型

支持全球端点的开放模型

监督式微调模型支持

后续步骤

支持的模型