标准 PayGo

标准随用随付 (Standard PayGo) 是一种消费选项，用于利用 Vertex AI 的生成式 AI 模型套件，包括 Gemini 和 Imagen on Vertex AI 模型系列。标准按需付费模式支持您仅为所用资源付费，无需预先作出财务承诺。为了让可伸缩的工作负载获得更可预测的性能，标准按需付费方案采用了使用量层级系统。Vertex AI 会根据组织在过去 30 天内对符合条件的 Vertex AI 服务的总支出，动态调整组织的基本吞吐量容量。随着组织的支出增加，系统会自动将其升级到更高级别，从而提供更多共享资源和更高的性能阈值。

使用层级和吞吐量

每个标准按需付费用量层级都旨在提供以每分钟令牌数 (TPM) 衡量的基准吞吐量，作为组织流量的可预测性能下限。吞吐量限制基于发送到全局端点的请求。使用全局端点是一种最佳实践，因为它可以访问更大的多区域吞吐量容量池，并允许将请求路由到可用性最高的位置，从而最大限度地提高性能。

流量不会严格限制在基准吞吐量限值内。 Vertex AI 会尽最大努力允许流量突增超出此限制。不过，在整个 Vertex AI 平台需求量较高的时段，这种过多的突发流量可能会导致性能波动性更高。为优化性能并尽可能减少收到这些错误的可能性，最好尽可能均匀地平滑每分钟的流量。避免在急剧的二级高峰中发送请求。即使每分钟平均用量低于上限，高流量和瞬时流量也可能会导致节流。更均匀地分配 API 调用有助于系统以可预测的方式管理负载，并提高整体性能。

标准 PayGo 提供以下层级：

模型系列	层级	客户支出（30 天）	流量 TPM（组织级）
Gemini Pro 模型	层级 1	$10 - $250	50 万
	层级 2	250 美元 - 2,000 美元	100 万
	层级 3	> $2000	200 万
Gemini Flash 和 Flash-Lite 模型	层级 1	$10 - $250	200 万
	层级 2	250 美元 - 2,000 美元	4,000,000
	层级 3	> $2000	1000 万

请注意，模型系列显示的吞吐量限制独立适用于该系列中的每个模型。例如，第 3 级客户的 Gemini 2.5 Flash 基准吞吐量为 1,000 万 TPM，Gemini 2.0 Flash 的基准吞吐量也为 1,000 万 TPM。使用量达到其中一项限制不会影响其他模型的吞吐量。各层级没有单独的每分钟请求数 (RPM) 限制。不过，每个模型每个区域的系统限制为 30,000 RPM。包含多模态输入的 Gemini 请求受相应系统速率限制的约束，包括图片、音频、视频和文档。

如果您的企业用例需要更高的吞吐量，请与您的客户支持团队联系，详细了解自定义层级。

用量层级的运作方式

您的使用情况层级由组织在过去 30 天内符合条件的 Vertex AI 服务上的总支出自动确定。随着组织的支出增加，系统会将您升级到吞吐量更高的更高级别。

支出计算

此计算涵盖了各种服务，从所有 Gemini 模型系列的预测到 Vertex AI CPU、GPU 和 TPU 实例，还包括基于承诺的 SKU，例如预配吞吐量。

点击可详细了解纳入支出计算范围的 SKU。

下表列出了纳入总支出计算范围的 Google Cloud SKU 类别。

类别	所含 SKU 的说明
Gemini 模型	所有 Gemini 模型系列（例如 2.0、2.5、3.0（Pro、Flash 和 Lite 版本）进行预测，涵盖所有模态（文本、图片、音频、视频），包括批处理、长上下文、调优和“思考”变体
Gemini 模型功能	所有相关的 Gemini SKU，适用于缓存、缓存存储空间和优先级层级等功能，涵盖所有模态和模型版本
Vertex AI CPU	所有基于 CPU 的实例系列（例如，C2、C3、E2、N1、N2 及其变体）
Vertex AI GPU	在所有 NVIDIA GPU 加速的实例（例如 A100、H100、H200、B200、L4、T4、V100 和 RTX 系列）
Vertex AI TPU	在所有基于 TPU 的实例（例如，TPU-v5e、v6e）
管理和费用	与各种 Vertex AI 预测实例关联的所有“管理费用”SKU
预配的吞吐量	所有基于承诺的预配吞吐量 SKU
其他服务	“利用 Google 搜索工具为 Gemini 提供 LLM 依据”等专业服务

验证使用层级

如需验证组织的用量层级，请前往 Google Cloud 控制台中的 Vertex AI 信息中心。

前往 Vertex AI 信息中心

验证支出

如需查看 Vertex AI 支出，请前往Google Cloud 控制台中的 Cloud Billing。请注意，支出是在组织级层汇总的。

前往 Cloud Billing

资源耗尽 (429) 错误

如果您收到 429 错误，并不表示您已达到固定配额。表示特定共享资源暂时出现高争用情况。我们建议您实现指数退避算法重试策略来处理这些错误，因为此动态环境中的可用性可能会快速变化。除了重试策略之外，我们还建议使用全球端点。与区域端点（例如 us-central1）不同，全球端点会动态地将您的请求路由到当时具有最大可用容量的区域。这样一来，您的应用就可以访问更大的多区域共享容量池，从而显著提高成功突增的可能性，并降低出现 429 错误的几率。

为获得最佳效果，请将使用全球端点与流量平滑相结合。避免在秒级出现急剧的流量高峰，因为即使每分钟的平均使用量在基准吞吐量限制范围内，高瞬时流量也可能会导致节流。更均匀地分配 API 调用有助于系统以可预测的方式管理负载，并提高整体性能。如需详细了解如何处理资源耗尽错误，请参阅处理 429 错误的指南和错误代码 429。

支持的模型

以下正式版 (GA) Gemini 模型及其监督式微调模型支持标准按用量付费（含用量层级）：

以下 GA Gemini 模型及其监督式微调模型也支持标准 PayGo，但使用情况层级不适用于这些模型：

请注意，这些层级不适用于预览版模型。如需了解最准确且最新的信息，请参阅各型号的官方文档。

监控吞吐量和性能

如需监控组织的实时令牌消耗量，请前往 Cloud Monitoring 中的 Metrics Explorer。

转到 Metrics Explorer

如需详细了解如何监控模型端点流量，请参阅监控模型。

请注意，用量层级是在组织级层应用的。如需了解如何设置观测范围以绘制组织中多个项目的吞吐量图表，请参阅为多项目查询配置观测范围。

后续步骤

资源

Vertex AI 配额和限制

与 Vertex AI 平台相关的配额和限制，不包括特定于产品的限制。

概览

Google Cloud 配额

了解 Google Cloud 如何限制 Google Cloud 项目可使用的资源数量，以及配额如何适用于一系列资源类型，包括硬件、软件和网络组件。