标准 PayGo

标准随用随付 (Standard PayGo) 是一种消费选项,用于利用 Vertex AI 的生成式 AI 模型套件,包括 Gemini 和 Imagen on Vertex AI 模型系列。标准按需付费模式支持您仅为所用资源付费,无需预先作出财务承诺。为了让可伸缩的工作负载获得更可预测的性能,标准按需付费方案采用了用量层级系统。Vertex AI 会根据组织在过去 30 天内对符合条件的 Vertex AI 服务的总支出,动态调整组织的基本吞吐量容量。随着组织的支出增加,系统会自动将其升级到更高级别,从而提供更多共享资源和更高的性能阈值。

使用层级和吞吐量

每个标准 PayGo 用量层级旨在提供以每分钟令牌数 (TPM) 衡量的基准吞吐量,作为组织流量的可预测性能下限。吞吐量限制基于发送到全局端点的请求。使用全局端点是一种最佳实践,因为它可以访问更大的多区域吞吐量容量池,并允许将请求路由到可用性最高的位置,从而最大限度地提高性能。

流量并非严格限制在基准吞吐量限值内。 Vertex AI 会尽最大努力允许流量突增超出此限制。不过,在整个 Vertex AI 平台需求量较高的时段,这种过多的突发流量可能会导致性能波动性更高。为优化性能并尽可能降低收到这些错误的可能性,最好尽可能均匀地平滑每分钟的流量。避免在急剧的二级高峰中发送请求。即使每分钟平均用量低于上限,高流量和瞬时流量也可能会导致节流。更均匀地分配 API 调用有助于系统以可预测的方式管理负载,并提高整体性能。

标准 PayGo 提供以下层级:

模型系列 层级 客户支出(30 天) 流量 TPM(组织级)
Gemini Pro 模型 层级 1 $10 - $250 50 万
层级 2 250 美元 - 2,000 美元 100 万
层级 3 > $2000 200 万
Gemini Flash 和 Flash-Lite 模型 层级 1 $10 - $250 200 万
层级 2 250 美元 - 2,000 美元 4,000,000
层级 3 > $2000 1000 万

请注意,模型系列显示的吞吐量限制独立适用于该系列中的每个模型。例如,第 3 级客户的 Gemini 2.5 Flash 基准吞吐量为 1,000 万 TPM,Gemini 2.0 Flash 的基准吞吐量也为 1,000 万 TPM。使用量达到其中一项限制不会影响其他模型的吞吐量。各层级没有单独的每分钟请求数 (RPM) 限制。不过,每个模型每个区域的系统限制为 30,000 RPM。包含多模态输入的 Gemini 请求受相应系统速率限制的约束,包括图片音频视频文档

如果您的企业用例需要更高的吞吐量,请与您的客户支持团队联系,详细了解自定义层级。

用量层级的运作方式

您的使用情况层级由组织在过去 30 天内对符合条件的 Vertex AI 服务的总支出自动确定。随着组织的支出增加,系统会将您升级到吞吐量更高的更高级别。

支出计算

此计算涵盖了广泛的服务,从所有 Gemini 模型系列的预测到 Vertex AI CPU、GPU 和 TPU 实例,还包括基于承诺的 SKU,例如预配的吞吐量。

点击可详细了解纳入支出计算范围的 SKU。

下表列出了纳入总支出计算范围的 Google Cloud SKU 类别。

类别 所含 SKU 的说明
Gemini 模型 所有 Gemini 模型系列(例如 2.0、2.5、3.0(Pro、Flash 和 Lite 版本)进行预测,涵盖所有模态(文本、图片、音频、视频),包括批处理、长上下文、调优和“思考”变体
Gemini 模型功能 所有相关的 Gemini SKU,适用于缓存、缓存存储空间和优先层级等功能,涵盖所有模态和模型版本
Vertex AI CPU 所有基于 CPU 的实例系列(例如,C2、C3、E2、N1、N2 及其变体)
Vertex AI GPU 在所有 NVIDIA GPU 加速的实例(例如 A100、H100、H200、B200、L4、T4、V100 和 RTX 系列)
Vertex AI TPU 在所有基于 TPU 的实例(例如,TPU-v5e、v6e)
管理和费用 与各种 Vertex AI 预测实例关联的所有“管理费”SKU
预配的吞吐量 所有基于承诺的预配吞吐量 SKU
其他服务 “利用 Google 搜索工具为 Gemini 提供 LLM 依据”等专业服务

验证使用层级

如需验证组织的用量层级,请前往 Google Cloud 控制台中的 Vertex AI 信息中心。

前往 Vertex AI 控制台

验证支出

如需查看 Vertex AI 支出,请前往Google Cloud 控制台中的 Cloud Billing。请注意,支出是在组织级层汇总的。

前往 Cloud Billing

资源已用尽 (429) 错误

如果您收到 429 错误,并不表示您已达到固定配额。 表示特定共享资源暂时出现高争用情况。我们建议您实现指数退避算法重试策略来处理这些错误,因为这种动态环境中的可用性可能会快速变化。除了重试策略之外,我们还建议使用全局端点。与区域端点(例如 us-central1)不同,全球端点会将您的请求动态路由到当时具有最大可用容量的区域。这样一来,您的应用就可以访问更大的多区域共享容量池,从而显著提高成功突增的可能性,并降低出现 429 错误的几率。

为获得最佳效果,请将使用全球端点与流量平滑相结合。 避免在秒级出现急剧的流量高峰,因为即使每分钟的平均使用量在基准吞吐量限制范围内,高瞬时流量也可能会导致节流。更均匀地分配 API 调用有助于系统以可预测的方式管理负载,并提高整体性能。如需详细了解如何处理资源耗尽错误,请参阅处理 429 错误的指南错误代码 429

支持的模型

以下正式版 (GA) Gemini 模型及其监督式微调模型支持标准 PayGo(含使用量层级)

以下 GA Gemini 模型及其监督式微调模型也支持标准 PayGo,但使用情况层级不适用于这些模型:

请注意,这些层级不适用于预览版模型。如需了解最准确且最新的信息,请参阅各型号的官方文档。

监控吞吐量和性能

如需监控组织的实时令牌消耗量,请前往 Cloud Monitoring 中的 Metrics Explorer。

转到 Metrics Explorer

如需详细了解如何监控模型端点流量,请参阅监控模型

请注意,用量层级是在组织级层应用的。如需了解如何设置观测范围以绘制组织中多个项目的吞吐量图表,请参阅为多项目查询配置观测范围

后续步骤