标准随用随付 (Standard PayGo) 是一种消费选项,用于利用 Vertex AI 的生成式 AI 模型套件,包括 Gemini 和 Imagen on Vertex AI 模型系列。标准按需付费模式支持您仅为所用资源付费,无需预先作出财务承诺。为了让可伸缩的工作负载获得更可预测的性能,标准按需付费方案采用了用量层级系统。Vertex AI 会根据组织在过去 30 天内对符合条件的 Vertex AI 服务的总支出,动态调整组织的基本吞吐量容量。随着组织的支出增加,系统会自动将其升级到更高级别,从而提供更多共享资源和更高的性能阈值。
使用层级和吞吐量
每个标准 PayGo 用量层级旨在提供以每分钟令牌数 (TPM) 衡量的基准吞吐量,作为组织流量的可预测性能下限。吞吐量限制基于发送到全局端点的请求。使用全局端点是一种最佳实践,因为它可以访问更大的多区域吞吐量容量池,并允许将请求路由到可用性最高的位置,从而最大限度地提高性能。
流量并非严格限制在基准吞吐量限值内。 Vertex AI 会尽最大努力允许流量突增超出此限制。不过,在整个 Vertex AI 平台需求量较高的时段,这种过多的突发流量可能会导致性能波动性更高。为优化性能并尽可能降低收到这些错误的可能性,最好尽可能均匀地平滑每分钟的流量。避免在急剧的二级高峰中发送请求。即使每分钟平均用量低于上限,高流量和瞬时流量也可能会导致节流。更均匀地分配 API 调用有助于系统以可预测的方式管理负载,并提高整体性能。
标准 PayGo 提供以下层级:
| 模型系列 | 层级 | 客户支出(30 天) | 流量 TPM(组织级) |
|---|---|---|---|
| Gemini Pro 模型 | 层级 1 | $10 - $250 | 50 万 |
| 层级 2 | 250 美元 - 2,000 美元 | 100 万 | |
| 层级 3 | > $2000 | 200 万 | |
| Gemini Flash 和 Flash-Lite 模型 | 层级 1 | $10 - $250 | 200 万 |
| 层级 2 | 250 美元 - 2,000 美元 | 4,000,000 | |
| 层级 3 | > $2000 | 1000 万 |
请注意,模型系列显示的吞吐量限制独立适用于该系列中的每个模型。例如,第 3 级客户的 Gemini 2.5 Flash 基准吞吐量为 1,000 万 TPM,Gemini 2.0 Flash 的基准吞吐量也为 1,000 万 TPM。使用量达到其中一项限制不会影响其他模型的吞吐量。各层级没有单独的每分钟请求数 (RPM) 限制。不过,每个模型每个区域的系统限制为 30,000 RPM。包含多模态输入的 Gemini 请求受相应系统速率限制的约束,包括图片、音频、视频和文档。
如果您的企业用例需要更高的吞吐量,请与您的客户支持团队联系,详细了解自定义层级。
用量层级的运作方式
您的使用情况层级由组织在过去 30 天内对符合条件的 Vertex AI 服务的总支出自动确定。随着组织的支出增加,系统会将您升级到吞吐量更高的更高级别。
支出计算
此计算涵盖了广泛的服务,从所有 Gemini 模型系列的预测到 Vertex AI CPU、GPU 和 TPU 实例,还包括基于承诺的 SKU,例如预配的吞吐量。
点击可详细了解纳入支出计算范围的 SKU。
下表列出了纳入总支出计算范围的 Google Cloud SKU 类别。
| 类别 | 所含 SKU 的说明 |
|---|---|
| Gemini 模型 | 所有 Gemini 模型系列(例如 2.0、2.5、3.0(Pro、Flash 和 Lite 版本)进行预测,涵盖所有模态(文本、图片、音频、视频),包括批处理、长上下文、调优和“思考”变体 |
| Gemini 模型功能 | 所有相关的 Gemini SKU,适用于缓存、缓存存储空间和优先层级等功能,涵盖所有模态和模型版本 |
| Vertex AI CPU | 所有基于 CPU 的实例系列(例如,C2、C3、E2、N1、N2 及其变体) |
| Vertex AI GPU | 在所有 NVIDIA GPU 加速的实例(例如 A100、H100、H200、B200、L4、T4、V100 和 RTX 系列) |
| Vertex AI TPU | 在所有基于 TPU 的实例(例如,TPU-v5e、v6e) |
| 管理和费用 | 与各种 Vertex AI 预测实例关联的所有“管理费”SKU |
| 预配的吞吐量 | 所有基于承诺的预配吞吐量 SKU |
| 其他服务 | “利用 Google 搜索工具为 Gemini 提供 LLM 依据”等专业服务 |
验证使用层级
如需验证组织的用量层级,请前往 Google Cloud 控制台中的 Vertex AI 信息中心。
验证支出
如需查看 Vertex AI 支出,请前往Google Cloud 控制台中的 Cloud Billing。请注意,支出是在组织级层汇总的。
资源已用尽 (429) 错误
如果您收到 429 错误,并不表示您已达到固定配额。
表示特定共享资源暂时出现高争用情况。我们建议您实现指数退避算法重试策略来处理这些错误,因为这种动态环境中的可用性可能会快速变化。除了重试策略之外,我们还建议使用全局端点。与区域端点(例如 us-central1)不同,全球端点会将您的请求动态路由到当时具有最大可用容量的区域。这样一来,您的应用就可以访问更大的多区域共享容量池,从而显著提高成功突增的可能性,并降低出现 429 错误的几率。
为获得最佳效果,请将使用全球端点与流量平滑相结合。 避免在秒级出现急剧的流量高峰,因为即使每分钟的平均使用量在基准吞吐量限制范围内,高瞬时流量也可能会导致节流。更均匀地分配 API 调用有助于系统以可预测的方式管理负载,并提高整体性能。如需详细了解如何处理资源耗尽错误,请参阅处理 429 错误的指南和错误代码 429。
支持的模型
以下正式版 (GA) Gemini 模型及其监督式微调模型支持标准 PayGo(含使用量层级):
以下 GA Gemini 模型及其监督式微调模型也支持标准 PayGo,但使用情况层级不适用于这些模型:
请注意,这些层级不适用于预览版模型。如需了解最准确且最新的信息,请参阅各型号的官方文档。
监控吞吐量和性能
如需监控组织的实时令牌消耗量,请前往 Cloud Monitoring 中的 Metrics Explorer。
如需详细了解如何监控模型端点流量,请参阅监控模型。
请注意,用量层级是在组织级层应用的。如需了解如何设置观测范围以绘制组织中多个项目的吞吐量图表,请参阅为多项目查询配置观测范围。
后续步骤
- 如需了解 Vertex AI 的配额和限制,请参阅 Vertex AI 配额和限制。
- 如需详细了解 Google Cloud 配额和系统限制,请参阅 Cloud 配额文档。