标准随用随付 (Standard PayGo) 是一种消费选项,可用于使用 Vertex AI 的一系列生成式 AI 模型,包括 Vertex AI 上的 Gemini 和 Imagen 模型系列。借助 Standard PayGo,您只需为所消耗的资源付费,而无需预先做出财务承诺。为了让可伸缩的工作负载获得更可预测的性能,Standard PayGo 引入了使用层级系统。Vertex AI 会根据组织在滚动 30 天内对符合条件的 Vertex AI 服务的总支出,动态调整组织的基础吞吐量。随着组织的支出增加,系统会自动将组织提升到更高的层级,从而提供更多共享资源和更高的性能阈值。
使用层级和吞吐量
每个 Standard PayGo 使用层级都旨在提供以每分钟令牌数 (TPM) 为组织衡量的基础吞吐量,作为组织流量的可预测性能下限。吞吐量限制基于发送到全球端点的请求。使用全球端点是一种最佳实践,因为它可以访问更大的多区域吞吐量池,并允许将请求路由到可用性最高的位置,从而最大限度地提高性能。
您的流量不会严格限制在基础吞吐量限制范围内。 Vertex AI 会尽力让流量超出此限制。但是,在 Vertex AI 平台需求旺盛期间,这种超出限制的流量的性能可能会有更高的可变性。为了优化性能并最大限度地减少收到这些错误的可能性,最佳实践是尽可能平稳地分配每分钟的流量。避免在短时间内发送大量请求。即使每分钟的平均用量低于限制,高瞬时流量也可能会导致限制。更均匀地分配 API 调用有助于系统以可预测的方式管理负载,并提高整体性能。
Standard PayGo 中提供以下层级:
| 模型系列 | 层级 | 客户支出(30 天) | 流量 TPM(组织级) |
|---|---|---|---|
| Gemini Pro 模型 | 层级 1 | 10 美元 - 250 美元 | 50 万 |
| 层级 2 | 250 美元 - 2000 美元 | 100 万 | |
| 层级 3 | > 2000 美元 | 200 万 | |
| Gemini Flash 和 Flash-Lite 模型 | 层级 1 | 10 美元 - 250 美元 | 200 万 |
| 层级 2 | 250 美元 - 2000 美元 | 400 万 | |
| 层级 3 | > 2000 美元 | 1000 万 |
请注意,为模型系列显示的吞吐量限制独立适用于该系列中的每个模型。例如,层级 3 中的客户的 Gemini 2.5 Flash 的基础吞吐量为 1000 万 TPM,Gemini 2.0 Flash 的基础吞吐量为 1000 万 TPM。使用其中一个限制不会影响其他模型的吞吐量。每个层级都没有单独的每分钟请求数 (RPM) 限制。但是,每个模型每个区域的 系统限制为 30,000 RPM 适用。具有多模态输入的 Gemini 请求受 相应的系统速率限制,包括 图片、 音频、 视频和 文档。
如果您需要更高的企业用例吞吐量,请与您的客户支持团队联系,详细了解自定义层级。
使用层级的工作原理
您的使用层级由组织在滚动 30 天内对符合条件的 Vertex AI 服务的总支出自动确定。随着组织支出的增加,系统会将您提升到吞吐量更高的层级。
支出计算
此计算包括各种服务,从所有 Gemini 模型系列的预测到 Vertex AI CPU、GPU 和 TPU 实例,以及基于承诺的 SKU,例如预配吞吐量。
点击即可详细了解支出计算中包含的 SKU。
下表列出了包含在总支出计算中的 Google Cloud SKU 类别。
| 类别 | 包含的 SKU 说明 |
|---|---|
| Gemini 模型 | 所有 Gemini 模型系列(例如,Pro、Flash 和 Lite 版本中的 2.0、2.5、3.0),用于跨所有模态(文本、图片、音频、视频)的预测,包括批量、长上下文、调优和“思考”变体 |
| Gemini 模型功能 | 所有相关的 Gemini SKU,适用于缓存、缓存存储和优先级层级等功能,涵盖所有模态和模型版本 |
| Vertex AI CPU | 所有基于 CPU 的实例系列(例如,C2、C3、E2、N1、N2 及其变体)的在线预测和批量预测 |
| Vertex AI GPU | 所有 NVIDIA GPU 加速实例(例如,A100、H100、H200、B200、L4、T4、V100 和 RTX 系列)的在线预测和批量预测 |
| Vertex AI TPU | 所有基于 TPU 的实例(例如,TPU-v5e、v6e)的在线预测和批量预测 |
| 管理和费用 | 与各种 Vertex AI 预测实例关联的所有“管理费”SKU |
| 预配吞吐量 | 预配吞吐量的所有基于承诺的 SKU |
| 其他服务 | 专业服务,例如“LLM Grounding for Gemini... with Google Search tool” |
验证使用层级
如需验证组织的使用层级,请前往 控制台中的 Google Cloud Vertex AI 信息中心。
验证支出
如需查看 Vertex AI 支出,请前往 Google Cloud 控制台中的 Cloud Billing。请注意,支出是在组织级汇总的。
资源用尽 (429) 错误
如果您收到 429 错误,这并不表示您已达到固定配额,而是表示特定共享资源暂时出现高争用。我们建议您实现指数退避算法重试策略来处理这些错误,因为此动态环境中的可用性可能会快速变化。除了重试策略之外,我们还建议您使用全球端点。与区域端点(例如 us-central1)不同,全球端点会动态将请求路由到当时可用容量最多的区域。这样,您的应用就可以访问更大的多区域共享容量池,从而显著提高成功突增的可能性,并降低出现 429 错误的可能性。
为获得最佳效果,请将全球端点与流量平滑结合使用。 避免在短时间内发送大量请求,因为即使每分钟的平均用量在基础吞吐量限制范围内,高瞬时流量也可能会导致限制。更均匀地分配 API 调用有助于系统以可预测的方式管理负载,并提高整体性能。如需详细了解如何处理资源用尽 错误,请参阅 在 Vertex AI 上构建弹性 LLM 应用和减少 429 错误 以及 错误代码 429。
支持的模型
以下 正式版 (GA) Gemini 模型及其 监督式微调模型 支持 具有使用层级的 Standard PayGo:
以下 GA Gemini 模型及其 监督式微调模型 也支持 Standard PayGo,但使用层级不适用于 这些模型:
请注意,这些层级不适用于预览版模型。如需获取最准确、最新的信息,请参阅每个模型的具体官方文档。
监控吞吐量和性能
如需监控组织的实时令牌消耗量,请前往 Cloud Monitoring 中的 Metrics Explorer。
如需详细了解如何监控模型端点流量,请参阅 监控模型。
请注意,使用层级适用于组织级。如需了解如何设置可观测性范围以绘制组织中多个项目的吞吐量图表,请参阅 为多项目查询配置可观测性范围。