吞吐量配额

Vertex AI 提供多种管理生成式 AI 模型吞吐量的方法，可帮助您兼顾成本和性能。本文档介绍了可用的选项：灵活的按需付费模式和用于实现可预测吞吐量的预留容量。

受管理模型配额

Vertex AI 提供两种管理 Vertex AI 上受管理的生成式 AI 模型吞吐量的方法，让您能够兼顾成本、灵活性和性能。您可以选择灵活的随用随付模式，也可以选择以固定价格预留专用吞吐量。

Pay-as-you-go

对于默认的随用随付模式，Vertex AI 使用动态共享配额，该配额没有预定义的用量限额。届时，您可以访问一个大型共享资源池，其中的资源会根据实时可用性和需求动态分配。

此模型允许工作负载在资源可用时使用更多资源。如果您收到 resource exhausted (429) 错误，则表示共享资源池暂时同时面临许多用户的极高需求。您应在应用中实现重试机制，因为可用性可能会快速变化。

预留容量

对于需要稳定性能和可预测费用的关键生产应用，您可以使用预配吞吐量。预配吞吐量是一项固定费用订阅，用于为所选位置的模型预留特定量的吞吐量。

生成式 AI 服务的配额

Vertex AI 提供了一套生成式 AI 服务，例如模型调优、模型评估、批量预测、嵌入和检索增强生成。如需详细了解这些服务的配额，请参阅 Vertex AI 上的生成式 AI 配额和系统限制。

后续步骤

详细了解动态共享配额。
详细了解预配吞吐量。
详细了解生成式 AI 配额和系统限制。
详细了解 Google Cloud 配额。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2026-01-22。