吞吐量配额

Vertex AI 提供多种管理生成式 AI 模型吞吐量的方法,可帮助您兼顾成本和性能。本文档介绍了可用的选项:灵活的按需付费模式和用于实现可预测吞吐量的预留容量。

受管理模型配额

Vertex AI 提供两种管理 Vertex AI 上受管理的生成式 AI 模型吞吐量的方法,让您能够兼顾成本、灵活性和性能。您可以选择灵活的随用随付模式,也可以选择以固定价格预留专用吞吐量。

Pay-as-you-go

对于默认的随用随付模式,Vertex AI 使用动态共享配额,该配额没有预定义的用量限额。届时,您可以访问一个大型共享资源池,其中的资源会根据实时可用性和需求动态分配。

此模型允许工作负载在资源可用时使用更多资源。如果您收到 resource exhausted (429) 错误,则表示共享资源池暂时同时面临许多用户的极高需求。您应在应用中实现重试机制,因为可用性可能会快速变化。

预留容量

对于需要稳定性能和可预测费用的关键生产应用,您可以使用预配吞吐量。预配吞吐量是一项固定费用订阅,用于为所选位置的模型预留特定量的吞吐量。

生成式 AI 服务的配额

Vertex AI 提供了一套生成式 AI 服务,例如模型调优、模型评估、批量预测、嵌入和检索增强生成。如需详细了解这些服务的配额,请参阅 Vertex AI 上的生成式 AI 配额和系统限制

后续步骤