如果您的请求数量超出分配用于处理请求的容量,则系统会返回错误代码 429。下表显示了每种类型的配额框架生成的错误消息:
| 配额框架 | 消息 |
|---|---|
| 随用随付 | Resource exhausted, please try again later. |
| 预配吞吐量 | Too many requests. Exceeded the Provisioned Throughput. |
使用预配吞吐量 (PT) 订阅时,您可以为特定的生成式 AI 模型预留一定量的吞吐量。如果您没有 PT 订阅,并且您的应用没有可用资源,则系统会返回错误代码
429。虽然您没有预留容量,但可以再次尝试提交请求。不过,该请求
不会计入服务等级协议 (SLA)中所述的错误率。
对于已购买 PT 的项目,Vertex AI 会衡量项目的吞吐量,并预留所购买的吞吐量供项目实际使用。
对于标准 PT,如果您使用的吞吐量少于购买的吞吐量,则本可能以 429 返回的错误会以 5XX 返回,并计入 SLA 错误率。对于单可用区
PT,如果您使用的吞吐量少于购买的吞吐量,则与容量相关的 429 错误会被视为 5XX,但不会计入 SLA
错误率。当您超出购买的吞吐量时,额外的请求将按需处理,并按随用随付方式结算。
Pay-as-you-go
在随用随付配额框架中,您可以通过以下方式来解决 429 错误:
- 尽可能使用全球端点 ,而不是区域端点。
- 使用截断指数退避算法实现 重试策略。
- 如果您的模型使用配额,您可以提交配额增加申请 (QIR)。如果 您的模型使用 标准随用随付,则平滑流量 并减少较大峰值可能会有所帮助。
- 订阅 PT,以实现更一致的服务等级。 如需了解详情,请参阅 PT。
PT
如需更正 PT 生成的 429 错误,请执行以下操作:
- 使用默认行为 示例,该示例不会在预测请求中设置 标头。任何超额费用都会按需处理,并按随用随付方式结算。
- 增加 PT 订阅中的 GSU 数量。
后续步骤
- 如需详细了解标准随用随付,请参阅标准随用随付。
- 如需详细了解 PT,请参阅 预配吞吐量。
- 如需了解代理平台配额和限制,请参阅 代理平台配额和限制。
- 如需详细了解 Google Cloud 配额和系统限制,请参阅 Cloud 配额文档。