错误代码 429

如果您的请求数量超出分配用于处理请求的容量,则系统会返回错误代码 429。下表显示了每种类型的配额框架生成的错误消息:

配额框架 消息
随用随付 Resource exhausted, please try again later.
预配吞吐量 Too many requests. Exceeded the Provisioned Throughput.

使用预配吞吐量 (PT) 订阅时,您可以为特定的生成式 AI 模型预留一定量的吞吐量。如果您没有 PT 订阅,并且您的应用没有可用资源,则系统会返回错误代码 429。虽然您没有预留容量,但可以再次尝试提交请求。不过,该请求 不会计入服务等级协议 (SLA)中所述的错误率。

对于已购买 PT 的项目,Vertex AI 会衡量项目的吞吐量,并预留所购买的吞吐量供项目实际使用。

对于标准 PT,如果您使用的吞吐量少于购买的吞吐量,则本可能以 429 返回的错误会以 5XX 返回,并计入 SLA 错误率。对于单可用区 PT,如果您使用的吞吐量少于购买的吞吐量,则与容量相关的 429 错误会被视为 5XX,但不会计入 SLA 错误率。当您超出购买的吞吐量时,额外的请求将按需处理,并按随用随付方式结算。

Pay-as-you-go

在随用随付配额框架中,您可以通过以下方式来解决 429 错误:

  • 尽可能使用全球端点 ,而不是区域端点。
  • 使用截断指数退避算法实现 重试策略。
  • 如果您的模型使用配额,您可以提交配额增加申请 (QIR)。如果 您的模型使用 标准随用随付,则平滑流量 并减少较大峰值可能会有所帮助。
  • 订阅 PT,以实现更一致的服务等级。 如需了解详情,请参阅 PT

PT

如需更正 PT 生成的 429 错误,请执行以下操作:

  • 使用默认行为 示例,该示例不会在预测请求中设置 标头。任何超额费用都会按需处理,并按随用随付方式结算。
  • 增加 PT 订阅中的 GSU 数量。

后续步骤