錯誤代碼 429

如果要求數量超過處理要求所分配的容量,系統會傳回錯誤代碼 429。下表顯示各配額架構產生的錯誤訊息:

配額架構 訊息
即付即用 Resource exhausted, please try again later.
佈建輸送量 Too many requests. Exceeded the Provisioned Throughput.

訂閱「佈建輸送量」(PT) 後,即可為特定生成式 AI 模型預留一定量的輸送量。如果您沒有 PT 訂閱方案,且應用程式無法使用資源,系統會傳回錯誤代碼 429。雖然您沒有預留容量,但可以再次嘗試提出要求。不過,如服務水準協議 (SLA)所述,這類要求不會計入錯誤率。

對於已購買 PT 的專案,Vertex AI 會測量專案的處理量,並為專案的實際用量保留所購買的處理量。

如果是標準 PT,當你使用的量少於購買量時,原本可能會是 429 的錯誤會傳回為 5XX,並計入 SLA 錯誤率。如果是單一可用區 PT,當您使用的量少於購買量時,容量相關的 429 錯誤會視為 5XX,但不會計入服務水準協議錯誤率。如果超出購買量,系統會以即付即用方式處理額外要求。

即付即用

在即付即用配額架構中,您可以採取下列做法解決 429 錯誤:

  • 請盡量使用全域端點,而非區域端點。
  • 使用部分指數輪詢實作重試策略
  • 如果模型使用配額,您可以提交配額提高要求 (QIR)。如果模型採用標準即付即用方案,平緩流量並減少大幅尖峰流量有助於降低費用。
  • 訂閱 PT 即可享有更穩定的服務。詳情請參閱 PT

PT

如要修正 PT 產生的 429 錯誤,請執行下列操作:

  • 使用預設行為範例,這不會在預測要求中設定標頭。任何超出配額的用量都會以隨選方式處理,並以即付即用方式計費。
  • 增加 PT 訂閱方案的 GSU 數量。

後續步驟