錯誤代碼 429

如果要求數量超過處理要求所分配的容量,系統會傳回錯誤代碼 429。下表顯示各配額架構產生的錯誤訊息:

配額架構 訊息
即付即用 Resource exhausted, please try again later.
佈建輸送量 Too many requests. Exceeded the Provisioned Throughput.

訂閱「已佈建的處理量」後,即可為特定生成式 AI 模型預留一定量的處理量。如果您沒有「佈建輸送量」訂閱方案,且應用程式無法使用資源,系統就會傳回錯誤碼 429。雖然您沒有預留容量,但可以再次嘗試提出要求。不過,如服務水準協議 (SLA) 所述,這類要求不會計入錯誤率。

對於已購買預先佈建輸送量的專案,Vertex AI 會測量專案的輸送量,並為專案的實際用量保留所購買的輸送量。

如果是標準佈建輸送量,當您使用的量少於購買量時,原本可能會是 429 的錯誤會以 5XX 傳回,並計入 SLA 錯誤率。如果是單一可用區佈建輸送量,當您使用的量少於購買量時,容量相關的 429 錯誤會視為 5XX,但不計入服務水準協議錯誤率。如果超出購買量,系統會以即付即用方式處理額外要求。

即付即用

在即付即用配額架構中,您可以採取下列做法解決 429 錯誤:

  • 請盡量使用全域端點,而非區域端點。
  • 使用部分指數輪詢實作重試策略。
  • 如果模型使用配額,您可以提交配額提高要求 (QIR)。如果模型採用標準用多少付多少方案,平緩流量並減少大幅尖峰流量有助於降低費用。
  • 訂閱已佈建的處理量,即可享有更穩定的服務。詳情請參閱「佈建輸送量」。

佈建輸送量

如要修正 Provisioned Throughput 產生的 429 錯誤,請執行下列操作:

  • 使用預設行為範例,這不會在預測要求中設定標頭。任何超出配額的用量都會以隨選方式處理,並以即付即用方式計費。
  • 增加佈建輸送量訂閱方案的 GSU 數量。

後續步驟