오류 코드 429

요청 수가 요청을 처리하도록 할당된 용량을 초과할 경우 오류 코드 429가 반환됩니다. 다음 표에는 각 유형의 할당량 프레임워크에서 생성된 오류 메시지가 표시됩니다.

할당량 프레임워크 메시지
사용한 만큼만 지불 Resource exhausted, please try again later.
프로비저닝된 처리량 Too many requests. Exceeded the Provisioned Throughput.

프로비저닝된 처리량 (PT) 구독을 사용하면 특정 생성형 AI 모델의 처리량을 예약할 수 있습니다. PT 구독이 없고 애플리케이션에서 리소스를 사용할 수 없는 경우 오류 코드 429가 반환됩니다. 예약된 용량이 없어도 요청을 다시 시도할 수 있습니다. 하지만 서비스수준계약(SLA)에 설명된 대로 요청은 오류율에 집계되지 않습니다.

PT를 구매한 프로젝트의 경우 Gemini Enterprise Agent Platform은 프로젝트의 처리량을 측정하고 구매한 처리량을 프로젝트의 실제 사용량에 맞게 예약합니다.

표준 PT의 경우 구매한 금액보다 적게 사용하면 429로 반환되었을 오류가 5XX로 반환되고 SLA 오류율에 반영됩니다. 단일 영역 PT의 경우 구매한 금액보다 적게 사용하면 용량 관련 429 오류가 5XX로 처리되지만 SLA 오류율에 포함되지 않습니다. 구매한 금액을 초과하면 추가 요청은 주문형으로 처리되고 사용한 만큼만 지불로 청구됩니다.

사용한 만큼만 지불

사용한 만큼만 지불 할당량 프레임워크에서는 429 오류를 해결하기 위해 다음과 같은 옵션이 있습니다.

  • 가능한 경우 리전 엔드포인트 대신 전역 엔드포인트를 사용합니다.
  • 잘린 지수 백오프를 사용하여 재시도 전략을 구현합니다.
  • 모델에서 할당량을 사용하는 경우 할당량 증가 요청(QIR)을 제출할 수 있습니다. 모델에서 표준 종량제를 사용하는 경우 트래픽을 원활하게 하고 큰 급증을 줄이는 것이 도움이 될 수 있습니다.
  • 보다 일관된 서비스 수준을 얻으려면 PT를 구독하세요. 자세한 내용은 PT를 참고하세요.

PT

PT로 생성된 429 오류를 수정하려면 다음 단계를 따르세요.

  • 예측 요청에 헤더를 설정하지 않는 기본 동작 예시를 사용합니다. 초과분은 주문형으로 처리되고 사용한 만큼만 지불로 청구됩니다.
  • PT 구독에서 GSU 수를 늘립니다.

다음 단계