처리량 할당량

Vertex AI는 비용과 성능 간의 균형을 맞추는 데 도움이 되도록 생성형 AI 모델의 처리량을 관리하는 다양한 방법을 제공합니다. 이 문서에서는 유연한 사용한 만큼만 지불 모델과 예측 가능한 처리량을 위한 예약 용량이라는 사용 가능한 옵션을 설명합니다.

관리형 모델 할당량

Vertex AI는 Vertex AI의 관리형 생성형 AI 모델의 처리량을 관리하는 두 가지 방법을 제공하여 비용, 유연성, 성능 간의 균형을 맞출 수 있습니다. 유연한 사용한 만큼만 지불 모델을 사용하거나 고정 가격으로 전용 처리량을 예약할 수 있습니다.

Pay-as-you-go

기본 사용한 만큼만 지불 모델의 경우 Vertex AI는 사전 정의된 사용량 한도가 없는 동적 공유 할당량을 사용합니다. 대신 실시간 가용성과 수요에 따라 동적으로 할당되는 대규모 공유 리소스 풀에 액세스할 수 있습니다.

이 모델은 사용 가능한 리소스가 있을 때 워크로드가 더 많은 리소스를 사용할 수 있도록 합니다. resource exhausted(429) 오류가 표시되면 이는 공유 풀에서 많은 사용자로부터 수요가 일시적으로 급증하고 있다는 의미입니다. 가용성이 급변할 수 있으므로 애플리케이션에 재시도 메커니즘을 구현해야 합니다.

예약된 용량

일관된 성능과 예측 가능한 비용이 필요한 중요한 프로덕션 애플리케이션의 경우 프로비저닝된 처리량을 사용할 수 있습니다. 프로비저닝된 처리량은 선택한 위치에서 모델에 대해 특정 처리량을 예약하는 고정 비용 구독입니다.

생성형 AI 서비스 할당량

Vertex AI는 모델 미세 조정, 모델 평가, 일괄 예측, 임베딩, 검색 증강 생성과 같은 생성형 AI 서비스 제품군을 제공합니다. 이러한 서비스의 할당량에 대해 자세히 알아보려면 Vertex AI의 생성형 AI 할당량 및 시스템 한도를 참조하세요.

다음 단계

동적 공유 할당량에 대해 자세히 알아보기
프로비저닝된 처리량에 대해 자세히 알아보기
생성형 AI 할당량 및 시스템 한도에 대해 자세히 알아보기
Google Cloud 할당량에 대해 자세히 알아보기

처리량 할당량 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.