Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

처리량 할당량

Gemini Enterprise 에이전트 플랫폼은 비용과 성능 간의 균형을 맞추는 데 도움이 되도록 생성형 AI 모델의 처리량을 관리하는 다양한 방법을 제공합니다. 이 문서에서는 유연한 사용한 만큼만 지불 모델과 예측 가능한 처리량을 위한 예약 용량이라는 사용 가능한 옵션을 설명합니다.

관리형 모델 할당량

에이전트 플랫폼은 Gemini Enterprise 에이전트 플랫폼의 관리형 생성형 AI 모델의 처리량을 관리하는 두 가지 방법을 제공하여 비용, 유연성, 성능 간의 균형을 맞출 수 있습니다. 사용한 만큼만 지불하는 모델을 사용하거나 고정 가격으로 전용 처리량을 예약할 수 있습니다.

Pay-as-you-go

기본 사용량에 따라 비용을 지불하는 모델의 경우 에이전트 플랫폼은 표준 사용량에 따라 비용을 지불하는 모델 (표준 PayGo)을 사용합니다. PayGo를 사용하면 선불 약정 없이 사용한 리소스에 대해서만 비용을 지불할 수 있습니다. 비용과 성능이 다양한 추가 PayGo 옵션이 있습니다. 자세한 내용은 우선순위 PayGo 또는 Flex PayGo를 참고하세요.

예약된 용량

일관된 성능과 예측 가능한 비용이 필요한 중요한 프로덕션 애플리케이션의 경우 프로비저닝된 처리량을 사용할 수 있습니다. 프로비저닝된 처리량은 선택한 위치에서 모델에 대해 특정 처리량을 예약하는 고정 비용 구독입니다.

생성형 AI 서비스 할당량

Gemini Enterprise 에이전트 플랫폼은 모델 미세 조정, 모델 평가, 일괄 예측, 임베딩, 검색 증강 생성과 같은 생성형 AI 서비스 제품군을 제공합니다. 이러한 서비스의 할당량에 대해 자세히 알아보려면 Gemini Enterprise 에이전트 플랫폼의 생성형 AI 할당량 및 시스템 한도를 참고하세요.

다음 단계

표준 PayGo에 대해 자세히 알아보기 .
프로비저닝된 처리량에 대해 자세히 알아보기 .
생성형 AI 할당량 및 시스템 한도에 대해 자세히 알아보기
Google Cloud 할당량에 대해 자세히 알아보기

처리량 할당량 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.