표준 종량제 (표준 PayGo)는 Gemini 모델 제품군을 비롯한 Gemini Enterprise Agent Platform의 생성형 AI 모델 제품군을 활용하는 소비 옵션입니다. 표준 PayGo를 사용하면 선불 재정적 약정 없이 소비하는 리소스에 대해서만 비용을 지불할 수 있습니다. 확장 가능한 워크로드에 더 예측 가능한 성능을 제공하기 위해 표준 PayGo에는 사용 등급 시스템이 통합되어 있습니다. Agent Platform은 지난 30일 동안의 적격 Agent Platform 서비스에 대한 총 지출을 기준으로 조직의 기준 처리량 용량을 동적으로 조정합니다. 조직의 지출이 증가하면 공유 리소스에 대한 액세스 권한과 더 높은 성능 기준값을 제공하는 더 높은 등급으로 자동으로 승격됩니다. 표준 PayGo보다 더 일관된 성능이 필요한 워크로드의 경우 우선순위 PayGo를 고려해 보세요. 전용 및 보장된 용량은 프로비저닝된 처리량을 참조하세요.
사용 등급 및 처리량
각 표준 PayGo 사용 등급은 조직 트래픽의 예측 가능한 성능 하한선 역할을 하는 분당 토큰 수 (TPM)로 측정되는 기준 처리량을 제공하는 것을 목표로 합니다. 처리량 한도는 전역 엔드포인트로 전송되는 요청을 기반으로 합니다. 전역 엔드포인트를 사용하는 것이 좋습니다. 더 큰 다중 리전 처리량 용량 풀에 액세스할 수 있고 요청을 가용성이 가장 높은 위치로 라우팅하여 성능을 극대화할 수 있기 때문입니다.
트래픽은 기준 처리량 한도로 엄격하게 제한되지 않습니다. Agent Platform을 사용하면 최선의 방식으로 이 한도를 초과하는 트래픽 버스트가 발생할 수 있습니다. 하지만 Agent Platform 전반에서 수요가 많은 기간에는 이 초과 버스트 트래픽의 성능 변동성이 더 클 수 있습니다. 성능을 최적화하고 이러한 오류가 발생할 가능성을 최소화하려면 매분마다 트래픽을 최대한 균등하게 분산하는 것이 좋습니다. 급격한 2단계 스파이크로 요청을 보내지 마세요. 분당 평균 사용량이 한도 미만이라도 높고 순간적인 트래픽으로 인해 제한이 발생할 수 있습니다. API 호출을 더 균등하게 분산하면 시스템에서 부하를 예측 가능하게 관리하고 전반적인 성능을 개선하는 데 도움이 됩니다.
표준 PayGo에서는 다음 등급을 사용할 수 있습니다.
| 모델 제품군 | 등급 | 고객 지출 (30일) | 트래픽 TPM (조직 수준) |
|---|---|---|---|
| Gemini Pro 모델 | 등급 1 | $10~$250 | 500,000 |
| 등급 2 | $250~$2,000 | 1,000,000 | |
| 등급 3 | $2,000 초과 | 2,000,000 | |
| Gemini Flash 및 Flash-Lite 모델 | 등급 1 | $10~$250 | 2,000,000 |
| 등급 2 | $250~$2,000 | 4,000,000 | |
| 등급 3 | $2,000 초과 | 10,000,000 |
모델 제품군에 표시된 처리량 한도는 해당 제품군 내의 각 모델에 독립적으로 적용됩니다. 예를 들어 등급 3의 고객은 Gemini 2.5 Flash의 기준 처리량이 10,000,000 TPM이고 Gemini 2.0 Flash의 별도 기준 처리량이 10,000,000 TPM입니다. 이러한 한도 중 하나에 대한 사용량은 다른 모델의 처리량에 영향을 미치지 않습니다. 각 등급에 대한 별도의 분당 요청 수 (RPM) 한도는 없습니다. 하지만 리전별 모델당 30,000 RPM의 시스템 한도가 적용됩니다. 멀티모달 입력이 있는 Gemini 요청에는 이미지, 오디오, 동영상, 및 문서를 포함한 상응하는 시스템 비율 제한이 적용됩니다.
엔터프라이즈 사용 사례에 더 높은 처리량이 필요한 경우 계정팀에 문의하여 맞춤 등급에 관한 자세한 내용을 알아보세요.
사용 등급 작동 방식
사용 등급은 지난 30일 동안의 적격 Agent Platform 서비스에 대한 조직의 총 지출에 따라 자동으로 결정됩니다. 조직의 지출이 증가하면 시스템에서 처리량이 더 높은 등급으로 승격됩니다.
비용 계산
이 계산에는 모든 Gemini 모델 제품군의 예측부터 Agent Platform CPU, GPU, TPU 인스턴스, 프로비저닝된 처리량과 같은 약정 기반 SKU에 이르기까지 광범위한 서비스가 포함됩니다.
클릭하여 지출 계산에 포함된 SKU에 대해 자세히 알아보세요.
다음 표에는 총 비용 계산에 포함되는 Google Cloud SKU 카테고리가 나와 있습니다.
| 카테고리 | 포함된 SKU 설명 |
|---|---|
| Gemini 모델 | 일괄 처리, 긴 컨텍스트, 조정, '사고' 변형을 포함하여 모든 모달리티 (텍스트, 이미지, 오디오, 동영상)에서 예측을 위한 모든 Gemini 모델 제품군 (예: Pro, Flash, Lite 버전의 2.0, 2.5, 3.0) |
| Gemini 모델 기능 | 모든 모달리티 및 모델 버전에서 캐싱, 캐싱 스토리지, 우선순위 등급과 같은 기능을 위한 모든 관련 Gemini SKU |
| Agent Platform CPU | 모든 CPU 기반 인스턴스 제품군 (예: C2, C3, E2, N1, N2 및 변형)의 온라인 및 일괄 예측 |
| Agent Platform GPU | 모든 NVIDIA GPU 가속 인스턴스(예: A100, H100, H200, B200, L4, T4, V100, RTX 시리즈)의 온라인 및 일괄 예측 |
| Agent Platform TPU | 모든 TPU 기반 인스턴스 (예: TPU-v5e, v6e)의 온라인 및 일괄 예측 |
| 관리 및 수수료 | 다양한 Agent Platform 예측 인스턴스와 연결된 모든 '관리 수수료' SKU |
| 프로비저닝된 처리량 | 프로비저닝된 처리량의 모든 약정 기반 SKU |
| 기타 서비스 | 'Google 검색 도구가 포함된 Gemini용 LLM 접지'와 같은 전문 서비스 |
사용 등급 확인
조직의 사용 등급을 확인하려면
콘솔의 Agent Platform 대시보드로 이동하세요 Google Cloud .
대시보드에서 사용 등급을 보려면 프로젝트에 대한
Agent Platform 뷰어 역할
(roles/aiplatform.viewer)과 결제 계정에 대한
결제 계정 뷰어 역할
(roles/billing.viewer)이 있어야 합니다.
지출 확인
Agent Platform 지출을 검토하려면 콘솔의 Cloud Billing으로 이동하세요.Google Cloud 지출은 조직 수준에서 집계됩니다.
리소스 소진 (429) 오류
429 오류가 발생해도 고정 할당량에 도달했음을 나타내지는 않습니다.
특정 공유 리소스에 대한 일시적인 높은 경합을 나타냅니다. 이 동적 환경의 가용성은 빠르게 변경될 수 있으므로 이러한 오류를 처리하기 위해 지수 백오프 재시도 전략을 구현하는 것이 좋습니다. 재시도 전략 외에도 전역 엔드포인트를 사용하는 것이 좋습니다. 리전 엔드포인트 (예: us-central1)와 달리 전역 엔드포인트는 요청을 해당 시점에 사용 가능한 용량이 가장 많은 리전으로 동적으로 라우팅합니다. 이렇게 하면 애플리케이션에서 더 큰 다중 리전 공유 용량 풀에 액세스할 수 있으므로 버스트 성공 가능성이 크게 높아지고 429 오류가 발생할 가능성이 줄어듭니다.
최상의 결과를 얻으려면 전역 엔드포인트 사용과 트래픽 평활화를 결합하세요. 분당 평균 사용량이 기준 처리량 한도 내에 있더라도 높고 순간적인 트래픽으로 인해 제한이 발생할 수 있으므로 급격한 2단계 스파이크로 요청을 보내지 마세요. API 호출을 더 균등하게 분산하면 시스템에서 부하를 예측 가능하게 관리하고 전반적인 성능을 개선하는 데 도움이 됩니다. 리소스 소진 오류를 처리하는 방법에 관한 자세한 내용은 복원력 있는 LLM 애플리케이션 빌드 및 429 오류 줄이기 및 오류 코드 429를 참고하세요.
지원되는 모델
다음 정식 버전 (GA) Gemini 모델과 해당 감독 기반 세부 조정 모델은 사용 등급이 있는 표준 PayGo를 지원합니다.
클릭하여 지원되는 모델 펼치기
다음 GA Gemini 모델과 해당 감독 기반 세부 조정 모델 도 표준 PayGo를 지원하지만 사용 등급은 이러한 모델에 적용되지 않습니다.
이러한 등급은 미리보기 모델에는 적용되지 않습니다. 가장 정확하고 최신 정보는 각 모델의 공식 문서를 참고하세요.
처리량 및 성능 모니터링
조직의 실시간 토큰 소비량을 모니터링하려면 Cloud Monitoring의 측정항목 탐색기로 이동하세요.
모델 엔드포인트 트래픽 모니터링에 관한 자세한 내용은 모델 모니터링을 참고하세요.
사용 등급은 조직 수준에서 적용됩니다. 조직의 여러 프로젝트에서 처리량을 차트로 표시하도록 관측 가능성 범위를 설정하는 방법에 관한 자세한 내용은 다중 프로젝트 쿼리의 관측 가능성 범위 구성을 참고하세요.
다음 단계
Google Cloud 할당량
Google Cloud에서 Google Cloud 프로젝트가 사용할 수 있는 리소스의 양을 제한하는 방법과 할당량이 하드웨어, 소프트웨어, 네트워크 구성요소를 비롯한 다양한 리소스 유형에 적용되는 방법을 알아보세요.