Standard PayGo

표준 종량제(Standard PayGo)는 Vertex AI의 생성형 AI 모델 모음(Vertex AI의 Gemini 및 Imagen 모델 제품군 포함)을 활용하기 위한 소비 옵션입니다. 표준 종량제에서는 선불 재정 약정 없이 소비한 리소스에 대해서만 비용을 지불할 수 있습니다. 확장 가능한 워크로드에 대해 더 예측 가능한 성능을 제공하기 위해 Standard PayGo에는 사용량 등급 시스템이 통합되어 있습니다. Vertex AI는 30일 동안의 적격 Vertex AI 서비스 총 지출을 기반으로 조직의 기준 처리량 용량을 동적으로 조정합니다. 조직의 지출이 증가하면 공유 리소스에 대한 액세스 권한이 확대되고 실적 기준이 높아지는 상위 등급으로 자동 승격됩니다.

사용량 등급 및 처리량

각 Standard PayGo 사용량 등급은 조직의 트래픽에 대한 예측 가능한 성능 하한으로 사용되는 기준 처리량(분당 토큰 수(TPM)로 측정)을 제공하는 것을 목표로 합니다. 처리량 한도는 글로벌 엔드포인트로 전송된 요청을 기반으로 합니다. 전역 엔드포인트를 사용하면 처리량 용량의 더 큰 다중 리전 풀에 액세스할 수 있고 가용성이 가장 높은 위치로 요청을 라우팅하여 성능을 극대화할 수 있으므로 전역 엔드포인트를 사용하는 것이 좋습니다.

트래픽이 기준 처리량 한도로 엄격하게 제한되지 않습니다. Vertex AI를 사용하면 최선을 다해 이 한도를 초과하는 트래픽이 발생할 수 있습니다. 하지만 Vertex AI 플랫폼 전반에서 수요가 많은 기간에는 이 초과 버스트 트래픽의 성능 변동성이 더 클 수 있습니다. 성능을 최적화하고 이러한 오류가 발생할 가능성을 최소화하려면 매분 최대한 균등하게 트래픽을 분산하는 것이 좋습니다. 2단계 급증에서 요청을 보내지 않습니다. 평균 분당 사용량이 한도 미만이라도 트래픽이 높고 순간적이면 제한이 발생할 수 있습니다. API 호출을 더 균등하게 분산하면 시스템에서 부하를 예측 가능하게 관리하고 전반적인 성능을 개선할 수 있습니다.

Standard PayGo에서는 다음 등급을 사용할 수 있습니다.

모델 제품군 등급 고객 지출 (30일) 트래픽 TPM (조직 수준)
Gemini Pro 모델 등급 1 10~250달러 500,000
등급 2 $250~$2,000 1,000,000
등급 3 2,000달러 초과 2,000,000
Gemini Flash 및 Flash-Lite 모델 등급 1 10~250달러 2,000,000
등급 2 $250~$2,000 4,000,000
등급 3 2,000달러 초과 10,000,000

모델 계열에 표시된 처리량 한도는 해당 계열 내의 각 모델에 독립적으로 적용됩니다. 예를 들어 3단계 고객의 경우 Gemini 2.5 Flash의 기준 처리량이 10,000,000 TPM이고 Gemini 2.0 Flash의 별도 기준이 10,000,000 TPM입니다. 이러한 한도 중 하나에 대한 사용량은 다른 모델의 처리량에 영향을 미치지 않습니다. 각 등급에 대한 별도의 분당 요청 수 (RPM) 한도는 없습니다. 하지만 모델당 리전별 시스템 한도인 30,000RPM이 적용됩니다. 멀티모달 입력이 있는 Gemini 요청에는 이미지, 오디오, 동영상, 문서를 포함한 상응하는 시스템 비율 제한이 적용됩니다.

엔터프라이즈 사용 사례에 더 높은 처리량이 필요한 경우 계정팀에 문의하여 맞춤 등급에 대해 자세히 알아보세요.

사용량 등급 작동 방식

사용량 등급은 지난 30일 동안 적격한 Vertex AI 서비스에 대한 조직의 총 지출에 따라 자동으로 결정됩니다. 조직의 지출이 증가하면 시스템에서 처리량이 더 많은 상위 등급으로 승격합니다.

지출 계산

이 계산에는 모든 Gemini 모델 제품군의 예측부터 Vertex AI CPU, GPU, TPU 인스턴스, 프로비저닝된 처리량과 같은 약정 기반 SKU까지 다양한 서비스가 포함됩니다.

클릭하여 지출 계산에 포함된 SKU에 대해 자세히 알아보세요.

다음 표에는 총 지출 계산에 포함되는 Google Cloud SKU 카테고리가 나와 있습니다.

카테고리 포함된 SKU 설명
Gemini 모델 모든 Gemini 모델 제품군 (예: 2.0, 2.5, 3.0(Pro, Flash, Lite 버전)을 사용하여 배치, 긴 컨텍스트, 조정, '사고' 변형을 비롯한 모든 형식(텍스트, 이미지, 오디오, 동영상)에서 예측
Gemini 모델 기능 모든 모달리티와 모델 버전에서 캐싱, 캐싱 스토리지, 우선순위 등급과 같은 기능에 대한 모든 관련 Gemini SKU
Vertex AI CPU 모든 CPU 기반 인스턴스 패밀리 (예: C2, C3, E2, N1, N2 및 해당 변형)
Vertex AI GPU 모든 NVIDIA GPU 가속 인스턴스(예: A100, H100, H200, B200, L4, T4, V100, RTX 시리즈)
Vertex AI TPU 모든 TPU 기반 인스턴스 (예: TPU-v5e, v6e)
관리 및 수수료 다양한 Vertex AI 예측 인스턴스와 연결된 모든 '관리비' SKU
프로비저닝된 처리량 프로비저닝된 처리량의 모든 약정 기반 SKU
기타 서비스 'Google 검색 도구를 사용한 Gemini의 LLM 그라운딩'과 같은 전문 서비스

사용 등급 확인

조직의 사용량 등급을 확인하려면 Google Cloud 콘솔의 Vertex AI 대시보드로 이동합니다.

Vertex AI 대시보드로 이동

지출 확인

Vertex AI 지출을 검토하려면Google Cloud 콘솔에서 Cloud Billing으로 이동하세요. 지출은 조직 수준에서 집계됩니다.

Cloud Billing으로 이동

리소스 소진 (429) 오류

429 오류가 표시된다고 해서 고정 할당량에 도달한 것은 아닙니다. 특정 공유 리소스에 대한 일시적인 경합이 심함을 나타냅니다. 이 동적 환경의 가용성은 빠르게 변경될 수 있으므로 이러한 오류를 처리하기 위해 지수 백오프 재시도 전략을 구현하는 것이 좋습니다. 재시도 전략 외에도 전역 엔드포인트를 사용하는 것이 좋습니다. 리전 엔드포인트 (예: us-central1)와 달리 전역 엔드포인트는 해당 시점에 사용 가능한 용량이 가장 많은 리전으로 요청을 동적으로 라우팅합니다. 이를 통해 애플리케이션이 더 큰 다중 리전 공유 용량 풀에 액세스할 수 있으므로 버스팅 성공 가능성이 크게 높아지고 429 오류 발생 가능성이 줄어듭니다.

최상의 결과를 얻으려면 전역 엔드포인트 사용과 트래픽 스무딩을 결합하세요. 분당 평균 사용량이 기준 처리량 한도 내에 있더라도 높고 순간적인 트래픽은 제한으로 이어질 수 있으므로 급격한 초 단위 2단계 급증으로 요청을 보내지 마세요. API 호출을 더 균등하게 분산하면 시스템에서 부하를 예측 가능하게 관리하고 전반적인 성능을 개선할 수 있습니다. 리소스 소진 오류를 처리하는 방법에 관한 자세한 내용은 429 오류 처리 가이드오류 코드 429를 참고하세요.

지원되는 모델

다음 정식 버전 (GA) Gemini 모델과 해당 감독 기반 세부 조정 모델은 사용량에 따른 요금제의 표준 종량제를 지원합니다.

다음 GA Gemini 모델과 해당 감독 기반 세부 조정 모델도 표준 종량제를 지원하지만 이러한 모델에는 사용량 등급이 적용되지 않습니다.

이 등급은 미리보기 모델에는 적용되지 않습니다. 가장 정확하고 최신 정보는 각 모델의 공식 문서를 참고하세요.

처리량 및 성능 모니터링

조직의 실시간 토큰 소비를 모니터링하려면 Cloud Monitoring의 측정항목 탐색기로 이동하세요.

측정항목 탐색기로 이동

모델 엔드포인트 트래픽 모니터링에 대한 자세한 내용은 모델 모니터링을 참고하세요.

사용량 등급은 조직 수준에서 적용됩니다. 조직의 여러 프로젝트에서 처리량을 차트로 표시하도록 관측 가능성 범위를 설정하는 방법에 대한 자세한 내용은 다중 프로젝트 쿼리를 위한 관측 가능성 범위 구성을 참고하세요.

다음 단계