표준 종량제(표준 PayGo)는 Vertex AI의 생성형 AI 모델 제품군(Gemini 및 Vertex AI의 Imagen 포함)을 활용하기 위한 소비 옵션입니다. 표준 PayGo를 사용하면 선불 재정 약정 없이 소비하는 리소스에 대해서만 비용을 지불할 수 있습니다. 확장 가능한 워크로드에 더 예측 가능한 성능을 제공하기 위해 표준 PayGo에는 사용 등급 시스템이 통합되어 있습니다. Vertex AI는 지난 30일 동안의 적격 Vertex AI 서비스에 대한 총 지출을 기준으로 조직의 기준 처리량 용량을 동적으로 조정합니다. 조직의 지출이 증가하면 공유 리소스에 대한 액세스 권한과 더 높은 성능 기준값을 제공하는 더 높은 등급으로 자동으로 승격됩니다.
사용 등급 및 처리량
각 표준 PayGo 사용 등급은 조직 트래픽의 예측 가능한 성능 하한선 역할을 하는 분당 토큰 수 (TPM)로 측정되는 기준 처리량을 제공하는 것을 목표로 합니다. 처리량 한도는 전역 엔드포인트로 전송되는 요청을 기반으로 합니다. 전역 엔드포인트를 사용하면 더 큰 다중 리전 처리량 용량 풀에 액세스할 수 있고 요청을 가용성이 가장 높은 위치로 라우팅하여 성능을 극대화할 수 있으므로 전역 엔드포인트를 사용하는 것이 좋습니다.
트래픽은 기준 처리량 한도로 엄격하게 제한되지 않습니다. Vertex AI를 사용하면 최선을 다해 이 한도를 초과하는 트래픽 버스트가 발생할 수 있습니다. 하지만 Vertex AI 플랫폼 전반에서 수요가 많은 기간에는 이 초과 버스트 트래픽의 성능 변동성이 더 클 수 있습니다. 성능을 최적화하고 이러한 오류가 발생할 가능성을 최소화하려면 매분마다 트래픽을 최대한 균등하게 분산하는 것이 좋습니다. 급격한 초당 급증으로 요청을 보내지 마세요. 분당 평균 사용량이 한도 미만이라도 순간적으로 트래픽이 많으면 제한이 발생할 수 있습니다. API 호출을 더 균등하게 분산하면 시스템에서 부하를 예측 가능하게 관리하고 전반적인 성능을 개선하는 데 도움이 됩니다.
표준 PayGo에서 사용할 수 있는 등급은 다음과 같습니다.
| 모델 제품군 | 등급 | 고객 지출 (30일) | 트래픽 TPM (조직 수준) |
|---|---|---|---|
| Gemini Pro 모델 | 등급 1 | $10~$250 | 500,000 |
| 등급 2 | $250~$2,000 | 1,000,000 | |
| 등급 3 | $2,000 초과 | 2,000,000 | |
| Gemini Flash 및 Flash-Lite 모델 | 등급 1 | $10~$250 | 2,000,000 |
| 등급 2 | $250~$2,000 | 4,000,000 | |
| 등급 3 | $2,000 초과 | 10,000,000 |
모델 제품군에 표시된 처리량 한도는 해당 제품군 내의 각 모델에 독립적으로 적용됩니다. 예를 들어 등급 3의 고객은 Gemini 2.5 Flash의 기준 처리량이 10,000,000 TPM이고 Gemini 2.0 Flash의 별도 기준 처리량이 10,000,000 TPM입니다. 이러한 한도 중 하나에 대한 사용량은 다른 모델의 처리량에 영향을 미치지 않습니다. 각 등급에 대한 별도의 분당 요청 수 (RPM) 한도는 없습니다. 하지만 모델당 리전당 30,000 RPM의 시스템 한도가 적용됩니다. 멀티모달 입력이 있는 Gemini 요청에는 이미지, 오디오, 동영상, 및 문서를 포함한 상응하는 시스템 비율 제한이 적용됩니다.
엔터프라이즈 사용 사례에 더 높은 처리량이 필요한 경우 계정팀에 문의하여 맞춤 등급에 관한 자세한 내용을 알아보세요.
사용 등급 작동 방식
사용 등급은 지난 30일 동안의 적격 Vertex AI 서비스에 대한 조직의 총 지출에 따라 자동으로 결정됩니다. 조직의 지출이 증가하면 시스템에서 처리량이 더 높은 등급으로 승격됩니다.
지출 계산
이 계산에는 모든 Gemini 모델 제품군의 예측부터 Vertex AI CPU, GPU, TPU 인스턴스, 프로비저닝된 처리량과 같은 약정 기반 SKU까지 광범위한 서비스가 포함됩니다.
지출 계산에 포함된 SKU에 대해 자세히 알아보려면 클릭하세요.
다음 표에는 총 지출 계산에 포함되는 Google Cloud SKU 카테고리가 나와 있습니다.
| 카테고리 | 포함된 SKU 설명 |
|---|---|
| Gemini 모델 | 일괄, 긴 컨텍스트, 조정, '생각' 변형을 포함하여 모든 모달리티 (텍스트, 이미지, 오디오, 동영상)에서 예측을 위한 모든 Gemini 모델 제품군 (예: Pro, Flash, Lite 버전의 2.0, 2.5, 3.0) |
| Gemini 모델 기능 | 모든 모달리티 및 모델 버전에서 캐싱, 캐싱 스토리지, 우선순위 등급과 같은 기능을 위한 모든 관련 Gemini SKU |
| Vertex AI CPU | 모든 CPU 기반 인스턴스 제품군 (예: C2, C3, E2, N1, N2 및 변형)의 온라인 및 일괄 예측 |
| Vertex AI GPU | 모든 NVIDIA GPU 가속 인스턴스(예: A100, H100, H200, B200, L4, T4, V100, RTX 시리즈)의 온라인 및 일괄 예측 |
| Vertex AI TPU | 모든 TPU 기반 인스턴스 (예: TPU-v5e, v6e)의 온라인 및 일괄 예측 |
| 관리 및 수수료 | 다양한 Vertex AI 예측 인스턴스와 연결된 모든 '관리 수수료' SKU |
| 프로비저닝된 처리량 | 프로비저닝된 처리량의 모든 약정 기반 SKU |
| 기타 서비스 | 'Google 검색 도구가 포함된 Gemini용 LLM 기반'과 같은 전문 서비스 |
사용 등급 확인
조직의 사용 등급을 확인하려면 콘솔의 Vertex AI 대시보드로 이동하세요. Google Cloud
지출 확인
Vertex AI 지출을 검토하려면 Google Cloud 콘솔의 Cloud Billing으로 이동하세요. 지출은 조직 수준에서 집계됩니다.
리소스 소진 (429) 오류
429 오류가 발생해도 고정 할당량에 도달한 것은 아닙니다.
특정 공유 리소스에 대한 일시적인 높은 경합을 나타냅니다. 이 동적 환경의 가용성은 빠르게 변경될 수 있으므로 이러한 오류를 처리하기 위해 지수 백오프 재시도 전략을 구현하는 것이 좋습니다. 재시도 전략 외에도 전역 엔드포인트를 사용하는 것이 좋습니다. 리전 엔드포인트 (예: us-central1)와 달리 전역 엔드포인트는 요청을 해당 시점에 사용 가능한 용량이 가장 많은 리전으로 동적으로 라우팅합니다. 이렇게 하면 애플리케이션에서 더 큰 다중 리전 공유 용량 풀에 액세스할 수 있으므로 버스트 성공 가능성이 크게 높아지고 429 오류가 발생할 가능성이 줄어듭니다.
최상의 결과를 얻으려면 전역 엔드포인트 사용과 트래픽 평활화를 결합하세요. 분당 평균 사용량이 기준 처리량 한도 내에 있더라도 순간적으로 트래픽이 많으면 제한이 발생할 수 있으므로 급격한 초당 급증으로 요청을 보내지 마세요. API 호출을 더 균등하게 분산하면 시스템에서 부하를 예측 가능하게 관리하고 전반적인 성능을 개선하는 데 도움이 됩니다. 리소스 소진 오류를 처리하는 방법에 관한 자세한 내용은 Vertex AI에서 복원력 있는 LLM 애플리케이션 빌드 및 429 오류 줄이기 및 오류 코드 429를 참고하세요.
지원되는 모델
다음 정식 버전 (GA) Gemini 모델과 해당 감독 기반 세부 조정 모델은 사용 등급이 있는 표준 PayGo를 지원합니다.
다음 GA Gemini 모델과 해당 감독 기반 세부 조정 모델 도 표준 PayGo를 지원하지만 사용 등급은 이러한 모델에 적용되지 않습니다.
이러한 등급은 프리뷰 모델에는 적용되지 않습니다. 가장 정확하고 최신 정보는 각 모델의 공식 문서를 참고하세요.
처리량 및 성능 모니터링
조직의 실시간 토큰 소비량을 모니터링하려면 Cloud Monitoring의 측정항목 탐색기로 이동하세요.
모델 엔드포인트 트래픽 모니터링에 대한 자세한 내용은 모델 모니터링을 참고하세요.
사용 등급은 조직 수준에서 적용됩니다. 조직의 여러 프로젝트에서 처리량을 차트로 표시하도록 관측 가능성 범위를 설정하는 방법에 관한 자세한 내용은 다중 프로젝트 쿼리의 관측 가능성 범위 구성을 참고하세요.
다음 단계
Google Cloud 할당량
Google Cloud에서 Google Cloud 프로젝트에서 사용할 수 있는 리소스의 양을 제한하는 방법과 할당량이 하드웨어, 소프트웨어, 네트워크 구성요소를 비롯한 다양한 리소스 유형에 적용되는 방법을 알아보세요.