소비 옵션

Gemini Enterprise Agent Platform은 생성형 모델을 사용할 때 컴퓨팅 리소스를 가져오고 사용하는 여러 옵션을 제공합니다. 이러한 소비 옵션 은 초기 프로토타이핑부터 프로덕션 배포에 이르기까지 모든 워크로드의 요구사항을 충족하도록 설계되었습니다. 적절한 옵션을 선택하는 것은 성능, 안정성, 비용의 균형을 맞추는 데 매우 중요합니다.

이 가이드에서는 사용 가능한 소비 옵션을 자세히 설명하고, 이를 특정 워크로드 요구사항에 매핑하는 데 도움을 주며, 지연 시간, 가용성, 비용을 최적화하는 전략을 제공합니다.

소비 옵션

Gemini Enterprise Agent Platform은 다양한 트래픽 패턴과 비즈니스 요구사항에 맞게 조정된 5가지 소비 옵션을 제공합니다.

소비 옵션 설명 다음과 같은 경우에 적합 가격 책정
프로비저닝된 처리량 약정 기간 동안 보장된 처리량을 제공합니다. SLA가 필요한 중요하고 안정적인 상태의 항상 실행되는 워크로드 약정 기반 (1주, 1개월, 3개월, 1년 요금제로 제공)
PayGo 스탠더드 선불 약정 없이 유연한 종량제 옵션 변동 트래픽 수요에 유연성을 제공하는 일상적인 사용 사례를 위한 기본 옵션 토큰당 (표준 요금)
우선순위 종량제 유연성을 유지하면서 우선순위 처리를 통해 더 높은 안정성을 제공합니다. 표준 종량제보다 더 높은 안정성과 한도가 필요한 중요한 워크로드 토큰당 (할증 요금)
Flex 지연 시간에 민감하지 않은 워크로드를 위한 비용 효율적인 옵션 응답 시간이 느리고 스로틀링이 더 높을 수 있는 작업으로, 더 낮은 가격을 제공합니다. 토큰당 (할인율)
일괄 추론 대용량 비동기 처리에 비용 최적화 결과가 더 긴 기간 내에 필요한 대규모 작업 토큰당 (할인율)

가격 책정에 대한 자세한 내용은 가격 책정 페이지를 참조하세요.

워크로드에 적합한 옵션 선택

다음 섹션에서는 워크로드의 특정 요구사항과 특성을 기반으로 가장 적합한 소비 옵션을 선택하는 방법에 대한 안내를 제공합니다.

지연 시간에 민감한 워크로드

조직은 적절한 소비 모델을 선택할 때 안정성과 비용 간에 절충해야 하는 경우가 많습니다. 프로비저닝된 처리량은 가장 높은 안정성을 제공하지만 트래픽이 급증하는 경우 활용도가 낮을 수 있습니다. 마찬가지로 종량제는 최대한의 유연성을 제공할 수 있지만 서비스 품질을 보장할 수는 없습니다. 다음 섹션에서는 이러한 메커니즘을 최적으로 결합하여 최적의 결과를 얻는 방법을 설명합니다.

  1. 프로비저닝된 처리량으로 기준 트래픽을 처리합니다. 이렇게 하면 예약된 용량의 활용도가 향상되어 트래픽의 핵심에 보장된 안정성을 제공하면서 경제적으로 사용할 수 있습니다. 이렇게 하려면 다음 단계를 따르세요.
    • 분 또는 초 단위 트래픽 패턴을 분석합니다.
    • 프로비저닝된 처리량으로 처리할 트래픽 양을 결정합니다. 가장 높은 우선순위 트래픽을 처리해야 합니다.
  2. 표준 또는 우선순위 종량제로 오버플로 트래픽 관리: 기본적으로 프로비저닝된 처리량 기준을 초과하는 트래픽 (오버플로 트래픽이라고 함)은 표준 종량제로 처리됩니다. TPM 한도를 초과하는 요청의 성능 편차가 더 큰 경우 최적화를 통해 이를 완화할 수 있습니다. 우선순위 종량제를 사용하면 램프 한도에 따라 할증 요금으로 안정적인 성능을 달성할 수 있습니다.

비동기식 대용량 워크로드

요청 백로그가 많고 (예: 요약할 문서가 수백만 개 있는 경우) 즉각적인 지연 시간이 문제가 되지 않는 경우 요청을 JSON 파일 또는 스프레드시트로 구성하여 일괄 작업을 제출해야 합니다. 이는 이미지 라벨링, 대량 문서 처리 또는 과거 데이터에 대한 감정 분석과 같은 사용 사례에 유용합니다.

이 옵션은 대용량 추론을 위한 가장 비용 효율적인 옵션입니다.

지연 시간에 민감하지 않고 비용에 민감한 워크로드

애플리케이션이 응답을 기다릴 수 있지만 비용 절감이 우선인 요청 (예: 데이터 주석 또는 카탈로그 빌드)을 처리해야 하는 경우 Flex 종량제를 사용해야 합니다. Flex 종량제는 즉시 실행할 필요가 없는 요청에 대해 토큰당 가격을 낮춰 제공합니다. 이 옵션은 오프라인 분석, 데이터 주석, 제품 카탈로그 빌드 또는 번역과 같은 사용 사례에 유용합니다.

최적화 전략

가격 모델을 선택한 후에는 다음 전략을 사용하여 지연 시간, 가용성, 비용을 추가로 최적화하세요.

지연 시간

대화형 애플리케이션을 빌드할 때 지연 시간은 사용자 경험에서 중요한 역할을 합니다. 지연 시간 은 모델에서 입력 프롬프트를 처리하고 해당 출력 응답을 생성하는 데 걸리는 시간을 나타냅니다. 모델을 사용하여 지연 시간을 검사할 때는 다음 사항을 고려하세요.

  • 첫 번째 토큰까지의 시간 (TTFT): 모델에서 프롬프트를 수신한 후 응답의 첫 번째 토큰을 생성하는 데 걸리는 시간입니다. TTFT는 특히 즉각적인 피드백 제공이 중요한 스트리밍 애플리케이션과 관련이 있습니다.
  • _마지막 토큰까지의 시간 (TTLT)_: 모델에서 프롬프트를 처리하고 응답을 생성하는 데 걸리는 전체 시간입니다.

지연 시간을 최적화하려면 다음 단계를 따르세요.

  • 사용 사례에 적합한 모델 선택: Gemini Enterprise Agent Platform은 다양한 기능과 성능 특성을 갖춘 다양한 모델을 제공합니다. 속도와 출력 품질과 관련된 요구사항을 신중하게 평가하여 사용 사례에 가장 적합한 모델을 선택합니다. 사용 가능한 모델 목록은 Model Garden을 참조하세요.
  • 프롬프트 크기 줄이기: 불필요한 세부정보나 중복 없이 인텐트를 효과적으로 전달하는 명확하고 간결한 프롬프트를 작성합니다. 프롬프트가 짧을수록 첫 번째 토큰까지의 시간이 줄어듭니다.
  • 출력 토큰 제한:
    • 시스템 안내를 사용하여 응답 길이를 제어합니다. 간결한 답변을 제공하거나 출력을 특정 문장 또는 단락 수로 제한하도록 모델에 지시합니다. 이 전략은 마지막 토큰까지의 시간을 줄일 수 있습니다.
    • 한도를 설정하여 출력을 제한합니다. max_output_tokens 매개변수를 사용하여 생성된 응답 길이의 최대 길이 제한을 설정하여 지나치게 긴 출력을 방지합니다. 지연 시간은 생성된 토큰 수에 정비례합니다. 토큰을 적게 생성하면 응답이 빨라집니다. 하지만 문장 중간에서 응답이 끊어질 수 있으므로 주의해야 합니다.
  • 프로비저닝된 처리량 사용: 가장 일관된 성능을 얻으려면 프로비저닝된 처리량을 사용하세요. 이렇게 하면 트래픽이 많은 동안 종량제 모델에서 가끔 발생할 수 있는 '콜드 스타트' 또는 대기열로 인한 변동성이 제거됩니다.
  • 사고 예산 제한: 사고 모델를 지원하는 모델을 사용하는 경우 사고 예산을 줄여 지연 시간을 줄일 수 있습니다. 모델이 답변하기 전에 생성하는 내부 추론 토큰을 제한하면 전체 처리 시간이 줄어듭니다. 하지만 답변 품질이 저하되지 않도록 작업의 복잡성에 충분한 예산을 유지해야 합니다.
  • 응답에 스트리밍 사용: 스트리밍 은 인지된 반응성을 향상시키고 더욱 상호적인 사용자 경험을 만듭니다. 스트리밍을 사용하면 모델에서 전체 출력을 생성하기 전에 응답을 보내기 시작합니다. 이렇게 하면 출력을 실시간으로 처리할 수 있으며 개발자는 사용자 인터페이스를 즉시 업데이트하고 다른 동시 태스크를 수행할 수 있습니다.

가용성

가용성을 최적화하려면 다음 단계를 따르세요.

  • 재시도 로직 구현: 429 오류에 대해 지수 백오프를 구현합니다. 특히 표준 종량제를 사용하는 경우
  • 하이브리드 구현 사용: 이전 섹션에서 설명한 대로 중요한 프로덕션 앱에 종량제만 사용하지 마세요. 프로비저닝된 처리량과 종량제를 결합하면 리소스 소진 (429 오류)에 대한 가장 높은 보장을 제공할 수 있습니다.
  • 프로비저닝된 처리량 할당량 관리: TPM 소비를 정기적으로 모니터링하고 예상되는 트래픽 이벤트 (예: 제품 출시) 전에 PT GSU를 늘립니다. 알림 정책을 사용하여 모니터링을 자동화할 수 있습니다.
  • 전역 엔드포인트 사용: 전역 엔드포인트를 사용하여 Google의 전역 용량 풀을 활용하여 리전 용량 제약으로 인한 스로틀링을 최소화합니다.
  • 가능한 경우 트래픽을 원활하게 하여 급증을 줄입니다.: 종량제 트래픽 비율 (TPM)이 높을수록 스로틀링 비율이 높아지는 경향이 있습니다.
  • 트래픽을 비수기 시간으로 전환: 모델 사용량은 일반적으로 일중 패턴을 따릅니다. 워크로드를 비수기 시간 또는 주말로 시간 이동하면 가용성이 크게 개선될 수 있습니다.

비용

비용을 최적화하려면 다음 단계를 따르세요.

  • 프로비저닝된 처리량에 적절한 크기 조정 사용: 일반적으로 피크 시점에 PT를 프로비저닝할 필요가 없으므로 전체 PT 활용도가 줄어들고 총비용이 증가합니다. 위험 감수 수준에 따라 특정 백분위수의 트래픽을 목표로 하고 나머지 트래픽은 표준 종량제 및 우선순위 종량제로 처리합니다.
  • 장기 프로비저닝된 처리량 구매: 1년 PT는 1개월 PT에서 26% 할인된 가격으로 제공되므로 상당한 비용 절감 효과를 얻을 수 있습니다. 구매한 프로비저닝된 처리량 GSU는 언제든지 다양한 모델 간에 전환하여 최신 모델 기능을 활용할 수 있습니다.
  • Flex 종량제 사용: 지연 시간에 민감하지 않은 파이프라인의 일부 (예: 백그라운드 요약, 데이터 추출)를 식별하고 Flex로 이동하여 비용을 약 50% 절감합니다.
  • 일괄 처리 사용: 대규모 데이터 세트 처리와 같은 비동기 작업의 경우 일괄 처리가 표준 종량제를 사용하여 요청을 순차적으로 처리하는 것보다 훨씬 저렴합니다 (50%).
  • 컨텍스트 캐싱 사용: 컨텍스트 캐싱 은 반복된 콘텐츠가 포함된 요청의 비용과 지연 시간을 줄이는 데 도움이 됩니다. 프롬프트 시작 부분에 크고 공통적인 콘텐츠를 배치하고 짧은 시간 내에 유사한 프리픽스를 가진 요청을 전송하여 캐시 적중률을 높입니다.
  • 저렴한 모델 선택: 사용 사례에서 허용하는 경우 강력한 기능을 갖춘 모델보다 토큰당 가격이 낮은 Flash-Lite와 같은 소형 모델 중 하나를 사용합니다.