Gemini Enterprise Agent Platform은 생성형 모델을 사용할 때 컴퓨팅 리소스를 획득하고 사용하는 여러 옵션을 제공합니다. 이러한 소비 옵션은 초기 프로토타입 제작부터 프로덕션 배포에 이르기까지 모든 워크로드의 요구사항을 충족하도록 설계되었습니다. 성능, 안정성, 비용의 균형을 맞추려면 적절한 옵션을 선택해야 합니다.
이 가이드에서는 사용 가능한 소비 옵션을 자세히 설명하고, 특정 워크로드 요구사항에 매핑하는 데 도움을 주며, 지연 시간, 가용성, 비용을 최적화하는 전략을 제공합니다.
소비 옵션
Gemini Enterprise Agent Platform은 다양한 트래픽 패턴과 비즈니스 요구사항에 맞게 조정된 5가지 소비 옵션을 제공합니다.
| 소비 옵션 | 설명 | 다음에 적합 | 가격 책정 | |
|---|---|---|---|---|
| 프로비저닝된 처리량 | 약정 기간 동안 보장된 처리량을 제공합니다. | SLA가 필요한 중요하고 안정적인 상시 작동 워크로드 | 약정 기반 (1주일, 1개월, 3개월, 1년 요금제로 제공) | |
| 사용한 만큼만 지불 | Standard | 선불 약정 없이 유연하게 사용할 수 있는 종량제 옵션 | 가변 트래픽 수요에 유연하게 대응할 수 있는 일상적인 사용 사례를 위한 기본 옵션 | 토큰당 (표준 요금) |
| 우선순위 | 우선순위 처리를 통해 안정성을 높이면서 종량제 유연성 유지 | 표준 종량제보다 높은 안정성과 한도가 필요한 중요한 워크로드 | 토큰당 (할증 요금) | |
| Flex | 지연 시간 허용 워크로드를 위한 비용 효율적인 옵션 | 더 낮은 가격을 위해 응답 시간이 느리고 제한이 더 높은 작업을 허용할 수 있습니다. | 토큰당 (할인율) | |
| 일괄 추론 | 대량의 비동기 처리를 위해 비용 최적화 | 결과가 더 긴 시간 내에 필요한 대규모 작업 | 토큰당 (할인율) | |
가격에 대한 자세한 내용은 가격 책정 페이지를 참고하세요.
워크로드에 적합한 옵션 선택
다음 섹션에서는 워크로드의 구체적인 요구사항과 특성에 따라 가장 적합한 소비 옵션을 선택하는 방법을 안내합니다.
지연 시간에 민감한 워크로드
조직은 적절한 소비 모델을 선택할 때 안정성과 비용 간에 절충해야 하는 경우가 많습니다. 프로비저닝된 처리량은 안정성이 가장 높지만 트래픽이 급증하는 경우 활용도가 낮아질 수 있습니다. 마찬가지로 종량제는 최대한의 유연성을 제공할 수 있지만 서비스 품질을 보장할 수는 없습니다. 다음 섹션에서는 이러한 메커니즘을 최적으로 결합하여 최적의 결과를 얻는 방법을 설명합니다.
- 프로비저닝된 처리량으로 기준선 트래픽을 처리합니다. 이렇게 하면 예약된 용량의 활용도가 높아져 경제적이면서도 트래픽의 핵심에 대한 안정성이 보장됩니다. 이를 위해 다음을 실행합니다.
- 분 또는 초 수준의 트래픽 패턴을 분석합니다.
- 프로비저닝된 처리량으로 처리할 트래픽 양을 결정합니다. 가장 높은 우선순위의 트래픽을 포함해야 합니다.
- Standard 또는 Priority PayGo로 오버플로 트래픽 관리: 기본적으로 프로비저닝된 처리량 기준을 초과하는 트래픽 (오버플로 트래픽이라고 함)은 Standard PayGo로 처리됩니다. TPM 한도를 초과하는 요청의 성능 변동이 큰 경우 최적화를 통해 변동을 완화할 수 있습니다. Priority PayGo를 사용하면 램프 제한에 따라 프리미엄 가격으로 안정적인 성능을 달성할 수 있습니다.
비동기 대량 워크로드
요청 백로그가 많은 경우 (예: 요약할 문서가 수백만 개 있는 경우) 즉각적인 지연 시간이 문제가 되지 않는다면 요청을 JSON 파일이나 스프레드시트로 작성하여 일괄 작업을 제출해야 합니다. 이는 이미지 라벨 지정, 대량 문서 처리 또는 이전 데이터에 대한 감정 분석과 같은 사용 사례에 유용합니다.
이는 대량 추론에 가장 비용 효율적인 옵션입니다.
지연 시간 허용 범위가 있고 비용에 민감한 워크로드
애플리케이션이 응답을 기다릴 수 있지만 비용 절감이 우선인 요청을 처리해야 하는 경우 Flex PayGo를 사용해야 합니다. Flex PayGo는 즉시 실행이 필요하지 않은 요청에 대해 토큰당 가격을 인하합니다. 이 옵션은 오프라인 분석, 데이터 주석, 제품 카탈로그 구축, 번역과 같은 사용 사례에 유용합니다.
최적화 전략
가격 모델을 선택한 후에는 다음 전략을 사용하여 지연 시간, 가용성, 비용을 추가로 최적화하세요.
지연 시간
대화형 애플리케이션을 빌드할 때 지연 시간이 사용자 경험에서 중요한 역할을 합니다. 지연 시간은 모델에서 입력 프롬프트를 처리하고 해당 출력 응답을 생성하는 데 걸리는 시간을 나타냅니다. 모델을 사용하여 지연 시간을 검사할 때는 다음 사항을 고려하세요.
- 첫 번째 토큰까지의 시간 (TTFT): 모델이 프롬프트를 수신한 후 대답의 첫 번째 토큰을 생성하는 데 걸리는 시간입니다. TTFT는 특히 즉각적인 피드백 제공이 중요한 스트리밍 애플리케이션과 관련이 있습니다.
- 마지막 토큰까지의 시간 (TTLT): 모델에서 프롬프트를 처리하고 응답을 생성하는 데 걸리는 전체 시간입니다.
지연 시간을 기준으로 최적화하려면 다음 단계를 따르세요.
- 사용 사례에 적합한 모델 선택: Gemini Enterprise Agent Platform은 다양한 기능과 성능 특성을 갖춘 다양한 모델을 제공합니다. 속도와 출력 품질과 관련된 요구사항을 신중하게 평가하여 사용 사례에 가장 적합한 모델을 선택합니다. 사용 가능한 모델 목록은 Model Garden을 참고하세요.
- 프롬프트 크기 줄이기: 불필요한 세부정보나 중복 없이 인텐트를 효과적으로 전달하는 명확하고 간결한 프롬프트를 작성합니다. 프롬프트가 짧을수록 첫 번째 토큰까지의 시간이 줄어듭니다.
- 출력 토큰 제한:
- 시스템 요청 사항을 사용하여 대답 길이를 제어합니다. 간결한 답변을 제공하거나 출력을 특정 문장 또는 단락 수로 제한하도록 모델에 지시합니다. 이 전략은 마지막 토큰까지의 시간을 줄일 수 있습니다.
- 한도를 설정하여 출력을 제한합니다.
max_output_tokens파라미터를 사용하여 생성된 응답 길이의 최대 길이 제한을 설정하여 지나치게 긴 출력을 방지합니다. 지연 시간은 생성된 토큰 수에 정비례합니다. 토큰을 적게 생성하면 응답이 빨라집니다. 하지만 문장 중간에서 응답이 끊어질 수 있으므로 주의해야 합니다.
- 프로비저닝된 처리량 사용: 가장 일관된 성능을 위해 프로비저닝된 처리량을 사용하세요. 이렇게 하면 트래픽이 많은 동안 PayGo 모델에서 가끔 발생할 수 있는 '콜드 스타트' 또는 대기열로 인한 변동성이 제거됩니다.
- 사고 예산 제한: 사고를 지원하는 모델을 사용하는 경우 사고 예산을 줄여 지연 시간을 줄일 수 있습니다. 대답하기 전에 모델이 생성하는 내부 추론 토큰을 제한하면 전체 처리 시간이 단축됩니다. 하지만 대답 품질이 저하되지 않도록 작업의 복잡성에 충분한 예산을 유지해야 합니다.
- 대답에 스트리밍 사용: 스트리밍은 인지된 반응성을 향상시키고 더욱 상호적인 사용자 경험을 만듭니다. 스트리밍을 사용하면 모델에서 전체 출력을 생성하기 전에 응답을 보내기 시작합니다. 이렇게 하면 출력을 실시간으로 처리할 수 있으므로 개발자는 사용자 인터페이스를 즉시 업데이트하고 다른 동시 태스크를 수행할 수 있습니다.
가용성
가용성 위주로 최적화하려면 다음 단계를 따르세요.
- 재시도 로직 구현: 특히 표준 종량제를 사용하는 경우 429 오류에 대해 지수 백오프를 구현합니다.
- 하이브리드 구현 사용: 워크로드에 적합한 옵션 선택에 자세히 설명된 대로 중요한 프로덕션 앱에는 종량제만 사용하지 마세요. 프로비저닝된 처리량과 사용한 만큼만 지불을 결합하면 리소스 소진 (429 오류)에 대한 보장이 가장 높습니다.
- 프로비저닝된 처리량 할당량 관리: TPM 소비를 정기적으로 모니터링하고 예상되는 트래픽 이벤트 (예: 제품 출시) 전에 PT GSU를 늘립니다. 알림 정책을 사용하여 모니터링을 자동화할 수 있습니다.
- 전역 엔드포인트 사용: 전역 엔드포인트를 사용하여 Google의 글로벌 용량 풀을 활용하여 지역 용량 제약으로 인한 제한을 최소화합니다.
- 가능한 경우 트래픽을 원활하게 하여 급증을 줄이세요: 종량제 트래픽 비율 (TPM)이 높을수록 제한 비율이 높아지는 경향이 있습니다.
- 트래픽을 비성수기로 전환: 모델 사용량은 일반적으로 일일 패턴을 따릅니다. 워크로드를 비성수기 또는 주말로 전환하면 가용성을 크게 개선할 수 있습니다.
비용
비용에 맞게 최적화하려면 다음 단계를 따르세요.
- 프로비저닝된 처리량 적정 크기 조정: 일반적으로 최대 수요를 충족하기 위해 PT를 프로비저닝할 필요가 없습니다. 최대 수요에 맞게 프로비저닝하면 전체 사용률이 감소하고 비용이 증가합니다. 위험 허용 범위에 따라 트래픽의 특정 백분위수를 충족하고 나머지는 표준 종량제 및 우선 종량제에서 처리하도록 합니다.
- 장기 프로비저닝된 처리량 구매: 1년 PT 약정은 1개월 PT에 비해 26% 할인된 가격으로 제공되므로 상당한 비용 절감 효과를 누릴 수 있습니다. 구매한 프로비저닝된 처리량 GSU와 연결된 모델을 언제든지 변경하여 최신 모델 기능을 활용할 수 있습니다.
- Flex PayGo 사용: 지연 시간에 민감하지 않은 파이프라인의 부분을 식별하고 (예: 백그라운드 요약, 데이터 추출) Flex PayGo로 이동하여 비용을 약 50% 절감합니다.
- 일괄 처리 사용: 대규모 데이터 세트 처리와 같은 비동기 작업의 경우 일괄 처리가 표준 종량제 요금을 사용하여 요청을 순차적으로 처리하는 것보다 훨씬 저렴합니다 (50%).
- 컨텍스트 캐싱 사용: 컨텍스트 캐싱은 반복된 콘텐츠가 포함된 요청의 비용과 지연 시간을 줄이는 데 도움이 됩니다. 프롬프트 시작 부분에 크고 공통적인 콘텐츠를 배치하고 짧은 시간 내에 유사한 프리픽스를 가진 요청을 전송하여 캐시 적중률을 높입니다.
- 저렴한 모델 선택: 사용 사례에서 허용하는 경우, 강력한 기능을 갖춘 모델보다 토큰당 가격이 낮은 소형 모델(예: Flash-Lite)을 사용하세요.