Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Vertex AI 소비 옵션

Vertex AI는 생성형 모델을 사용할 때 컴퓨팅 리소스를 획득하고 사용하는 여러 옵션을 제공합니다. 이러한 소비 옵션은 초기 프로토타입 제작부터 프로덕션 배포에 이르기까지 모든 워크로드의 요구사항을 충족하도록 설계되었습니다. 적절한 옵션을 선택하는 것은 성능, 안정성, 비용의 균형을 맞추는 데 매우 중요합니다.

이 가이드에서는 사용 가능한 소비 옵션을 자세히 설명하고, 특정 워크로드 요구사항에 매핑하는 데 도움을 주며, 지연 시간, 가용성, 비용을 최적화하는 전략을 제공합니다.

소비 옵션

Vertex AI는 다양한 트래픽 패턴과 비즈니스 요구사항에 맞게 조정된 5가지 소비 옵션을 제공합니다.

소비 옵션		설명	적합한 경우	가격 책정
프로비저닝된 처리량		약정 기간 동안 보장된 처리량을 제공합니다.	SLA가 필요한 중요하고 안정적인 상시 작동 워크로드	약정 기반 (1주일, 1개월, 3개월, 1년 요금제로 제공)
사용한 만큼만 지불	Standard	선불 약정 없이 유연하게 사용할 수 있는 종량제 옵션	가변 트래픽 수요에 유연하게 대응할 수 있는 일상적인 사용 사례를 위한 기본 옵션	토큰당 (표준 요금)
	우선순위	우선순위 처리를 통해 안정성을 높이면서 종량제 유연성 유지	표준 종량제보다 높은 안정성과 한도가 필요한 중요한 워크로드	토큰당 (할증 요금)
	Flex	지연 시간 허용 워크로드를 위한 비용 효율적인 옵션	응답 시간이 느리고 제한이 더 많이 적용되어도 되는 작업으로, 가격이 더 저렴합니다.	토큰당 (할인율)
일괄 추론		대량의 비동기 처리를 위해 비용 최적화	결과가 더 긴 기간 내에 필요한 대규모 작업	토큰당 (할인율)

가격 책정에 대한 자세한 내용은 가격 책정 페이지를 참고하세요.

워크로드에 적합한 옵션 선택

지연 시간에 민감한 워크로드

조직은 적절한 소비 모델을 선택할 때 안정성과 비용 간에 절충해야 하는 경우가 많습니다. 프로비저닝된 처리량은 안정성이 가장 높지만 트래픽이 급증하는 경우 활용도가 낮아질 수 있습니다. 마찬가지로 PayGo는 최대 유연성을 제공할 수 있지만 서비스 품질을 보장할 수는 없습니다. 다음 섹션에서는 이러한 메커니즘을 최적으로 결합하여 최적의 결과를 얻는 방법을 설명합니다.

프로비저닝된 처리량으로 기준 트래픽을 처리합니다. 이렇게 하면 예약된 용량의 활용도가 향상되어 경제적이면서도 트래픽의 핵심에 대한 안정성이 보장됩니다. 이를 위해 다음을 실행합니다.
- 분 또는 초 단위 트래픽 패턴을 분석합니다.
- 프로비저닝된 처리량으로 처리할 트래픽 양을 결정합니다. 가장 높은 우선순위의 트래픽을 포함해야 합니다.
Standard 또는 Priority PayGo로 오버플로 트래픽 관리: 기본적으로 프로비저닝된 처리량 기준 (오버플로 트래픽이라고 함)을 초과하는 트래픽은 Standard PayGo로 처리됩니다. TPM 한도를 초과하는 요청의 성능 변동이 큰 경우 최적화를 통해 이를 완화할 수 있습니다. 우선 PayGo를 사용하면 램프 한도에 따라 프리미엄 가격으로 안정적인 실적을 달성할 수 있습니다.

비동기 대량 워크로드

요청 백로그가 많고 (예: 요약할 문서가 수백만 개) 즉각적인 지연 시간이 문제가 되지 않는 경우 요청을 JSON 파일 또는 스프레드시트로 작성하여 일괄 작업을 제출해야 합니다. 이는 이미지 라벨링, 대량 문서 처리, 과거 데이터에 대한 감정 분석과 같은 사용 사례에 유용합니다.

이 옵션은 대량 추론에 가장 비용 효율적인 옵션입니다.

지연 시간 허용, 비용에 민감한 워크로드

애플리케이션이 응답을 기다릴 수 있지만 비용 절감이 우선인 요청 (예: 데이터 주석 또는 카탈로그 빌드)을 처리해야 하는 경우 Flex PayGo를 사용해야 합니다. Flex 종량제는 즉시 실행이 필요하지 않은 요청에 대해 토큰당 가격을 인하합니다. 이 옵션은 오프라인 분석, 데이터 주석, 제품 카탈로그 빌드 또는 번역과 같은 사용 사례에 유용합니다.

최적화 전략

소비 모델을 선택한 후 다음 전략을 사용하여 지연 시간, 가용성, 비용을 추가로 최적화하세요.

지연 시간

대화형 애플리케이션을 빌드할 때 지연 시간이 사용자 경험에서 중요한 역할을 합니다. 지연 시간은 모델에서 입력 프롬프트를 처리하고 해당 출력 응답을 생성하는 데 걸리는 시간을 나타냅니다. 모델을 사용하여 지연 시간을 검사할 때는 다음 사항을 고려하세요.

첫 번째 토큰까지의 시간 (TTFT): 모델이 프롬프트를 수신한 후 대답의 첫 번째 토큰을 생성하는 데 걸리는 시간입니다. TTFT는 특히 즉각적인 피드백 제공이 중요한 스트리밍을 활용하는 애플리케이션과 관련이 있습니다.
마지막 토큰까지의 시간 (TTLT): 모델에서 프롬프트를 처리하고 응답을 생성하는 데 걸리는 전체 시간입니다.

지연 시간을 기준으로 최적화하려면 다음 단계를 따르세요.

사용 사례에 적합한 모델 선택: Vertex AI는 다양한 기능과 성능 특성을 가진 여러 가지 모델을 제공합니다. 속도와 출력 품질과 관련된 요구사항을 신중하게 평가하여 사용 사례에 가장 적합한 모델을 선택합니다. 사용 가능한 모델 목록은 Model Garden을 참고하세요.
프롬프트 크기 줄이기: 불필요한 세부정보나 중복 없이 인텐트를 효과적으로 전달하는 명확하고 간결한 프롬프트를 작성합니다. 프롬프트가 짧을수록 첫 번째 토큰까지의 시간이 줄어듭니다.
출력 토큰 제한:
- 시스템 요청 사항을 사용하여 대답 길이를 제어합니다. 간결한 답변을 제공하거나 출력을 특정 문장 또는 단락 수로 제한하도록 모델에 지시합니다. 이 전략은 마지막 토큰까지의 시간을 줄일 수 있습니다.
- 한도를 설정하여 출력을 제한합니다. max_output_tokens 파라미터를 사용하여 생성된 응답 길이의 최대 길이 제한을 설정하여 지나치게 긴 출력을 방지합니다. 지연 시간은 생성된 토큰 수에 정비례합니다. 토큰을 적게 생성하면 응답이 빨라집니다. 하지만 문장 중간에서 응답이 끊어질 수 있으므로 주의해야 합니다.
프로비저닝된 처리량 사용: 가장 일관된 성능을 위해 프로비저닝된 처리량을 사용하세요. 이렇게 하면 트래픽이 많은 동안 PayGo 모델에서 가끔 발생할 수 있는 '콜드 스타트' 또는 대기열로 인한 변동성이 제거됩니다.
사고 예산 제한: 사고를 지원하는 모델을 사용하는 경우 사고 예산을 줄여 지연 시간을 줄일 수 있습니다. 대답하기 전에 모델이 생성하는 내부 추론 토큰을 제한하면 전체 처리 시간이 단축됩니다. 하지만 대답 품질이 저하되지 않도록 작업의 복잡성에 충분한 예산을 유지해야 합니다.
대답에 스트리밍 사용: 스트리밍은 인지된 반응성을 향상시키고 더욱 상호적인 사용자 경험을 만듭니다. 스트리밍을 사용하면 모델에서 전체 출력을 생성하기 전에 응답을 보내기 시작합니다. 이렇게 하면 출력을 실시간으로 처리할 수 있으며 개발자는 사용자 인터페이스를 즉시 업데이트하고 다른 동시 태스크를 수행할 수 있습니다.

가용성

가용성 위주로 최적화하려면 다음 단계를 따르세요.

재시도 로직 구현: 특히 표준 종량제를 사용하는 경우 429 오류에 지수 백오프를 구현합니다.
하이브리드 구현 사용: 이전 섹션에 자세히 설명된 대로 중요한 프로덕션 앱에 PayGo만 사용하지 마세요. 프로비저닝된 처리량과 종량제를 결합하면 리소스 소진 (429 오류)에 대한 보장이 가장 높습니다.
프로비저닝된 처리량 할당량 관리: TPM 소비를 정기적으로 모니터링하고 제품 출시와 같은 예상 트래픽 이벤트 전에 PT GSU를 늘립니다. 알림 정책을 사용하여 모니터링을 자동화할 수 있습니다.
전역 엔드포인트 사용: 전역 엔드포인트를 사용하여 Google의 글로벌 용량 풀을 활용하여 리전 용량 제약으로 인한 제한을 최소화합니다.
가능한 경우 트래픽을 원활하게 하여 급증을 줄이세요: 종량제 트래픽 비율 (TPM)이 높을수록 제한 비율이 높아지는 경향이 있습니다.
트래픽을 비성수기로 전환: 집계된 모델 사용량은 일반적으로 일주기 패턴을 따릅니다. 워크로드를 피크 시간 외 또는 주말로 이동하면 가용성을 크게 개선할 수 있습니다.

비용

비용에 맞게 최적화하려면 다음 단계를 따르세요.

프로비저닝된 처리량에 적절한 크기 사용: 일반적으로 피크 시점에 PT를 프로비저닝할 필요가 없으므로 전체 PT 사용률이 감소하고 총비용이 증가합니다. 위험 허용 범위에 따라 특정 백분위수의 트래픽을 목표로 하고 나머지 트래픽은 Standard 종량제 및 Priority 종량제에서 처리하도록 합니다.
장기 프로비저닝된 처리량 구매: 1년 PT는 1개월 PT보다 26% 할인된 가격으로 제공되므로 비용을 크게 절감할 수 있습니다. 언제든지 구매한 프로비저닝된 처리량 GSU를 다양한 모델 간에 전환하여 최신 모델 기능을 활용할 수 있습니다.
Flex PayGo 사용: 지연 시간에 민감하지 않은 파이프라인 부분 (예: 백그라운드 요약, 데이터 추출)을 식별하고 Flex로 이동하여 비용을 약 50% 절감합니다.
일괄 처리 사용: 대규모 데이터 세트 처리와 같은 비동기 작업의 경우 일괄 처리가 표준 종량제 요금을 사용하여 요청을 순차적으로 처리하는 것보다 훨씬 저렴합니다 (50%).
컨텍스트 캐싱 사용: 컨텍스트 캐싱은 반복된 콘텐츠가 포함된 요청의 비용과 지연 시간을 줄이는 데 도움이 됩니다. 프롬프트 시작 부분에 크고 공통적인 콘텐츠를 배치하고 짧은 시간 내에 유사한 프리픽스를 가진 요청을 전송하여 캐시 적중률을 높입니다.
가격이 저렴한 모델 선택: 사용 사례에서 허용하는 경우, 강력한 기능을 갖춘 모델보다 토큰당 가격이 낮은 Flash-Lite와 같은 소형 모델을 사용하세요.

Vertex AI 소비 옵션 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.