단일 영역 프로비저닝된 처리량을 사용하면 영역 하나만 사용할 수 있는 특정 리전에서 처리량을 예약할 수 있습니다. 이 옵션은 ML 처리가 필요한 사용 사례에서 Gemini 모델의 예측 가능한 성능을 제공합니다.
지원되는 모델과 리전의 목록을 보려면 배포 및 엔드포인트를 참조하세요. ML 처리를 지원하는 리전과 모델의 목록은 ML 처리를 참조하세요.
단일 영역 프로비저닝된 처리량 기능
이 섹션에서는 단일 영역 프로비저닝된 처리량의 주요 기능을 간략하게 설명합니다.
가격 및 단위가 표준 프로비저닝된 처리량과 일치: 단일 영역 프로비저닝된 처리량은 표준 프로비저닝된 처리량과 동일한 처리량(GSU) 측정, 가격 책정, 약관을 사용합니다.
단일 영역 프로비저닝된 처리량에서 리전 내 ML 처리 지원: 구매한 처리량을 초과하는 트래픽을 포함한 모든 요청이 구매한 리전에서 처리됩니다. 이 트래픽은 리전의 버퍼 용량을 사용하여 사용한 만큼만 지불 요금으로 청구됩니다.
초과량 제어: 표준 프로비저닝된 처리량과 동일한 헤더를 사용하여 오버플로 트래픽을 제어할 수 있습니다.
주문 모니터링 가능: 기존 프로비저닝된 처리량 모니터링 기능을 사용하여 단일 영역 프로비저닝된 처리량 주문을 모니터링할 수 있습니다.
제한사항
단일 영역 프로비저닝된 처리량에는 다음과 같은 제한사항이 적용됩니다.
단일 영역 프로비저닝된 처리량은 대상 서비스가 아니며 Vertex AI의 Gemini 온라인 추론 서비스수준계약에서 제외됩니다.
ML 처리가 없는 리전에서는 단일 영역 프로비저닝된 처리량의 지연 시간이 표준 프로비저닝된 처리량이나 사용한 만큼만 지불보다 높을 수 있습니다.
단일 영역 프로비저닝된 처리량 구매
단일 영역 프로비저닝된 처리량 구매에 대한 도움을 요청하려면 Google Cloud 계정 담당자에게 문의하세요.