단일 영역 프로비저닝된 처리량

단일 영역 프로비저닝된 처리량을 사용하면 영역 하나만 사용할 수 있는 특정 리전에서 처리량을 예약할 수 있습니다. 이 옵션은 ML 처리가 필요한 사용 사례에서 Gemini 모델의 예측 가능한 성능을 제공합니다.

지원되는 모델과 리전의 목록을 보려면 배포 및 엔드포인트를 참조하세요. ML 처리를 지원하는 리전과 모델의 목록은 ML 처리를 참조하세요.

단일 영역 프로비저닝된 처리량 기능

이 섹션에서는 단일 영역 프로비저닝된 처리량의 주요 기능을 간략하게 설명합니다.

  • 가격 및 단위가 표준 프로비저닝된 처리량과 일치: 단일 영역 프로비저닝된 처리량은 표준 프로비저닝된 처리량과 동일한 처리량(GSU) 측정, 가격 책정, 약관을 사용합니다.

  • 단일 영역 프로비저닝된 처리량에서 리전 내 ML 처리 지원: 구매한 처리량을 초과하는 트래픽을 포함한 모든 요청이 구매한 리전에서 처리됩니다. 이 트래픽은 리전의 버퍼 용량을 사용하여 사용한 만큼만 지불 요금으로 청구됩니다.

  • 초과량 제어: 표준 프로비저닝된 처리량과 동일한 헤더를 사용하여 오버플로 트래픽을 제어할 수 있습니다.

  • 주문 모니터링 가능: 기존 프로비저닝된 처리량 모니터링 기능을 사용하여 단일 영역 프로비저닝된 처리량 주문을 모니터링할 수 있습니다.

제한사항

단일 영역 프로비저닝된 처리량에는 다음과 같은 제한사항이 적용됩니다.

  • 단일 영역 프로비저닝된 처리량은 대상 서비스가 아니며 Vertex AI의 Gemini 온라인 추론 서비스수준계약에서 제외됩니다.

  • 단일 영역 프로비저닝된 처리량은 일괄 요청 또는 미세 조정과 통합되지 않으며 이를 지원하지도 않습니다.

  • ML 처리가 없는 리전에서는 단일 영역 프로비저닝된 처리량의 지연 시간이 표준 프로비저닝된 처리량이나 사용한 만큼만 지불보다 높을 수 있습니다.

단일 영역 프로비저닝된 처리량 구매

단일 영역 프로비저닝된 처리량 구매에 대한 도움을 요청하려면 Google Cloud 계정 담당자에게 문의하세요.

다음 단계