이 가이드에서는 Gemini Enterprise Agent Platform 추론과 함께 Flex-start VM을 사용할 때의 이점과 제한사항을 설명합니다. 또한 Flex-start VM을 사용하는 모델을 배포하는 방법도 설명합니다.
개요
동적 워크로드 스케줄러를 기반으로 하는 Flex-start VM을 사용하면 추론 작업 실행 비용을 줄일 수 있습니다. Flex-start VM은 상당한 할인을 제공하며 짧은 기간의 워크로드에 적합합니다.
Flex-start VM이 필요한 기간을 최대 7일까지 지정할 수 있습니다. 요청한 기간이 만료되면 배포된 모델이 자동으로 배포 취소됩니다. 기간이 만료되기 전에 모델을 수동으로 배포 취소할 수도 있습니다.
자동 배포 취소
특정 기간 동안 Flex-start VM을 요청하면 해당 기간이 지난 후 모델이 자동으로 배포 취소됩니다. 예를 들어 5시간 동안 Flex-start VM을 요청하면, 제출 후 5시간이 지났을 때 모델이 자동으로 배포 취소됩니다. 워크로드가 실행되는 시간만큼만 요금이 청구됩니다.
제한사항 및 요구사항
Flex-start VM을 사용할 때는 다음 제한사항 및 요구사항을 고려하세요.
- 최대 기간: Flex-start VM의 최대 사용 기간은 7일입니다. 더 긴 기간의 배포 요청은 거부됩니다.
- TPU 지원: TPU Pod에서 Flex-start VM을 사용하는 것은 지원되지 않습니다.
- Quota: 작업을 시작하기 전에 Agent Platform 선점형 할당량이 충분한지 확인합니다. 자세한 내용은 비율 할당량을 참조하세요.
- 대기열에 추가된 프로비저닝: 대기열에 추가된 프로비저닝과 함께 Flex-start VM을 사용하는 것은 지원되지 않습니다.
- 노드 재활용: 노드 재활용은 지원되지 않습니다.
결제
워크로드가 7일 미만으로 실행되는 경우 Flex-start VM을 사용하면 비용을 절감할 수 있습니다.
Flex-start VM을 사용하면 작업 기간 및 선택한 머신 유형에 따라 요금이 청구됩니다. 워크로드가 활발하게 실행되는 시간만큼만 요금이 청구됩니다. 작업이 대기열에 있는 시간 또는 요청한 기간이 만료된 후의 시간은 요금이 청구되지 않습니다.
청구는 두 SKU에 분산됩니다.
vertex-ai-online-prediction라벨이 있는 Compute Engine SKU. 동적 워크로드 스케줄러 가격 책정을 참조하세요.
Flex-start VM을 사용하여 추론 가져오기
모델을 배포하여 추론을 가져올 때 Flex-start VM을 사용하려면 REST API를 사용하면 됩니다.
요청 데이터를 사용하기 전에 다음을 바꿉니다.
- LOCATION_ID: Agent Platform을 사용하는 리전입니다.
- PROJECT_ID: [프로젝트 ID](/resource-manager/docs/creating-managing-projects#identifiers)입니다. .
- ENDPOINT_ID: 엔드포인트의 ID
- MODEL_ID: 배포할 모델의 ID
-
DEPLOYED_MODEL_NAME:
DeployedModel의 이름.DeployedModel의Model표시 이름도 사용할 수 있습니다. -
MACHINE_TYPE: 선택사항. 이 배포의 각 노드에 사용되는 머신 리소스. 기본 설정은
n1-standard-2입니다. 머신 유형에 대해 자세히 알아보세요. - ACCELERATOR_TYPE: 선택사항. 머신에 연결할 가속기의 유형입니다. 자세히 알아보기
- ACCELERATOR_COUNT: 선택사항. 사용할 각 복제본의 가속기 수입니다.
-
MAX_RUNTIME_DURATION: Flex-start 배포의 최대 기간입니다.
이 기간이 지나면 배포된 모델이 자동으로 배포 취소됩니다. 기간을 초 단위로 지정하고
s로 끝납니다. 예를 들어 1시간은3600s입니다. 최댓값은604800s(7일)입니다. - PROJECT_NUMBER: 프로젝트의 자동으로 생성된 프로젝트 번호
HTTP 메서드 및 URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel
JSON 요청 본문:
{
"deployedModel": {
"model": "projects/PROJECT/locations/LOCATION/models/MODEL_ID",
"displayName": "DEPLOYED_MODEL_NAME",
"enableContainerLogging": true,
"dedicatedResources": {
"machineSpec": {
"machineType": "MACHINE_TYPE",
"acceleratorType": "ACCELERATOR_TYPE",
"acceleratorCount": ACCELERATOR_COUNT
},
"flexStart": {
"maxRuntimeDuration": "MAX_RUNTIME_DURATION"
},
"minReplicaCount": 2,
"maxReplicaCount": 2
},
},
}
요청을 보내려면 다음 옵션 중 하나를 펼칩니다.
다음과 비슷한 JSON 응답이 표시됩니다.
{
"name": "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata",
"genericMetadata": {
"createTime": "2020-10-19T17:53:16.502088Z",
"updateTime": "2020-10-19T17:53:16.502088Z"
}
}
}