추론과 함께 flex-start VM 사용

이 가이드에서는 Gemini Enterprise Agent Platform 추론과 함께 Flex-start VM을 사용할 때의 이점과 제한사항을 설명합니다. 또한 Flex-start VM을 사용하는 모델을 배포하는 방법도 설명합니다.

개요

동적 워크로드 스케줄러를 기반으로 하는 Flex-start VM을 사용하면 추론 작업 실행 비용을 줄일 수 있습니다. Flex-start VM은 상당한 할인을 제공하며 짧은 기간의 워크로드에 적합합니다.

Flex-start VM이 필요한 기간을 최대 7일까지 지정할 수 있습니다. 요청한 기간이 만료되면 배포된 모델이 자동으로 배포 취소됩니다. 기간이 만료되기 전에 모델을 수동으로 배포 취소할 수도 있습니다.

자동 배포 취소

특정 기간 동안 Flex-start VM을 요청하면 해당 기간이 지난 후 모델이 자동으로 배포 취소됩니다. 예를 들어 5시간 동안 Flex-start VM을 요청하면, 제출 후 5시간이 지났을 때 모델이 자동으로 배포 취소됩니다. 워크로드가 실행되는 시간만큼만 요금이 청구됩니다.

제한사항 및 요구사항

Flex-start VM을 사용할 때는 다음 제한사항 및 요구사항을 고려하세요.

  • 최대 기간: Flex-start VM의 최대 사용 기간은 7일입니다. 더 긴 기간의 배포 요청은 거부됩니다.
  • TPU 지원: TPU Pod에서 Flex-start VM을 사용하는 것은 지원되지 않습니다.
  • Quota: 작업을 시작하기 전에 Agent Platform 선점형 할당량이 충분한지 확인합니다. 자세한 내용은 비율 할당량을 참조하세요.
  • 대기열에 추가된 프로비저닝: 대기열에 추가된 프로비저닝과 함께 Flex-start VM을 사용하는 것은 지원되지 않습니다.
  • 노드 재활용: 노드 재활용은 지원되지 않습니다.

결제

워크로드가 7일 미만으로 실행되는 경우 Flex-start VM을 사용하면 비용을 절감할 수 있습니다.

Flex-start VM을 사용하면 작업 기간 및 선택한 머신 유형에 따라 요금이 청구됩니다. 워크로드가 활발하게 실행되는 시간만큼만 요금이 청구됩니다. 작업이 대기열에 있는 시간 또는 요청한 기간이 만료된 후의 시간은 요금이 청구되지 않습니다.

청구는 두 SKU에 분산됩니다.

Flex-start VM을 사용하여 추론 가져오기

모델을 배포하여 추론을 가져올 때 Flex-start VM을 사용하려면 REST API를 사용하면 됩니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

  • LOCATION_ID: Agent Platform을 사용하는 리전입니다.
  • PROJECT_ID: [프로젝트 ID](/resource-manager/docs/creating-managing-projects#identifiers)입니다. .
  • ENDPOINT_ID: 엔드포인트의 ID
  • MODEL_ID: 배포할 모델의 ID
  • DEPLOYED_MODEL_NAME: DeployedModel의 이름. DeployedModelModel 표시 이름도 사용할 수 있습니다.
  • MACHINE_TYPE: 선택사항. 이 배포의 각 노드에 사용되는 머신 리소스. 기본 설정은 n1-standard-2입니다. 머신 유형에 대해 자세히 알아보세요.
  • ACCELERATOR_TYPE: 선택사항. 머신에 연결할 가속기의 유형입니다. 자세히 알아보기
  • ACCELERATOR_COUNT: 선택사항. 사용할 각 복제본의 가속기 수입니다.
  • MAX_RUNTIME_DURATION: Flex-start 배포의 최대 기간입니다. 이 기간이 지나면 배포된 모델이 자동으로 배포 취소됩니다. 기간을 초 단위로 지정하고 s로 끝납니다. 예를 들어 1시간은 3600s입니다. 최댓값은 604800s(7일)입니다.
  • PROJECT_NUMBER: 프로젝트의 자동으로 생성된 프로젝트 번호

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel

JSON 요청 본문:

{
  "deployedModel": {
    "model": "projects/PROJECT/locations/LOCATION/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "enableContainerLogging": true,
    "dedicatedResources": {
      "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACCELERATOR_TYPE",
        "acceleratorCount": ACCELERATOR_COUNT
      },
      "flexStart": {
        "maxRuntimeDuration": "MAX_RUNTIME_DURATION"
      },
      "minReplicaCount": 2,
      "maxReplicaCount": 2
    },
  },
}

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-10-19T17:53:16.502088Z",
      "updateTime": "2020-10-19T17:53:16.502088Z"
    }
  }
}

다음 단계