Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

추론과 함께 flex-start VM 사용

이 가이드에서는 Gemini Enterprise Agent Platform 추론과 함께 Flex-start VM을 사용할 때의 이점과 제한사항을 설명합니다. 또한 Flex-start VM을 사용하는 모델을 배포하는 방법도 설명합니다.

개요

동적 워크로드 스케줄러를 기반으로 하는 Flex-start VM을 사용하면 추론 작업 실행 비용을 줄일 수 있습니다. Flex-start VM은 상당한 할인을 제공하며 짧은 기간의 워크로드에 적합합니다.

Flex-start VM이 필요한 기간을 최대 7일까지 지정할 수 있습니다. 요청한 기간이 만료되면 배포된 모델이 자동으로 배포 취소됩니다. 기간이 만료되기 전에 모델을 수동으로 배포 취소할 수도 있습니다.

자동 배포 취소

특정 기간 동안 Flex-start VM을 요청하면 해당 기간이 지난 후 모델이 자동으로 배포 취소됩니다. 예를 들어 5시간 동안 Flex-start VM을 요청하면, 제출 후 5시간이 지났을 때 모델이 자동으로 배포 취소됩니다. 워크로드가 실행되는 시간만큼만 요금이 청구됩니다.

제한사항 및 요구사항

Flex-start VM을 사용할 때는 다음 제한사항 및 요구사항을 고려하세요.

최대 기간: Flex-start VM의 최대 사용 기간은 7일입니다. 더 긴 기간의 배포 요청은 거부됩니다.
TPU 지원: TPU Pod에서 Flex-start VM을 사용하는 것은 지원되지 않습니다.
Quota: 작업을 시작하기 전에 Agent Platform 선점형 할당량이 충분한지 확인합니다. 자세한 내용은 비율 할당량을 참조하세요.
대기열에 추가된 프로비저닝: 대기열에 추가된 프로비저닝과 함께 Flex-start VM을 사용하는 것은 지원되지 않습니다.
노드 재활용: 노드 재활용은 지원되지 않습니다.

결제

워크로드가 7일 미만으로 실행되는 경우 Flex-start VM을 사용하면 비용을 절감할 수 있습니다.

Flex-start VM을 사용하면 작업 기간 및 선택한 머신 유형에 따라 요금이 청구됩니다. 워크로드가 활발하게 실행되는 시간만큼만 요금이 청구됩니다. 작업이 대기열에 있는 시간 또는 요청한 기간이 만료된 후의 시간은 요금이 청구되지 않습니다.

청구는 두 SKU에 분산됩니다.

vertex-ai-online-prediction 라벨이 있는 Compute Engine SKU. 동적 워크로드 스케줄러 가격 책정을 참조하세요.
Agent Platform 관리 수수료 SKU. Agent Platform 가격 책정을 참조하세요. .

Flex-start VM을 사용하여 추론 가져오기

모델을 배포하여 추론을 가져올 때 Flex-start VM을 사용하려면 REST API를 사용하면 됩니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION_ID: Agent Platform을 사용하는 리전입니다.
PROJECT_ID: [프로젝트 ID](/resource-manager/docs/creating-managing-projects#identifiers)입니다. .
ENDPOINT_ID: 엔드포인트의 ID
MODEL_ID: 배포할 모델의 ID
DEPLOYED_MODEL_NAME: DeployedModel의 이름. DeployedModel의 Model 표시 이름도 사용할 수 있습니다.
MACHINE_TYPE: 선택사항. 이 배포의 각 노드에 사용되는 머신 리소스. 기본 설정은 n1-standard-2입니다. 머신 유형에 대해 자세히 알아보세요.
ACCELERATOR_TYPE: 선택사항. 머신에 연결할 가속기의 유형입니다. 자세히 알아보기
ACCELERATOR_COUNT: 선택사항. 사용할 각 복제본의 가속기 수입니다.
MAX_RUNTIME_DURATION: Flex-start 배포의 최대 기간입니다. 이 기간이 지나면 배포된 모델이 자동으로 배포 취소됩니다. 기간을 초 단위로 지정하고 s로 끝납니다. 예를 들어 1시간은 3600s입니다. 최댓값은 604800s(7일)입니다.
PROJECT_NUMBER: 프로젝트의 자동으로 생성된 프로젝트 번호

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel

JSON 요청 본문:

{
  "deployedModel": {
    "model": "projects/PROJECT/locations/LOCATION/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "enableContainerLogging": true,
    "dedicatedResources": {
      "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACCELERATOR_TYPE",
        "acceleratorCount": ACCELERATOR_COUNT
      },
      "flexStart": {
        "maxRuntimeDuration": "MAX_RUNTIME_DURATION"
      },
      "minReplicaCount": 2,
      "maxReplicaCount": 2
    },
  },
}

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

cURL(Linux, macOS, Cloud Shell)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel"

PowerShell(Windows)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-10-19T17:53:16.502088Z",
      "updateTime": "2020-10-19T17:53:16.502088Z"
    }
  }
}

추론과 함께 flex-start VM 사용 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

개요

자동 배포 취소

제한사항 및 요구사항

결제

Flex-start VM을 사용하여 추론 가져오기

cURL(Linux, macOS, Cloud Shell)

PowerShell(Windows)

다음 단계

추론과 함께 flex-start VM 사용