추론용 컴퓨팅 리소스 구성

Vertex AI는 노드를 할당하여 온라인 및 일괄 추론을 처리합니다. 온라인 추론을 제공하기 위해 Endpoint 리소스에 커스텀 학습 모델 또는 AutoML 모델을 배포하거나 일괄 추론을 요청할 때 추론 서비스가 이러한 노드에 사용하는 가상 머신 유형을 맞춤설정할 수 있습니다. 원하는 경우 GPU를 사용하도록 추론 노드를 구성할 수 있습니다.

머신 유형 간에는 다음과 같은 차이점이 있습니다.

노드당 가상 CPU 수(vCPU)
노드당 메모리 양
가격 책정

컴퓨팅 리소스가 더 많은 머신 유형을 선택하면 더 짧은 지연 시간으로 추론을 수행하거나 동시에 더 많은 추론 요청을 처리할 수 있습니다.

비용 및 가용성 관리

비용 관리나 VM 리소스 가용성 보장에 도움이 되도록 Vertex AI는 다음을 제공합니다.

필요한 컴퓨팅 리소스에 대해서만 비용을 지불하려면 Vertex AI Inference 자동 확장을 사용하면 됩니다. 자세한 내용은 Vertex AI Inference을 위한 추론 노드 확장을 참고하세요.
추론 작업에 VM 리소스가 필요할 때 VM 리소스를 사용할 수 있도록 보장하려면 Compute Engine 예약을 사용하면 됩니다. 예약을 사용하면 높은 확신으로 Compute Engine 리소스 용량을 확보할 수 있습니다. 자세한 내용은 추론과 함께 예약 사용을 참고하세요.
추론 작업 실행 비용을 줄이려면 스팟 VM을 사용하면 됩니다. 스팟 VM은 Compute Engine 용량을 초과하는 가상 머신(VM) 인스턴스입니다. 스팟 VM에는 상당한 할인이 적용되지만 Compute Engine은 언제든지 용량을 회수하기 위해 스팟 VM을 사전에 중지하거나 삭제할 수 있습니다. 자세한 내용은 추론과 함께 스팟 VM 사용을 참고하세요.

컴퓨팅 리소스 지정 위치

온라인 추론

커스텀 학습 모델 또는 AutoML 테이블 형식 모델을 사용하여 온라인 추론을 제공하려면 Model 리소스를 DeployedModel로 Endpoint에 배포할 때 머신 유형을 지정해야 합니다. 다른 유형의 AutoML 모델의 경우 Vertex AI가 머신 유형을 자동으로 구성합니다.

DeployedModel의 dedicatedResources.machineSpec 필드에 머신 유형(원하는 경우 GPU 구성)을 지정합니다.

각 모델 유형을 배포하는 방법을 알아봅니다.

일괄 추론

커스텀 학습 모델 또는 AutoML 테이블 형식 모델에서 일괄 추론을 수행하려면 BatchPredictionJob 리소스를 만들 때 머신 유형을 지정해야 합니다. BatchPredictionJob의 dedicatedResources.machineSpec 필드에 머신 유형(원하는 경우 GPU 구성)을 지정합니다.

머신 유형

다음 표에서는 커스텀 학습 모델과 AutoML 테이블 형식 모델에서 추론을 제공하는 데 사용 가능한 머신 유형을 비교합니다.

머신 유형: CPU

E2 시리즈

이름	vCPUs	메모리(GB)
`e2-standard-2`	2	8
`e2-standard-4`	4	16
`e2-standard-8`	8	32
`e2-standard-16`	16	64
`e2-standard-32`	32	128
`e2-highmem-2`	2	16
`e2-highmem-4`	4	32
`e2-highmem-8`	8	64
`e2-highmem-16`	16	128
`e2-highcpu-2`	2	2
`e2-highcpu-4`	4	4
`e2-highcpu-8`	8	8
`e2-highcpu-16`	16	16
`e2-highcpu-32`	32	32

N1 시리즈

이름	vCPUs	메모리(GB)
`n1-standard-2`	2	7.5
`n1-standard-4`	4	15
`n1-standard-8`	8	30
`n1-standard-16`	16	60
`n1-standard-32`	32	120
`n1-highmem-2`	2	13
`n1-highmem-4`	4	26
`n1-highmem-8`	8	52
`n1-highmem-16`	16	104
`n1-highmem-32`	32	208
`n1-highcpu-4`	4	3.6
`n1-highcpu-8`	8	7.2
`n1-highcpu-16`	16	14.4
`n1-highcpu-32`	32	28.8

N2 시리즈

이름	vCPUs	메모리(GB)
`n2-standard-2`	2	8
`n2-standard-4`	4	16
`n2-standard-8`	8	32
`n2-standard-16`	16	64
`n2-standard-32`	32	128
`n2-standard-48`	48	192
`n2-standard-64`	64	256
`n2-standard-80`	80	320
`n2-standard-96`	96	384
`n2-standard-128`	128	512
`n2-highmem-2`	2	16
`n2-highmem-4`	4	32
`n2-highmem-8`	8	64
`n2-highmem-16`	16	128
`n2-highmem-32`	32	256
`n2-highmem-48`	48	384
`n2-highmem-64`	64	512
`n2-highmem-80`	80	640
`n2-highmem-96`	96	768
`n2-highmem-128`	128	864
`n2-highcpu-2`	2	2
`n2-highcpu-4`	4	4
`n2-highcpu-8`	8	8
`n2-highcpu-16`	16	16
`n2-highcpu-32`	32	32
`n2-highcpu-48`	48	48
`n2-highcpu-64`	64	64
`n2-highcpu-80`	80	80
`n2-highcpu-96`	96	96

N2D 시리즈

이름	vCPUs	메모리(GB)
`n2d-standard-2`	2	8
`n2d-standard-4`	4	16
`n2d-standard-8`	8	32
`n2d-standard-16`	16	64
`n2d-standard-32`	32	128
`n2d-standard-48`	48	192
`n2d-standard-64`	64	256
`n2d-standard-80`	80	320
`n2d-standard-96`	96	384
`n2d-standard-128`	128	512
`n2d-standard-224`	224	896
`n2d-highmem-2`	2	16
`n2d-highmem-4`	4	32
`n2d-highmem-8`	8	64
`n2d-highmem-16`	16	128
`n2d-highmem-32`	32	256
`n2d-highmem-48`	48	384
`n2d-highmem-64`	64	512
`n2d-highmem-80`	80	640
`n2d-highmem-96`	96	768
`n2d-highcpu-2`	2	2
`n2d-highcpu-4`	4	4
`n2d-highcpu-8`	8	8
`n2d-highcpu-16`	16	16
`n2d-highcpu-32`	32	32
`n2d-highcpu-48`	48	48
`n2d-highcpu-64`	64	64
`n2d-highcpu-80`	80	80
`n2d-highcpu-96`	96	96
`n2d-highcpu-128`	128	128
`n2d-highcpu-224`	224	224

C2 시리즈

이름	vCPUs	메모리(GB)
`c2-standard-4`	4	16
`c2-standard-8`	8	32
`c2-standard-16`	16	64
`c2-standard-30`	30	120
`c2-standard-60`	60	240

C2D 시리즈

이름	vCPUs	메모리(GB)
`c2d-standard-2`	2	8
`c2d-standard-4`	4	16
`c2d-standard-8`	8	32
`c2d-standard-16`	16	64
`c2d-standard-32`	32	128
`c2d-standard-56`	56	224
`c2d-standard-112`	112	448
`c2d-highcpu-2`	2	4
`c2d-highcpu-4`	4	8
`c2d-highcpu-8`	8	16
`c2d-highcpu-16`	16	32
`c2d-highcpu-32`	32	64
`c2d-highcpu-56`	56	112
`c2d-highcpu-112`	112	224
`c2d-highmem-2`	2	16
`c2d-highmem-4`	4	32
`c2d-highmem-8`	8	64
`c2d-highmem-16`	16	128
`c2d-highmem-32`	32	256
`c2d-highmem-56`	56	448
`c2d-highmem-112`	112	896

C3 시리즈

이름	vCPUs	메모리(GB)
`c3-highcpu-4`	4	8
`c3-highcpu-8`	8	16
`c3-highcpu-22`	22	44
`c3-highcpu-44`	44	88
`c3-highcpu-88`	88	176
`c3-highcpu-176`	176	352

머신 유형: GPU

A2 시리즈

이름	vCPUs	메모리(GB)	GPU(NVIDIA A100)
`a2-highgpu-1g`	12	85	1(A100 40GB)
`a2-highgpu-2g`	24	170	2(A100 40GB)
`a2-highgpu-4g`	48	340	4(A100 40GB)
`a2-highgpu-8g`	96	680	8(A100 40GB)
`a2-megagpu-16g`	96	1360	16(A100 40GB)
`a2-ultragpu-1g`	12	170	1(A100 80GB)
`a2-ultragpu-2g`	24	340	2(A100 80GB)
`a2-ultragpu-4g`	48	680	4(A100 80GB)
`a2-ultragpu-8g`	96	1360	8(A100 80GB)

A3 시리즈

이름	vCPUs	메모리(GB)	GPU(NVIDIA H100 또는 H200)
`a3-highgpu-1g`	26	234	1(H100 80GB)
`a3-highgpu-2g`	52	468	2(H100 80GB)
`a3-highgpu-4g`	104	936	4(H100 80GB)
`a3-highgpu-8g`	208	1872	8(H100 80GB)
`a3-edgegpu-8g`	208	1872	8(H100 80GB)
`a3-ultragpu-8g`	224	2952	8(H200 141GB)

A4 시리즈

이름	vCPUs	메모리(GB)	GPU(NVIDIA B200)
`a4-highgpu-8g`	224	3,968	8

A4X 시리즈

이름	vCPUs	메모리(GB)	GPU(NVIDIA GB200)
`a4x-highgpu-4g`	140	884	4

G2 시리즈

이름	vCPUs	메모리(GB)	GPU(NVIDIA L4)
`g2-standard-4`	4	16	1
`g2-standard-8`	8	32	1
`g2-standard-12`	12	48	1
`g2-standard-16`	16	64	1
`g2-standard-24`	24	96	2
`g2-standard-32`	32	128	1
`g2-standard-48`	48	192	4
`g2-standard-96`	96	384	8

G4 시리즈

이름	vCPUs	메모리(GB)	GPU(NVIDIA RTX PRO 6000)
`g4-standard-48`	48	180	1
`g4-standard-96`	96	360	2
`g4-standard-192`	192	720	4
`g4-standard-384`	384	1440	8

각 머신 유형의 가격 책정에 대해 알아보세요. 이러한 머신 유형의 세부 사양은 머신 유형에 대한 Compute Engine 문서를 참고하세요.

적합한 머신 유형 찾기

온라인 추론

사용 사례에 적합한 머신 유형을 찾으려면 모델을 여러 머신 유형에 로드하고 지연 시간, 비용, 동시 실행, 처리량과 같은 특성을 측정하는 것이 좋습니다.

이를 위한 한 가지 방법은 여러 머신 유형에서 이 노트북을 실행하고 결과를 비교하여 가장 적합한 머신 유형을 찾는 것입니다.

Vertex AI는 시스템 프로세스를 실행하기 위해 각 복제본에서 약 1개의 vCPU를 예약합니다. 즉, 단일 코어 머신 유형에서 노트북 실행은 추론을 제공하기 위한 2코어 머신 유형 사용과 비슷합니다.

추론 비용을 고려할 때 머신이 클수록 비용이 많이 들지만 동일한 워크로드를 처리하는 데 필요한 복제본이 적기 때문에 전반적인 비용이 절감될 수 있습니다. GPU의 경우 특히 두드러지는데 시간당 비용은 높지만 둘 다 낮은 대기 시간을 제공하므로 전체적으로 비용이 적게 듭니다.

일괄 추론

자세한 내용은 머신 유형 및 복제본 수 선택을 참고하세요.

선택적 GPU 가속기

A2 시리즈 및 G2 시리즈 같은 일부 구성에는 고정된 수의 기본 제공 GPU가 있습니다.

A4X(a4x-highgpu-4g) 시리즈에는 최소 복제본 수가 18개 필요합니다. 이 머신은 랙당 구매하며 VM이 최소 18개 있습니다.

N1 시리즈와 같은 다른 구성에서는 선택적으로 GPU를 추가하여 각 추론 노드를 가속화할 수 있습니다.

선택적 GPU 가속기를 추가하려면 다음과 같은 몇 가지 요구사항을 고려해야 합니다.

Model 리소스가 TensorFlow SavedModel에 기반을 둔 경우 또는 GPU를 활용하도록 설계된 커스텀 컨테이너를 사용하는 경우에만 GPU를 사용할 수 있습니다. scikit-learn 또는 XGBoost 모델에는 GPU를 사용할 수 없습니다.
각 GPU 유형의 가용성은 모델에 사용하는 리전에 따라 다릅니다. 리전에서 사용할 수 있는 GPU 유형을 알아보세요.
DeployedModel 리소스 또는 BatchPredictionJob에 한 가지 유형의 GPU만 사용할 수 있으며 사용 중인 머신 유형에 따라 추가할 수 있는 GPU 수에 제한이 있습니다. 다음 표에서는 이러한 제한사항을 설명합니다.

다음 표에서는 온라인 추론에 사용 가능한 선택적 GPU와 각 Compute Engine 머신 유형에 사용할 수 있는 각 GPU 유형의 수를 보여줍니다.

각 머신 유형에 유효한 GPU 수
머신 유형	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA Tesla P4	NVIDIA Tesla T4
`n1-standard-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-32`	2, 4	4, 8	2, 4	2, 4
`n1-highmem-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-32`	2, 4	4, 8	2, 4	2, 4
`n1-highcpu-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-32`	2, 4	4, 8	2, 4	2, 4

선택적 GPU을 사용하면 추가 비용이 발생합니다.

단일 VM에 여러 복제본 공동 예약

배포 비용을 최적화하려면 NVIDIA H100 GPU가 8개 있는 a3-highgpu-8g VM과 같이 GPU 하드웨어 가속기가 여러 개 장착된 단일 VM에 동일한 모델의 복제본을 여러 개 배포하면 됩니다. 각 모델 복제본은 하나 이상의 GPU에 할당할 수 있습니다.

소규모 워크로드의 경우 NVIDIA 멀티 인스턴스 GPU(MIG)를 사용하여 단일 GPU를 여러 개의 소규모 인스턴스로 파티셔닝할 수도 있습니다. 이렇게 하면 하위 GPU 수준에서 리소스를 할당하여 각 가속기의 활용도를 극대화할 수 있습니다. 멀티 인스턴스 GPU에 대한 자세한 내용은 NVIDIA 멀티 인스턴스 GPU 사용자 가이드를 참고하세요.

이 두 기능은 모두 서빙 워크로드의 리소스 사용률을 높이고 비용 효율성을 높이기 위해 설계되었습니다.

제한사항

이 기능에는 다음과 같은 제한사항이 적용됩니다.

동시 예약된 모델 복제본은 모두 동일한 모델 버전이어야 합니다.
배포 리소스 풀을 사용하여 배포 간에 리소스를 공유하는 것은 지원되지 않습니다.

지원되는 머신 유형

지원되는 머신 유형은 다음과 같습니다. GPU가 하나만 있는 머신 유형의 경우 공동 예약이 필요하지 않습니다.

머신 유형	Coschedule	Coschedule + MIG
a2-highgpu-1g	해당 사항 없음	예
a2-highgpu-2g	예	예
a2-highgpu-4g	예	예
a2-highgpu-8g	예	예
a2-highgpu-16g	예	예
a2-ultragpu-1g	해당 사항 없음	예
a2-ultragpu-2g	예	예
a2-ultragpu-4g	예	예
a2-ultragpu-8g	예	예
a3-edgegpu-8g	예	예
a3-highgpu-1g	해당 사항 없음	예
a3-highgpu-2g	예	예
a3-highgpu-4g	예	예
a3-highgpu-8g	예	예
a3-megagpu-8g	예	예
a3-ultragpu-8g	예	예
a4-highgpu-8g	예	예
a4x-highgpu-8g	예	예

기본 요건

이 기능을 사용하기 전에 gcloud CLI 또는 Vertex AI API를 사용하여 모델 배포를 읽어보세요.

모델 복제본 배포

다음 샘플은 공동 예약된 모델 복제본을 배포하는 방법을 보여줍니다.

gcloud

다음 gcloud 명령어를 사용하여 VM에 공동 예약된 모델 복제본을 배포합니다.

gcloud ai endpoints deploy-model ENDPOINT_ID \
  --region=LOCATION_ID \
  --model=MODEL_ID \
  --display-name=DEPLOYED_MODEL_NAME \
  --min-replica-count=MIN_REPLICA_COUNT \
  --max-replica-count=MAX_REPLICA_COUNT \
  --machine-type=MACHINE_TYPE \
  --accelerator=type=ACC_TYPE,count=ACC_COUNT \
  --traffic-split=0=100

다음을 바꿉니다.

ENDPOINT_ID: 엔드포인트의 ID
LOCATION_ID: Vertex AI를 사용하는 리전
MODEL_ID: 배포할 모델의 ID
DEPLOYED_MODEL_NAME: DeployedModel의 이름. DeployedModel의 Model 표시 이름도 사용할 수 있습니다.
MIN_REPLICA_COUNT: 이 배포의 최소 노드 수. 추론 로드 시 필요에 따라 노드 수를 최대 노드 수까지 늘리거나 이 노드 수까지 줄일 수 있습니다.
MAX_REPLICA_COUNT: 이 배포의 최대 노드 수. 추론 로드 시 필요에 따라 이 노드 수를 노드 수까지 늘리거나 최소 노드 수까지 줄일 수 있습니다. . 배포할 복제본 2개마다 VM 하나가 필요합니다.
MACHINE_TYPE: 이 배포에 사용할 VM 유형. 가속기 최적화 제품군에 속해야 합니다.
ACC_TYPE: GPU 가속기 유형. MACHINE_TYPE에 해당해야 합니다. a3-highgpu-8g에는 nvidia-h100-80gb을 사용합니다.
ACC_COUNT: 각 복제본이 사용할 수 있는 GPU 수. 1 이상이고 머신의 총 GPU 수 이하여야 합니다.

REST

요청 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_NUMBER: 프로젝트 번호
LOCATION_ID: Vertex AI를 사용하는 리전
MODEL_ID: 배포할 모델의 ID
DEPLOYED_MODEL_NAME: DeployedModel의 이름. DeployedModel의 Model 표시 이름도 사용할 수 있습니다.
MACHINE_TYPE: (선택사항) 이 배포의 각 노드에 사용되는 머신 리소스. 기본 설정은 n1-standard-2입니다. 머신 유형에 대해 자세히 알아보세요.
ACC_TYPE: GPU 가속기 유형. `GPU_PARTITION_SIZE`에 상응해야 합니다.
GPU_PARTITION_SIZE: GPU 파티션 크기. 예: '1g.10gb'
ACC_COUNT: 각 복제본이 사용할 수 있는 GPU 수. 1 이상이고 머신의 총 GPU 수 이하여야 합니다.
MIN_REPLICA_COUNT: 이 배포의 최소 노드 수. 추론 로드 시 필요에 따라 노드 수를 최대 노드 수까지 늘리거나 이 노드 수까지 줄일 수 있습니다.
MAX_REPLICA_COUNT: 이 배포의 최대 노드 수. 추론 로드 시 필요에 따라 이 노드 수를 노드 수까지 늘리거나 최소 노드 수까지 줄일 수 있습니다.

HTTP 메서드 및 URL:

POST https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel

JSON 요청 본문:

{
  "deployedModel": {
    "model": "projects/PROJECT_NUMBER/locations/LOCATION_ID/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "dedicatedResources": {
      "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACC_TYPE",
        "gpuPartitionSize": "GPU_PARTITION_SIZE",
        "acceleratorCount": "ACC_COUNT""
      },
      "minReplicaCount": MIN_REPLICA_COUNT,
      "maxReplicaCount": MAX_REPLICA_COUNT,
      "autoscalingMetricSpecs": [
        {
          "metricName": "aiplatform.googleapis.com/prediction/online/accelerator/duty_cycle",
          "target": 70
        }
      ]
    }
  }
}

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

curl(Linux, macOS, Cloud Shell)

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel"

PowerShell(Windows)

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$headers = @{  }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

성공 상태 코드(2xx)와 빈 응답을 받게 됩니다.

Python

Vertex AI SDK for Python을 설치하거나 업데이트하는 방법은 Vertex AI SDK for Python 설치를 참고하세요. 자세한 내용은 Python API 참고 문서를 참고하세요.

다음 Python 명령어를 사용하여 VM에 공동 예약된 모델 복제본을 배포합니다.

endpoint.deploy(
    model=<var>MODEL</var>,
    machine_type=MACHINE_TYPE,
    min_replica_count=MIN_REPLICA_COUNT,
    max_replica_count=MAX_REPLICA_COUNT,
    accelerator_type=ACC_TYPE,
    gpu_partition_size=GPU_PARTITION_SIZE,
    accelerator_count=ACC_COUNT
)

다음을 바꿉니다.

MODEL: 다음 API 호출에서 반환된 모델 객체
```
model = aiplatform.Model(model_name=model_name)
```
MACHINE_TYPE: 이 배포에 사용할 VM 유형. 가속기 최적화 제품군에 속해야 합니다. 프리뷰에서는 a3-highgpu-8g만 지원됩니다.
MIN_REPLICA_COUNT: 이 배포의 최소 노드 수. 추론 로드 시 필요에 따라 노드 수를 최대 노드 수까지 늘리거나 이 노드 수까지 줄일 수 있습니다.
MAX_REPLICA_COUNT: 이 배포의 최대 노드 수. 추론 로드 시 필요에 따라 이 노드 수를 노드 수까지 늘리거나 최소 노드 수까지 줄일 수 있습니다.
ACC_TYPE: GPU 가속기 유형. GPU_PARTITION_SIZE에 상응해야 합니다.
GPU_PARTITION_SIZE: GPU 파티션 크기. 예를 들면 "1g.10gb"입니다. 각 GPU 유형에 지원되는 파티션 크기의 전체 목록은 멀티 인스턴스 GPU 파티션을 참고하세요.
ACC_COUNT: 각 복제본이 사용할 수 있는 GPU 수. 1 이상이고 머신의 총 GPU 수 이하여야 합니다. a3-highgpu-8g의 경우 1~8 사이의 값을 지정합니다.

VM 사용량 모니터링

다음 안내에 따라 측정항목 탐색기에서 배포된 복제본의 실제 머신 수를 모니터링하세요.

Google Cloud 콘솔에서 측정항목 탐색기 페이지로 이동합니다.

측정항목 탐색기로 이동
측정항목을 보려는 프로젝트를 선택합니다.
측정항목 드롭다운 메뉴에서 측정항목 선택을 클릭합니다.
리소스 또는 측정항목 이름으로 필터링 검색창에 Vertex AI Endpoint를 입력합니다.
Vertex AI 엔드포인트 > 예측 측정항목 카테고리를 선택합니다. 활성 측정항목에서 머신 수를 선택합니다.
적용을 클릭합니다.

결제

요금은 GPU 수가 아닌 사용된 VM 수를 기준으로 청구됩니다. 측정항목 탐색기를 사용하여 VM 사용량을 모니터링할 수 있습니다.

고가용성

동일한 VM에서 두 개 이상의 복제본이 공동 예약되므로 복제본 수가 단일 VM 노드를 초과할 때까지 Vertex AI Inference는 여러 VM과 여러 영역에 배포를 분산할 수 없습니다. 고가용성을 위해 노드(VM)를 두 개 이상에 배포하는 것이 좋습니다.

추론용 컴퓨팅 리소스 구성 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

비용 및 가용성 관리

컴퓨팅 리소스 지정 위치

온라인 추론

일괄 추론

머신 유형

머신 유형: CPU

E2 시리즈

N1 시리즈

N2 시리즈

N2D 시리즈

C2 시리즈

C2D 시리즈

C3 시리즈

머신 유형: GPU

A2 시리즈

A3 시리즈

A4 시리즈

A4X 시리즈

G2 시리즈

G4 시리즈

적합한 머신 유형 찾기

온라인 추론

일괄 추론

선택적 GPU 가속기

단일 VM에 여러 복제본 공동 예약

제한사항

지원되는 머신 유형

기본 요건

모델 복제본 배포

gcloud

REST

curl(Linux, macOS, Cloud Shell)

PowerShell(Windows)

Python

VM 사용량 모니터링

결제

고가용성

다음 단계

추론용 컴퓨팅 리소스 구성