GPU 인스턴스 정보

이 문서에서는 Compute Engine에서 실행되는 GPU 가상 머신(VM) 인스턴스의 기능과 제한사항에 대해 설명합니다.

Compute Engine에서 특정 워크로드를 가속하려면 GPU가 연결된 가속기 최적화 인스턴스를 배포하거나 N1 범용 인스턴스에 GPU를 연결하면 됩니다. Compute Engine은 패스 스루 모드의 인스턴스에 GPU를 제공합니다. 패스 스루 모드를 사용하면 인스턴스가 GPU와 메모리를 직접 제어할 수 있습니다.

AI 하이퍼컴퓨터에서 일부 GPU 머신 유형을 사용할 수도 있습니다. AI 하이퍼컴퓨터는 인공지능(AI) 및 머신러닝(ML) 워크로드를 지원하도록 최적화된 슈퍼컴퓨팅 시스템입니다. 이 옵션은 Google Kubernetes Engine(GKE) 및 Slurm 스케줄러와 통합된 밀집적으로 할당된 성능 최적화 인프라를 생성하는 데 적합합니다.

지원되는 머신 유형

가속기 최적화 및 N1 범용 머신 계열은 GPU를 지원합니다. 가속기 최적화 머신 유형을 사용하는 인스턴스의 경우 인스턴스를 만들 때 Compute Engine에서 GPU를 자동으로 연결합니다. N1 머신 유형을 사용하는 인스턴스의 경우 인스턴스를 만드는 동안 또는 만든 후에 GPU를 인스턴스에 연결합니다. GPU는 다른 머신 유형과 호환되지 않습니다.

가속기 최적화 머신 유형

각 가속기 최적화 머신 유형에는 특정 NVIDIA GPU 모델이 연결되어 있습니다. 3D 시각화와 같이 그래픽 집약적인 워크로드가 있는 경우 NVIDIA RTX 가상 워크스테이션(vWS)을 사용하는 가상 워크스테이션을 만들 수도 있습니다. 일부 GPU 모델에서는 NVIDIA RTX 가상 워크스테이션을 사용할 수 있습니다.

머신 유형 GPU 모델 NVIDIA RTX 가상 워크스테이션(vWS) 모델
A4X NVIDIA GB200 Grace Blackwell Superchips(nvidia-gb200)

각 Superchip에는 NVIDIA B200 Blackwell GPU가 4개 포함되어 있습니다.

A4 NVIDIA B200 Blackwell GPU(nvidia-b200)
A3 Ultra NVIDIA H200 SXM GPU(nvidia-h200-141gb)
A3 Mega NVIDIA H100 SXM GPU(nvidia-h100-mega-80gb)
A3 High, A3 Edge NVIDIA H100 SXM GPU(nvidia-h100-80gb)
A2 울트라 NVIDIA A100 80GB GPU(nvidia-a100-80gb)
A2 표준 NVIDIA A100 40GB GPU(nvidia-a100-40gb)
G4(프리뷰) NVIDIA RTX PRO 6000 Blackwell 서버 버전(nvidia-rtx-pro-6000)
G2 NVIDIA L4 GPU(nvidia-l4) NVIDIA L4 가상 워크스테이션 GPU(nvidia-l4-vws)

자세한 내용은 가속기 최적화 머신 계열을 참조하세요.

N1 범용 머신 유형

N1 공유 코어(f1-microg1-small)를 제외한 대부분의 N1 머신 유형의 경우 다음 GPU 모델을 연결할 수 있습니다.

NVIDIA GPU:

  • NVIDIA T4: nvidia-tesla-t4
  • NVIDIA P4: nvidia-tesla-p4
  • NVIDIA P100: nvidia-tesla-p100
  • NVIDIA V100: nvidia-tesla-v100

NVIDIA RTX 가상 워크스테이션(vWS)(이전의 NVIDIA GRID):

  • NVIDIA T4 가상 스테이션: nvidia-tesla-t4-vws
  • NVIDIA P4 가상 워크스테이션: nvidia-tesla-p4-vws
  • NVIDIA P100 가상 워크스테이션: nvidia-tesla-p100-vws

    이러한 가상 워크스테이션의 경우 NVIDIA RTX 가상 워크스테이션(vWS) 라이선스가 인스턴스에 자동으로 추가됩니다.

N1 범용 계열의 경우 사전 정의된 머신 유형이나 커스텀 머신 유형을 사용할 수 있습니다.

Spot VM의 GPU

더 낮은 GPU 스팟 가격으로 Spot VM에 GPU를 추가할 수 있습니다. Spot VM에 연결된 GPU는 일반 GPU처럼 작동하지만 VM 수명 기간 동안만 지속됩니다. GPU가 있는 Spot VM은 모든 Spot VM과 동일한 선점 프로세스를 따릅니다.

Spot VM에서 GPU에 사용할 전용 Preemptible GPU 할당량을 요청하는 것이 좋습니다. 자세한 내용은 Spot VM 할당량을 참조하세요.

유지보수 이벤트 중에 GPU가 있는 Spot VM은 기본적으로 선점되며 자동으로 재시작할 수 없습니다. VM이 선점된 후 VM을 다시 만들고 싶다면 관리형 인스턴스 그룹을 사용하세요. 관리형 인스턴스 그룹은 vCPU, 메모리, GPU 리소스가 있는 경우 VM 인스턴스를 다시 생성합니다.

VM이 선점되기 전 경고를 표시하거나 유지보수 이벤트 후 자동으로 재시작되도록 VM을 구성하려면 GPU가 있는 표준 VM을 사용하세요. GPU가 있는 표준 VM의 경우 Compute Engine이 선점 전 1시간 사전 알림을 제공합니다.

Compute Engine은 실행이 시작된 후 1분 내에 선점된 VM에 대해서는 GPU 비용을 청구하지 않습니다.

GPU가 연결된 Spot VM을 만드는 방법은 GPU가 연결된 VM 만들기Spot VM 만들기를 참조하세요. 예를 들어 Spot VM을 사용하여 A3 Ultra 또는 A4 인스턴스 만들기를 참조하세요.

실행 시간이 사전 정의된 인스턴스의 GPU

표준 프로비저닝 모델을 사용하는 인스턴스는 일반적으로 선점형 배정 할당량을 사용할 수 없습니다. 선점형 할당량은 임시 워크로드를 위한 것이며 일반적으로 가용성이 더 높습니다. 프로젝트에 선점형 할당량이 없고 선점형 할당량을 요청한 적이 없는 경우 프로젝트의 모든 인스턴스가 표준 배정 할당량을 사용합니다.

선점형 배정 할당량을 요청하는 경우 표준 프로비저닝 모델을 사용하는 인스턴스는 선점형 배정 할당량을 사용하기 위해 다음 기준을 모두 충족해야 합니다.

시간 제한이 있는 GPU 워크로드에 선점형 할당을 사용하면 중단 없는 실행 시간과 선점형 배정 할당량의 높은 확보 가능성 모두를 활용할 수 있습니다. 자세한 내용은 선점형 할당량을 참조하세요.

GPU 및 컨피덴셜 VM

A3 머신 시리즈에서 Intel TDX를 사용하는 컨피덴셜 VM 인스턴스와 함께 GPU를 사용할 수 있습니다. 자세한 내용은 컨피덴셜 VM 지원되는 구성을 참조하세요. GPU를 사용하여 컨피덴셜 VM 인스턴스를 만드는 방법은 GPU를 사용하여 컨피덴셜 VM 인스턴스 만들기를 참조하세요.

GPU 및 블록 스토리지

GPU 머신 유형을 사용하여 인스턴스를 만들 때 인스턴스에 영구 또는 임시 블록 스토리지를 추가할 수 있습니다. 임시가 아닌 데이터를 저장하려면 이러한 디스크가 인스턴스의 수명 주기와 독립적이므로 Hyperdisk 또는 Persistent Disk와 같은 영구 블록 스토리지를 사용합니다. 영구 스토리지의 데이터는 인스턴스를 삭제한 후에도 유지될 수 있습니다.

임시 스크래치 스토리지 또는 캐시의 경우 인스턴스를 만들 때 로컬 SSD 디스크를 추가하여 임시 블록 스토리지를 사용합니다.

Persistent Disk 및 Hyperdisk 볼륨이 있는 영구 블록 스토리지

GPU가 사용 설정된 인스턴스에 Persistent Disk를 연결하고 Hyperdisk 볼륨을 선택할 수 있습니다.

머신러닝(ML) 및 서빙 워크로드의 경우 높은 처리량과 짧은 데이터 로드 시간을 제공하는 Hyperdisk ML 볼륨을 사용하세요. Hyperdisk ML은 GPU 유휴 시간이 더 짧기 때문에 ML 워크로드에 더 비용 효율적인 옵션입니다.

Hyperdisk ML 볼륨은 읽기 전용 다중 연결 지원을 제공하므로 동일한 디스크를 여러 인스턴스에 연결하여 각 인스턴스에 동일한 데이터에 대한 액세스 권한을 부여할 수 있습니다.

GPU를 지원하는 머신 시리즈에 지원되는 디스크 유형에 대한 자세한 내용은 N1가속기 최적화 머신 시리즈 페이지를 참조하세요.

로컬 SSD 디스크

로컬 SSD 디스크는 캐싱, 데이터 처리 또는 기타 일시적인 데이터를 위한 빠른 임시 스토리지를 제공합니다. 로컬 SSD 디스크는 인스턴스를 호스팅하는 서버에 물리적으로 연결되어 있으므로 빠른 스토리지를 제공합니다. 인스턴스가 다시 시작되면 인스턴스의 데이터가 손실되므로 로컬 SSD 디스크는 임시 스토리지를 제공합니다.

강력한 지속성 요구사항이 있는 데이터를 로컬 SSD 디스크에 저장하면 안 됩니다. 임시가 아닌 데이터를 저장하려면 대신 영구 스토리지를 사용합니다.

GPU가 있는 인스턴스를 수동으로 중지하는 경우 몇 가지 제한사항이 있지만 로컬 SSD 데이터를 보존할 수 있습니다. 자세한 내용은 로컬 SSD 문서를 참조하세요.

GPU 유형의 로컬 SSD에 대한 리전별 지원은 GPU 리전 및 영역별 로컬 SSD 가용성을 참조하세요.

GPU 및 호스트 유지보수

Compute Engine은 호스트 서버에서 유지보수 이벤트를 수행할 때 연결된 GPU가 있는 인스턴스를 항상 중지합니다. 인스턴스에 로컬 SSD 디스크가 연결된 경우 인스턴스가 중지되면 로컬 SSD 데이터가 손실됩니다.

유지보수 이벤트 처리 방법은 GPU 호스트 유지보수 이벤트 처리를 참조하세요.

GPU 가격 책정

GPU가 연결된 인스턴스의 경우 다음과 같이 비용이 발생합니다.

  • Compute Engine에 스팟, flex-start 또는 예약 범위 프로비저닝 모델을 사용하여 GPU를 프로비저닝하도록 요청하면 GPU 유형에 따라 할인된 가격이 적용됩니다.

  • GPU가 연결된 대부분의 인스턴스에는 vCPU와 마찬가지로 지속 사용 할인(SUD)이 적용됩니다. 가상 워크스테이션용 GPU를 선택하면 Compute Engine이 자동으로 NVIDIA RTX 가상 워크스테이션 라이선스를 인스턴스에 추가합니다.

GPU의 시간별 및 월별 가격 책정은 GPU 가격 책정 페이지를 참조하세요.

약정 사용 할인으로 GPU 예약

특정 영역에서 GPU 리소스를 예약하려면 예약 유형 선택을 참조하세요.

특정 영역에서 GPU에 대한 약정 사용 할인을 받으려면 GPU에 대한 리소스 기반 약정을 구매하고 일치하는 GPU를 지정하는 예약도 약정에 연결해야 합니다. 자세한 내용은 리소스 기반 약정에 예약 연결을 참조하세요.

GPU 제한사항

연결된 GPU가 있는 인스턴스의 경우 다음 제한사항이 적용됩니다.

  • 가속기 최적화(A4X, A4, A3, A2, G2) 및 범용 N1 머신 유형만 GPU를 지원합니다.

  • Compute Engine 시스템과 사용자를 보호하기 위해 새 프로젝트에는 지원되는 모든 영역에서 생성할 수 있는 총 GPU 수를 제한하는 글로벌 GPU 할당량이 적용됩니다. GPU 할당량을 요청하는 경우 각 리전에 생성하려는 GPU 모델의 할당량 외에도 전 영역 내 모든 유형의 총 GPU에 적용할 전역 할당량을 추가로 요청해야 합니다.

  • 1개 이상의 GPU가 있는 인스턴스는 인스턴스에 추가하는 각 GPU에 대해 최대 개수의 vCPU를 포함합니다. 여러 GPU 구성에 따라 사용 가능한 vCPU 및 메모리 범위를 보려면 GPU 목록을 참조하세요.

  • GPU가 올바르게 작동하려면 기기 드라이버가 필요합니다. Compute Engine에서 실행되는 NVIDIA GPU는 최소 드라이버 버전을 사용해야 합니다. 드라이버 버전에 대한 상세 설명은 필요한 NVIDIA 드라이버 버전을 참조하세요.

  • Compute Engine SLA는 연결된 GPU 모델이 정식 버전으로 제공되는 경우에만 GPU 모델이 연결된 인스턴스에 적용됩니다.

    리전에 여러 영역이 있는 경우 Compute Engine SLA는 GPU 모델이 해당 리전 내의 두 개 이상의 영역에서 제공되는 경우에만 인스턴스에 적용됩니다. 리전별 GPU 모델은 GPU 리전 및 영역을 참조하세요.

  • Compute Engine은 GPU당 동시 사용자 1명을 지원합니다.

  • GPU가 연결된 각 머신 유형의 제한사항도 참조하세요.

다음 단계