NVIDIA GPU가 있는 VM 인스턴스 만들기 및 시작

이 페이지에서는 NVIDIA 그래픽 처리 장치 (GPU)가 있는 Linux 기반 가상 머신 (VM) 인스턴스를 만드는 방법을 설명합니다.

GPU가 있는 가상 머신을 사용하면 인공지능, 머신러닝과 같은 다양한 GPU 가속 워크로드를 실행할 수 있습니다.

GPU가 있는 가상 머신은 '가속기 최적화' A 시리즈 머신 제품군(예: A2, A3)에 속합니다. 자세한 내용은 VM 머신 유형 보기를 참고하세요.

이 페이지는 Google Distributed Cloud (GDC) 오프라인 환경에서 VM을 만드는 플랫폼 관리자 또는 애플리케이션 운영자 그룹의 개발자를 대상으로 합니다.

시작하기 전에

gdcloud 명령줄 인터페이스 (CLI) 명령어를 사용하려면 gdcloud CLI를 다운로드, 설치, 구성해야 합니다. Distributed Cloud의 모든 명령어는 gdcloud 또는 kubectl CLI를 사용하며 Linux 환경이 필요합니다.

권한 및 액세스 요청

이 페이지에 나열된 작업을 수행하려면 프로젝트 VirtualMachine 관리자 역할이 있어야 합니다. 단계를 따라 VM이 있는 프로젝트의 네임스페이스에 프로젝트 VirtualMachine 관리자 (project-vm-admin) 역할이 있는지 확인합니다.

GDC 콘솔 또는 gdcloud CLI를 사용하는 VM 작업의 경우 프로젝트 IAM 관리자에게 프로젝트 VirtualMachine 관리자 및 프로젝트 뷰어 (project-viewer) 역할을 모두 부여해 달라고 요청하세요.

VM 만들기

이미지에서 VM 만들기에 설명된 단계에 따라 VM을 만들고 A 시리즈 머신 유형을 선택합니다.

NVIDIA 드라이버 설치

이 섹션에서는 GDC VM 인스턴스에 NVIDIA 드라이버를 설치하는 단계를 설명합니다.

패키지 설치

v20250809 버전부터 GDC에서 제공하는 Ubuntu 및 Rocky Linux 이미지에 NVIDIA 드라이버가 사전 설치되어 있습니다.

v20250809 이전 이미지 버전과 사용자가 제공한 맞춤 이미지의 경우 GDC 패키지 저장소에서 드라이버를 설치합니다. SSH를 사용하여 VM에 연결하고 VM 운영체제 (OS)에 해당하는 명령어를 실행합니다.

Ubuntu:

    sudo apt install nvidia-dkms-570-server-open

Rocky Linux 및 RHEL:

    sudo dnf install nvidia-driver-cuda

DKMS 실행

dkms 명령어를 사용하여 VM에서 NVIDIA 드라이버를 사용 설정합니다. 이 작업은 VM당 한 번만 수행하면 됩니다.

   sudo dkms autoinstall

CUDA 툴킷 설치

NVIDIA CUDA 툴킷은 GDC 패키지 저장소에서 사용할 수 있습니다. SSH를 사용하여 VM에 연결한 후 VM OS에 해당하는 명령어를 실행합니다.

Ubuntu

    sudo apt install cuda-toolkit-12-8

Rocky Linux 및 RHEL

    sudo dnf install cuda-toolkit-12-8

보안 부팅 사용 설정 및 드라이버 서명

GPU가 있는 VM에서 보안 부팅을 사용 설정해야 하는 경우 GPU 드라이버에 서명해야 합니다. 해당 OS의 안내를 참고하세요.

Ubuntu

  1. SSH를 사용하여 VM에 연결합니다.
  2. 최고 사용자로 전환합니다.

    sudo su
    
  3. MOK 키가 아직 없는 경우 생성합니다.

    [ -f /var/lib/shim-signed/mok/MOK.der ] || openssl req -new -x509 -newkey rsa:2048 -keyout /var/lib/shim-signed/mok/MOK.priv \
        -outform DER -out /var/lib/shim-signed/mok/MOK.der \
        -nodes -days 36500 -subj "/CN=DKMS Signing Key/"
    
  4. mokutil를 사용하여 키를 등록합니다.

    mokutil --import /var/lib/shim-signed/mok/MOK.der
    
  5. 메시지가 표시되면 원하는 새 비밀번호를 만들어 입력합니다.

  6. MOK를 사용하여 NVIDIA 커널 모듈에 서명합니다.

    for module in nvidia nvidia_drm nvidia_modeset nvidia_uvm nvidia_peermem; do
        /usr/src/linux-headers-$(uname -r)/scripts/sign-file sha256 /var/lib/shim-signed/mok/MOK.priv /var/lib/shim-signed/mok/MOK.der $(modinfo -n $module)
    done
    

Rocky Linux 및 RHEL

  1. SSH를 사용하여 VM에 연결합니다.
  2. 최고 사용자로 전환합니다.

    sudo su
    
  3. dkms autoinstall를 사용하여 키로 드라이버에 서명합니다.

    sudo dkms autoinstall
    
  4. MOK에 DKMS 키를 등록합니다.

    mokutil --import /var/lib/dkms/mok.pub
    

MOK 등록 및 확인 완료

MOK 관리 화면에 액세스하려면 VM 인스턴스를 재부팅하고 즉시 직렬 포트에 연결해야 합니다. 이 화면은 시간에 민감하며 부팅 프로세스 중에만 잠시 표시됩니다. 구체적으로 다음 단계를 따르세요.

  1. VM 인스턴스를 재부팅합니다.

    reboot
    
  2. VM의 직렬 콘솔에 연결합니다. 자세한 내용은 직렬 포트에 연결을 참고하세요.

  3. 콘솔에서 MOK를 등록합니다.

    VM 직렬 콘솔 MOK 관리 화면

    'MOK 등록'이 강조 표시된 VM 직렬 콘솔 MOK 관리 화면

    키를 확인하여 이전 단계에서 생성된 키와 일치하는지 확인할 수 있습니다.

    '계속'이 선택된 VM 직렬 콘솔 MOK 관리 화면

  4. 이전에 선택한 비밀번호를 입력합니다.

    비밀번호를 묻는 VM 직렬 콘솔 MOK 관리 화면

  5. MOK 관리 메뉴에서 재부팅을 선택합니다.

    'Reboot'가 선택된 VM 직렬 콘솔 MOK 관리 화면

  6. nvidia-smi를 실행하여 NVIDIA 드라이버가 작동하는지 확인합니다.

    출력에 GPU 상태와 드라이버 정보가 표시됩니다.

    $ nvidia-smi
    Wed Aug 13 00:09:17 2025
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 570.158.01             Driver Version: 570.158.01     CUDA Version: 12.8     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA H200                    Off |   00000000:08:00.0 Off |                    0 |
    | N/A   42C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   1  NVIDIA H200                    Off |   00000000:09:00.0 Off |                    0 |
    | N/A   36C    P0            127W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   2  NVIDIA H200                    Off |   00000000:0A:00.0 Off |                    0 |
    | N/A   34C    P0            122W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   3  NVIDIA H200                    Off |   00000000:0B:00.0 Off |                    0 |
    | N/A   40C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   4  NVIDIA H200                    Off |   00000000:0C:00.0 Off |                    0 |
    | N/A   39C    P0            125W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   5  NVIDIA H200                    Off |   00000000:0D:00.0 Off |                    0 |
    | N/A   35C    P0            122W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   6  NVIDIA H200                    Off |   00000000:0E:00.0 Off |                    0 |
    | N/A   39C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   7  NVIDIA H200                    Off |   00000000:0F:00.0 Off |                    0 |
    | N/A   35C    P0            121W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+