Membuat dan memulai instance VM dengan GPU NVIDIA

Halaman ini menjelaskan cara membuat instance virtual machine (VM) berbasis Linux dengan unit pemrosesan grafis (GPU) NVIDIA.

Mesin Virtual dengan GPU memungkinkan Anda menjalankan berbagai workload yang dipercepat GPU, misalnya, kecerdasan buatan dan machine learning.

Virtual machine dengan GPU adalah bagian dari kelompok mesin seri A "yang dioptimalkan untuk akselerator", misalnya, A2 dan A3. Untuk mengetahui informasi selengkapnya, lihat Melihat jenis mesin VM.

Halaman ini ditujukan bagi developer dalam grup administrator platform atau operator aplikasi yang membuat VM di lingkungan air-gapped Google Distributed Cloud (GDC).

Sebelum memulai

Untuk menggunakan perintah antarmuka command line (CLI) gdcloud, pastikan Anda telah mendownload, menginstal, dan mengonfigurasi gdcloud CLI. Semua perintah untuk Distributed Cloud menggunakan CLI gdcloud atau kubectl, dan memerlukan lingkungan Linux.

Meminta izin dan akses

Untuk melakukan tugas yang tercantum di halaman ini, Anda harus memiliki peran ProjectVirtualMachine Admin. Ikuti langkah-langkah untuk memverifikasi bahwa Anda memiliki peran Project VirtualMachine Admin (project-vm-admin) di namespace project tempat VM berada.

Untuk operasi VM menggunakan konsol GDC atau gdcloud CLI, minta Admin IAM Project Anda untuk memberi Anda peran Project VirtualMachine Admin dan Project Viewer (project-viewer).

Membuat VM

Buat VM dengan mengikuti langkah-langkah yang diuraikan dalam Membuat VM dari image dan pilih jenis mesin seri A.

Menginstal driver NVIDIA

Bagian ini memberikan langkah-langkah untuk menginstal driver NVIDIA di instance VM GDC Anda.

Menginstal paket

Mulai versi v20250809 dan yang lebih baru, image Ubuntu dan Rocky Linux yang disediakan GDC telah menginstal driver NVIDIA.

Untuk versi image yang lebih lama dari v20250809 dan image kustom yang disediakan pengguna, instal driver dari repositori paket GDC. Hubungkan ke VM menggunakan SSH dan jalankan perintah yang sesuai dengan sistem operasi (OS) VM Anda:

Ubuntu:

    sudo apt install nvidia-dkms-570-server-open

Rocky Linux dan RHEL:

    sudo dnf install nvidia-driver-cuda

Menjalankan DKMS

Aktifkan driver NVIDIA di VM Anda dengan perintah dkms. Anda hanya perlu melakukan tugas ini satu kali per VM:

   sudo dkms autoinstall

Instal toolkit CUDA

Toolkit NVIDIA CUDA tersedia di repositori paket GDC. Hubungkan ke VM menggunakan SSH, lalu jalankan perintah yang sesuai dengan OS VM Anda:

Ubuntu

    sudo apt install cuda-toolkit-12-8

Rocky Linux dan RHEL

    sudo dnf install cuda-toolkit-12-8

Mengaktifkan Booting aman dan menandatangani driver

Jika Anda perlu mengaktifkan booting aman di VM dengan GPU, Anda harus menandatangani driver GPU. Lihat petunjuk untuk OS yang sesuai.

Ubuntu

  1. Hubungkan ke VM menggunakan SSH.
  2. Beralih ke superuser:

    sudo su
    
  3. Buat kunci MOK jika belum ada:

    [ -f /var/lib/shim-signed/mok/MOK.der ] || openssl req -new -x509 -newkey rsa:2048 -keyout /var/lib/shim-signed/mok/MOK.priv \
        -outform DER -out /var/lib/shim-signed/mok/MOK.der \
        -nodes -days 36500 -subj "/CN=DKMS Signing Key/"
    
  4. Daftarkan kunci menggunakan mokutil:

    mokutil --import /var/lib/shim-signed/mok/MOK.der
    
  5. Jika diminta, buat dan masukkan sandi baru pilihan Anda.

  6. Tandatangani modul kernel NVIDIA menggunakan MOK:

    for module in nvidia nvidia_drm nvidia_modeset nvidia_uvm nvidia_peermem; do
        /usr/src/linux-headers-$(uname -r)/scripts/sign-file sha256 /var/lib/shim-signed/mok/MOK.priv /var/lib/shim-signed/mok/MOK.der $(modinfo -n $module)
    done
    

Rocky Linux dan RHEL

  1. Hubungkan ke VM menggunakan SSH.
  2. Beralih ke superuser:

    sudo su
    
  3. Tanda tangani driver dengan kunci menggunakan dkms autoinstall:

    sudo dkms autoinstall
    
  4. Daftarkan kunci DKMS di MOK:

    mokutil --import /var/lib/dkms/mok.pub
    

Menyelesaikan pendaftaran dan verifikasi MOK

Untuk mengakses layar pengelolaan MOK, pastikan untuk memulai ulang instance VM dan segera hubungkan ke port serial. Layar ini sensitif terhadap waktu dan hanya muncul sebentar selama proses booting. Secara khusus, ikuti langkah-langkah berikut:

  1. Mulai ulang instance VM:

    reboot
    
  2. Hubungkan ke konsol serial VM. Untuk mengetahui informasi selengkapnya, lihat Menghubungkan ke port serial.

  3. Daftarkan MOK dari konsol:

    Layar pengelolaan MOK konsol serial VM

    Layar pengelolaan MOK konsol serial VM dengan 'Daftarkan MOK' ditandai

    Anda dapat melihat kunci untuk memastikan kunci tersebut cocok dengan kunci yang dibuat pada langkah sebelumnya:

    Layar pengelolaan MOK konsol serial VM dengan 'Continue' dipilih

  4. Masukkan sandi yang Anda pilih sebelumnya:

    Layar pengelolaan MOK konsol serial VM yang meminta sandi

  5. Pilih Reboot dari menu pengelolaan MOK:

    Layar pengelolaan MOK konsol serial VM dengan 'Reboot' dipilih

  6. Pastikan driver NVIDIA berfungsi dengan menjalankan nvidia-smi.

    Output menampilkan status GPU dan informasi driver:

    $ nvidia-smi
    Wed Aug 13 00:09:17 2025
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 570.158.01             Driver Version: 570.158.01     CUDA Version: 12.8     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA H200                    Off |   00000000:08:00.0 Off |                    0 |
    | N/A   42C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   1  NVIDIA H200                    Off |   00000000:09:00.0 Off |                    0 |
    | N/A   36C    P0            127W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   2  NVIDIA H200                    Off |   00000000:0A:00.0 Off |                    0 |
    | N/A   34C    P0            122W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   3  NVIDIA H200                    Off |   00000000:0B:00.0 Off |                    0 |
    | N/A   40C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   4  NVIDIA H200                    Off |   00000000:0C:00.0 Off |                    0 |
    | N/A   39C    P0            125W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   5  NVIDIA H200                    Off |   00000000:0D:00.0 Off |                    0 |
    | N/A   35C    P0            122W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   6  NVIDIA H200                    Off |   00000000:0E:00.0 Off |                    0 |
    | N/A   39C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   7  NVIDIA H200                    Off |   00000000:0F:00.0 Off |                    0 |
    | N/A   35C    P0            121W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+