建立並啟動搭載 NVIDIA GPU 的 VM 執行個體

本頁面說明如何建立搭載 NVIDIA 圖形處理單元 (GPU) 的 Linux 虛擬機器 (VM) 執行個體。

搭載 GPU 的虛擬機器可執行各種 GPU 加速工作負載,例如人工智慧和機器學習。

搭載 GPU 的虛擬機器屬於「加速器最佳化」A 系列機型,例如 A2 和 A3。詳情請參閱「查看 VM 機器類型」。

本頁面適用於平台管理員或應用程式運算子群組的開發人員,這些人員會在 Google Distributed Cloud (GDC) 氣隙環境中建立 VM。

事前準備

如要使用 gdcloud 指令列介面 (CLI) 指令,請務必下載、安裝及設定 gdcloud CLI。Distributed Cloud 的所有指令都使用 gdcloud 或 kubectl CLI,且需要 Linux 環境。

要求權限和存取權

如要執行本頁列出的工作,您必須具備專案虛擬機器管理員角色。請按照步驟驗證,確認您在 VM 所在專案的命名空間中,具備專案 VirtualMachine 管理員 (project-vm-admin) 角色。

如要使用 GDC 控制台或 gdcloud CLI 執行 VM 作業,請要求專案 IAM 管理員授予您「專案 VirtualMachine 管理員」和「專案檢視者」(project-viewer) 角色。

建立 VM

按照「從映像檔建立 VM」一文所述步驟建立 VM,並選取 A 系列機器類型。

安裝 NVIDIA 驅動程式

本節提供在 GDC VM 執行個體上安裝 NVIDIA 驅動程式的步驟。

安裝套件

v20250809 版起,GDC 提供的 Ubuntu 和 Rocky Linux 映像檔已預先安裝 NVIDIA 驅動程式。

如果是 v20250809 之前的映像檔版本和使用者提供的自訂映像檔,請從 GDC 套件存放區安裝驅動程式。使用 SSH 連線至 VM,然後執行對應 VM 作業系統 (OS) 的指令:

Ubuntu:

    sudo apt install nvidia-dkms-570-server-open

Rocky Linux 和 RHEL:

    sudo dnf install nvidia-driver-cuda

執行 DKMS

使用 dkms 指令在 VM 上啟用 NVIDIA 驅動程式。每個 VM 只需要執行一次這項工作:

   sudo dkms autoinstall

安裝 CUDA 工具包

NVIDIA CUDA 工具包位於 GDC 套件存放區。使用 SSH 連線至 VM,然後執行對應 VM OS 的指令:

Ubuntu

    sudo apt install cuda-toolkit-12-8

Rocky Linux 和 RHEL

    sudo dnf install cuda-toolkit-12-8

啟用安全啟動功能並簽署驅動程式

如要在搭載 GPU 的 VM 上啟用安全啟動,您必須簽署 GPU 驅動程式。請參閱對應作業系統的操作說明。

Ubuntu

  1. 使用 SSH 連線至 VM。
  2. 切換為超級使用者:

    sudo su
    
  3. 如果沒有 MOK 金鑰,請產生一個:

    [ -f /var/lib/shim-signed/mok/MOK.der ] || openssl req -new -x509 -newkey rsa:2048 -keyout /var/lib/shim-signed/mok/MOK.priv \
        -outform DER -out /var/lib/shim-signed/mok/MOK.der \
        -nodes -days 36500 -subj "/CN=DKMS Signing Key/"
    
  4. 使用 mokutil 註冊金鑰:

    mokutil --import /var/lib/shim-signed/mok/MOK.der
    
  5. 按照系統提示建立並輸入新密碼。

  6. 使用 MOK 簽署 NVIDIA 核心模組:

    for module in nvidia nvidia_drm nvidia_modeset nvidia_uvm nvidia_peermem; do
        /usr/src/linux-headers-$(uname -r)/scripts/sign-file sha256 /var/lib/shim-signed/mok/MOK.priv /var/lib/shim-signed/mok/MOK.der $(modinfo -n $module)
    done
    

Rocky Linux 和 RHEL

  1. 使用 SSH 連線至 VM。
  2. 切換為超級使用者:

    sudo su
    
  3. 使用 dkms autoinstall 透過金鑰簽署驅動程式:

    sudo dkms autoinstall
    
  4. 在 MOK 中註冊 DKMS 金鑰:

    mokutil --import /var/lib/dkms/mok.pub
    

完成 MOK 註冊和驗證

如要存取 MOK 管理畫面,請務必重新啟動 VM 執行個體,並立即連線至序列埠。這個畫面有時效性,只會在開機程序中短暫顯示。具體而言,請按照下列步驟操作:

  1. 重新啟動 VM 執行個體:

    reboot
    
  2. 連線至 VM 的序列控制台。詳情請參閱連線至序列埠

  3. 從控制台註冊 MOK:

    VM 序列主控台 MOK 管理畫面

    VM 序列埠控制台 MOK 管理畫面,其中醒目顯示「Enroll MOK」

    您可以查看金鑰,確認是否與先前步驟中產生的金鑰相符:

    VM 序列埠主控台 MOK 管理畫面,並選取「繼續」

  4. 輸入您先前選取的密碼:

    VM 序列控制台 MOK 管理畫面提示輸入密碼

  5. 從 MOK 管理選單中選取「重新啟動」:

    VM 序列埠主控台 MOK 管理畫面,並選取「Reboot」(重新啟動)

  6. 執行 nvidia-smi,確認 NVIDIA 驅動程式是否正常運作。

    輸出內容會顯示 GPU 狀態和驅動程式資訊:

    $ nvidia-smi
    Wed Aug 13 00:09:17 2025
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 570.158.01             Driver Version: 570.158.01     CUDA Version: 12.8     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA H200                    Off |   00000000:08:00.0 Off |                    0 |
    | N/A   42C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   1  NVIDIA H200                    Off |   00000000:09:00.0 Off |                    0 |
    | N/A   36C    P0            127W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   2  NVIDIA H200                    Off |   00000000:0A:00.0 Off |                    0 |
    | N/A   34C    P0            122W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   3  NVIDIA H200                    Off |   00000000:0B:00.0 Off |                    0 |
    | N/A   40C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   4  NVIDIA H200                    Off |   00000000:0C:00.0 Off |                    0 |
    | N/A   39C    P0            125W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   5  NVIDIA H200                    Off |   00000000:0D:00.0 Off |                    0 |
    | N/A   35C    P0            122W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   6  NVIDIA H200                    Off |   00000000:0E:00.0 Off |                    0 |
    | N/A   39C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   7  NVIDIA H200                    Off |   00000000:0F:00.0 Off |                    0 |
    | N/A   35C    P0            121W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+