VM-Instanz mit NVIDIA-GPUs erstellen und starten

Auf dieser Seite wird beschrieben, wie Sie eine Linux-basierte VM-Instanz mit NVIDIA-GPUs erstellen.

Auf einer VM mit GPUs können Sie verschiedene GPU-beschleunigte Arbeitslasten ausführen, z. B. künstliche Intelligenz und maschinelles Lernen.

Virtuelle Maschinen mit GPUs gehören zur beschleunigungsoptimierten Maschinenfamilie der A-Serie, z. B. A2 und A3. Weitere Informationen finden Sie unter VM-Maschinentyp ansehen.

Diese Seite richtet sich an Entwickler in Plattformadministrator- oder Anwendungsbetreibergruppen, die VMs in einer Google Distributed Cloud (GDC)-Umgebung mit Air Gap erstellen.

Hinweise

Wenn Sie die Befehlszeilenschnittstelle (CLI) von gdcloud verwenden möchten, müssen Sie die gdcloud CLI heruntergeladen, installiert und konfiguriert haben. Für alle Befehle für Distributed Cloud wird die gdcloud- oder kubectl-CLI verwendet. Außerdem ist eine Linux-Umgebung erforderlich.

Berechtigungen und Zugriff anfordern

Zum Ausführen der auf dieser Seite aufgeführten Aufgaben benötigen Sie die Rolle „ProjectVirtualMachine Admin“. Folgen Sie der Anleitung, um zu prüfen, ob Sie die Rolle „Project VirtualMachine Admin“ (project-vm-admin) im Namespace des Projekts haben, in dem sich die VM befindet.

Wenn Sie VM-Vorgänge über die GDC-Konsole oder die gdcloud-Befehlszeile ausführen möchten, bitten Sie Ihren Projekt-IAM-Administrator, Ihnen die Rollen „Project VirtualMachine Admin“ und „Project Viewer“ (project-viewer) zuzuweisen.

VM erstellen

Erstellen Sie eine VM, indem Sie der Anleitung unter VM aus einem Image erstellen folgen und einen Maschinentyp der A-Serie auswählen.

NVIDIA-Treiber installieren

In diesem Abschnitt wird beschrieben, wie Sie NVIDIA-Treiber auf Ihrer GDC-VM-Instanz installieren.

Paket installieren

Ab Version v20250809 und höher sind in den von GDC bereitgestellten Ubuntu- und Rocky Linux-Images NVIDIA-Treiber vorinstalliert.

Bei Image-Versionen vor v20250809 und benutzerdefinierten Images müssen Sie den Treiber aus dem GDC-Paket-Repository installieren. Stellen Sie über SSH eine Verbindung zur VM her und führen Sie den Befehl aus, der dem Betriebssystem Ihrer VM entspricht:

Ubuntu:

    sudo apt install nvidia-dkms-570-server-open

Rocky Linux und RHEL:

    sudo dnf install nvidia-driver-cuda

DKMS ausführen

Aktivieren Sie den NVIDIA-Treiber auf Ihrer VM mit dem Befehl dkms. Sie müssen diese Aufgabe nur einmal pro VM ausführen:

   sudo dkms autoinstall

CUDA-Toolkit installieren

Das NVIDIA CUDA-Toolkit ist in den GDC-Paket-Repositories verfügbar. Stellen Sie über SSH eine Verbindung zur VM her und führen Sie dann den Befehl aus, der dem Betriebssystem Ihrer VM entspricht:

Ubuntu

    sudo apt install cuda-toolkit-12-8

Rocky Linux und RHEL

    sudo dnf install cuda-toolkit-12-8

Secure Boot aktivieren und Treiber signieren

Wenn Sie Secure Boot auf Ihrer VM mit GPUs aktivieren müssen, müssen Sie die GPU-Treiber signieren. Folgen Sie der Anleitung für Ihr Betriebssystem.

Ubuntu

  1. Stellen Sie eine SSH-Verbindung zur VM her.
  2. Zum Superuser wechseln:

    sudo su
    
  3. Generieren Sie einen MOK-Schlüssel, falls noch keiner vorhanden ist:

    [ -f /var/lib/shim-signed/mok/MOK.der ] || openssl req -new -x509 -newkey rsa:2048 -keyout /var/lib/shim-signed/mok/MOK.priv \
        -outform DER -out /var/lib/shim-signed/mok/MOK.der \
        -nodes -days 36500 -subj "/CN=DKMS Signing Key/"
    
  4. Registrieren Sie den Schlüssel mit mokutil:

    mokutil --import /var/lib/shim-signed/mok/MOK.der
    
  5. Erstellen Sie bei entsprechender Aufforderung ein neues Passwort Ihrer Wahl und geben Sie es ein.

  6. Signieren Sie die NVIDIA-Kernelmodule mit dem MOK:

    for module in nvidia nvidia_drm nvidia_modeset nvidia_uvm nvidia_peermem; do
        /usr/src/linux-headers-$(uname -r)/scripts/sign-file sha256 /var/lib/shim-signed/mok/MOK.priv /var/lib/shim-signed/mok/MOK.der $(modinfo -n $module)
    done
    

Rocky Linux und RHEL

  1. Stellen Sie eine SSH-Verbindung zur VM her.
  2. Zum Superuser wechseln:

    sudo su
    
  3. Signieren Sie den Treiber mit dem Schlüssel mit dkms autoinstall:

    sudo dkms autoinstall
    
  4. Registrieren Sie den DKMS-Schlüssel in MOK:

    mokutil --import /var/lib/dkms/mok.pub
    

MOK-Registrierung und ‑Bestätigung abschließen

Um auf den MOK-Verwaltungsbildschirm zuzugreifen, starten Sie die VM-Instanz neu und stellen Sie sofort eine Verbindung zum seriellen Port her. Der Bildschirm wird nur kurz während des Bootvorgangs angezeigt. Gehen Sie dazu so vor:

  1. Starten Sie die VM-Instanz neu:

    reboot
    
  2. Stellen Sie eine Verbindung zur seriellen Konsole der VM her. Weitere Informationen finden Sie unter Verbindung zu einem seriellen Port herstellen.

  3. MOK über die Console registrieren:

    MOK-Verwaltungsbildschirm der seriellen VM-Konsole

    Bildschirm für die MOK-Verwaltung in der seriellen Konsole der VM mit hervorgehobenem „MOK registrieren“

    Sie können den Schlüssel aufrufen, um zu prüfen, ob er mit dem Schlüssel übereinstimmt, der in einem früheren Schritt generiert wurde:

    MOK-Verwaltungsbildschirm der seriellen VM-Konsole mit ausgewählter Option „Continue“ (Weiter)

  4. Geben Sie das zuvor ausgewählte Passwort ein:

    MOK-Verwaltungsbildschirm der seriellen Konsole der VM, in dem nach einem Passwort gefragt wird

  5. Wählen Sie im MOK-Verwaltungsmenü „Reboot“ (Neu starten) aus:

    MOK-Verwaltungsbildschirm der seriellen VM-Konsole mit ausgewählter Option „Reboot“ (Neu starten)

  6. Prüfen Sie, ob der NVIDIA-Treiber funktioniert, indem Sie nvidia-smi ausführen.

    Die Ausgabe zeigt den GPU-Status und die Treiberinformationen an:

    $ nvidia-smi
    Wed Aug 13 00:09:17 2025
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 570.158.01             Driver Version: 570.158.01     CUDA Version: 12.8     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA H200                    Off |   00000000:08:00.0 Off |                    0 |
    | N/A   42C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   1  NVIDIA H200                    Off |   00000000:09:00.0 Off |                    0 |
    | N/A   36C    P0            127W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   2  NVIDIA H200                    Off |   00000000:0A:00.0 Off |                    0 |
    | N/A   34C    P0            122W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   3  NVIDIA H200                    Off |   00000000:0B:00.0 Off |                    0 |
    | N/A   40C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   4  NVIDIA H200                    Off |   00000000:0C:00.0 Off |                    0 |
    | N/A   39C    P0            125W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   5  NVIDIA H200                    Off |   00000000:0D:00.0 Off |                    0 |
    | N/A   35C    P0            122W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   6  NVIDIA H200                    Off |   00000000:0E:00.0 Off |                    0 |
    | N/A   39C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   7  NVIDIA H200                    Off |   00000000:0F:00.0 Off |                    0 |
    | N/A   35C    P0            121W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+