Criar e iniciar uma instância de VM com GPUs NVIDIA

Nesta página, descrevemos como criar uma instância de máquina virtual (VM) baseada em Linux com unidades de processamento gráfico (GPUs) da NVIDIA.

Com uma máquina virtual com GPUs, é possível executar várias cargas de trabalho aceleradas por GPU, como inteligência artificial e machine learning.

As máquinas virtuais com GPUs fazem parte da família de máquinas da série A "otimizada para aceleradores", por exemplo, A2 e A3. Para mais informações, consulte Ver o tipo de máquina da VM.

Esta página é destinada a desenvolvedores em grupos de administradores de plataforma ou operadores de aplicativos que criam VMs em um ambiente com isolamento físico do Google Distributed Cloud (GDC).

Antes de começar

Para usar os comandos da interface de linha de comando (CLI) gdcloud, verifique se você baixou, instalou e configurou a CLI gdcloud. Todos os comandos do Distributed Cloud usam a CLI gdcloud ou kubectl e exigem um ambiente Linux.

Solicitar permissões e acesso

Para executar as tarefas listadas nesta página, é preciso ter o papel de administrador de máquina virtual do projeto. Siga as etapas para verificar se você tem o papel de administrador de máquina virtual do projeto (project-vm-admin) no namespace do projeto em que a VM reside.

Para operações de VM usando o console do GDC ou a CLI gdcloud, peça ao administrador do IAM do projeto para conceder a você os papéis de administrador de máquina virtual do projeto e leitor do projeto (project-viewer).

Criar uma VM

Crie uma VM seguindo as etapas descritas em Criar uma VM com base em uma imagem e selecione um tipo de máquina da série A.

Instalar drivers da NVIDIA

Esta seção mostra as etapas para instalar drivers NVIDIA na sua instância de VM do GDC.

Instale o pacote

A partir da versão v20250809, as imagens do Ubuntu e do Rocky Linux fornecidas pelo GDC têm drivers NVIDIA pré-instalados.

Para versões de imagem anteriores a v20250809 e imagens personalizadas fornecidas pelo usuário, instale o driver do repositório de pacotes do GDC. Conecte-se à VM usando SSH e execute o comando correspondente ao sistema operacional (SO) da VM:

Ubuntu:

    sudo apt install nvidia-dkms-570-server-open

Rocky Linux e RHEL:

    sudo dnf install nvidia-driver-cuda

Executar o DKMS

Ative o driver da NVIDIA na VM com o comando dkms. Você só precisa fazer isso uma vez por VM:

   sudo dkms autoinstall

Instalar o kit de ferramentas CUDA

O kit de ferramentas NVIDIA CUDA está disponível nos repositórios de pacotes do GDC. Conecte-se à VM usando SSH e execute o comando que corresponde ao SO da VM:

Ubuntu

    sudo apt install cuda-toolkit-12-8

Rocky Linux e RHEL

    sudo dnf install cuda-toolkit-12-8

Ativar a inicialização segura e assinar drivers

Se você precisar ativar a inicialização segura na VM com GPUs, assine os drivers de GPU. Consulte as instruções para seu SO.

Ubuntu

  1. Conecte-se à VM usando SSH.
  2. Mude para superusuário:

    sudo su
    
  3. Gere uma chave MOK se ela ainda não existir:

    [ -f /var/lib/shim-signed/mok/MOK.der ] || openssl req -new -x509 -newkey rsa:2048 -keyout /var/lib/shim-signed/mok/MOK.priv \
        -outform DER -out /var/lib/shim-signed/mok/MOK.der \
        -nodes -days 36500 -subj "/CN=DKMS Signing Key/"
    
  4. Registre a chave usando mokutil:

    mokutil --import /var/lib/shim-signed/mok/MOK.der
    
  5. Quando solicitado, crie e digite uma nova senha de sua escolha.

  6. Assine os módulos do kernel da NVIDIA usando o MOK:

    for module in nvidia nvidia_drm nvidia_modeset nvidia_uvm nvidia_peermem; do
        /usr/src/linux-headers-$(uname -r)/scripts/sign-file sha256 /var/lib/shim-signed/mok/MOK.priv /var/lib/shim-signed/mok/MOK.der $(modinfo -n $module)
    done
    

Rocky Linux e RHEL

  1. Conecte-se à VM usando SSH.
  2. Mude para superusuário:

    sudo su
    
  3. Assine o driver com a chave usando dkms autoinstall:

    sudo dkms autoinstall
    
  4. Registre a chave DKMS no MOK:

    mokutil --import /var/lib/dkms/mok.pub
    

Concluir a inscrição e a verificação do MOK

Para acessar a tela de gerenciamento do MOK, reinicialize a instância de VM e conecte-se imediatamente à porta serial. A tela é sensível ao tempo e aparece apenas brevemente durante o processo de inicialização. Siga estas etapas:

  1. Reinicialize a instância de VM:

    reboot
    
  2. Conecte-se ao console serial da VM. Para mais informações, consulte Conectar-se a uma porta serial.

  3. Registre a MOK no console:

    Tela de gerenciamento de MOK do console serial da VM

    Tela de gerenciamento de MOK do console serial da VM com "Registrar MOK" destacado

    Para verificar se a chave corresponde à gerada em uma etapa anterior, faça o seguinte:

    Tela de gerenciamento de MOK do console serial da VM com "Continuar" selecionado

  4. Digite a senha que você selecionou anteriormente:

    Tela de gerenciamento do MOK do console em série da VM solicitando uma senha

  5. Selecione "Reboot" no menu de gerenciamento do MOK:

    Tela de gerenciamento de MOK do console serial da VM com a opção "Reiniciar" selecionada

  6. Verifique se o driver NVIDIA funciona executando nvidia-smi.

    A saída mostra o status da GPU e as informações do driver:

    $ nvidia-smi
    Wed Aug 13 00:09:17 2025
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 570.158.01             Driver Version: 570.158.01     CUDA Version: 12.8     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  NVIDIA H200                    Off |   00000000:08:00.0 Off |                    0 |
    | N/A   42C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   1  NVIDIA H200                    Off |   00000000:09:00.0 Off |                    0 |
    | N/A   36C    P0            127W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   2  NVIDIA H200                    Off |   00000000:0A:00.0 Off |                    0 |
    | N/A   34C    P0            122W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   3  NVIDIA H200                    Off |   00000000:0B:00.0 Off |                    0 |
    | N/A   40C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   4  NVIDIA H200                    Off |   00000000:0C:00.0 Off |                    0 |
    | N/A   39C    P0            125W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   5  NVIDIA H200                    Off |   00000000:0D:00.0 Off |                    0 |
    | N/A   35C    P0            122W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   6  NVIDIA H200                    Off |   00000000:0E:00.0 Off |                    0 |
    | N/A   39C    P0            128W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    |   7  NVIDIA H200                    Off |   00000000:0F:00.0 Off |                    0 |
    | N/A   35C    P0            121W /  700W |       0MiB / 143771MiB |      0%      Default |
    |                                         |                        |             Disabled |
    +-----------------------------------------+------------------------+----------------------+
    
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+