Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Preparar a infraestrutura do GKE para cargas de trabalho do DRA

Standard

Este documento explica como configurar manualmente sua infraestrutura do Google Kubernetes Engine (GKE) para oferecer suporte à alocação dinâmica de recursos (DRA). As etapas de configuração incluem a criação de pools de nós que usam GPUs e a instalação de drivers de DRA.

Este documento é destinado a administradores de plataformas que querem criar infraestrutura com dispositivos de hardware especializados que os operadores de aplicativos podem reivindicar em cargas de trabalho.

Limitações

Considere as seguintes limitações:

Limitações da DRA no GKE
Limitações específicas do dispositivo, que se aplicam independentemente de você usar DRA: cargas de trabalho de GPU em clusters padrão

Antes de começar

Antes de começar, verifique se você realizou as tarefas a seguir:

Ativar a API Google Kubernetes Engine.

Ativar a API Google Kubernetes Engine

Se você quiser usar a Google Cloud CLI para essa tarefa, instale e, em seguida, inicialize a CLI gcloud. Se você instalou a CLI gcloud anteriormente, instale a versão mais recente executando o comando gcloud components update. Talvez as versões anteriores da CLI gcloud não sejam compatíveis com a execução dos comandos neste documento.
Observação: Para instalações prévias da CLI gcloud, defina a compute/region propriedade. Se você usa principalmente clusters zonais, defina compute/zone. Ao definir um local padrão, é possível evitar erros na CLI gcloud como: One of [--zone, --region] must be supplied: Please specify location. Talvez seja necessário especificar o local em determinados comandos se o local do cluster for diferente do padrão definido.

Tenha um cluster GKE Standard que execute a versão 1.35 ou mais recente. Também é possível criar um cluster regional.
Instale o Helm. Se você usa o Cloud Shell, o Helm já está instalado.

Criar um pool de nós do GKE com GPUs

Esta seção mostra como criar um pool de nós de GPU e instalar os drivers de DRA correspondentes. As etapas desta seção se aplicam apenas a pools de nós criados manualmente. Para criar um pool de nós de GPU que ofereça suporte à DRA, faça o seguinte:

Desative a instalação automática do driver de GPU: especifique a gpu-driver-version=disabled opção na flag --accelerator.
Desative o plug-in do dispositivo de GPU: adicione o gke-no-default-nvidia-gpu-device-plugin=true identificador de nó ao pool de nós.
Execute o DaemonSet do driver de DRA: adicione o nvidia.com/gpu.present=true identificador de nó ao pool de nós.
Configure o escalonamento automático: para usar o escalonador automático de cluster no pool de nós, adicione o identificador de nó cloud.google.com/gke-nvidia-gpu-dra-driver=true ao pool de nós. O escalonador automático de cluster usa esse identificador de nó para identificar os nós que executam o driver de DRA para GPUs.

Para criar e configurar pools de nós de GPU, siga estas etapas:

Crie um pool de nós de GPU. Os comandos de exemplo a seguir criam pools de nós com configurações diferentes:

Crie um pool de nós com uma instância g2-standard-24 que tenha duas GPUs L4:
```
gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
    --machine-type="g2-standard-24" \
    --accelerator="type=nvidia-l4,count=2,gpu-driver-version=disabled" \
    --num-nodes="1" \
    --node-labels=gke-no-default-nvidia-gpu-device-plugin=true,nvidia.com/gpu.present=true
```
Substitua:
- NODEPOOL_NAME: um nome para o pool de nós.
- CLUSTER_NAME: o nome do cluster.
- CONTROL_PLANE_LOCATION: a região ou zona de o plano de controle do cluster, como us-central1 ou us-central1-a.
- NODE_LOCATION1,NODE_LOCATION2,...: uma lista separada por vírgulas de zonas, na mesma região do plano de controle, para criar nós. Escolha zonas que tenham disponibilidade de GPU.

Crie um pool de nós com escalonamento automático com instâncias a2-ultragpu-1g que tenham uma GPU NVIDIA A100 (80 GB) em cada instância:

gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
    --enable-autoscaling \
    --max-nodes=5 \
    --machine-type="a2-ultragpu-1g" \
    --accelerator="type=nvidia-a100-80gb,count=1,gpu-driver-version=disabled" \
    --num-nodes="1" \
    --node-labels=gke-no-default-nvidia-gpu-device-plugin=true,nvidia.com/gpu.present=true,cloud.google.com/gke-nvidia-gpu-dra-driver=true

Instale manualmente os drivers de GPU NVIDIA.
Instale os drivers de DRA.

Instalar drivers de DRA

Extraia e atualize o gráfico do Helm que contém o driver de DRA da NVIDIA:

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \
    && helm repo update

Instale o driver de GPU DRA da NVIDIA com a versão 25.8.0 ou mais recente:

helm install nvidia-dra-driver-gpu nvidia/nvidia-dra-driver-gpu \
    --version="25.8.0" --create-namespace --namespace=nvidia-dra-driver-gpu \
    --set nvidiaDriverRoot="/home/kubernetes/bin/nvidia/" \
    --set gpuResourcesEnabledOverride=true \
    --set resources.computeDomains.enabled=false \
    --set kubeletPlugin.priorityClassName="" \
    --set 'kubeletPlugin.tolerations[0].key=nvidia.com/gpu' \
    --set 'kubeletPlugin.tolerations[0].operator=Exists' \
    --set 'kubeletPlugin.tolerations[0].effect=NoSchedule'

Para nós do Ubuntu, especifique o caminho do diretório "/opt/nvidia" na --set nvidiaDriverRoot flag.

Verificar se a infraestrutura está pronta para a DRA

Verifique se os pods do driver de DRA estão em execução:

kubectl get pods -n nvidia-dra-driver-gpu

O resultado será assim:

NAME                                         READY   STATUS    RESTARTS   AGE
nvidia-dra-driver-gpu-kubelet-plugin-52cdm   1/1     Running   0          46s

Confirme se o ResourceSlice lista os dispositivos de hardware que você adicionou:

kubectl get resourceslices -o yaml