Aumentar a velocidade do tráfego de rede para nós da GPU

Nesta página, mostramos como aumentar a largura de banda de rede para nós de GPU em clusters do Google Kubernetes Engine (GKE) usando a NIC virtual do Google (gVNIC).

Nos clusters do Autopilot, os nós que executam o GKE 1.30.2-gke.1023000 e versões mais recentes são fornecidos automaticamente com a placa de rede virtual do Google (gVNIC) instalada. As instruções nesta página se aplicam apenas aos clusters Standard.

Para aumentar a largura de banda nos nós da CPU, considere ativar a largura de banda de nível 1.

Antes de começar

Antes de começar, verifique se você realizou as tarefas a seguir:

  • Ativar a API Google Kubernetes Engine.
  • Ativar a API Google Kubernetes Engine
  • Se você quiser usar a CLI do Google Cloud para essa tarefa, instale e inicialize a gcloud CLI. Se você instalou a CLI gcloud anteriormente, instale a versão mais recente executando o comando gcloud components update. Talvez as versões anteriores da CLI gcloud não sejam compatíveis com a execução dos comandos neste documento.

Limitações

Requisitos

  • Os nós do GKE precisam usar uma imagem de nó do Container-Optimized OS.

Ativar gVNIC

É possível criar um cluster contendo pools de nós que usam gVNIC, criar um pool de nós com gVNIC ativada ou atualizar um pool de nós para usar gVNIC.

Criar um cluster

Crie um cluster contendo pools de nós que usam gVNIC:

gcloud container clusters create CLUSTER_NAME \
    --accelerator type=GPU_TYPE,count=AMOUNT \
    --machine-type=MACHINE_TYPE \
    --enable-gvnic

Substitua:

Criar um pool de nós

Crie um pool de nós que use gVNIC:

gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --enable-gvnic

Substitua:

  • NODEPOOL_NAME: o nome de um novo pool de nós.
  • CLUSTER_NAME: o nome do cluster existente.

Atualizar um pool de nós

Atualize um pool de nós para usar gVNIC:

gcloud container node-pools update NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --enable-gvnic

Substitua:

  • NODEPOOL_NAME: o nome do pool de nós que você quer atualizar.
  • CLUSTER_NAME: o nome do cluster existente.

Essa mudança exige a recriação dos nós, o que pode causar interrupções nas cargas de trabalho em execução. Para mais detalhes sobre essa mudança específica, encontre a linha correspondente na tabela Alterações manuais que recriam os nós usando uma estratégia de upgrade de nós sem respeitar as políticas de manutenção. Para saber mais sobre atualizações de nós, consulte Planejar interrupções de atualização de nós.

Desativar gVNIC

Atualize o pool de nós usando a sinalização --no-enable-gvnic:

gcloud container node-pools update NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --no-enable-gvnic

Essa mudança exige a recriação dos nós, o que pode causar interrupções nas cargas de trabalho em execução. Para mais detalhes sobre essa mudança específica, encontre a linha correspondente na tabela Alterações manuais que recriam os nós usando uma estratégia de upgrade de nós sem respeitar as políticas de manutenção. Para saber mais sobre atualizações de nós, consulte Planejar interrupções de atualização de nós.

Solução de problemas

Para resolver problemas do gVNIC, consulte Solução de problemas do NIC virtual do Google.

A seguir