En esta página, se muestra cómo aumentar el ancho de banda de red para los nodos de GPU en clústeres de Google Kubernetes Engine (GKE) mediante Google Virtual NIC (gVNIC).
En los clústeres de Autopilot, los nodos que ejecutan la versión 1.30.2-gke.1023000 de GKE y versiones posteriores tienen instalada automáticamente la NIC virtual de Google (gVNIC). Las instrucciones de esta página solo se aplican a los clústeres de Standard.
Para aumentar el ancho de banda en nodos de CPU, considera habilitar el ancho de banda de nivel 1.
Antes de comenzar
Antes de comenzar, asegúrate de haber realizado las siguientes tareas:
- Habilita la API de Google Kubernetes Engine. Habilitar la API de Google Kubernetes Engine
- Si deseas usar Google Cloud CLI para esta tarea, instala y, luego, inicializa gcloud CLI. Si ya instalaste gcloud CLI, ejecuta el comando
gcloud components update
para obtener la versión más reciente. Es posible que las versiones anteriores de gcloud CLI no admitan la ejecución de los comandos que se describen en este documento.
Limitaciones
- Se aplican las limitaciones de Compute Engine.
Requisitos
- Los nodos de GKE deben usar una imagen de nodo de Container-Optimized OS.
Habilita gVNIC
Puedes crear un clúster que tenga grupos de nodos que usen gVNIC, crear un grupo de nodos con gVNIC habilitado o actualizar un grupo de nodos para que use gVNIC.
Crea un clúster
Crea un clúster con grupos de nodos que usen gVNIC:
gcloud container clusters create CLUSTER_NAME \
--accelerator type=GPU_TYPE,count=AMOUNT \
--machine-type=MACHINE_TYPE \
--enable-gvnic
Reemplaza lo siguiente:
CLUSTER_NAME
el nombre del clúster nuevo.GPU_TYPE
: Es el tipo de acelerador de GPU que usas. Por ejemplo,nvidia-tesla-t4
.AMOUNT
: Es la cantidad de GPU que se deben adjuntar a los nodos del grupo de nodos.MACHINE_TYPE
: Es el tipo de máquina que deseas usar. gVNIC no es compatible con los tipos de máquina con optimización de memoria.
Crea un grupo de nodos
Crea un grupo de nodos que use gVNIC:
gcloud container node-pools create NODEPOOL_NAME \
--cluster=CLUSTER_NAME \
--enable-gvnic
Reemplaza lo siguiente:
NODEPOOL_NAME
: el nombre de un grupo de nodos nuevo.CLUSTER_NAME
: es el nombre del clúster existente.
Actualizar un grupo de nodos
Actualiza un grupo de nodos para que use gVNIC:
gcloud container node-pools update NODEPOOL_NAME \
--cluster=CLUSTER_NAME \
--enable-gvnic
Reemplaza lo siguiente:
NODEPOOL_NAME
: es el nombre del grupo de nodos que quieres actualizar.CLUSTER_NAME
: es el nombre del clúster existente.
Este cambio requiere volver a crear los nodos, lo que puede causar interrupciones en tus cargas de trabajo en ejecución. Para obtener detalles sobre este cambio específico, busca la fila correspondiente en la tabla de cambios manuales que recrean los nodos con una estrategia de actualización de nodos sin respetar las políticas de mantenimiento. Para obtener más información sobre las actualizaciones de nodos, consulta Planificación de interrupciones por actualizaciones de nodos.
Inhabilita gVNIC
Actualiza el grupo de nodos con la marca --no-enable-gvnic
:
gcloud container node-pools update NODEPOOL_NAME \
--cluster=CLUSTER_NAME \
--no-enable-gvnic
Este cambio requiere volver a crear los nodos, lo que puede causar interrupciones en tus cargas de trabajo en ejecución. Para obtener detalles sobre este cambio específico, busca la fila correspondiente en la tabla de cambios manuales que recrean los nodos con una estrategia de actualización de nodos sin respetar las políticas de mantenimiento. Para obtener más información sobre las actualizaciones de nodos, consulta Planificación de interrupciones por actualizaciones de nodos.
Soluciona problemas
Para solucionar problemas de gVNIC, consulta Soluciona problemas de NIC virtual de Google.
¿Qué sigue?
- Usa el registro de políticas de red para registrar cuándo las políticas de red del clúster permiten o rechazan las conexiones a los Pods.