Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Habilita la predicción del estado de los nodos en un clúster de GKE

Después de crear un clúster de Google Kubernetes Engine (GKE) optimizado para IA, puedes habilitar la predicción del estado del nodo. Si planeas programar cargas de trabajo con la programación compatible con la topología (TAS) y Kueue, habilitar la predicción del estado del nodo permite que el programador del clúster haga lo siguiente:

Identificar los nodos que probablemente se degraden en las próximas cinco horas
Evitar programar cargas de trabajo nuevas en esos nodos

Este enfoque te ayuda a minimizar las interrupciones en las cargas de trabajo críticas y sensibles a las interrupciones, como las cargas de trabajo de entrenamiento a gran escala.

En este documento, se explica cómo habilitar la predicción del estado del nodo en un clúster de GKE que usa nodos A4X Max, A4X, A4 o A3 Ultra. Para obtener información sobre cómo usar la métrica de predicción del estado del nodo en un panel de Cloud Monitoring cuando, por ejemplo, deseas solucionar problemas de rendimiento en un clúster de Slurm, consulta en su lugar Supervisa instancias de Compute Engine y clústeres de Slurm.

Limitaciones

Antes de habilitar la predicción del estado del nodo en tu clúster de GKE, ten en cuenta las siguientes limitaciones:

El nodo debe usar tipos de máquinas A4X Max, A4X, A4 o A3 Ultra.
El nodo debe usar el modelo de aprovisionamiento vinculado a la reserva.

Nota: Si los nodos de tu clúster usan un tipo de máquina A3 Mega o A3 High, o si creaste los nodos con un modelo de aprovisionamiento diferente, comunícate con tu equipo de cuentas.

Comprende la predicción del estado del nodo

Cuando habilitas la predicción del estado del nodo en un clúster de GKE, el CronJob aplica la etiqueta gke.google.com/recommended-to-run-large-training-workload a cada nodo del clúster. El CronJob establece los valores de la etiqueta en la probabilidad de que se degrade el estado de la GPU de un nodo y actualiza estos valores cada 10 minutos. Si el valor de la etiqueta es true, el nodo está en buen estado. De lo contrario, si el valor de la etiqueta es false, es probable que el nodo se degrade en las próximas cinco horas. El valor de la etiqueta puede cambiar con el tiempo según el estado de la GPU del nodo.

Si ves que es probable que un nodo se degrade, puedes hacer una o ambas de las siguientes acciones:

Evita programar cargas de trabajo en el nodo. Puedes configurar Kueue para evitar programar cargas de trabajo en nodos que muestren un valor de false, como se describe en este documento.
Informa que el nodo es defectuoso. Si el nodo tiene problemas, como una temperatura alta de la GPU o un rendimiento lento, puedes informar que el nodo es defectuoso. Esta acción inicia un evento de mantenimiento del host para el nodo, lo que hace que vuelva a estar disponible para ejecutar cargas de trabajo después de que se complete el mantenimiento. Para obtener instrucciones, consulta Informa hosts defectuosos a través de GKE.

Antes de comenzar

Antes de comenzar, asegúrate de haber realizado las siguientes tareas:

Habilita la API de Google Kubernetes Engine.

Habilitar la API de Google Kubernetes Engine

Si deseas usar Google Cloud CLI para esta tarea, instala y, luego, inicializa the gcloud CLI. Si ya instalaste gcloud CLI, ejecuta el comando gcloud components update para obtener la versión más reciente. Es posible que las versiones anteriores de gcloud CLI no admitan la ejecución de los comandos de este documento.
Nota: Para las instalaciones de gcloud CLI existentes, asegúrate de configurar la compute/region propiedad. Si usas principalmente clústeres zonales, configura compute/zone en su lugar. Cuando configuras una ubicación predeterminada, puedes evitar errores en gcloud CLI como el siguiente: One of [--zone, --region] must be supplied: Please specify location. Es posible que debas especificar la ubicación en ciertos comandos si la ubicación de tu clúster difiere de la predeterminada que estableciste.

Para conectarte a tu clúster, ejecuta el siguiente comando:
```
gcloud container clusters get-credentials CLUSTER_NAME
```
Reemplaza CLUSTER_NAME por el nombre del clúster.

Habilita la predicción del estado del nodo

Después de prepararte para programar cargas de trabajo en tu clúster de GKE con TAS, puedes habilitar la predicción del estado del nodo completando los siguientes pasos:

Implementa el etiquetado automático de nodos
Actualiza la configuración del trabajo
Verifica el etiquetado de nodos

Implementa el etiquetado automático de nodos

Para implementar el etiquetado automático de nodos para la predicción del estado del nodo en tu clúster de GKE, completa los siguientes pasos:

Clona los aceleradores de hardware en el repositorio de Git de GKE:

git clone https://github.com/GoogleCloudPlatform/container-engine-accelerators.git

Ve al directorio topology-scheduler:

cd container-engine-accelerators/gpudirect-tcpxo/topology-scheduler

Crea el ConfigMap de Kubernetes que contiene las secuencias de comandos de Python, schedule-daemon.py y label-nodes-daemon.py, que consultan las puntuaciones de estado:

kubectl create configmap predictor-scheduler-scripts \
    --namespace=kube-system \
    --from-file=schedule-daemon.py=schedule-daemon.py \
    --from-file=label-nodes-daemon.py=label-nodes-daemon.py

Aplica la configuración de la cuenta de servicio para otorgar los permisos necesarios (leer métricas de Monitoring y aplicar parches a objetos de nodo) al CronJob:
```
kubectl apply -f service-account.yaml
```
Implementa el DaemonSet que programa el trabajo de etiquetado de nodos:
```
kubectl apply -f label-nodes-daemon.yaml
```

Actualiza la configuración del trabajo

Para habilitar la predicción del estado del nodo cuando usas Kueue, debes actualizar la configuración del trabajo para verificar los valores de predicción del estado y, si es compatible, los requisitos de topología antes de iniciar una carga de trabajo.

Para actualizar la configuración del trabajo y habilitar la predicción del estado del nodo, en el campo spec, agrega los siguientes campos:

spec:
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: gke.google.com/recommended-to-run-large-training-workload
            operator: NotIn
            values:
            - "False"
...

Verifica el etiquetado de nodos

Después de que se ejecute el CronJob por primera vez, que es aproximadamente 10 minutos después de la implementación, verifica si aplicó la etiqueta gke.google.com/recommended-to-run-large-training-workload a tus nodos.

Consulta una lista de nodos a los que se les aplicó la etiqueta gke.google.com/recommended-to-run-large-training-workload:

kubectl get nodes -L gke.google.com/recommended-to-run-large-training-workload

El valor de la etiqueta puede ser uno de los siguientes:

true: Se predice que el nodo estará en buen estado en las próximas cinco horas.
false: Es probable que el nodo se degrade en las próximas cinco horas. Si configuraste la configuración del trabajo como se describe en este documento, Kueue evita programar cargas de trabajo nuevas en el nodo.

¿Qué sigue?

Para obtener información sobre cómo administrar eventos comunes relevantes para los clústeres de GKE y las cargas de trabajo de IA, consulta Administra clústeres de GKE optimizados para IA.
Para obtener más información sobre la programación de trabajos en GKE con Kueue, consulta Implementa un sistema por lotes con Kueue.