Acerca de la conformidad de la IA de GKE

En este documento se explica qué es el programa de conformidad de IA de Kubernetes, por qué es importante para tus cargas de trabajo de IA y aprendizaje automático en Google Kubernetes Engine (GKE) y cómo puedes configurar clústeres de GKE conformes.

Por qué es importante la conformidad con la IA en los clústeres de GKE

El programa de conformidad de IA de Kubernetes define un estándar para los clústeres de Kubernetes con el fin de asegurarse de que pueden ejecutar cargas de trabajo de IA y aprendizaje automático de forma fiable y eficiente. Configurar un clúster de Kubernetes para IA o ML puede ser complejo. A menudo, implica moverse por un entorno de instalaciones de controladores específicos, versiones de API y posibles soluciones alternativas para errores inesperados.

Una plataforma conforme como GKE está diseñada para gestionar estas complejidades subyacentes, lo que te permite pasar de la configuración al despliegue. Si usas una versión de GKE conforme, puedes tener la certeza de que tu entorno está optimizado para criterios como los siguientes:

  • Escalabilidad: escala tus cargas de trabajo de IA y aprendizaje automático de forma eficiente en función de la demanda.
  • Rendimiento: aprovecha al máximo tu hardware, incluidas las GPUs y las TPUs.
  • Portabilidad: ejecuta tus aplicaciones de IA o aprendizaje automático en cualquier clúster de Kubernetes compatible con cambios mínimos.
  • Interoperabilidad: se integra con otras herramientas y marcos del ecosistema de IA y aprendizaje automático.

Cómo crear un clúster de GKE conforme a la IA

Para crear un clúster de GKE que cumpla los requisitos de la IA, debe hacer lo siguiente:

  1. Consulta el ai-conformancerepositorio de GitHub para ver la lista de versiones conformes.
  2. Crea un clúster de GKE en modo estándar que se ejecute en una versión conforme, como 1.34.0-gke.1662000 o una posterior.
  3. Habilita la API Gateway en tu clúster.

Tu clúster ahora cumple los requisitos obligatorios para la conformidad de la IA de Kubernetes.

Qué hace que GKE sea una plataforma compatible con Kubernetes AI

GKE gestiona los requisitos subyacentes de cumplimiento de la IA para que no tengas que hacerlo tú. En la siguiente tabla se destacan algunas de estas funciones clave para las cargas de trabajo de IA y aprendizaje automático. Algunas de estas funciones están habilitadas de forma predeterminada, pero otras, como Kueue para la programación de gangs, son complementos opcionales que puedes instalar para mejorar tus cargas de trabajo de IA y aprendizaje automático.

El programa de conformidad de IA de Kubernetes se ha diseñado para evolucionar con el ecosistema de IA y aprendizaje automático. Los requisitos se actualizan con cada versión secundaria de Kubernetes en función del estado del ecosistema. Para consultar el conjunto completo de requisitos de una versión secundaria específica, en el ai-conformancerepositorio de GitHub, consulta el archivo docs/AIConformance-MINOR_VERSION.yaml, donde MINOR_VERSION es tu versión específica, como v1.34.

Requisito
Asignación dinámica de recursos (DRA) Permite hacer solicitudes de recursos más flexibles y detalladas que las que se basan en recuentos. Para obtener más información, consulta el artículo Acerca de la asignación dinámica de recursos.
API Gateway de Kubernetes Proporciona una gestión avanzada del tráfico para los servicios de inferencia, lo que permite usar funciones como la división del tráfico ponderada y el enrutamiento basado en encabezados. Para obtener más información, consulta el artículo Acerca de la API Gateway de GKE.
Programación de bandas Asegura la programación de todo o nada para las cargas de trabajo de IA distribuidas. GKE permite la instalación y el funcionamiento correcto de al menos una solución de programación de grupos. Por ejemplo, consulta Desplegar un sistema de procesamiento por lotes con Kueue.
Herramienta de adaptación dinámica de clústeres para aceleradores Escala verticalmente los grupos de nodos que contienen tipos de aceleradores específicos en función de los pods pendientes que soliciten esos aceleradores. Para obtener más información, consulta estos artículos:
Herramienta de adaptación dinámica horizontal de pods (HPA) para aceleradores Funciona correctamente en los pods que utilizan aceleradores, incluida la capacidad de escalar estos pods en función de métricas personalizadas relevantes para las cargas de trabajo de IA y aprendizaje automático. Para obtener más información, consulta estos artículos:
Métricas de rendimiento del acelerador Expone métricas de rendimiento detalladas mediante un endpoint de métricas de formato estandarizado y legible por máquina. Para obtener más información, consulta estos artículos:
Monitorización estandarizada Proporciona un sistema de monitorización capaz de descubrir y recoger métricas de cargas de trabajo que las expongan en un formato estándar (por ejemplo, el formato de exposición de Prometheus). Para obtener más información, consulta Observabilidad de GKE.
Asistencia para operadores de IA Debe demostrar que se puede instalar en la plataforma al menos un operador de IA complejo con una definición de recurso personalizado (CRD) y que funciona de forma fiable. Para obtener más información, consulta el artículo Crear una plataforma de aprendizaje automático con Kubeflow y Ray en Google Kubernetes Engine.

Siguientes pasos