Acerca del cumplimiento de la IA en GKE

En este documento, se explica qué es el programa de cumplimiento de la IA de Kubernetes, por qué es importante para tus cargas de trabajo de IA/AA en Google Kubernetes Engine (GKE) y cómo puedes configurar clústeres de GKE que cumplan con los requisitos.

Por qué es importante el cumplimiento de la IA para tus clústeres de GKE

El programa de cumplimiento de la IA de Kubernetes define un estándar para los clústeres de Kubernetes que garantiza que puedan ejecutar cargas de trabajo de IA y AA de manera confiable y eficiente. Configurar un clúster de Kubernetes para IA/AA puede ser complejo. A menudo, implica navegar por un panorama de instalaciones de controladores específicos, versiones de API y posibles soluciones alternativas para errores inesperados.

Una plataforma compatible, como GKE, está diseñada para controlar estas complejidades subyacentes por ti, lo que te proporciona una ruta desde la configuración hasta la implementación. Si compilas en una versión de GKE compatible, puedes tener la certeza de que tu entorno está optimizado para criterios como los siguientes:

  • Escalabilidad: Escala verticalmente tus cargas de trabajo de IA/AA de manera eficiente según la demanda.
  • Rendimiento: Aprovecha al máximo tu hardware, incluidas las GPUs y las TPUs.
  • Portabilidad: Ejecuta tus aplicaciones de IA/AA en cualquier clúster de Kubernetes compatible con cambios mínimos.
  • Interoperabilidad: Se integra con otras herramientas y marcos de trabajo en el ecosistema de IA/AA.

Cómo crear un clúster de GKE que cumpla con los requisitos de la IA

Para crear un clúster de GKE compatible con la IA, debes hacer lo siguiente:

  1. Consulta el repositorio de GitHub de ai-conformance para ver la lista de versiones compatibles.
  2. Crea un clúster de GKE en modo estándar que se ejecute en una versión compatible, como la 1.34.0-gke.1662000 o una posterior.
  3. Habilita la API de Gateway en tu clúster.

Tu clúster ahora cumple con los requisitos obligatorios para la conformidad de la IA de Kubernetes.

Qué hace que GKE sea una plataforma compatible con la IA de Kubernetes

GKE administra los requisitos subyacentes para el cumplimiento de la IA, por lo que no tienes que hacerlo tú. En la siguiente tabla, se destacan algunas de estas funciones clave para las cargas de trabajo de IA/AA. Algunas de estas funciones están habilitadas de forma predeterminada, pero otras, como Kueue para la programación de grupos, son complementos opcionales que puedes instalar para mejorar tus cargas de trabajo de IA/AA.

El programa de cumplimiento de la IA de Kubernetes está diseñado para evolucionar con el ecosistema de IA/AA. Los requisitos se actualizan con cada lanzamiento de la versión secundaria de Kubernetes según el estado del ecosistema. Para conocer el conjunto completo de requisitos de una versión secundaria específica, consulta el archivo docs/AIConformance-MINOR_VERSION.yaml en el repositorio de GitHub de ai-conformance, donde MINOR_VERSION es tu versión específica, como v1.34.

Requisito
Asignación dinámica de recursos (DRA) Permite solicitudes de recursos más flexibles y detalladas que solo el recuento. Para obtener más información, consulta Acerca de la asignación dinámica de recursos.
API de Kubernetes Gateway Proporciona administración avanzada del tráfico para los servicios de inferencia, lo que habilita capacidades como la división de tráfico ponderada y el enrutamiento basado en encabezados. Para obtener más información, consulta Acerca de la API de GKE Gateway.
Programación de grupos Garantiza la programación de todo o nada para las cargas de trabajo de IA distribuidas. GKE permite la instalación y el funcionamiento correcto de al menos una solución de programación por lotes. Para ver un ejemplo, consulta Implementa un sistema por lotes con Kueue.
Escalador automático de clústeres para aceleradores Escala verticalmente los grupos de nodos que contienen tipos de aceleradores específicos, según los Pods pendientes que solicitan esos aceleradores. Para obtener más información, consulta los siguientes vínculos:
Horizontal Pod Autoscaler (HPA) para aceleradores Funciona correctamente para los Pods que utilizan aceleradores, incluida la capacidad de escalar estos Pods según las métricas personalizadas pertinentes para las cargas de trabajo de IA/AA. Para obtener más información, consulta:
Métricas de rendimiento del acelerador Expone métricas de rendimiento detalladas con un extremo de métricas de formato estandarizado y legible por máquina. Para obtener más información, consulta:
Supervisión estandarizada Proporciona un sistema de supervisión capaz de descubrir y recopilar métricas de cargas de trabajo que las exponen en un formato estándar (por ejemplo, el formato de exposición de Prometheus). Para obtener más información, consulta Observabilidad para GKE.
Asistencia para operadores con IA Debe demostrar que se puede instalar al menos un operador de IA complejo con una definición de recurso personalizado (CRD) en la plataforma y que funciona de manera confiable. Para obtener más información, consulta Compila una plataforma de aprendizaje automático con Kubeflow y Ray en Google Kubernetes Engine.

¿Qué sigue?