Introducción a las cargas de trabajo de IA/AA en GKE

En esta página, se proporciona una descripción general conceptual de Google Kubernetes Engine (GKE) para cargas de trabajo de IA/AA. GKE es una implementación administrada por Google de la plataforma de organización de contenedores de código abierto de Kubernetes.

Google Kubernetes Engine proporciona una plataforma escalable, flexible y rentable para ejecutar todas tus cargas de trabajo alojadas en contenedores, incluidas las aplicaciones de inteligencia artificial y aprendizaje automático (IA/AA). Ya sea que entrenes modelos base grandes, entregues solicitudes de inferencia a gran escala o compiles una plataforma integral de IA, GKE ofrece el control y el rendimiento que necesitas.

Esta página está dirigida a los especialistas en IA y datos, los arquitectos de la nube, los operadores y los desarrolladores que buscan una solución de Kubernetes escalable, automatizada y administrada para ejecutar cargas de trabajo de IA/AA. Para obtener más información sobre los roles comunes, consulta Roles y tareas comunes del usuario de GKE.

Comienza a usar cargas de trabajo de IA/AA en GKE

Puedes comenzar a explorar GKE en minutos con el nivel gratuitode GKE, que te permite comenzar a usar Kubernetes sin incurrir en costos por la administración de clústeres.

  1. Comienza en Google Cloud console

  2. Prueba estas guías de inicio rápido:
    • Inferencia en GKE: Implementa un modelo de lenguaje grande (LLM) de IA en GKE para la inferencia con una arquitectura predefinida.
    • Entrenamiento en GKE: Implementa un modelo de entrenamiento de IA en GKE y almacena las predicciones en Cloud Storage.
  3. Lee Acerca de las opciones de consumo de aceleradores para cargas de trabajo de IA/AA, que tiene orientación y recursos para planificar y obtener aceleradores (GPU y TPU) para tu plataforma.

Casos de uso habituales

GKE proporciona una plataforma unificada que puede admitir todas tus cargas de trabajo de IA.

  • Compilación de una plataforma de IA: Para los equipos de plataformas empresariales, GKE proporciona la flexibilidad para compilar una plataforma estandarizada de múltiples usuarios que satisfaga diversas necesidades.
  • Entrega en línea de baja latencia: Para los desarrolladores que compilan aplicaciones de IA generativa, GKE con la puerta de enlace de inferencia proporciona el enrutamiento optimizado y el ajuste de escala automático necesarios para ofrecer una experiencia del usuario responsiva mientras se controlan los costos.

Elige la plataforma adecuada para tu carga de trabajo de IA/AA

Google Cloud ofrece un espectro de productos de infraestructura de IA para admitir tu proceso de AA, desde completamente administrados hasta completamente configurables. La elección de la plataforma adecuada depende de tus necesidades específicas de control, flexibilidad y nivel de administración.

Práctica recomendada:

Elige GKE cuando necesites un control profundo, portabilidad y la capacidad de compilar una plataforma de IA personalizada y de alto rendimiento.

  • Control y flexibilidad de la infraestructura: Requiere un alto grado de control sobre tu infraestructura, necesita usar canalizaciones personalizadas o requiere personalizaciones a nivel del kernel.
  • Entrenamiento e inferencia a gran escala: Deseas entrenar modelos muy grandes o entregar modelos con una latencia mínima mediante el uso del escalamiento y el alto rendimiento de GKE.
  • Rentabilidad a gran escala: Deseas priorizar la optimización de costos mediante el uso de la integración de GKE con las VMs Spot y las VMs de inicio flexible para administrar los costos de manera eficaz.
  • Portabilidad y estándares abiertos: Deseas evitar el bloqueo del proveedor y ejecutar tus cargas de trabajo en cualquier lugar con Kubernetes, y ya tienes experiencia existente en Kubernetes o una estrategia de múltiples nubes.

También puedes considerar estas alternativas:

Google Cloud Servicio de Ideal para
Vertex AI Una plataforma de extremo a extremo completamente administrada para acelerar el desarrollo y descargar la administración de la infraestructura. Funciona bien para los equipos enfocados en MLOps y el tiempo de obtención de valor rápido. Para obtener más información, mira Cómo elegir entre GKE autoalojado y Vertex AI administrado para alojar modelos de IA.
Cloud Run Una plataforma sin servidores para cargas de trabajo de inferencia alojadas en contenedores que se pueden escalar a cero. Funciona bien para aplicaciones basadas en eventos y para entregar modelos más pequeños de manera rentable. Para obtener un análisis comparativo detallado, consulta GKE y Cloud Run.

Cómo GKE potencia las cargas de trabajo de IA/AA

GKE ofrece un conjunto de componentes especializados que simplifican y aceleran cada etapa del ciclo de vida de IA/AA, desde el entrenamiento a gran escala hasta la inferencia de baja latencia.

En el siguiente diagrama, GKE se encuentra dentro de Google Cloudy puede usar diferentes opciones de almacenamiento en la nube (como Cloud Storage FUSE y Lustre administrado) y diferentes opciones de infraestructura en la nube (como Cloud TPU y Cloud GPUs). GKE también funciona con software y frameworks de código abierto para el aprendizaje profundo (como JAX o TensorFlow), la orquestación de AA (como Jupyter o Ray) y la inferencia de LLM (como vLLM o NVIDIA Dynamo).
Figura 1: GKE como una plataforma administrada escalable para cargas de trabajo de IA/AA.

En la siguiente tabla, se resumen las funciones de GKE que admiten tus cargas de trabajo de IA/AA o tus objetivos operativos.

Carga de trabajo u operación de IA/AA Cómo te ayuda GKE Características clave
Inferencia y entrega Optimizado para entregar modelos de IA de forma elástica, con baja latencia, alta capacidad de procesamiento y rentabilidad.
  • Flexibilidad del acelerador: GKE admite GPU y TPU para la inferencia.
  • Puerta de enlace de inferencia de GKE: Una puerta de enlace con reconocimiento de modelos que proporciona enrutamiento inteligente y balanceo de cargas específicamente para cargas de trabajo de inferencia de IA.
  • Guía de inicio rápido de inferencia de GKE: Una herramienta para simplificar el análisis de rendimiento y la implementación, ya que proporciona un conjunto de perfiles comparativos para modelos de IA populares.
  • GKE Autopilot: Un modo operativo de GKE que automatiza las operaciones del clúster y el ajuste de tamaño de la capacidad, lo que reduce la sobrecarga.
Entrenamiento y ajuste Proporciona las capacidades de escalamiento y organización necesarias para entrenar de manera eficiente modelos muy grandes y, al mismo tiempo, minimizar los costos.
  • Nodos de inicio más rápido: Una optimización diseñada específicamente para cargas de trabajo de GPU que reduce los tiempos de inicio de los nodos hasta en un 80%.
  • Modo de aprovisionamiento de inicio flexible con tecnología del programador dinámico de cargas de trabajo: Mejora tu capacidad para proteger los aceleradores de GPU y TPU escasos para cargas de trabajo de entrenamiento de corta duración.
  • Kueue: Un sistema de colocación de trabajos en cola nativo de Kubernetes que administra la asignación de recursos, la programación, la administración de cuotas y la priorización para cargas de trabajo por lotes.
  • TPU Multislice: Una arquitectura de hardware y redes que permite que varias porciones de TPU se comuniquen entre sí a través de la red del centro de datos (DCN) para lograr un entrenamiento a gran escala.
Desarrollo unificado de IA/AA Compatibilidad administrada con Ray, un framework de código abierto para escalar aplicaciones distribuidas de Python.
  • Complemento de Ray en GKE: Abstrae la infraestructura de Kubernetes, lo que te permite escalar cargas de trabajo como el procesamiento previo de datos a gran escala, el entrenamiento distribuido y la entrega en línea con cambios mínimos en el código.

¿Qué sigue?