En esta página, se proporciona una descripción general conceptual de Google Kubernetes Engine (GKE) para cargas de trabajo de IA/AA. GKE es una implementación administrada por Google de la plataforma de organización de contenedores de código abierto de Kubernetes.
Google Kubernetes Engine proporciona una plataforma escalable, flexible y rentable para ejecutar todas tus cargas de trabajo alojadas en contenedores, incluidas las aplicaciones de inteligencia artificial y aprendizaje automático (IA/AA). Ya sea que entrenes modelos base grandes, entregues solicitudes de inferencia a gran escala o compiles una plataforma integral de IA, GKE ofrece el control y el rendimiento que necesitas.
Esta página está dirigida a los especialistas en IA y datos, los arquitectos de la nube, los operadores y los desarrolladores que buscan una solución de Kubernetes escalable, automatizada y administrada para ejecutar cargas de trabajo de IA/AA. Para obtener más información sobre los roles comunes, consulta Roles y tareas comunes del usuario de GKE.
Comienza a usar cargas de trabajo de IA/AA en GKE
Puedes comenzar a explorar GKE en minutos con el nivel gratuitode GKE, que te permite comenzar a usar Kubernetes sin incurrir en costos por la administración de clústeres.
- Prueba estas guías de inicio rápido:
- Inferencia en GKE: Implementa un modelo de lenguaje grande (LLM) de IA en GKE para la inferencia con una arquitectura predefinida.
- Entrenamiento en GKE: Implementa un modelo de entrenamiento de IA en GKE y almacena las predicciones en Cloud Storage.
- Lee Acerca de las opciones de consumo de aceleradores para cargas de trabajo de IA/AA, que tiene orientación y recursos para planificar y obtener aceleradores (GPU y TPU) para tu plataforma.
Casos de uso habituales
GKE proporciona una plataforma unificada que puede admitir todas tus cargas de trabajo de IA.
- Compilación de una plataforma de IA: Para los equipos de plataformas empresariales, GKE proporciona la flexibilidad para compilar una plataforma estandarizada de múltiples usuarios que satisfaga diversas necesidades.
- Entrega en línea de baja latencia: Para los desarrolladores que compilan aplicaciones de IA generativa, GKE con la puerta de enlace de inferencia proporciona el enrutamiento optimizado y el ajuste de escala automático necesarios para ofrecer una experiencia del usuario responsiva mientras se controlan los costos.
Elige la plataforma adecuada para tu carga de trabajo de IA/AA
Google Cloud ofrece un espectro de productos de infraestructura de IA para admitir tu proceso de AA, desde completamente administrados hasta completamente configurables. La elección de la plataforma adecuada depende de tus necesidades específicas de control, flexibilidad y nivel de administración.
Elige GKE cuando necesites un control profundo, portabilidad y la capacidad de compilar una plataforma de IA personalizada y de alto rendimiento.
- Control y flexibilidad de la infraestructura: Requiere un alto grado de control sobre tu infraestructura, necesita usar canalizaciones personalizadas o requiere personalizaciones a nivel del kernel.
- Entrenamiento e inferencia a gran escala: Deseas entrenar modelos muy grandes o entregar modelos con una latencia mínima mediante el uso del escalamiento y el alto rendimiento de GKE.
- Rentabilidad a gran escala: Deseas priorizar la optimización de costos mediante el uso de la integración de GKE con las VMs Spot y las VMs de inicio flexible para administrar los costos de manera eficaz.
- Portabilidad y estándares abiertos: Deseas evitar el bloqueo del proveedor y ejecutar tus cargas de trabajo en cualquier lugar con Kubernetes, y ya tienes experiencia existente en Kubernetes o una estrategia de múltiples nubes.
También puedes considerar estas alternativas:
| Google Cloud Servicio de | Ideal para |
|---|---|
| Vertex AI | Una plataforma de extremo a extremo completamente administrada para acelerar el desarrollo y descargar la administración de la infraestructura. Funciona bien para los equipos enfocados en MLOps y el tiempo de obtención de valor rápido. Para obtener más información, mira Cómo elegir entre GKE autoalojado y Vertex AI administrado para alojar modelos de IA. |
| Cloud Run | Una plataforma sin servidores para cargas de trabajo de inferencia alojadas en contenedores que se pueden escalar a cero. Funciona bien para aplicaciones basadas en eventos y para entregar modelos más pequeños de manera rentable. Para obtener un análisis comparativo detallado, consulta GKE y Cloud Run. |
Cómo GKE potencia las cargas de trabajo de IA/AA
GKE ofrece un conjunto de componentes especializados que simplifican y aceleran cada etapa del ciclo de vida de IA/AA, desde el entrenamiento a gran escala hasta la inferencia de baja latencia.
En la siguiente tabla, se resumen las funciones de GKE que admiten tus cargas de trabajo de IA/AA o tus objetivos operativos.
| Carga de trabajo u operación de IA/AA | Cómo te ayuda GKE | Características clave |
|---|---|---|
| Inferencia y entrega | Optimizado para entregar modelos de IA de forma elástica, con baja latencia, alta capacidad de procesamiento y rentabilidad. |
|
| Entrenamiento y ajuste | Proporciona las capacidades de escalamiento y organización necesarias para entrenar de manera eficiente modelos muy grandes y, al mismo tiempo, minimizar los costos. |
|
| Desarrollo unificado de IA/AA | Compatibilidad administrada con Ray, un framework de código abierto para escalar aplicaciones distribuidas de Python. |
|
¿Qué sigue?
Para explorar nuestras extensas colecciones de guías oficiales, instructivos y otros recursos para ejecutar cargas de trabajo de IA/AA en GKE, visita el portal de organización de IA/AA en GKE.
Obtén información sobre la inferencia de modelos de IA/AA en GKE.
Explora muestras experimentales para aprovechar GKE y acelerar tus iniciativas de IA/AA en GKE AI Labs.
Consulta los detalles de tus cargas de trabajo de IA/AA en Google Cloud console, incluidos los recursos como JobSets, RayJobs, PyTorchJobs y las implementaciones para la entrega de inferencia.