Documentación sobre la orquestación de IA y aprendizaje automático en GKE

Google Kubernetes Engine (GKE) proporciona una plataforma única y unificada para orquestar todo el ciclo de vida de la IA y el aprendizaje automático. Te ofrece la potencia y la flexibilidad necesarias para optimizar tus cargas de trabajo de entrenamiento, inferencia y agentes, de modo que puedas simplificar tu infraestructura y empezar a obtener resultados. Las funciones de orquestación de vanguardia de GKE ofrecen lo siguiente:

  • Aceleradores de hardware: accede y gestiona las GPUs y TPUs de alto rendimiento que necesites para el entrenamiento y la inferencia a gran escala.
  • Flexibilidad de la pila: intégrala con los frameworks de computación distribuida, procesamiento de datos y servicio de modelos que ya conoces y en los que confías.
  • Simplicidad de Kubernetes gestionado: disfruta de todas las ventajas de una plataforma gestionada para automatizar, escalar y mejorar la seguridad de todo tu ciclo de vida de IA y aprendizaje automático, sin perder flexibilidad.

Consulta nuestros blogs, tutoriales y prácticas recomendadas para ver cómo puede optimizar GKE tus cargas de trabajo de IA y aprendizaje automático. Para obtener más información sobre las ventajas y las funciones disponibles, consulta la introducción a las cargas de trabajo de IA y aprendizaje automático en GKE.

  • Acceder a Gemini 2.0 Flash Thinking
  • Uso mensual gratuito de productos populares, como las APIs de IA y BigQuery
  • Sin cargos automáticos ni permanencia

Sigue explorando con más de 20 productos Always Free

Accede a más de 20 productos gratuitos para casos prácticos habituales, como APIs de IA, máquinas virtuales, almacenes de datos y más.

Recursos de documentación

Consulta guías de inicio rápido, revisa referencias clave y obtén ayuda con problemas habituales.
Descubre formación a tu ritmo, casos prácticos, arquitecturas de referencia y ejemplos de código sobre cómo usar y conectar Google Cloud servicios.
Formación
Formación y tutoriales

Aprende a desplegar y gestionar una aplicación de IA de agente en contenedores en GKE mediante Agent Development Kit (ADK) y vLLM para realizar inferencias escalables con Llama 3.1.

Tutorial Inferencia de IA/ML IA de agente

Formación
Formación y tutoriales

Aprende a desplegar y gestionar una aplicación de IA de agente en contenedores en GKE con Agent Development Kit (ADK) y Vertex AI para realizar inferencias escalables con Gemini 2.0 Flash.

Tutorial Inferencia de IA/ML IA de agente

Formación
Formación y tutoriales

Aprende a desplegar LLMs mediante unidades de procesamiento de tensor (TPUs) en GKE con el framework de servicio Optimum TPU de Hugging Face.

Tutorial Inferencia de IA/ML TPU

Formación
Formación y tutoriales

Aprende a crear almacenamiento respaldado por instancias de Parallelstore totalmente gestionadas y a acceder a ellas como volúmenes. El controlador de CSI está optimizado para cargas de trabajo de entrenamiento de IA o de aprendizaje automático que implican archivos de menor tamaño y lecturas aleatorias.

Tutorial Carga de datos de IA/ML

Formación
Formación y tutoriales

Descubre cómo optimizar los costes de las cargas de trabajo de servicios de LLMs en GKE mediante DWS Flex-start.

Optimización de costes GPU DWS

Formación
Formación y tutoriales

Descubre cómo usar KubeRay en TPUs para ofrecer modelos de lenguaje extenso (LLMs) y cómo puede ayudarte a mejorar el rendimiento de tus modelos.

Vídeo Ray TPUs

Formación
Formación y tutoriales

Descubre cómo simplificar y acelerar la carga de pesos de modelos de IA y aprendizaje automático en GKE con Hyperdisk ML.

Tutorial Carga de datos de IA/ML

Formación
Formación y tutoriales

Aprende a servir un LLM mediante unidades de procesamiento de tensor (TPUs) en GKE con JetStream a través de PyTorch.

Tutorial Inferencia de IA/ML TPUs

Formación
Formación y tutoriales

Descubre las prácticas recomendadas para optimizar el rendimiento de la inferencia de LLMs con GPUs en GKE mediante los frameworks de servicio vLLM y Text Generation Inference (TGI).

Tutorial Inferencia de IA/ML GPUs

Formación
Formación y tutoriales

Descubre cuándo usar el operador de GPU NVIDIA y cómo habilitarlo en GKE.

Tutorial GPUs

Formación
Formación y tutoriales

Aprende a configurar tu infraestructura de autoescalado usando el autoescalador horizontal de pods (HPA) de GKE para desplegar el modelo LLM de Gemma con JetStream de un solo host.

Tutorial TPUs

Formación
Formación y tutoriales

Aprende a afinar el LLM Gemma con GPUs en GKE mediante la biblioteca Transformers de Hugging Face.

Tutorial Inferencia de IA/ML GPUs

Formación
Formación y tutoriales

Aprende a desplegar y servir un modelo de Stable Diffusion en GKE con TPUs, Ray Serve y el complemento Ray Operator.

Tutorial Inferencia de IA/AA Ray TPUs

Formación
Formación y tutoriales

Aprende a configurar tu infraestructura de autoescalado usando el autoescalador horizontal de pods (HPA) de GKE para desplegar el LLM Gemma con el framework de servicio de la interfaz de generación de texto (TGI) de Hugging Face.

Tutorial GPUs

Formación
Formación y tutoriales

Consulta cómo ejecutar una carga de trabajo de PyTorch de Megatron-LM basada en contenedores en A3 Mega.

Tutorial Entrenamiento de IA o AA GPUs

Formación
Formación y tutoriales

Descubre cómo solicitar aceleradores por hardware (GPUs) en tus cargas de trabajo de Autopilot de GKE.

Tutorial GPUs

Formación
Formación y tutoriales

Aprende a servir Llama 2 70B o Falcon 40B usando varias GPUs NVIDIA L4 con GKE.

Tutorial Inferencia de IA/ML GPUs

Formación
Formación y tutoriales

Descubre cómo empezar a usar Ray en GKE fácilmente ejecutando una carga de trabajo en un clúster de Ray.

Tutorial Ray

Formación
Formación y tutoriales

Aprende a servir Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b con el framework Ray en GKE.

Tutorial Inferencia de IA/ML Ray GPUs

Formación
Formación y tutoriales

Aprende a orquestar una carga de trabajo de Jax en varios sectores de TPU en GKE mediante JobSet y Kueue.

Tutorial TPUs

Formación
Formación y tutoriales

Consulta cómo monitorizar cargas de trabajo de GPU en GKE con NVIDIA Data Center GPU Manager (DCGM).

Tutorial Observabilidad basada en IA y aprendizaje automático GPUs

Formación
Formación y tutoriales

En esta guía de inicio rápido se muestra cómo desplegar un modelo de entrenamiento con GPUs en GKE y almacenar las predicciones en Cloud Storage.

Tutorial Entrenamiento de IA o AA GPUs

Formación
Formación y tutoriales

En este vídeo se muestra cómo ayuda GKE a resolver los problemas habituales del entrenamiento de modelos de IA grandes a gran escala y las prácticas recomendadas para entrenar y servir modelos de aprendizaje automático a gran escala en GKE.

Vídeo Entrenamiento de IA/ML Inferencia de IA/ML

Formación
Formación y tutoriales

En esta entrada de blog se explica paso a paso cómo crear, ejecutar y eliminar un cuaderno de Jupiter habilitado para TensorFlow.

Blog Entrenamiento de IA/ML Inferencia de IA/ML GPUs

Formación
Formación y tutoriales

En este tutorial se usa Kueue para mostrarte cómo implementar un sistema de colas de trabajos y configurar el uso compartido de recursos y cuotas de cargas de trabajo entre diferentes espacios de nombres en GKE.

Tutorial Lote de IA o AA

Formación
Formación y tutoriales

En este tutorial se explica cómo integrar una aplicación de modelo de lenguaje extenso basada en la generación aumentada por recuperación con archivos PDF que subas a un segmento de Cloud Storage.

Tutorial Carga de datos de IA/ML

Formación
Formación y tutoriales

En este tutorial se muestra cómo analizar grandes conjuntos de datos en GKE aprovechando BigQuery para el almacenamiento y el procesamiento de datos, Cloud Run para la gestión de solicitudes y un LLM de Gemma para el análisis de datos y las predicciones.

Tutorial Carga de datos de IA/ML

Uso
Casos prácticos

Descubre cómo aprovechar GKE y Ray para preprocesar de forma eficiente grandes conjuntos de datos para el aprendizaje automático.

MLOps Entrenamiento Ray

Uso
Casos prácticos

Descubre cómo acelerar los tiempos de carga de datos de tus aplicaciones de aprendizaje automático en Google Kubernetes Engine.

Inferencia Hyperdisk ML Cloud Storage FUSE

Uso
Casos prácticos

Descubre cómo optimizar los costes de inferencia de la GPU ajustando el escalado automático horizontal de pods de GKE para conseguir la máxima eficiencia.

Inferencia GPU HPA

Uso
Casos prácticos

Descubre cómo desplegar microservicios de NVIDIA NIM de vanguardia en GKE fácilmente y acelerar tus cargas de trabajo de IA.

IA NVIDIA NIM

Uso
Casos prácticos

Descubre cómo Ray Operator en GKE simplifica las implementaciones de producción de IA y aprendizaje automático, lo que mejora el rendimiento y la escalabilidad.

IA TPU Ray

Uso
Casos prácticos

Descubre cómo maximizar el rendimiento del servicio de modelos de lenguaje extensos (LLMs) para GPUs en GKE, incluidas las decisiones de infraestructura y las optimizaciones del servidor de modelos.

LLM GPU NVIDIA

Uso
Casos prácticos

Aprende a crear y optimizar plataformas de procesamiento por lotes en GKE

Lotes Rendimiento Optimización de costes

Uso
Casos prácticos

Consulta cómo usar las SSD locales para proporcionar almacenamiento de alto rendimiento para IA y aprendizaje automático en GKE.

IA NVMe SSD local

Uso
Casos prácticos

Descubre cómo ejecutar aplicaciones de varios nodos y varias GPUs de JAX en GKE con GPUs de NVIDIA.

GPUs JAX Aprendizaje automático

Uso
Casos prácticos

Cómo crear un buscador con Google Cloud usando Vertex AI Agent Builder, Vertex AI Search y GKE.

Búsqueda Agente Vertex AI

Uso
Casos prácticos

Cómo usa LiveX AI GKE para crear agentes de IA que mejoran la satisfacción de los clientes y reducen los costes.

IA generativa NVIDIA GPU

Uso
Casos prácticos

Arquitectura de referencia para ejecutar una aplicación de IA generativa con generación aumentada por recuperación (RAG) mediante GKE, Cloud SQL, Ray, Hugging Face y LangChain.

IA generativa RAG Ray

Uso
Casos prácticos

Arquitectura de referencia de una plataforma de procesamiento por lotes en GKE en modo estándar que usa Kueue para gestionar las cuotas de recursos.

IA Kueue Batch

Uso
Casos prácticos

Cómo usa IPRally GKE y Ray para crear una plataforma de aprendizaje automático escalable y eficiente que permita realizar búsquedas de patentes más rápidas y precisas.

IA Ray GPU

Uso
Casos prácticos

Aprovecha Gemma en las GPUs y las TPUs de Cloud para mejorar la eficiencia de la inferencia y el entrenamiento en GKE.

IA Gemma Rendimiento

Uso
Casos prácticos

Usa los mejores modelos abiertos de Gemma para crear aplicaciones de IA portátiles y personalizables, y despliégalas en GKE.

IA Gemma Rendimiento

Uso
Casos prácticos

Orquesta aplicaciones de Ray en GKE con KubeRay y Kueue.

Kueue Ray KubeRay

Uso
Casos prácticos

Aplica estadísticas de seguridad y técnicas de protección para entrenar cargas de trabajo de IA y aprendizaje automático con Ray en GKE.

IA Ray Seguridad

Uso
Casos prácticos

Selecciona la mejor combinación de opciones de almacenamiento para cargas de trabajo de IA y aprendizaje automático en Google Cloud.

IA Aprendizaje automático Almacenamiento

Uso
Casos prácticos

Instala automáticamente los controladores de GPU Nvidia en GKE.

GPU NVIDIA Instalación

Uso
Casos prácticos

Entrena modelos de IA generativa con GKE y el framework NVIDIA NeMo.

IA generativa NVIDIA NeMo

Uso
Casos prácticos

Mejora la escalabilidad, la rentabilidad, la tolerancia a fallos, el aislamiento y la portabilidad usando GKE para las cargas de trabajo de Ray.

IA Ray Escala

Uso
Casos prácticos

Simplifica el proceso de desarrollo y despliegue de modelos con Weights & Biases y GKE.

Optimización de costes TPUs GPUs

Uso
Casos prácticos

Mejora la compatibilidad con GPUs, el rendimiento y los precios de las cargas de trabajo de IA y aprendizaje automático con Autopilot de GKE.

GPU Autopilot Rendimiento

Uso
Casos prácticos

Una startup escala la salida de vídeo personalizada con GKE.

GPU Escala Contenedores

Uso
Casos prácticos

Cómo está transformando Ray el desarrollo de aprendizaje automático en Spotify.

Aprendizaje automático Ray Contenedores

Uso
Casos prácticos

Ordaōs Bio, una de las principales aceleradoras de IA para la investigación y el descubrimiento biomédicos, está encontrando soluciones para nuevas inmunoterapias en oncología y enfermedades inflamatorias crónicas.

Rendimiento TPU Optimización de costes

Uso
Casos prácticos

Descubre cómo Moloco, una startup de Silicon Valley, aprovechó la potencia de GKE y TensorFlow Enterprise para optimizar su infraestructura de aprendizaje automático (ML).

Aprendizaje automático Escalabilidad Optimización de costes

Uso
Casos prácticos

Aprende a mejorar el tiempo de inicio de Stable Diffusion en GKE.

Rendimiento Escalado PD

Ejemplo de código
Códigos de ejemplo

Consulta las aplicaciones de ejemplo que se usan en los tutoriales oficiales de productos de GKE.

Ejemplo de código
Códigos de ejemplo

Consulta ejemplos experimentales para aprovechar GKE y acelerar tus iniciativas de IA y aprendizaje automático.

Ejemplo de código
Códigos de ejemplo

Consulta arquitecturas de referencia y soluciones para desplegar cargas de trabajo aceleradas en GKE.

Vídeos relacionados