Documentación de la organización de IA/AA en GKE
Google Kubernetes Engine (GKE) proporciona una plataforma única y unificada para organizar todo tu ciclo de vida de IA/AA. Te brinda la potencia y la flexibilidad necesarias para potenciar tus cargas de trabajo de entrenamiento, inferencia y agentes, de modo que puedas optimizar tu infraestructura y comenzar a ofrecer resultados. Las capacidades de organización de vanguardia de GKE proporcionan lo siguiente:
- Aceleradores de hardware: Accede a las potentes GPU y TPU que necesitas, y adminístralas, tanto para el entrenamiento como para la inferencia, a gran escala.
- Flexibilidad de la pila: Se integra con los frameworks de procesamiento distribuido, procesamiento de datos y entrega de modelos que ya conoces y en los que confías.
- Simplicidad de Kubernetes administrado: Obtén todos los beneficios de una plataforma administrada para automatizar, escalar y mejorar la seguridad de todo tu ciclo de vida de IA/AA, sin dejar de ser flexible.
Explora nuestros blogs, instructivos y prácticas recomendadas para descubrir cómo GKE puede optimizar tus cargas de trabajo de IA/AA. Para obtener más información sobre los beneficios y las funciones disponibles, consulta la Introducción a las cargas de trabajo de IA/AA en GKE.
Comienza tu prueba de concepto con un crédito gratis de $300
- Acceso a Gemini 2.0 Flash Thinking
- Uso mensual gratuito de productos populares, incluidas las APIs de IA y BigQuery
- Sin cargos automáticos ni compromisos
Sigue explorando con más de 20 productos siempre gratuitos
Accede a más de 20 productos gratuitos para casos de uso comunes, incluidas APIs de IA, VMs, almacenes de datos y mucho más.
Recursos de documentación
Administra la infraestructura y los aceleradores de IA
- Concept
- Concept
- Concept
- Práctica recomendada
- Video
- Video
- Guía de inicio rápido
- Práctica recomendada
Entrena modelos de IA a gran escala
- Guía de inicio rápido
- Guía de inicio rápido
- Guía de inicio rápido
- Instructivo
- Instructivo
Entrega modelos de IA para la inferencia
- Práctica recomendada
- Concept
- Instructivo
- Instructivo
- Instructivo
- Instructivo
- Instructivo
- Instructivo
Recursos relacionados
Implementa una aplicación de IA con agentes en GKE con el kit de desarrollo de agentes (ADK) y un LLM autohospedado
Aprende a implementar y administrar una aplicación de IA basada en agentes y alojada en contenedores en GKE con el kit de desarrollo de agentes (ADK) y vLLM para la inferencia escalable con Llama 3.1.
Implementa una aplicación de IA con agentes en GKE con el Kit de desarrollo de agentes (ADK) y Vertex AI
Aprende a implementar y administrar una aplicación de IA basada en agentes y en contenedores en GKE con el Kit de desarrollo de agentes (ADK) y Vertex AI para la inferencia escalable con Gemini 2.0 Flash.
Entrega modelos de código abierto con TPUs en GKE con Optimum TPU
Aprende a implementar LLM con unidades de procesamiento tensorial (TPU) en GKE con el framework de entrega de Optimum TPU de Hugging Face.
Crea y usa un volumen respaldado por una instancia de Parallelstore en GKE
Obtén más información para crear almacenamiento respaldado por instancias de Parallelstore completamente administradas y acceder a ellas como volúmenes. El controlador de CSI está optimizado para cargas de trabajo de entrenamiento de IA/AA que involucran tamaños de archivo más pequeños y lecturas aleatorias.
Entrega LLMs en GKE con una estrategia de aprovisionamiento de GPU de alta disponibilidad y optimización de costos
Aprende a optimizar los costos de las cargas de trabajo de servicio de LLM en GKE con DWS Flex-start.
Entrega modelos de lenguaje grande con KubeRay en TPU
Aprende a entregar modelos de lenguaje grandes (LLM) con KubeRay en TPU y cómo esto puede ayudar a mejorar el rendimiento de tus modelos.
Acelera la carga de datos de IA/AA con Hyperdisk ML
Aprende a simplificar y acelerar la carga de pesos de modelos de IA/AA en GKE con Hyperdisk ML.
Entrega un LLM con TPU en GKE con JetStream y PyTorch
Aprende a entregar un LLM con unidades de procesamiento tensorial (TPU) en GKE con JetStream a través de PyTorch.
Prácticas recomendadas para optimizar la inferencia de LLM con GPUs en GKE
Conoce las prácticas recomendadas para optimizar el rendimiento de la inferencia de LLM con GPUs en GKE a través de los frameworks de entrega de vLLM y Text Generation Inference (TGI).
Administra la pila de GPU con el operador de GPU de NVIDIA en GKE
Aprende cuándo usar el operador de GPU de NVIDIA y cómo habilitarlo en GKE.
Configura el ajuste de escala automático para cargas de trabajo de LLM en TPU
Aprende a configurar tu infraestructura de ajuste de escala automático mediante Horizontal Pod Autoscaler (HPA) de GKE para implementar el LLM de Gemma con JetStream de un solo host.
Ajusta los modelos abiertos de Gemma con varias GPU en GKE
Aprende a ajustar el LLM de Gemma con GPUs en GKE con la biblioteca Transformers de Hugging Face.
Implementa una aplicación de Ray Serve con un modelo de difusión estable en GKE con TPU
Aprende a implementar y entregar un modelo de difusión estable en GKE con TPU, Ray Serve y el complemento Ray Operator.
Configura el ajuste de escala automático para cargas de trabajo de LLM en GPU con GKE
Aprende a configurar tu infraestructura de ajuste de escala automático con el Horizontal Pod Autoscaler (HPA) de GKE para implementar el LLM de Gemma con el framework de entrega de la interfaz de generación de texto (TGI) de Hugging Face.
Entrena Llama2 con Megatron-LM en máquinas virtuales A3 Mega
Aprende a ejecutar una carga de trabajo de PyTorch basada en contenedores Megatron-LM en A3 Mega.
Implementa cargas de trabajo de GPU en Autopilot
Aprende a solicitar aceleradores de hardware (GPU) en tus cargas de trabajo de GKE Autopilot.
Entrega un LLM con varias GPUs en GKE
Aprende a entregar Llama 2 70B o Falcon 40B con varias GPU NVIDIA L4 con GKE.
Comienza a usar Ray en GKE
Aprende a comenzar a usar Ray en GKE fácilmente mediante la ejecución de una carga de trabajo en un clúster de Ray.
Entrega un LLM en GPU L4 con Ray
Aprende a entregar Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b con el framework Ray en GKE.
Organiza cargas de trabajo de TPU de Multislice con JobSet y Kueue
Aprende a organizar una carga de trabajo de Jax en varias porciones de TPU en GKE con JobSet y Kueue.
Supervisa cargas de trabajo de GPU en GKE con el administrador de GPU de centro de datos (DCGM) de NVIDIA
Aprende a observar las cargas de trabajo de GPU en GKE con el administrador de GPU del centro de datos de NVIDIA (DCGM).
Guía de inicio rápido: Entrena un modelo con GPU en clústeres de GKE Standard
En esta guía de inicio rápido, se muestra cómo implementar un modelo de entrenamiento con GPU en GKE y almacenar las predicciones en Cloud Storage.
Ejecuta aprendizaje automático a gran escala en GKE
En este video, se muestra cómo GKE ayuda a resolver desafíos comunes de entrenar modelos de IA a gran escala y las prácticas recomendadas para entrenar y entregar modelos de aprendizaje automático a gran escala en GKE.
TensorFlow en Autopilot de GKE con aceleración de GPU
Esta entrada de blog es una guía paso a paso sobre la creación, ejecución y eliminación de un notebook de Jupiter habilitado para TensorFlow.
Implementa un sistema de colas de trabajos con uso compartido de cuotas entre espacios de nombres en GKE
En este instructivo, se usa Kueue para mostrarte cómo implementar un sistema de cola de trabajos y configurar el recurso de las cargas de trabajo y el uso compartido de cuotas entre diferentes espacios de nombres en GKE.
Crea un chatbot de RAG con GKE y Cloud Storage
En este instructivo, se muestra cómo integrar una aplicación de modelo de lenguaje grande basada en la generación mejorada por recuperación con archivos PDF que subes a un bucket de Cloud Storage.
Analiza datos en GKE con BigQuery, Cloud Run y Gemma
En este instructivo, se muestra cómo analizar grandes conjuntos de datos en GKE aprovechando BigQuery para el almacenamiento y procesamiento de datos, Cloud Run para el control de solicitudes y un LLM de Gemma para el análisis y las predicciones de datos.
Procesamiento previo de datos distribuidos con GKE y Ray: Escalamiento para la empresa
Aprende a aprovechar GKE y Ray para realizar el procesamiento previo de grandes conjuntos de datos de manera eficiente para el aprendizaje automático.
Prácticas recomendadas para la carga de datos para la inferencia de IA/AA en GKE
Aprende a acelerar los tiempos de carga de datos para tus aplicaciones de aprendizaje automático en Google Kubernetes Engine.
Ahorra en GPUs: Ajuste de escala automático más inteligente para tus cargas de trabajo de inferencia de GKE
Aprende a optimizar los costos de inferencia de la GPU ajustando el Horizontal Pod Autoscaler de GKE para obtener la máxima eficiencia.
Entrega modelos de IA optimizados de forma eficiente con microservicios de NVIDIA NIM en GKE
Aprende a implementar microservicios de NVIDIA NIM de vanguardia en GKE con facilidad y acelera tus cargas de trabajo de IA.
Acelera Ray en producción con el nuevo operador de Ray en GKE
Descubre cómo Ray Operator en GKE simplifica tus implementaciones de producción de IA/AA, lo que aumenta el rendimiento y la escalabilidad.
Maximiza el rendimiento de la entrega de LLM para GPUs en GKE: una guía práctica
Aprende a maximizar el rendimiento de la entrega de modelos de lenguaje grandes (LLM) para GPUs en GKE, incluidas las decisiones de infraestructura y las optimizaciones del servidor de modelos.
Prácticas recomendadas para ejecutar cargas de trabajo por lotes en GKE
Aprende a compilar y optimizar plataformas de procesamiento por lotes en GKE
Almacenamiento de IA/AA de alto rendimiento mediante la compatibilidad con SSD locales en GKE
Obtén más información para usar SSD locales y proporcionar almacenamiento de IA/AA de alto rendimiento en GKE.
Aprendizaje automático con JAX en Kubernetes con GPU de NVIDIA
Aprende a ejecutar aplicaciones de varios nodos y varias GPU de JAX en GKE con GPU de NVIDIA.
Motores de búsqueda simplificados: Un enfoque de poco código con GKE y Vertex AI Agent Builder
Cómo compilar un motor de búsqueda con Google Cloud, usando Vertex AI Agent Builder, Vertex AI Search y GKE
LiveX AI reduce los costos de asistencia al cliente con agentes de IA entrenados y publicados en GKE y NVIDIA AI
Cómo LiveX AI usa GKE para crear agentes de IA que mejoran la satisfacción del cliente y reducen los costos
Infraestructura para una aplicación de IA generativa compatible con RAG que usa GKE y Cloud SQL
Arquitectura de referencia para ejecutar una aplicación de IA generativa con generación mejorada por recuperación (RAG) con GKE, Cloud SQL, Ray, Hugging Face y LangChain.
Arquitectura de referencia para una plataforma de procesamiento por lotes en GKE
Arquitectura de referencia para una plataforma de procesamiento por lotes en GKE en modo estándar que usa Kueue para administrar las cuotas de recursos.
Innovación en búsqueda de patentes: cómo IPRally aprovecha la IA con GKE y Ray
Cómo IPRally usa GKE y Ray para compilar una plataforma de AA escalable y eficiente para realizar búsquedas de patentes más rápidas con mayor exactitud.
Análisis detallado del rendimiento de Gemma en Google Cloud
Aprovecha Gemma en las GPU de Cloud y Cloud TPU para la eficiencia de la inferencia y el entrenamiento en GKE.
Análisis detallado de Gemma en GKE: nuevas innovaciones para entregar modelos de IA generativa abiertos
Usa los mejores modelos abiertos de Gemma para compilar aplicaciones de IA portátiles y personalizables, y para implementarlas en GKE.
Programación avanzada para IA/AA con Ray y Kueue
Organiza aplicaciones de Ray en GKE con KubeRay y Kueue.
Cómo proteger Ray en Google Kubernetes Engine
Aplica estadísticas de seguridad y técnicas de endurecimiento para entrenar cargas de trabajo de IA y AA con Ray en GKE.
Diseña almacenamiento para cargas de trabajo de IA y AA en Google Cloud
Elige la mejor combinación de opciones de almacenamiento para cargas de trabajo de IA y AA en Google Cloud.
La instalación automática del controlador simplifica el uso de las GPU de NVIDIA en GKE
Instala automáticamente los controladores de GPU de Nvidia en GKE.
Acelera tu recorrido de IA generativa con el framework de NVIDIA NeMo en GKEE
Entrena modelos de IA generativa con el framework de GKE y NVIDIA NeMo.
¿Por qué GKE para tus cargas de trabajo de IA de Ray?
Mejora la escalabilidad, la rentabilidad, la tolerancia a errores, el aislamiento y la portabilidad con GKE para las cargas de trabajo de Ray.
Simplifica las MLOps con pesos y sesgos con Google Kubernetes Engine
Simplifica el proceso de desarrollo e implementación de modelos con Weights & Biases y GKE.
Ejecuta IA en GKE completamente administrado, ahora con nuevas opciones de procesamiento, precios y reservas de recursos
Obtén asistencia mejorada de GPU, rendimiento y precios más bajos para las cargas de trabajo de IA y AA con GKE Autopilot.
Cómo SEEN escaló el resultado 89 veces y redujo los costos de GPU en un 66% con GKE
Las startups escalan resultados de video personalizados con GKE.
Cómo Spotify impulsa la innovación en AA con Ray y GKE
Cómo Ray transforma el desarrollo del AA en Spotify.
Cómo Ordaōs Bio aprovecha la IA generativa en GKE
Ordaōs Bio, uno de los principales aceleradores de IA para la investigación y el descubrimiento en biomedicina, está hallando soluciones para inmunoterapias innovadoras de oncología y de inflamación crónica.
GKE desde un startup en crecimiento con tecnología del AA
Cómo Moloco, una startup de Silicon Valley, aprovechó el poder de GKE y Tensor Flow Enterprise para potenciar su infraestructura de aprendizaje automático (AA).
Mejora en 4 veces el tiempo de lanzamiento de la Stable Diffusion en GKE
Obtén información para mejorar el tiempo de lanzamiento de Stable Diffusion en GKE.
Muestras de Google Kubernetes Engine (GKE)
Consulta las aplicaciones de muestra que se usan en los instructivos oficiales del producto de GKE.
Muestras de GKE AI Labs
Consulta muestras experimentales para aprovechar GKE y acelerar tus iniciativas de IA/AA.
Plataformas aceleradas de GKE
Consulta arquitecturas de referencia y soluciones para implementar cargas de trabajo aceleradas en GKE.