Documentación de la organización de IA/AA en GKE

Google Kubernetes Engine (GKE) proporciona una plataforma única y unificada para organizar todo tu ciclo de vida de IA/AA. Te brinda la potencia y la flexibilidad necesarias para potenciar tus cargas de trabajo de entrenamiento, inferencia y agentes, de modo que puedas optimizar tu infraestructura y comenzar a ofrecer resultados. Las capacidades de organización de vanguardia de GKE proporcionan lo siguiente:

  • Aceleradores de hardware: Accede a las potentes GPU y TPU que necesitas, y adminístralas, tanto para el entrenamiento como para la inferencia, a gran escala.
  • Flexibilidad de la pila: Se integra con los frameworks de procesamiento distribuido, procesamiento de datos y entrega de modelos que ya conoces y en los que confías.
  • Simplicidad de Kubernetes administrado: Obtén todos los beneficios de una plataforma administrada para automatizar, escalar y mejorar la seguridad de todo tu ciclo de vida de IA/AA, sin dejar de ser flexible.

Explora nuestros blogs, instructivos y prácticas recomendadas para descubrir cómo GKE puede optimizar tus cargas de trabajo de IA/AA. Para obtener más información sobre los beneficios y las funciones disponibles, consulta la Introducción a las cargas de trabajo de IA/AA en GKE.

  • Acceso a Gemini 2.0 Flash Thinking
  • Uso mensual gratuito de productos populares, incluidas las APIs de IA y BigQuery
  • Sin cargos automáticos ni compromisos

Sigue explorando con más de 20 productos siempre gratuitos

Accede a más de 20 productos gratuitos para casos de uso comunes, incluidas APIs de IA, VMs, almacenes de datos y mucho más.

Recursos de documentación

Encuentra guías de inicio rápido y otras guías, revisa las referencias clave y obtén ayuda con problemas habituales.
Explora la capacitación de autoaprendizaje, los casos de uso, las arquitecturas de referencia y las muestras de código con ejemplos de cómo usar y conectar los Google Cloud servicios.
Capacitación
Instructivos y entrenamiento

Aprende a implementar y administrar una aplicación de IA basada en agentes y alojada en contenedores en GKE con el kit de desarrollo de agentes (ADK) y vLLM para la inferencia escalable con Llama 3.1.

Tutorial Inferencia de IA/AA IA agentiva

Capacitación
Instructivos y entrenamiento

Aprende a implementar y administrar una aplicación de IA basada en agentes y en contenedores en GKE con el Kit de desarrollo de agentes (ADK) y Vertex AI para la inferencia escalable con Gemini 2.0 Flash.

Tutorial Inferencia de IA/AA IA agentiva

Capacitación
Instructivos y entrenamiento

Aprende a implementar LLM con unidades de procesamiento tensorial (TPU) en GKE con el framework de entrega de Optimum TPU de Hugging Face.

Tutorial Inferencia de IA/AA TPU

Capacitación
Instructivos y entrenamiento

Obtén más información para crear almacenamiento respaldado por instancias de Parallelstore completamente administradas y acceder a ellas como volúmenes. El controlador de CSI está optimizado para cargas de trabajo de entrenamiento de IA/AA que involucran tamaños de archivo más pequeños y lecturas aleatorias.

Instructivo Carga de datos de IA/AA

Capacitación
Instructivos y entrenamiento

Aprende a optimizar los costos de las cargas de trabajo de servicio de LLM en GKE con DWS Flex-start.

Optimización de costos GPU DWS

Capacitación
Instructivos y entrenamiento

Aprende a entregar modelos de lenguaje grandes (LLM) con KubeRay en TPU y cómo esto puede ayudar a mejorar el rendimiento de tus modelos.

Video Ray TPUs

Capacitación
Instructivos y entrenamiento

Aprende a simplificar y acelerar la carga de pesos de modelos de IA/AA en GKE con Hyperdisk ML.

Instructivo Carga de datos de IA/AA

Capacitación
Instructivos y entrenamiento

Aprende a entregar un LLM con unidades de procesamiento tensorial (TPU) en GKE con JetStream a través de PyTorch.

Tutorial AI/ML Inference TPUs

Capacitación
Instructivos y entrenamiento

Conoce las prácticas recomendadas para optimizar el rendimiento de la inferencia de LLM con GPUs en GKE a través de los frameworks de entrega de vLLM y Text Generation Inference (TGI).

Tutorial Inferencia de IA/AA GPUs

Capacitación
Instructivos y entrenamiento

Aprende cuándo usar el operador de GPU de NVIDIA y cómo habilitarlo en GKE.

Instructivo GPU

Capacitación
Instructivos y entrenamiento

Aprende a configurar tu infraestructura de ajuste de escala automático mediante Horizontal Pod Autoscaler (HPA) de GKE para implementar el LLM de Gemma con JetStream de un solo host.

Instructivo TPUs

Capacitación
Instructivos y entrenamiento

Aprende a ajustar el LLM de Gemma con GPUs en GKE con la biblioteca Transformers de Hugging Face.

Tutorial Inferencia de IA/AA GPUs

Capacitación
Instructivos y entrenamiento

Aprende a implementar y entregar un modelo de difusión estable en GKE con TPU, Ray Serve y el complemento Ray Operator.

Tutorial Inferencia de IA/AA Ray TPUs

Capacitación
Instructivos y entrenamiento

Aprende a configurar tu infraestructura de ajuste de escala automático con el Horizontal Pod Autoscaler (HPA) de GKE para implementar el LLM de Gemma con el framework de entrega de la interfaz de generación de texto (TGI) de Hugging Face.

Instructivo GPU

Capacitación
Instructivos y entrenamiento

Aprende a ejecutar una carga de trabajo de PyTorch basada en contenedores Megatron-LM en A3 Mega.

Tutorial AI/ML Training GPUs

Capacitación
Instructivos y entrenamiento

Aprende a solicitar aceleradores de hardware (GPU) en tus cargas de trabajo de GKE Autopilot.

Instructivo GPU

Capacitación
Instructivos y entrenamiento

Aprende a entregar Llama 2 70B o Falcon 40B con varias GPU NVIDIA L4 con GKE.

Tutorial Inferencia de IA/AA GPUs

Capacitación
Instructivos y entrenamiento

Aprende a comenzar a usar Ray en GKE fácilmente mediante la ejecución de una carga de trabajo en un clúster de Ray.

Instructivo Ray

Capacitación
Instructivos y entrenamiento

Aprende a entregar Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b con el framework Ray en GKE.

Tutorial Inferencia de IA/AA Ray GPUs

Capacitación
Instructivos y entrenamiento

Aprende a organizar una carga de trabajo de Jax en varias porciones de TPU en GKE con JobSet y Kueue.

Instructivo TPUs

Capacitación
Instructivos y entrenamiento

Aprende a observar las cargas de trabajo de GPU en GKE con el administrador de GPU del centro de datos de NVIDIA (DCGM).

Tutorial Observabilidad de IA/AA GPUs

Capacitación
Instructivos y entrenamiento

En esta guía de inicio rápido, se muestra cómo implementar un modelo de entrenamiento con GPU en GKE y almacenar las predicciones en Cloud Storage.

Tutorial AI/ML Training GPUs

Capacitación
Instructivos y entrenamiento

En este video, se muestra cómo GKE ayuda a resolver desafíos comunes de entrenar modelos de IA a gran escala y las prácticas recomendadas para entrenar y entregar modelos de aprendizaje automático a gran escala en GKE.

Video AI/ML Training AI/ML Inference

Capacitación
Instructivos y entrenamiento

Esta entrada de blog es una guía paso a paso sobre la creación, ejecución y eliminación de un notebook de Jupiter habilitado para TensorFlow.

Blog AI/ML Training AI ML Inference GPUs

Capacitación
Instructivos y entrenamiento

En este instructivo, se usa Kueue para mostrarte cómo implementar un sistema de cola de trabajos y configurar el recurso de las cargas de trabajo y el uso compartido de cuotas entre diferentes espacios de nombres en GKE.

Tutorial AI/ML Batch

Capacitación
Instructivos y entrenamiento

En este instructivo, se muestra cómo integrar una aplicación de modelo de lenguaje grande basada en la generación mejorada por recuperación con archivos PDF que subes a un bucket de Cloud Storage.

Instructivo Carga de datos de IA/AA

Capacitación
Instructivos y entrenamiento

En este instructivo, se muestra cómo analizar grandes conjuntos de datos en GKE aprovechando BigQuery para el almacenamiento y procesamiento de datos, Cloud Run para el control de solicitudes y un LLM de Gemma para el análisis y las predicciones de datos.

Instructivo Carga de datos de IA/AA

Caso de uso
Casos de uso

Aprende a aprovechar GKE y Ray para realizar el procesamiento previo de grandes conjuntos de datos de manera eficiente para el aprendizaje automático.

MLOps Entrenamiento Ray

Caso de uso
Casos de uso

Aprende a acelerar los tiempos de carga de datos para tus aplicaciones de aprendizaje automático en Google Kubernetes Engine.

Inferencia Hyperdisk ML Cloud Storage FUSE

Caso de uso
Casos de uso

Aprende a optimizar los costos de inferencia de la GPU ajustando el Horizontal Pod Autoscaler de GKE para obtener la máxima eficiencia.

Inferencia GPU HPA

Caso de uso
Casos de uso

Aprende a implementar microservicios de NVIDIA NIM de vanguardia en GKE con facilidad y acelera tus cargas de trabajo de IA.

IA NVIDIA NIM

Caso de uso
Casos de uso

Descubre cómo Ray Operator en GKE simplifica tus implementaciones de producción de IA/AA, lo que aumenta el rendimiento y la escalabilidad.

IA TPU Ray

Caso de uso
Casos de uso

Aprende a maximizar el rendimiento de la entrega de modelos de lenguaje grandes (LLM) para GPUs en GKE, incluidas las decisiones de infraestructura y las optimizaciones del servidor de modelos.

LLM GPU NVIDIA

Caso de uso
Casos de uso

Aprende a compilar y optimizar plataformas de procesamiento por lotes en GKE

Lotes Rendimiento Optimización de costos

Caso de uso
Casos de uso

Obtén más información para usar SSD locales y proporcionar almacenamiento de IA/AA de alto rendimiento en GKE.

IA NVMe SSD local

Caso de uso
Casos de uso

Aprende a ejecutar aplicaciones de varios nodos y varias GPU de JAX en GKE con GPU de NVIDIA.

GPUs JAX AA

Caso de uso
Casos de uso

Cómo compilar un motor de búsqueda con Google Cloud, usando Vertex AI Agent Builder, Vertex AI Search y GKE

Search Agent Vertex AI

Caso de uso
Casos de uso

Cómo LiveX AI usa GKE para crear agentes de IA que mejoran la satisfacción del cliente y reducen los costos

IA Generativa NVIDIA GPU

Caso de uso
Casos de uso

Arquitectura de referencia para ejecutar una aplicación de IA generativa con generación mejorada por recuperación (RAG) con GKE, Cloud SQL, Ray, Hugging Face y LangChain.

IA Generativa RAG Ray

Caso de uso
Casos de uso

Arquitectura de referencia para una plataforma de procesamiento por lotes en GKE en modo estándar que usa Kueue para administrar las cuotas de recursos.

IA Kueue Batch

Caso de uso
Casos de uso

Cómo IPRally usa GKE y Ray para compilar una plataforma de AA escalable y eficiente para realizar búsquedas de patentes más rápidas con mayor exactitud.

IA Ray GPU

Caso de uso
Casos de uso

Aprovecha Gemma en las GPU de Cloud y Cloud TPU para la eficiencia de la inferencia y el entrenamiento en GKE.

IA Gemma Rendimiento

Caso de uso
Casos de uso

Usa los mejores modelos abiertos de Gemma para compilar aplicaciones de IA portátiles y personalizables, y para implementarlas en GKE.

IA Gemma Rendimiento

Caso de uso
Casos de uso

Organiza aplicaciones de Ray en GKE con KubeRay y Kueue.

Kueue Ray KubeRay

Caso de uso
Casos de uso

Aplica estadísticas de seguridad y técnicas de endurecimiento para entrenar cargas de trabajo de IA y AA con Ray en GKE.

IA Ray Seguridad

Caso de uso
Casos de uso

Elige la mejor combinación de opciones de almacenamiento para cargas de trabajo de IA y AA en Google Cloud.

IA AA Almacenamiento

Caso de uso
Casos de uso

Instala automáticamente los controladores de GPU de Nvidia en GKE.

GPU NVIDIA Instalación

Caso de uso
Casos de uso

Entrena modelos de IA generativa con el framework de GKE y NVIDIA NeMo.

IA Generativa NVIDIA NeMo

Caso de uso
Casos de uso

Mejora la escalabilidad, la rentabilidad, la tolerancia a errores, el aislamiento y la portabilidad con GKE para las cargas de trabajo de Ray.

IA Ray Escala

Caso de uso
Casos de uso

Simplifica el proceso de desarrollo e implementación de modelos con Weights & Biases y GKE.

Optimización de costos TPUs GPUs

Caso de uso
Casos de uso

Obtén asistencia mejorada de GPU, rendimiento y precios más bajos para las cargas de trabajo de IA y AA con GKE Autopilot.

GPU Autopilot Rendimiento

Caso de uso
Casos de uso

Las startups escalan resultados de video personalizados con GKE.

GPU Escala Contenedores

Caso de uso
Casos de uso

Cómo Ray transforma el desarrollo del AA en Spotify.

AA Ray Contenedores

Caso de uso
Casos de uso

Ordaōs Bio, uno de los principales aceleradores de IA para la investigación y el descubrimiento en biomedicina, está hallando soluciones para inmunoterapias innovadoras de oncología y de inflamación crónica.

Rendimiento TPU Optimización de costos

Caso de uso
Casos de uso

Cómo Moloco, una startup de Silicon Valley, aprovechó el poder de GKE y Tensor Flow Enterprise para potenciar su infraestructura de aprendizaje automático (AA).

AA Escala Optimización de costos

Caso de uso
Casos de uso

Obtén información para mejorar el tiempo de lanzamiento de Stable Diffusion en GKE.

Rendimiento Escalamiento PD

Muestra de código
Muestras de código

Consulta las aplicaciones de muestra que se usan en los instructivos oficiales del producto de GKE.

Muestra de código
Muestras de código

Consulta muestras experimentales para aprovechar GKE y acelerar tus iniciativas de IA/AA.

Muestra de código
Muestras de código

Consulta arquitecturas de referencia y soluciones para implementar cargas de trabajo aceleradas en GKE.

Videos relacionados