Para ayudarte a ejecutar cargas de trabajo de IA/AA de prueba de concepto (POC), en esta página, se proporciona una descripción general de los instructivos de AI Hypercomputer que describen el proceso completo de implementación de modelos de IA comunes en Google Cloud productos.
Estos instructivos están diseñados para ingenieros de aprendizaje automático (AA), investigadores, administradores y operadores de plataformas, y especialistas en IA y datos. Para usar estos instructivos de manera eficaz, debes tener una comprensión básica de los conceptos de aprendizaje automático y dominio de los Google Cloud servicios. La experiencia en la implementación y administración de modelos de IA también te ayuda a comprender este contenido.
Categorías de instructivos
Los instructivos de cargas de trabajo de IA se organizan en las siguientes categorías:
Ejecuta la inferencia con vLLM en GKE
En estos instructivos, se describe cómo implementar y entregar modelos de lenguaje grandes (LLM) para la inferencia con el framework de entrega de vLLM en Google Kubernetes Engine (GKE). Aprenderás a usar las capacidades de organización de contenedores de GKE para cargas de trabajo de inferencia eficientes. En estos instructivos, se abarca el acceso a modelos con Hugging Face, la configuración de clústeres de GKE (por ejemplo, en el modo Autopilot), el manejo de credenciales y la implementación de contenedores de vLLM para la interacción con LLM como Gemma 3, Llama 4 y Qwen3.
Ejecuta el ajuste
En estos instructivos, se describe cómo ajustar LLM para tareas específicas en varios Google Cloud tipos de clústeres, incluidos GKE y Slurm. Por ejemplo, puedes ajustar Gemma 3 en clústeres de GKE de varios nodos y varias GPU (por ejemplo, con instancias de VM A4 con GPU NVIDIA B200 ) y clústeres de Slurm. Crearás imágenes de VM personalizadas, configurarás redes RDMA y ejecutarás trabajos de ajuste distribuido con bibliotecas como Hugging Face Accelerate y FSDP. Algunos instructivos también abarcan el uso de frameworks como Ray para tareas relacionadas con la visión.
Ejecuta el entrenamiento
En estos instructivos, se describe cómo entrenar o preentrenar LLM en clústeres de alto rendimiento. Por ejemplo, aprenderás a preentrenar modelos como Qwen2 en clústeres de Slurm de varios nodos y varias GPU con máquinas virtuales A4. Implementarás clústeres de Slurm con el Google Cloud Cluster Toolkit, crearás imágenes de VM personalizadas , configurarás instancias compartidas de Filestore, configurarás redes RDMA de alta velocidad y ejecutarás trabajos de preentrenamiento distribuido con Hugging Face Accelerate.
¿Qué sigue?
Explora los instructivos de AI Hypercomputer:
- Usa vLLM en GKE para entregar la inferencia de Gemma 3 27B
- Ajusta Gemma 3 en un clúster de GKE A4
- Entrena Qwen2 en un clúster de Slurm A4
- Entrega Qwen2-72B con vLLM en TPU