Para ayudarte a ejecutar cargas de trabajo de prueba de concepto (PdC) de IA/AA, en esta página, se proporciona una descripción general de los instructivos de AI Hypercomputer que describen el proceso completo de implementación de modelos de IA comunes en los productos de Google Cloud .
Estos instructivos están diseñados para ingenieros, investigadores, administradores y operadores de plataformas de aprendizaje automático (AA), y especialistas en datos y en IA. Para usar estos instructivos de manera eficaz, debes tener conocimientos básicos de los conceptos de aprendizaje automático y dominio de los servicios de Google Cloud . La experiencia en la implementación y administración de modelos de IA también te ayudará a comprender este contenido.
Categorías de instructivos
Los instructivos sobre cargas de trabajo de IA se organizan en las siguientes categorías:
- Ejecuta la inferencia con vLLM en GKE
- Ejecuta el ajuste
- Ejecuta el entrenamiento
Ejecuta la inferencia con vLLM en Google Kubernetes Engine
En estos instructivos, se describe cómo implementar y entregar modelos de lenguaje grandes (LLM) para la inferencia con el framework de entrega de vLLM en Google Kubernetes Engine (GKE). Aprenderás a usar las capacidades de organización de contenedores de GKE para cargas de trabajo de inferencia eficientes. En estos instructivos, se explica cómo acceder a los modelos con Hugging Face, configurar clústeres de GKE (por ejemplo, en modo Autopilot), controlar las credenciales y, luego, implementar contenedores de vLLM para interactuar con LLM como Gemma 3, Llama 4 y Qwen3.
Ejecuta el ajuste
En estos instructivos, se describe cómo ajustar LLMs para tareas específicas en variosGoogle Cloud tipos de clústeres, incluidos GKE y Slurm. Por ejemplo, puedes ajustar Gemma 3 en clústeres de GKE con varios nodos y varias GPUs (por ejemplo, con instancias de VM A4 con GPUs NVIDIA B200) y clústeres de Slurm. Crearás imágenes de VM personalizadas, configurarás redes RDMA y ejecutarás trabajos de ajuste distribuido con bibliotecas como Hugging Face Accelerate y FSDP. Algunos instructivos también abarcan el uso de frameworks como Ray para tareas relacionadas con la visión.
Ejecuta el entrenamiento
En estos instructivos, se describe cómo entrenar o preentrenar LLMs en clústeres de alto rendimiento. Por ejemplo, aprenderás a entrenar previamente modelos como Qwen2 en clústeres de Slurm con varios nodos y varias GPUs con máquinas virtuales A4. Implementas clústeres de Slurm con el kit de herramientas de clústeres Google Cloud , creas imágenes de VM personalizadas, configuras instancias compartidas de Filestore, configuras redes RDMA de alta velocidad y ejecutas trabajos de entrenamiento previo distribuidos con Hugging Face Accelerate.
¿Qué sigue?
Explora los instructivos de AI Hypercomputer:
- Usa vLLM en GKE para entregar la inferencia de Gemma 3 27B
- Ajusta Gemma 3 en un clúster de GKE con una GPU A4
- Entrena Qwen2 en un clúster de Slurm de A4
- Entrega Qwen2-72B con vLLM en TPUs