Capacitación
-
Entrena Llama 3-8B con JAX, Ray y GKE en Trillium
Realiza el entrenamiento distribuido del modelo Llama 3-8B en GKE con JAX, Ray Train y TPU v6e (Trillium) con MaxText para un escalamiento optimizado de varios hosts.
-
Entrena previamente Llama 3.1-70B con clústeres de GKE en Ironwood
Entrena el modelo Llama 3.1-70B en TPU7x (Ironwood) con el framework de MaxText.
-
Entrenamiento previo de DeepSeek 3-671B con clústeres de GKE en Ironwood
Entrena el modelo DeepSeek 3-671B en TPU7x con recetas optimizadas para arquitecturas de mezcla de expertos (MoE) a gran escala.
-
Entrenamiento previo de GPT OSS-120B con clústeres de GKE en Ironwood
Entrena el modelo de razonamiento GPT OSS-120B en TPU7x con recetas optimizadas para el entrenamiento distribuido a gran escala.
-
Entrenamiento previo de Qwen 3-235B con clústeres de GKE en Ironwood
Entrena el modelo Qwen 3-235B-A22B MoE en TPU7x con recetas optimizadas para un razonamiento de alto rendimiento.
-
Entrenamiento previo de Wan 2.1-14B con clústeres de GKE en Ironwood
Entrena el modelo de generación de video Wan 2.1-14B en TPU7x con recetas optimizadas para la síntesis de video de alto rendimiento.
-
Entrenamiento previo de GPT3-175B con clústeres de GKE en Trillium
Entrena el modelo GPT3-175B en la TPU v6e con MaxText y recetas optimizadas para obtener un rendimiento rentable y a gran escala.
-
Entrenamiento previo de Gemma3-12B con clústeres de GKE en Trillium
Entrena el modelo Gemma3-12B en la TPU v6e con MaxText y recetas optimizadas para el desarrollo de modelos abiertos de alto rendimiento.
-
Entrenamiento previo de Llama 3.1-70B con clústeres de GKE en Trillium
Entrena Llama 3.1-70B en TPU v6e con MaxText y recetas optimizadas para el entrenamiento de modelos a gran escala y de alto rendimiento.
-
Entrena previamente Llama 3.1-8B con clústeres de GKE en Trillium
Entrena Llama 3.1-8B con MaxText en la TPU v6e con esta receta optimizada para el entrenamiento previo escalable y de alto rendimiento.
-
Entrenamiento previo de Mixtral-8x22B con clústeres de GKE en Trillium
Entrena Mixtral-8x22B en TPU v6e con MaxText para obtener un rendimiento y una eficiencia optimizados.
-
Entrenamiento previo de Mixtral-8x7B con clústeres de GKE en Trillium
Entrena Mixtral-8x7B con MaxText en TPU v6e con configuraciones optimizadas para un rendimiento de MoE de alto rendimiento en Google Cloud.
-
Entrenamiento previo de DeepSeek 3-671B con clústeres de GKE en v5p
Entrena e implementa el modelo DeepSeek 3-671B en la TPU v5p con MaxText para obtener un rendimiento optimizado a gran escala.
-
Entrenamiento previo de GPT3-175B con clústeres de GKE en v5p
Entrena el modelo GPT3-175B en la TPU v5p con MaxText y configuraciones optimizadas para el entrenamiento distribuido a gran escala.
-
Entrenamiento previo de Mixtral-8x7B con clústeres de GKE en v5p
Entrena Mixtral-8x7B en TPU v5p con MaxText y configuraciones optimizadas para cargas de trabajo de MoE de alto rendimiento.
-
Entrenamiento previo de SDXL con clústeres de GKE en v5p
Entrena y escala Stable Diffusion XL (SDXL) en TPU v5p con MaxDiffusion para cargas de trabajo de IA generativa de alto rendimiento.
Inferencia
-
Entrega Llama 3.1-70B con GKE y vLLM en Trillium
Entrega LLMs en GKE con TPU v6e y vLLM, con ajuste de escala automático optimizado y entrega de modelos de alto rendimiento en Google Cloud.
-
Entrega LLMs con GKE y KubeRay
Entrega un LLM con TPU en GKE con el complemento del operador de Ray y el framework de entrega de vLLM.
-
Entrega LLMs abiertos con GKE y Terraform
Aprovisiona un entorno de inferencia de GKE y, luego, implementa LLMs abiertos con TPU y una arquitectura de Terraform preconfigurada.
-
Entrega Stable Diffusion XL (SDXL) con GKE
Entrega Stable Diffusion XL (SDXL) en GKE con Cloud TPU y el framework de MaxDiffusion para generar imágenes de alto rendimiento.
-
Entrega GPT OSS-120B con vLLM usando clústeres de GKE en Ironwood
Ejecuta inferencia de alto rendimiento para los modelos de GPT-OSS en TPU7x con vLLM para obtener una capacidad de procesamiento optimizada y una entrega de baja latencia en Google Cloud.
-
Entrega Qwen3-Coder-480B con vLLM usando clústeres de GKE en Ironwood
Entrega Qwen3-Coder-480B-A35B en TPU7x con vLLM para una inferencia y generación de código optimizadas y de alta capacidad de procesamiento.
-
Entrega Llama 3.1-8B con vLLM en Trillium
Entrega Llama 3.1-8B en TPU v6e con vLLM para una inferencia optimizada de baja latencia y una entrega de alta capacidad de procesamiento.
-
Entrega Qwen 3 con vLLM en Trillium
Entrega modelos de Qwen 3 en TPU v6e con vLLM para obtener una inferencia escalable y de alto rendimiento, y una capacidad de procesamiento optimizada.
-
Entrega Qwen2.5-32B con vLLM en Trillium
Entrega el modelo Qwen2.5-32B en la TPU v6e con vLLM para una inferencia optimizada y de alta capacidad de procesamiento.
-
Entrega Qwen2.5-VL con vLLM en Trillium
Entrega modelos de lenguaje visual Qwen2.5-VL en TPU v6e con vLLM para obtener una inferencia multimodal optimizada y de alto rendimiento.