Treinamento
-
Treinar o Llama 3-8B usando JAX, Ray e GKE no Trillium
Realize o treinamento distribuído do modelo Llama 3-8B no GKE usando JAX, Ray Train e TPU v6e (Trillium) com MaxText para escalonamento otimizado de vários hosts.
-
Pré-treinar o Llama 3.1-70B usando clusters do GKE no Ironwood
Treine o modelo Llama 3.1-70B no TPU7x (Ironwood) usando o framework MaxText.
-
Pré-treinar o DeepSeek 3-671B usando clusters do GKE no Ironwood
Treine o modelo DeepSeek 3-671B no TPU7x usando receitas otimizadas para arquiteturas de combinação de especialistas (MoE) em grande escala.
-
Pré-treinar o GPT OSS-120B usando clusters do GKE no Ironwood
Treine o modelo de raciocínio GPT OSS-120B no TPU7x usando receitas otimizadas para treinamento distribuído em grande escala.
-
Pré-treinar o Qwen 3-235B usando clusters do GKE no Ironwood
Treine o modelo Qwen 3-235B-A22B MoE no TPU7x usando receitas otimizadas para raciocínio de alto desempenho.
-
Pré-treinar o Wan 2.1-14B usando clusters do GKE no Ironwood
Treine o modelo de geração de vídeo Wan 2.1-14B no TPU7x usando receitas otimizadas para síntese de vídeo de alto desempenho.
-
Pré-treinar o GPT3-175B usando clusters do GKE no Trillium
Treine o modelo GPT3-175B no TPU v6e usando MaxText e receitas otimizadas para desempenho econômico em grande escala.
-
Pré-treinar o Gemma3-12B usando clusters do GKE no Trillium
Treine o modelo Gemma3-12B no TPU v6e usando MaxText e receitas otimizadas para desenvolvimento de modelos abertos de alto desempenho.
-
Pré-treinar o Llama 3.1-70B usando clusters do GKE no Trillium
Treine o Llama 3.1-70B no TPU v6e usando MaxText e receitas otimizadas para treinamento de modelo de alta capacidade de processamento e grande escala.
-
Pré-treinar o Llama 3.1-8B usando clusters do GKE no Trillium
Treine o Llama 3.1-8B usando MaxText no TPU v6e com esta receita otimizada para pré-treinamento escalonável e de alto desempenho.
-
Pré-treinar o Mixtral-8x22B usando clusters do GKE no Trillium
Treine o Mixtral-8x22B no TPU v6e usando MaxText para desempenho e eficiência otimizados.
-
Pré-treinar o Mixtral-8x7B usando clusters do GKE no Trillium
Treine o Mixtral-8x7B usando MaxText no TPU v6e com configurações otimizadas para desempenho de MoE de alta capacidade de processamento no Google Cloud.
-
Pré-treinar o DeepSeek 3-671B usando clusters do GKE no v5p
Treine e implante o modelo DeepSeek 3-671B no TPU v5p usando MaxText para desempenho otimizado em grande escala.
-
Pré-treinar o GPT3-175B usando clusters do GKE no v5p
Treine o modelo GPT3-175B no TPU v5p usando MaxText com configurações otimizadas para treinamento distribuído em grande escala.
-
Pré-treinar o Mixtral-8x7B usando clusters do GKE no v5p
Treine o Mixtral-8x7B no TPU v5p usando MaxText com configurações otimizadas para cargas de trabalho MoE de alto desempenho.
-
Pré-treinar o SDXL usando clusters do GKE no v5p
Treine e dimensione o Stable Diffusion XL (SDXL) no TPU v5p usando MaxDiffusion para cargas de trabalho de IA generativa de alto desempenho.
Inferência
-
Disponibilizar o Llama 3.1-70B usando o GKE e o vLLM no Trillium
Disponibilize LLMs no GKE usando o TPU v6e e o vLLM, com escalonamento automático otimizado e disponibilização de modelos de alto desempenho no Google Cloud.
-
Disponibilizar LLMs usando o GKE com o KubeRay
Disponibilize um LLM usando TPUs no GKE com o complemento do operador Ray e o framework de disponibilização do vLLM.
-
Disponibilizar LLMs abertos usando o GKE com o Terraform
Provisione um ambiente de inferência do GKE e implante LLMs abertos usando TPUs e uma arquitetura do Terraform pré-configurada.
-
Disponibilizar o Stable Diffusion XL (SDXL) usando o GKE
Disponibilize o Stable Diffusion XL (SDXL) no GKE usando Cloud TPUs e o framework MaxDiffusion para geração de imagens de alto desempenho.
-
Disponibilizar o GPT OSS-120B com o vLLM usando clusters do GKE no Ironwood
Execute inferência de alto desempenho para modelos GPT-OSS no TPU7x usando o vLLM para capacidade de processamento otimizada e disponibilização de baixa latência no Google Cloud.
-
Disponibilizar o Qwen3-Coder-480B com o vLLM usando clusters do GKE no Ironwood
Disponibilize o Qwen3-Coder-480B-A35B no TPU7x usando o vLLM para geração e inferência de código otimizadas e de alta capacidade de processamento.
-
Disponibilizar o Llama 3.1-8B com o vLLM no Trillium
Disponibilize o Llama 3.1-8B no TPU v6e usando o vLLM para inferência otimizada de baixa latência e disponibilização de alta capacidade de processamento.
-
Disponibilizar o Qwen 3 com o vLLM no Trillium
Disponibilize modelos Qwen 3 no TPU v6e usando o vLLM para inferência escalonável e de alto desempenho e capacidade de processamento otimizada.
-
Disponibilizar o Qwen2.5-32B com o vLLM no Trillium
Disponibilize o modelo Qwen2.5-32B no TPU v6e usando o vLLM para inferência otimizada de alta capacidade de processamento.
-
Disponibilizar o Qwen2.5-VL com o vLLM no Trillium
Disponibilize modelos de linguagem de visão Qwen2.5-VL no TPU v6e usando o vLLM para inferência multimodal otimizada de alto desempenho.