培训
-
在 Trillium 上使用 JAX、Ray 和 GKE 训练 Llama 3-8B
使用 JAX、Ray Train 和 TPU v6e (Trillium) 在 GKE 上对 Llama 3-8B 模型执行分布式训练,并使用 MaxText 优化多主机伸缩。
-
使用 Ironwood 上的 GKE 集群预训练 Llama 3.1-70B
使用 MaxText 框架在 TPU7x (Ironwood) 上训练 Llama 3.1-70B 模型。
-
使用 Ironwood 上的 GKE 集群对 DeepSeek 3-671B 进行预训练
使用针对大规模混合专家 (MoE) 架构优化的 recipe 在 TPU7x 上训练 DeepSeek 3-671B 模型。
-
使用 Ironwood 上的 GKE 集群预训练 GPT OSS-120B
使用针对大规模分布式训练进行了优化的 recipe 在 TPU7x 上训练 GPT OSS-120B 推理模型。
-
使用 Ironwood 上的 GKE 集群对 Qwen 3-235B 进行预训练
使用针对高性能推理进行了优化的 recipe 在 TPU7x 上训练 Qwen 3-235B-A22B MoE 模型。
-
使用 Ironwood 上的 GKE 集群预训练 Wan 2.1-14B
使用优化的 recipe 在 TPU7x 上训练 Wan 2.1-14B 视频生成模型,以实现高性能视频合成。
-
使用 Trillium 上的 GKE 集群预训练 GPT3-175B
使用 MaxText 和针对大规模、经济高效的性能优化的配方,在 TPU v6e 上训练 GPT3-175B 模型。
-
使用 Trillium 上的 GKE 集群预训练 Gemma3-12B
使用 MaxText 和优化后的配方在 TPU v6e 上训练 Gemma3-12B 模型,以实现高性能的开放模型开发。
-
使用 Trillium 上的 GKE 集群预训练 Llama 3.1-70B
使用 MaxText 和针对高吞吐量的大规模模型训练进行了优化的 recipe 在 TPU v6e 上训练 Llama 3.1-70B。
-
使用 Trillium 上的 GKE 集群预训练 Llama 3.1-8B
使用 MaxText 在 TPU v6e 上训练 Llama 3.1-8B,并采用此优化配方实现可伸缩的高性能预训练。
-
使用 Trillium 上的 GKE 集群预训练 Mixtral-8x22B
使用 MaxText 在 TPU v6e 上训练 Mixtral-8x22B,以优化性能和效率。
-
使用 Trillium 上的 GKE 集群预训练 Mixtral-8x7B
在 TPU v6e 上使用 MaxText 训练 Mixtral-8x7B,并采用优化配置,以在 Google Cloud 上实现高吞吐量 MoE 性能。
-
使用 v5p 上的 GKE 集群对 DeepSeek 3-671B 进行预训练
使用 MaxText 在 TPU v5p 上训练和部署 DeepSeek 3-671B 模型,以实现优化的大规模性能。
-
使用 v5p 上的 GKE 集群对 GPT3-175B 进行预训练
使用 MaxText 在 TPU v5p 上训练 GPT3-175B 模型,并针对大规模分布式训练优化配置。
-
使用 v5p 上的 GKE 集群预训练 Mixtral-8x7B
使用 MaxText 在 TPU v5p 上训练 Mixtral-8x7B,并针对高性能 MoE 工作负载优化配置。
-
使用 v5p 上的 GKE 集群预训练 SDXL
使用 MaxDiffusion 在 TPU v5p 上训练和扩缩 Stable Diffusion XL (SDXL),以实现高性能的生成式 AI 工作负载。
推理
-
在 Trillium 上使用 GKE 和 vLLM 部署 Llama 3.1-70B
使用 TPU v6e 和 vLLM 在 GKE 上部署 LLM,在 Google Cloud 上实现优化的自动扩缩和高性能模型部署。
-
通过 KubeRay 使用 GKE 部署 LLM
通过 Ray Operator 插件和 vLLM 部署框架,使用 GKE 上的 TPU 部署 LLM。
-
使用 GKE 和 Terraform 部署开放 LLM
预配 GKE 推理环境,并使用 TPU 和预配置的 Terraform 架构部署开放 LLM。
-
使用 GKE 应用 Stable Diffusion XL (SDXL)
使用 Cloud TPU 和 MaxDiffusion 框架在 GKE 上应用 Stable Diffusion XL (SDXL),以实现高性能的图片生成。
-
使用 Ironwood 上的 GKE 集群通过 vLLM 提供 GPT OSS-120B
在 Google Cloud 上使用 vLLM 在 TPU7x 上为 GPT-OSS 模型运行高性能推理,以实现优化的吞吐量和低延迟服务。
-
使用 Ironwood 上的 GKE 集群通过 vLLM 部署 Qwen3-Coder-480B
使用 vLLM 在 TPU7x 上部署 Qwen3-Coder-480B-A35B,以实现优化的代码生成和推理,并提高吞吐量。
-
在 Trillium 上使用 vLLM 部署 Llama 3.1-8B
使用 vLLM 在 TPU v6e 上部署 Llama 3.1-8B,以实现优化的低延迟推理和高吞吐量服务。
-
在 Trillium 上使用 vLLM 提供 Qwen 3 服务
使用 vLLM 在 TPU v6e 上运行 Qwen 3 模型,以实现高性能、可伸缩的推理和优化的吞吐量。
-
在 Trillium 上使用 vLLM 提供 Qwen2.5-32B
使用 vLLM 在 TPU v6e 上部署 Qwen2.5-32B 模型,以实现优化的推理和高吞吐量。
-
在 Trillium 上使用 vLLM 提供 Qwen2.5-VL 服务
使用 vLLM 在 TPU v6e 上部署 Qwen2.5-VL 视觉-语言模型,以实现经过优化的多模态高性能推理。