訓練
-
使用 JAX、Ray 和 GKE 在 Trillium 上訓練 Llama 3-8B
使用 JAX、Ray Train 和 TPU v6e (Trillium) 在 GKE 上分散式訓練 Llama 3-8B 模型,並搭配 MaxText 進行最佳化多主機擴充。
-
使用 Ironwood 上的 GKE 叢集預先訓練 Llama 3.1-70B
使用 MaxText 架構,在 TPU7x (Ironwood) 上訓練 Llama 3.1-70B 模型。
-
使用 Ironwood 上的 GKE 叢集預先訓練 DeepSeek 3-671B
使用針對大規模混合專家模型 (MoE) 架構最佳化的配方,在 TPU7x 上訓練 DeepSeek 3-671B 模型。
-
使用 Ironwood 上的 GKE 叢集預先訓練 GPT OSS-120B
使用針對大規模分散式訓練最佳化的配方,在 TPU7x 上訓練 GPT OSS-120B 推論模型。
-
使用 Ironwood 上的 GKE 叢集預先訓練 Qwen 3-235B
使用最佳化配方在 TPU7x 上訓練 Qwen 3-235B-A22B MoE 模型,以獲得高效能的推論能力。
-
使用 Ironwood 上的 GKE 叢集預先訓練 Wan 2.1-14B
使用最佳化配方,在 TPU7x 上訓練 Wan 2.1-14B 影片生成模型,以高效能合成影片。
-
使用 Trillium 上的 GKE 叢集預先訓練 GPT3-175B
使用 MaxText 和最佳化配方,在 TPU v6e 上訓練 GPT3-175B 模型,以具備成本效益的方式獲得大規模效能。
-
使用 Trillium 上的 GKE 叢集預先訓練 Gemma3-12B
使用 MaxText 和最佳化配方,在 TPU v6e 上訓練 Gemma3-12B 模型,開發高效能的開放式模型。
-
使用 Trillium 上的 GKE 叢集預先訓練 Llama 3.1-70B
使用 MaxText 和最佳化配方,在 TPU v6e 上訓練 Llama 3.1-70B,以高處理量進行大規模模型訓練。
-
使用 Trillium 上的 GKE 叢集預先訓練 Llama 3.1-8B
使用 MaxText 在 TPU v6e 上訓練 Llama 3.1-8B,並採用這個最佳化配方,進行可擴充的高效能預先訓練。
-
使用 Trillium 上的 GKE 叢集預先訓練 Mixtral-8x22B
使用 MaxText 在 TPU v6e 上訓練 Mixtral-8x22B,以獲得最佳效能和效率。
-
使用 Trillium 上的 GKE 叢集預先訓練 Mixtral-8x7B
在 TPU v6e 上使用 MaxText 訓練 Mixtral-8x7B,並採用最佳化設定,在 Google Cloud 上實現高處理量的 MoE 效能。
-
使用 v5p 上的 GKE 叢集預先訓練 DeepSeek 3-671B
使用 MaxText 在 TPU v5p 上訓練及部署 DeepSeek 3-671B 模型,以獲得最佳的大規模效能。
-
使用 v5p 上的 GKE 叢集預先訓練 GPT3-175B
使用 MaxText 在 TPU v5p 上訓練 GPT3-175B 模型,並針對大規模分散式訓練作業進行最佳化設定。
-
使用 v5p 上的 GKE 叢集預先訓練 Mixtral-8x7B
使用 MaxText 在 TPU v5p 上訓練 Mixtral-8x7B,並針對高效能 MoE 工作負載進行最佳化設定。
-
使用 v5p 上的 GKE 叢集預先訓練 SDXL
使用 MaxDiffusion 在 TPU v5p 上訓練及擴展 Stable Diffusion XL (SDXL),以處理高效能的生成式 AI 工作負載。
推論
-
透過 GKE 和 vLLM 在 Trillium 上提供 Llama 3.1-70B 服務
在 GKE 上使用 TPU v6e 和 vLLM 提供 LLM,並在 Google Cloud 上提供經過最佳化的自動調度資源和高效能模型服務。
-
透過 KubeRay 在 GKE 上提供 LLM
透過 Ray Operator 外掛程式和 vLLM 服務架構,在 GKE 上使用 TPU 提供 LLM。
-
使用 Terraform 透過 GKE 提供開放式 LLM
佈建 GKE 推論環境,並使用 TPU 和預先設定的 Terraform 架構部署開放式 LLM。
-
使用 GKE 提供 Stable Diffusion XL (SDXL)
在 GKE 上使用 Cloud TPU 和 MaxDiffusion 架構提供 Stable Diffusion XL (SDXL),以高效能生成圖片。
-
透過 vLLM 在 Ironwood 上的 GKE 叢集提供 GPT OSS-120B
在 TPU7x 上使用 vLLM 執行 GPT-OSS 模型的高效能推論,在 Google Cloud 上以最佳化處理量和低延遲服務。
-
在 Ironwood 上的 GKE 叢集,使用 vLLM 提供 Qwen3-Coder-480B 服務
使用 vLLM 在 TPU7x 上提供 Qwen3-Coder-480B-A35B,以最佳化高處理量的程式碼生成和推論。
-
在 Trillium 上透過 vLLM 提供 Llama 3.1-8B 服務
使用 vLLM 在 TPU v6e 上提供 Llama 3.1-8B,實現最佳化、低延遲的推論和高處理量服務。
-
在 Trillium 上使用 vLLM 提供 Qwen 3 服務
使用 vLLM 在 TPU v6e 上提供 Qwen 3 模型,以實現高效能、可擴充的推論作業,並提升處理量。
-
在 Trillium 上使用 vLLM 提供 Qwen2.5-32B 服務
使用 vLLM 在 TPU v6e 上提供 Qwen2.5-32B 模型,實現最佳化的高處理量推論。
-
在 Trillium 上使用 vLLM 提供 Qwen2.5-VL 服務
使用 vLLM 在 TPU v6e 上提供 Qwen2.5-VL 視覺語言模型,以最佳化多模態推論作業,達到高效能。