範例

訓練

使用 JAX、Ray 和 GKE 在 Trillium 上訓練 Llama 3-8B

使用 JAX、Ray Train 和 TPU v6e (Trillium) 在 GKE 上分散式訓練 Llama 3-8B 模型，並搭配 MaxText 進行最佳化多主機擴充。
使用 Ironwood 上的 GKE 叢集預先訓練 Llama 3.1-70B

使用 MaxText 架構，在 TPU7x (Ironwood) 上訓練 Llama 3.1-70B 模型。
使用 Ironwood 上的 GKE 叢集預先訓練 DeepSeek 3-671B

使用針對大規模混合專家模型 (MoE) 架構最佳化的配方，在 TPU7x 上訓練 DeepSeek 3-671B 模型。
使用 Ironwood 上的 GKE 叢集預先訓練 GPT OSS-120B

使用針對大規模分散式訓練最佳化的配方，在 TPU7x 上訓練 GPT OSS-120B 推論模型。
使用 Ironwood 上的 GKE 叢集預先訓練 Qwen 3-235B

使用最佳化配方在 TPU7x 上訓練 Qwen 3-235B-A22B MoE 模型，以獲得高效能的推論能力。
使用 Ironwood 上的 GKE 叢集預先訓練 Wan 2.1-14B

使用最佳化配方，在 TPU7x 上訓練 Wan 2.1-14B 影片生成模型，以高效能合成影片。
使用 Trillium 上的 GKE 叢集預先訓練 GPT3-175B

使用 MaxText 和最佳化配方，在 TPU v6e 上訓練 GPT3-175B 模型，以具備成本效益的方式獲得大規模效能。
使用 Trillium 上的 GKE 叢集預先訓練 Gemma3-12B

使用 MaxText 和最佳化配方，在 TPU v6e 上訓練 Gemma3-12B 模型，開發高效能的開放式模型。
使用 Trillium 上的 GKE 叢集預先訓練 Llama 3.1-70B

使用 MaxText 和最佳化配方，在 TPU v6e 上訓練 Llama 3.1-70B，以高處理量進行大規模模型訓練。
使用 Trillium 上的 GKE 叢集預先訓練 Llama 3.1-8B

使用 MaxText 在 TPU v6e 上訓練 Llama 3.1-8B，並採用這個最佳化配方，進行可擴充的高效能預先訓練。
使用 Trillium 上的 GKE 叢集預先訓練 Mixtral-8x22B

使用 MaxText 在 TPU v6e 上訓練 Mixtral-8x22B，以獲得最佳效能和效率。
使用 Trillium 上的 GKE 叢集預先訓練 Mixtral-8x7B

在 TPU v6e 上使用 MaxText 訓練 Mixtral-8x7B，並採用最佳化設定，在 Google Cloud 上實現高處理量的 MoE 效能。
使用 v5p 上的 GKE 叢集預先訓練 DeepSeek 3-671B

使用 MaxText 在 TPU v5p 上訓練及部署 DeepSeek 3-671B 模型，以獲得最佳的大規模效能。
使用 v5p 上的 GKE 叢集預先訓練 GPT3-175B

使用 MaxText 在 TPU v5p 上訓練 GPT3-175B 模型，並針對大規模分散式訓練作業進行最佳化設定。
使用 v5p 上的 GKE 叢集預先訓練 Mixtral-8x7B

使用 MaxText 在 TPU v5p 上訓練 Mixtral-8x7B，並針對高效能 MoE 工作負載進行最佳化設定。
使用 v5p 上的 GKE 叢集預先訓練 SDXL

使用 MaxDiffusion 在 TPU v5p 上訓練及擴展 Stable Diffusion XL (SDXL)，以處理高效能的生成式 AI 工作負載。

推論

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。