Formazione
-
Addestra Llama 3-8B utilizzando JAX, Ray e GKE su Trillium
Esegui l'addestramento distribuito del modello Llama 3-8B su GKE utilizzando JAX, Ray Train e TPU v6e (Trillium) con MaxText per la scalabilità multi-host ottimizzata.
-
Preaddestra Llama 3.1-70B utilizzando i cluster GKE su Ironwood
Addestra il modello Llama 3.1-70B su TPU7x (Ironwood) utilizzando il framework MaxText.
-
Preaddestra DeepSeek 3-671B utilizzando i cluster GKE su Ironwood
Addestra il modello DeepSeek 3-671B su TPU7x utilizzando ricette ottimizzate per architetture Mixture-of-Experts (MoE) su larga scala.
-
Preaddestrare GPT OSS-120B utilizzando cluster GKE su Ironwood
Addestra il modello di ragionamento GPT OSS-120B su TPU7x utilizzando ricette ottimizzate per l'addestramento distribuito su larga scala.
-
Preaddestrare Qwen 3-235B utilizzando cluster GKE su Ironwood
Addestra il modello Qwen 3-235B-A22B MoE su TPU7x utilizzando ricette ottimizzate per un ragionamento ad alte prestazioni.
-
Preaddestra Wan 2.1-14B utilizzando i cluster GKE su Ironwood
Addestra il modello di generazione video Wan 2.1-14B su TPU7x utilizzando ricette ottimizzate per la sintesi video ad alte prestazioni.
-
Preaddestra GPT3-175B utilizzando i cluster GKE su Trillium
Addestra il modello GPT3-175B su TPU v6e utilizzando MaxText e ricette ottimizzate per prestazioni su larga scala ed economiche.
-
Preaddestrare Gemma3-12B utilizzando i cluster GKE su Trillium
Addestra il modello Gemma3-12B su TPU v6e utilizzando MaxText e ricette ottimizzate per lo sviluppo di modelli aperti ad alte prestazioni.
-
Preaddestrare Llama 3.1-70B utilizzando i cluster GKE su Trillium
Addestra Llama 3.1-70B su TPU v6e utilizzando MaxText e ricette ottimizzate per l'addestramento di modelli su larga scala e ad alto throughput.
-
Preaddestrare Llama 3.1-8B utilizzando i cluster GKE su Trillium
Addestra Llama 3.1-8B utilizzando MaxText su TPU v6e con questa ricetta ottimizzata per il pre-addestramento scalabile e ad alte prestazioni.
-
Preaddestrare Mixtral-8x22B utilizzando cluster GKE su Trillium
Addestra Mixtral-8x22B su TPU v6e utilizzando MaxText per prestazioni ed efficienza ottimizzate.
-
Preaddestra Mixtral-8x7B utilizzando i cluster GKE su Trillium
Addestra Mixtral-8x7B utilizzando MaxText su TPU v6e con configurazioni ottimizzate per prestazioni MoE a velocità effettiva elevata su Google Cloud.
-
Preaddestra DeepSeek 3-671B utilizzando cluster GKE su v5p
Addestra ed esegui il deployment del modello DeepSeek 3-671B su TPU v5p utilizzando MaxText per prestazioni ottimizzate su larga scala.
-
Preaddestrare GPT3-175B utilizzando cluster GKE su v5p
Addestra il modello GPT3-175B su TPU v5p utilizzando MaxText con configurazioni ottimizzate per l'addestramento distribuito su larga scala.
-
Preaddestrare Mixtral-8x7B utilizzando cluster GKE su v5p
Addestra Mixtral-8x7B su TPU v5p utilizzando MaxText con configurazioni ottimizzate per carichi di lavoro MoE ad alte prestazioni.
-
Preaddestra SDXL utilizzando i cluster GKE su v5p
Addestra e scala Stable Diffusion XL (SDXL) su TPU v5p utilizzando MaxDiffusion per carichi di lavoro di AI generativa ad alte prestazioni.
Inferenza
-
Erogare Llama 3.1-70B utilizzando GKE e vLLM su Trillium
Eroga LLM su GKE utilizzando TPU v6e e vLLM, con scalabilità automatica ottimizzata ed erogazione di modelli ad alte prestazioni su Google Cloud.
-
Gestisci LLM utilizzando GKE con KubeRay
Gestisci un LLM utilizzando le TPU su GKE con il componente aggiuntivo Operatore Ray e il framework di gestione vLLM.
-
Gestisci LLM aperti utilizzando GKE con Terraform
Esegui il provisioning di un ambiente di inferenza GKE e il deployment di LLM aperti utilizzando TPU e un'architettura Terraform preconfigurata.
-
Erogare Stable Diffusion XL (SDXL) utilizzando GKE
Gestisci Stable Diffusion XL (SDXL) su GKE utilizzando le Cloud TPU e il framework MaxDiffusion per la generazione di immagini ad alte prestazioni.
-
Erogare GPT OSS-120B con vLLM utilizzando i cluster GKE su Ironwood
Esegui l'inferenza ad alte prestazioni per i modelli GPT-OSS su TPU7x utilizzando vLLM per un throughput ottimizzato e un'erogazione a bassa latenza su Google Cloud.
-
Gestisci Qwen3-Coder-480B con vLLM utilizzando cluster GKE su Ironwood
Eroga Qwen3-Coder-480B-A35B su TPU7x utilizzando vLLM per un'inferenza e una generazione di codice ottimizzate e con throughput elevato.
-
Eroga Llama 3.1-8B con vLLM su Trillium
Eroga Llama 3.1-8B su TPU v6e utilizzando vLLM per un'inferenza ottimizzata a bassa latenza e un'erogazione ad alto throughput.
-
Eroga Qwen 3 con vLLM su Trillium
Eroga i modelli Qwen 3 su TPU v6e utilizzando vLLM per un'inferenza scalabile e ad alte prestazioni e un throughput ottimizzato.
-
Eroga Qwen2.5-32B con vLLM su Trillium
Eroga il modello Qwen2.5-32B su TPU v6e utilizzando vLLM per un'inferenza ottimizzata e ad alto throughput.
-
Eroga Qwen2.5-VL con vLLM su Trillium
Eroga modelli vision-language Qwen2.5-VL su TPU v6e utilizzando vLLM per un'inferenza multimodale ottimizzata e ad alte prestazioni.