Training
-
Llama 3-8B mit JAX, Ray und GKE auf Trillium trainieren
Führen Sie verteiltes Training des Llama 3-8B-Modells in der GKE mit JAX, Ray Train und TPU v6e (Trillium) mit MaxText für optimierte Multihost-Skalierung durch.
-
Llama 3.1-70B mit GKE-Clustern auf Ironwood vortrainieren
Trainieren Sie das Llama 3.1-70B-Modell auf TPU7x (Ironwood) mit dem MaxText-Framework.
-
DeepSeek 3-671B mit GKE-Clustern auf Ironwood vortrainieren
Trainieren Sie das DeepSeek 3-671B-Modell auf TPU7x mit optimierten Rezepten für umfangreiche MoE-Architekturen (Mixture of Experts).
-
GPT OSS-120B mit GKE-Clustern auf Ironwood vortrainieren
Trainieren Sie das GPT OSS-120B-Modell für logisches Denken auf TPU7x mit optimierten Rezepten für umfangreiches verteiltes Training.
-
Qwen 3-235B mit GKE-Clustern auf Ironwood vortrainieren
Trainieren Sie das Qwen 3-235B-A22B-MoE-Modell auf TPU7x mit optimierten Rezepten für leistungsstarkes logisches Denken.
-
Wan 2.1-14B mit GKE-Clustern auf Ironwood vortrainieren
Trainieren Sie das Wan 2.1-14B-Modell zur Videogenerierung auf TPU7x mit optimierten Rezepten für leistungsstarke Videosynthese.
-
GPT3-175B mit GKE-Clustern auf Trillium vortrainieren
Trainieren Sie das GPT3-175B-Modell auf TPU v6e mit MaxText und optimierten Rezepten für umfangreiche, kostengünstige Leistung.
-
Gemma3-12B mit GKE-Clustern auf Trillium vortrainieren
Trainieren Sie das Gemma3-12B-Modell auf TPU v6e mit MaxText und optimierten Rezepten für die Entwicklung leistungsstarker offener Modelle.
-
Llama 3.1-70B mit GKE-Clustern auf Trillium vortrainieren
Trainieren Sie Llama 3.1-70B auf TPU v6e mit MaxText und optimierten Rezepten für umfangreiches Modelltraining mit hohem Durchsatz.
-
Llama 3.1-8B mit GKE-Clustern auf Trillium vortrainieren
Trainieren Sie Llama 3.1-8B mit MaxText auf TPU v6e mit diesem optimierten Rezept für skalierbares und leistungsstarkes Vortraining.
-
Mixtral-8x22B mit GKE-Clustern auf Trillium vortrainieren
Trainieren Sie Mixtral-8x22B auf TPU v6e mit MaxText für optimierte Leistung und Effizienz.
-
Mixtral-8x7B mit GKE-Clustern auf Trillium vortrainieren
Trainieren Sie Mixtral-8x7B mit MaxText auf TPU v6e mit optimierten Konfigurationen für leistungsstarke MoE-Modelle in Google Cloud.
-
DeepSeek 3-671B mit GKE-Clustern auf v5p vortrainieren
Trainieren und stellen Sie das DeepSeek 3-671B-Modell auf TPU v5p mit MaxText für optimierte Leistung in großem Umfang bereit.
-
GPT3-175B mit GKE-Clustern auf v5p vortrainieren
Trainieren Sie das GPT3-175B-Modell auf TPU v5p mit MaxText und optimierten Konfigurationen für umfangreiches verteiltes Training.
-
Mixtral-8x7B mit GKE-Clustern auf v5p vortrainieren
Trainieren Sie Mixtral-8x7B auf TPU v5p mit MaxText und optimierten Konfigurationen für leistungsstarke MoE-Arbeitslasten.
-
SDXL mit GKE-Clustern auf v5p vortrainieren
Trainieren und skalieren Sie Stable Diffusion XL (SDXL) auf TPU v5p mit MaxDiffusion für leistungsstarke generative KI-Arbeitslasten.
Inferenz
-
Llama 3.1-70B mit GKE und vLLM auf Trillium bereitstellen
Stellen Sie LLMs in der GKE mit TPU v6e und vLLM bereit. Dies bietet optimierte automatische Skalierung und leistungsstarke Modellbereitstellung in Google Cloud.
-
LLMs mit GKE und KubeRay bereitstellen
Stellen Sie ein LLM mit TPUs in GKE mit dem Ray Operator-Add-on und dem vLLM-Bereitstellungsframework bereit.
-
Offene LLMs mit GKE und Terraform bereitstellen
Stellen Sie eine GKE-Inferenzumgebung bereit und stellen Sie offene LLMs mit TPUs und einer vorkonfigurierten Terraform-Architektur bereit.
-
Stable Diffusion XL (SDXL) mit GKE bereitstellen
Stellen Sie Stable Diffusion XL (SDXL) in der GKE mit Cloud TPUs und dem MaxDiffusion-Framework für die leistungsstarke Bildgenerierung bereit.
-
GPT OSS-120B mit vLLM und GKE-Clustern auf Ironwood bereitstellen
Führen Sie leistungsstarke Inferenz für GPT-OSS-Modelle auf TPU7x mit vLLM aus, um den Durchsatz zu optimieren und die Bereitstellung mit niedriger Latenz in Google Cloud zu ermöglichen.
-
Qwen3-Coder-480B mit vLLM und GKE-Clustern auf Ironwood bereitstellen
Stellen Sie Qwen3-Coder-480B-A35B auf TPU7x mit vLLM bereit, um die Codeerstellung und Inferenz mit hohem Durchsatz zu optimieren.
-
Llama 3.1-8B mit vLLM auf Trillium bereitstellen
Stellen Sie Llama 3.1-8B auf TPU v6e mit vLLM bereit, um die Inferenz mit niedriger Latenz und die Bereitstellung mit hohem Durchsatz zu optimieren.
-
Qwen 3 mit vLLM auf Trillium bereitstellen
Stellen Sie Qwen 3-Modelle auf TPU v6e mit vLLM bereit, um die leistungsstarke, skalierbare Inferenz und den optimierten Durchsatz zu ermöglichen.
-
Qwen2.5-32B mit vLLM auf Trillium bereitstellen
Stellen Sie das Qwen2.5-32B-Modell auf TPU v6e mit vLLM bereit, um die Inferenz mit hohem Durchsatz zu optimieren.
-
Qwen2.5-VL mit vLLM auf Trillium bereitstellen
Stellen Sie Qwen2.5-VL-Modelle für die Verarbeitung von Bildern und Text auf TPU v6e mit vLLM bereit, um die multimodale Inferenz mit hoher Leistung zu optimieren.