Pelatihan
-
Melatih Llama 3-8B menggunakan JAX, Ray, dan GKE di Trillium
Lakukan pelatihan terdistribusi model Llama 3-8B di GKE menggunakan JAX, Ray Train, dan TPU v6e (Trillium) dengan MaxText untuk penskalaan multi-host yang dioptimalkan.
-
Melakukan pra-pelatihan Llama 3.1-70B menggunakan cluster GKE di Ironwood
Latih model Llama 3.1-70B di TPU7x (Ironwood) menggunakan framework MaxText.
-
Melakukan pra-pelatihan DeepSeek 3-671B menggunakan cluster GKE di Ironwood
Latih model DeepSeek 3-671B di TPU7x menggunakan resep yang dioptimalkan untuk arsitektur Mixture-of-Experts (MoE) berskala besar.
-
Melakukan pra-pelatihan GPT OSS-120B menggunakan cluster GKE di Ironwood
Latih model penalaran GPT OSS-120B di TPU7x menggunakan resep yang dioptimalkan untuk pelatihan terdistribusi berskala besar.
-
Melakukan pra-latihan Qwen 3-235B menggunakan cluster GKE di Ironwood
Latih model MoE Qwen 3-235B-A22B di TPU7x menggunakan resep yang dioptimalkan untuk penalaran berperforma tinggi.
-
Melakukan pra-latihan Wan 2.1-14B menggunakan cluster GKE di Ironwood
Latih model pembuatan video Wan 2.1-14B di TPU7x menggunakan resep yang dioptimalkan untuk sintesis video berperforma tinggi.
-
Melakukan pra-pelatihan GPT3-175B menggunakan cluster GKE di Trillium
Latih model GPT3-175B di TPU v6e menggunakan MaxText dan resep yang dioptimalkan untuk performa hemat biaya dalam skala besar.
-
Melakukan pra-pelatihan Gemma3-12B menggunakan cluster GKE di Trillium
Latih model Gemma3-12B di TPU v6e menggunakan MaxText dan resep yang dioptimalkan untuk pengembangan model terbuka berperforma tinggi.
-
Melakukan pra-pelatihan Llama 3.1-70B menggunakan cluster GKE di Trillium
Latih Llama 3.1-70B di TPU v6e menggunakan MaxText dan resep yang dioptimalkan untuk pelatihan model berskala besar dengan throughput tinggi.
-
Melakukan pra-latihan Llama 3.1-8B menggunakan cluster GKE di Trillium
Latih Llama 3.1-8B menggunakan MaxText di TPU v6e dengan resep yang dioptimalkan ini untuk pra-pelatihan yang skalabel dan berperforma tinggi.
-
Melakukan pra-pelatihan Mixtral-8x22B menggunakan cluster GKE di Trillium
Latih Mixtral-8x22B di TPU v6e menggunakan MaxText untuk performa dan efisiensi yang dioptimalkan.
-
Melakukan pra-pelatihan Mixtral-8x7B menggunakan cluster GKE di Trillium
Latih Mixtral-8x7B menggunakan MaxText di TPU v6e dengan konfigurasi yang dioptimalkan untuk performa MoE dengan throughput tinggi di Google Cloud.
-
Melakukan pra-pelatihan DeepSeek 3-671B menggunakan cluster GKE di v5p
Latih dan deploy model DeepSeek 3-671B di TPU v5p menggunakan MaxText untuk performa berskala besar yang dioptimalkan.
-
Melakukan pra-pelatihan GPT3-175B menggunakan cluster GKE di v5p
Latih model GPT3-175B di TPU v5p menggunakan MaxText dengan konfigurasi yang dioptimalkan untuk pelatihan terdistribusi berskala besar.
-
Melakukan pra-pelatihan Mixtral-8x7B menggunakan cluster GKE di v5p
Latih Mixtral-8x7B di TPU v5p menggunakan MaxText dengan konfigurasi yang dioptimalkan untuk workload MoE berperforma tinggi.
-
Melakukan pra-pelatihan SDXL menggunakan cluster GKE di v5p
Latih dan skalakan Stable Diffusion XL (SDXL) di TPU v5p menggunakan MaxDiffusion untuk workload AI generatif berperforma tinggi.
Inferensi
-
Menyajikan Llama 3.1-70B menggunakan GKE dan vLLM di Trillium
Menyajikan LLM di GKE menggunakan TPU v6e dan vLLM, yang menampilkan penskalaan otomatis yang dioptimalkan dan penyajian model berperforma tinggi di Google Cloud.
-
Menyajikan LLM menggunakan GKE dengan KubeRay
Menyajikan LLM menggunakan TPU di GKE dengan add-on Ray Operator dan framework penayangan vLLM.
-
Menyajikan LLM terbuka menggunakan GKE dengan Terraform
Sediakan lingkungan inferensi GKE dan deploy LLM terbuka menggunakan TPU dan arsitektur Terraform yang telah dikonfigurasi sebelumnya.
-
Menyajikan Stable Diffusion XL (SDXL) menggunakan GKE
Menyajikan Stable Diffusion XL (SDXL) di GKE menggunakan Cloud TPU dan framework MaxDiffusion untuk pembuatan gambar berperforma tinggi.
-
Menyajikan GPT OSS-120B dengan vLLM menggunakan cluster GKE di Ironwood
Jalankan inferensi berperforma tinggi untuk model GPT-OSS di TPU7x menggunakan vLLM untuk penayangan dengan throughput yang dioptimalkan dan latensi rendah di Google Cloud.
-
Menyajikan Qwen3-Coder-480B dengan vLLM menggunakan cluster GKE di Ironwood
Menyajikan Qwen3-Coder-480B-A35B di TPU7x menggunakan vLLM untuk inferensi dan pembuatan kode dengan throughput tinggi yang dioptimalkan.
-
Menyajikan Llama 3.1-8B dengan vLLM di Trillium
Menyajikan Llama 3.1-8B di TPU v6e menggunakan vLLM untuk inferensi yang dioptimalkan dan berlatensi rendah serta penyajian dengan throughput tinggi.
-
Menyajikan Qwen 3 dengan vLLM di Trillium
Menyajikan model Qwen 3 di TPU v6e menggunakan vLLM untuk inferensi berperforma tinggi dan dapat diskalakan serta throughput yang dioptimalkan.
-
Menyajikan Qwen2.5-32B dengan vLLM di Trillium
Menyajikan model Qwen2.5-32B di TPU v6e menggunakan vLLM untuk inferensi yang dioptimalkan dan ber-throughput tinggi.
-
Menyajikan Qwen2.5-VL dengan vLLM di Trillium
Menyajikan model bahasa-penglihatan Qwen2.5-VL di TPU v6e menggunakan vLLM untuk inferensi multimodal berperforma tinggi yang dioptimalkan.