トレーニング
-
Trillium で JAX、Ray、GKE を使用して Llama 3-8B をトレーニングする
MaxText を使用して、JAX、Ray Train、TPU v6e(Trillium)を使用して GKE で Llama 3-8B モデルの分散トレーニングを行い、マルチホストのスケーリングを最適化します。
-
Ironwood の GKE クラスタを使用して Llama 3.1-70B をプリトレーニングする
MaxText フレームワークを使用して、TPU7x(Ironwood)で Llama 3.1-70B モデルをトレーニングします。
-
Ironwood の GKE クラスタを使用して DeepSeek 3-671B をプリトレーニングする
大規模な Mixture-of-Experts(MoE)アーキテクチャ用に最適化されたレシピを使用して、TPU7x で DeepSeek 3-671B モデルをトレーニングします。
-
Ironwood の GKE クラスタを使用して GPT OSS-120B をプリトレーニングする
大規模な分散トレーニング用に最適化されたレシピを使用して、TPU7x で GPT OSS-120B 推論モデルをトレーニングします。
-
Ironwood の GKE クラスタを使用して Qwen 3-235B をプリトレーニングする
高パフォーマンスの推論用に最適化されたレシピを使用して、TPU7x で Qwen 3-235B-A22B MoE モデルをトレーニングします。
-
Ironwood の GKE クラスタを使用して Wan 2.1-14B をプリトレーニングする
高パフォーマンスの動画合成用に最適化されたレシピを使用して、TPU7x で Wan 2.1-14B 動画生成モデルをトレーニングします。
-
Trillium の GKE クラスタを使用して GPT3-175B をプリトレーニングする
MaxText と、大規模で費用対効果の高いパフォーマンスを実現するために最適化されたレシピを使用して、TPU v6e で GPT3-175B モデルをトレーニングします。
-
Trillium の GKE クラスタを使用して Gemma3-12B をプリトレーニングする
MaxText と、高パフォーマンスのオープンモデル開発用に最適化されたレシピを使用して、TPU v6e で Gemma3-12B モデルをトレーニングします。
-
Trillium の GKE クラスタを使用して Llama 3.1-70B をプリトレーニングする
MaxText と、高スループットの大規模モデル トレーニング用に最適化されたレシピを使用して、TPU v6e で Llama 3.1-70B をトレーニングします。
-
Trillium の GKE クラスタを使用して Llama 3.1-8B をプリトレーニングする
スケーラブルで高パフォーマンスのプリトレーニング用に最適化されたこのレシピを使用して、TPU v6e で MaxText を使用して Llama 3.1-8B をトレーニングします。
-
Trillium の GKE クラスタを使用して Mixtral-8x22B をプリトレーニングする
MaxText を使用して、TPU v6e で Mixtral-8x22B をトレーニングし、パフォーマンスと効率を最適化します。
-
Trillium の GKE クラスタを使用して Mixtral-8x7B をプリトレーニングする
Google Cloud で高スループットの MoE パフォーマンスを実現するために最適化された構成を使用して、TPU v6e で MaxText を使用して Mixtral-8x7B をトレーニングします。
-
v5p の GKE クラスタを使用して DeepSeek 3-671B をプリトレーニングする
MaxText を使用して、TPU v5p で DeepSeek 3-671B モデルをトレーニングしてデプロイし、大規模なパフォーマンスを最適化します。
-
v5p の GKE クラスタを使用して GPT3-175B をプリトレーニングする
大規模な分散トレーニング用に最適化された構成で MaxText を使用して、TPU v5p で GPT3-175B モデルをトレーニングします。
-
v5p の GKE クラスタを使用して Mixtral-8x7B をプリトレーニングする
高パフォーマンスの MoE ワークロード用に最適化された構成で MaxText を使用して、TPU v5p で Mixtral-8x7B をトレーニングします。
-
v5p の GKE クラスタを使用して SDXL をプリトレーニングする
MaxDiffusion を使用して、TPU v5p で Stable Diffusion XL(SDXL)をトレーニングしてスケーリングし、高パフォーマンスの生成 AI ワークロードを実現します。
推論
-
Trillium で GKE と vLLM を使用して Llama 3.1-70B をサービングする
TPU v6e と vLLM を使用して GKE で LLM をサービングします。Google Cloud での最適化された自動スケーリングと高パフォーマンスのモデル提供が特徴です。
-
KubeRay を使用して GKE で LLM をサービングする
Ray Operator アドオンと vLLM サービング フレームワークを使用して、GKE 上で TPU を使用して LLM をサービングします。
-
Terraform を使用して GKE でオープン LLM をサービングする
GKE 推論環境をプロビジョニングし、TPU と事前構成済みの Terraform アーキテクチャを使用してオープン LLM をデプロイします。
-
GKE を使用して Stable Diffusion XL(SDXL)をサービングする
Cloud TPU と MaxDiffusion フレームワークを使用して GKE で Stable Diffusion XL(SDXL)をサービングし、高パフォーマンスの画像生成を実現します。
-
Ironwood の GKE クラスタを使用して vLLM で GPT OSS-120B をサービングする
vLLM を使用して TPU7x で GPT-OSS モデルの高パフォーマンス推論を実行し、Google Cloud でのスループットの最適化と低レイテンシのサービングを実現します。
-
Ironwood の GKE クラスタを使用して vLLM で Qwen3-Coder-480B をサービングする
vLLM を使用して TPU7x で Qwen3-Coder-480B-A35B をサービングし、最適化された高スループットのコード生成と推論を実現します。
-
Trillium で vLLM を使用して Llama 3.1-8B をサービングする
vLLM を使用して TPU v6e で Llama 3.1-8B をサービングし、最適化された低レイテンシの推論と高スループットのサービングを実現します。
-
Trillium で vLLM を使用して Qwen 3 をサービングする
vLLM を使用して TPU v6e で Qwen 3 モデルをサービングし、高パフォーマンスでスケーラブルな推論と最適化されたスループットを実現します。
-
Trillium で vLLM を使用して Qwen2.5-32B をサービングする
vLLM を使用して TPU v6e で Qwen2.5-32B モデルをサービングし、最適化された高スループットの推論を実現します。
-
Trillium で vLLM を使用して Qwen2.5-VL をサービングする
vLLM を使用して TPU v6e で Qwen2.5-VL ビジョン言語モデルをサービングし、最適化された高パフォーマンスのマルチモーダル推論を実現します。