为了帮助您运行工作负载,我们精心挑选了一组可重现的基准测试方案,这些方案使用了一些最常见的机器学习 (ML) 框架和模型。这些内容存储在 GitHub 代码库中。如需访问这些代码库,请参阅 AI Hypercomputer GitHub 组织。 这些基准测试配方已在通过集群工具包创建的集群上经过测试。
概览
在开始使用这些配方之前,请确保您已完成以下步骤:
食谱
以下可重现的基准测试配方可用于在 GKE 集群上进行预训练和推理。
如需搜索目录,您可以按框架、模型和加速器的组合进行过滤。
| 食谱名称 | 加速器 | 模型 | Framework | 工作负载类型 |
|---|---|---|---|---|
| Llama3.1 70B - A3 Ultra | A3 Ultra | Llama3.1 70B | MaxText | 在 GKE 上进行预训练 |
| Llama3.1 70B - A3 Ultra | A3 Ultra | Llama3.1 70B | NeMo | 在 GKE 上进行预训练 |
| Mixtral-8-7B - A3 Ultra | A3 Ultra | Mixtral-8-7B | NeMo | 在 GKE 上进行预训练 |
| GPT3-175B - A3 Mega | A3 Mega | GPT3-175B | NeMo | 在 GKE 上进行预训练 |
| Mixtral 8x7B - A3 Mega | A3 Mega | Mixtral 8x7B | NeMo | 在 GKE 上进行预训练 |
| Llama3 70B - A3 Mega | A3 Mega | Llama3 70B | NeMo | 在 GKE 上进行预训练 |
| Llama3.1 70B A3 Mega | A3 Mega | Llama3.1 70B | NeMo | 在 GKE 上进行预训练 |
| DeepSeek R1 671B | A3 Mega | DeepSeek R1 671B | SGLang | GKE 上的推理 |
| DeepSeek R1 671B | A3 Mega | DeepSeek R1 671B | vLLM | GKE 上的推理 |
| Llama-3.1-405B - A3 Ultra | A3 Ultra | Llama-3.1-405B | MaxText | 在 GKE 上进行预训练 |
| Llama-3.1-405B - A3 Ultra(弹性) | A3 Ultra | Llama-3.1-405B | NeMo | 在 GKE 上进行预训练 |
| Llama-3.1-405B - A3 Ultra | A3 Ultra | Llama-3.1-405B | NeMo | 在 GKE 上进行预训练 |
| DeepSeek R1 671B | A3 Ultra | DeepSeek R1 671B | SGLang | GKE 上的推理 |
| DeepSeek R1 671B | A3 Ultra | DeepSeek R1 671B | vLLM | GKE 上的推理 |