基准化分析方案

为了帮助您运行工作负载,我们精心挑选了一组可重现的基准测试方案,这些方案使用了一些最常见的机器学习 (ML) 框架和模型。这些内容存储在 GitHub 代码库中。如需访问这些代码库,请参阅 AI Hypercomputer GitHub 组织。 这些基准测试配方已在通过集群工具包创建的集群上经过测试。

概览

在开始使用这些配方之前,请确保您已完成以下步骤:

  1. 选择最适合您工作负载的加速器。请参阅选择部署策略
  2. 根据所选加速器选择使用方法,请参阅使用选项
  3. 根据所选的加速器类型创建集群。请参阅集群部署指南

食谱

以下可重现的基准测试配方可用于在 GKE 集群上进行预训练和推理。

如需搜索目录,您可以按框架、模型和加速器的组合进行过滤。

食谱名称 加速器 模型 Framework 工作负载类型
Llama3.1 70B - A3 Ultra A3 Ultra Llama3.1 70B MaxText 在 GKE 上进行预训练
Llama3.1 70B - A3 Ultra A3 Ultra Llama3.1 70B NeMo 在 GKE 上进行预训练
Mixtral-8-7B - A3 Ultra A3 Ultra Mixtral-8-7B NeMo 在 GKE 上进行预训练
GPT3-175B - A3 Mega A3 Mega GPT3-175B NeMo 在 GKE 上进行预训练
Mixtral 8x7B - A3 Mega A3 Mega Mixtral 8x7B NeMo 在 GKE 上进行预训练
Llama3 70B - A3 Mega A3 Mega Llama3 70B NeMo 在 GKE 上进行预训练
Llama3.1 70B A3 Mega A3 Mega Llama3.1 70B NeMo 在 GKE 上进行预训练
DeepSeek R1 671B A3 Mega DeepSeek R1 671B SGLang GKE 上的推理
DeepSeek R1 671B A3 Mega DeepSeek R1 671B vLLM GKE 上的推理
Llama-3.1-405B - A3 Ultra A3 Ultra Llama-3.1-405B MaxText 在 GKE 上进行预训练
Llama-3.1-405B - A3 Ultra(弹性) A3 Ultra Llama-3.1-405B NeMo 在 GKE 上进行预训练
Llama-3.1-405B - A3 Ultra A3 Ultra Llama-3.1-405B NeMo 在 GKE 上进行预训练
DeepSeek R1 671B A3 Ultra DeepSeek R1 671B SGLang GKE 上的推理
DeepSeek R1 671B A3 Ultra DeepSeek R1 671B vLLM GKE 上的推理