基準化食譜

為協助您執行工作負載,我們精選了一組可重現的基準測試配方,這些配方使用一些最常見的機器學習 (ML) 架構和模型。這些檔案會儲存在 GitHub 存放區。如要存取這些存放區,請參閱 AI Hypercomputer GitHub 機構。這些基準食譜是在使用 Cluster Toolkit 建立的叢集上進行測試。

總覽

開始使用這些食譜前,請先完成下列步驟:

  1. 請選擇最適合工作負載的加速器。請參閱「選擇部署策略」。
  2. 根據所選加速器選取計費方式,請參閱「計費方案」。
  3. 根據所選加速器類型建立叢集。請參閱叢集部署指南

食譜

下列可重現的基準測試配方適用於 GKE 叢集上的前置訓練和推論。

如要搜尋目錄,可以依架構、模型和加速器組合篩選。

食譜名稱 加速器 模型 Framework 工作負載類型
Llama3.1 70B - A3 Ultra A3 Ultra Llama3.1 70B MaxText 在 GKE 上進行前訓練
Llama3.1 70B - A3 Ultra A3 Ultra Llama3.1 70B NeMo 在 GKE 上進行前訓練
Mixtral-8-7B - A3 Ultra A3 Ultra Mixtral-8-7B NeMo 在 GKE 上進行前訓練
GPT3-175B - A3 Mega A3 Mega GPT3-175B NeMo 在 GKE 上進行前訓練
Mixtral 8x7B - A3 Mega A3 Mega Mixtral 8x7B NeMo 在 GKE 上進行前訓練
Llama3 70B - A3 Mega A3 Mega Llama3 70B NeMo 在 GKE 上進行前訓練
Llama3.1 70B A3 Mega A3 Mega Llama3.1 70B NeMo 在 GKE 上進行前訓練
DeepSeek R1 671B A3 Mega DeepSeek R1 671B SGLang 在 GKE 上執行推論
DeepSeek R1 671B A3 Mega DeepSeek R1 671B vLLM 在 GKE 上執行推論
Llama-3.1-405B - A3 Ultra A3 Ultra Llama-3.1-405B MaxText 在 GKE 上進行前訓練
Llama-3.1-405B - A3 Ultra (Resiliency) A3 Ultra Llama-3.1-405B NeMo 在 GKE 上進行前訓練
Llama-3.1-405B - A3 Ultra A3 Ultra Llama-3.1-405B NeMo 在 GKE 上進行前訓練
DeepSeek R1 671B A3 Ultra DeepSeek R1 671B SGLang 在 GKE 上執行推論
DeepSeek R1 671B A3 Ultra DeepSeek R1 671B vLLM 在 GKE 上執行推論