為協助您執行工作負載,我們精選了一組可重現的基準測試配方,這些配方使用一些最常見的機器學習 (ML) 架構和模型。這些檔案會儲存在 GitHub 存放區。如要存取這些存放區,請參閱 AI Hypercomputer GitHub 機構。這些基準食譜是在使用 Cluster Toolkit 建立的叢集上進行測試。
總覽
開始使用這些食譜前,請先完成下列步驟:
食譜
下列可重現的基準測試配方適用於 GKE 叢集上的前置訓練和推論。
如要搜尋目錄,可以依架構、模型和加速器組合篩選。
| 食譜名稱 | 加速器 | 模型 | Framework | 工作負載類型 |
|---|---|---|---|---|
| Llama3.1 70B - A3 Ultra | A3 Ultra | Llama3.1 70B | MaxText | 在 GKE 上進行前訓練 |
| Llama3.1 70B - A3 Ultra | A3 Ultra | Llama3.1 70B | NeMo | 在 GKE 上進行前訓練 |
| Mixtral-8-7B - A3 Ultra | A3 Ultra | Mixtral-8-7B | NeMo | 在 GKE 上進行前訓練 |
| GPT3-175B - A3 Mega | A3 Mega | GPT3-175B | NeMo | 在 GKE 上進行前訓練 |
| Mixtral 8x7B - A3 Mega | A3 Mega | Mixtral 8x7B | NeMo | 在 GKE 上進行前訓練 |
| Llama3 70B - A3 Mega | A3 Mega | Llama3 70B | NeMo | 在 GKE 上進行前訓練 |
| Llama3.1 70B A3 Mega | A3 Mega | Llama3.1 70B | NeMo | 在 GKE 上進行前訓練 |
| DeepSeek R1 671B | A3 Mega | DeepSeek R1 671B | SGLang | 在 GKE 上執行推論 |
| DeepSeek R1 671B | A3 Mega | DeepSeek R1 671B | vLLM | 在 GKE 上執行推論 |
| Llama-3.1-405B - A3 Ultra | A3 Ultra | Llama-3.1-405B | MaxText | 在 GKE 上進行前訓練 |
| Llama-3.1-405B - A3 Ultra (Resiliency) | A3 Ultra | Llama-3.1-405B | NeMo | 在 GKE 上進行前訓練 |
| Llama-3.1-405B - A3 Ultra | A3 Ultra | Llama-3.1-405B | NeMo | 在 GKE 上進行前訓練 |
| DeepSeek R1 671B | A3 Ultra | DeepSeek R1 671B | SGLang | 在 GKE 上執行推論 |
| DeepSeek R1 671B | A3 Ultra | DeepSeek R1 671B | vLLM | 在 GKE 上執行推論 |