本文提供建議,說明哪種加速器、消耗類型、儲存服務和部署工具最適合不同的人工智慧 (AI)、機器學習 (ML) 和高效能運算 (HPC) 工作負載。請參閱這份文件,找出最適合工作負載的部署方式。
工作負載總覽
AI 超級電腦架構支援下列用途:
| 工作負載 | 說明 | 建議 |
|---|---|---|
| 預先訓練基礎模型 | 這包括使用大型資料集建構語言模型。預先訓練基礎模型後,會產生擅長執行一般工作的全新模型。 模型會依大小分類如下:
|
請參閱 預先訓練模型的建議做法 |
| 微調 | 這項技術會使用專用資料集或其他技術,調整訓練好的模型,讓模型執行特定工作。微調通常是在大型模型上進行。 | 請參閱 微調模型建議 |
| 推論或放送 | 這包括採用經過訓練或微調的模型,並提供給使用者或應用程式使用。 推論工作負載會依模型大小分類,如下所示:
|
請參閱 推論建議 |
| 中小型模型機器學習 | 這包括訓練及提供較小且較不複雜的機器學習模型,通常用於更專業的工作。 | 請參閱 中小型模型機器學習的建議 |
| HPC | 這種做法是匯總運算資源,以獲得比單一工作站、伺服器或電腦更高的效能。HPC 可用來解決學術研究、科學、設計、模擬和商業智慧中的問題。 | 查看 HPC 建議 |
預先訓練模型的建議做法
預先訓練基礎模型需要大量加速器叢集,持續讀取大量資料,並透過正向和反向傳遞調整權重,從資料中學習。這些訓練工作會執行數週,甚至數月。
下列各節將說明預先訓練模型時使用的加速器、建議的消耗類型和儲存服務。
建議的加速器
如要在 Google Cloud上預先訓練基礎模型,建議使用 A4X、A4 或 A3 加速器最佳化機器,並使用協調器部署這些機器。如要部署這些大型加速器叢集,建議使用 Cluster Director 或 Cluster Toolkit。詳情請參閱下表,選擇叢集並參閱對應的部署指南。
| 工作負載 | 建議 | 叢集部署指南 | |
|---|---|---|---|
| 機型 | Orchestrator | ||
|
|
GKE | 使用預設設定建立 AI 最佳化 GKE 叢集 |
| Slurm | |||
|
A3 Mega | GKE | 在標準模式叢集中,盡量提高 GPU 網路頻寬 |
| Slurm | |||
|
A3 High | GKE | 在標準模式叢集中,盡量提高 GPU 網路頻寬 |
| Slurm | 部署 A3 High Slurm 叢集 | ||
建議的計費模式
如要以最低成本取得大量加速器叢集,建議您使用預訂功能,並長期預訂這些加速器。如要進一步瞭解消耗類型,請參閱「選擇消耗選項」一文。
建議的儲存服務
預先訓練時,需要持續快速地準備訓練資料。我們也建議您經常快速檢查訓練中的模型。對於大多數這類需求,我們建議使用 Google Cloud Managed Lustre。您也可以使用 Cloud Storage,並啟用 Cloud Storage FUSE 和 Anywhere Cache。如要進一步瞭解儲存空間選項,請參閱「儲存空間服務」。
模型微調建議
微調大型基礎模型時,需要較小的加速器叢集,讀取適量的資料,並調整模型以執行特定工作。這些微調作業會執行數天,甚至數週。
下列各節將說明微調模型時使用的加速器、建議的消耗類型和儲存服務。
建議的加速器
如要在 Google Cloud上微調模型,建議使用 A4X、A4 或 A3 加速器最佳化機器,並使用自動化調度管理工具部署這些機器。
如要部署這些加速器叢集,我們也建議使用 Cluster Director 或 Cluster Toolkit。詳情請參閱下表,瞭解所選機器類型的叢集部署指南。
| 工作負載 | 建議 | 叢集部署指南 | |
|---|---|---|---|
| 機器類型 | Orchestrator | ||
| 微調大型模型 |
|
GKE | 使用預設設定建立 AI 最佳化 GKE 叢集 |
| Slurm | |||
| 微調大型模型 | A3 Mega | GKE | 在標準模式叢集中,盡量提高 GPU 網路頻寬 |
| Slurm | |||
| 微調大型模型 | A3 High | GKE | 在標準模式叢集中,盡量提高 GPU 網路頻寬 |
| Slurm | 部署 A3 High Slurm 叢集 | ||
建議的計費模式
如要微調工作負載,建議使用日曆模式中的未來預訂功能來佈建資源。如要進一步瞭解消耗選項,請參閱「選擇消耗選項」。
建議的儲存服務
微調模型時,可能需要大量資料,尤其是微調效能的讀取速度。建議您經常快速檢查微調模型。 與前置訓練類似,我們建議在大多數用途中使用 Google Cloud Managed Lustre。 您也可以搭配使用 Cloud Storage 與 Cloud Storage FUSE,並啟用 Anywhere Cache。如要進一步瞭解儲存空間選項,請參閱「儲存空間服務」一文。
建議推論工具
以下各節將說明執行推論時要使用的加速器、建議的消耗類型和儲存服務。
建議的加速器
建議用於推論的加速器取決於您執行的是多主機 Frontier 或大型模型推論,還是單一主機 Frontier 推論。
建議的加速器 (多主機)
如要在 Google Cloud上執行多主機前沿或大型模型推論,建議使用 A4X、A4 或 A3 加速器最佳化機器,並透過協調器部署這些機器。如要部署這些加速器叢集,我們也建議使用 Cluster Director 或 Cluster Toolkit。為協助您開始使用這些叢集,我們提供各建議機器類型的叢集部署指南連結。
| 工作負載 | 建議 | 叢集部署指南 | |
|---|---|---|---|
| 機器類型 | Orchestrator | ||
| 多主機前沿推論 |
|
GKE | 使用預設設定建立 AI 最佳化 GKE 叢集 |
| Slurm | |||
| 多主機前沿推論 | A3 Mega | GKE | 在標準模式叢集中,盡量提高 GPU 網路頻寬 |
| Slurm | |||
| 大型模型推論 | A3 High | GKE | 在標準模式叢集中,盡量提高 GPU 網路頻寬 |
| Slurm | 部署 A3 High Slurm 叢集 | ||
建議的加速器 (單一主機)
下表列出執行單一主機前沿推論時建議使用的加速器。為協助您開始使用這些 VM,我們提供每個建議機器類型的 VM 部署指南連結。
| 工作負載 | 建議 | VM 部署作業指南 | |
|---|---|---|---|
| 機器類型 | Orchestrator | ||
| 單一主機前沿推論 |
|
不適用 | 建立 AI 最佳化執行個體 |
| 單一主機前沿推論 | A3 High | 不適用 | 建立啟用 GPUDirect-TCPX 的 A3 VM |
建議的計費模式
如要進行推論,建議您使用長期預留項目,或日曆模式的未來預留項目。如要進一步瞭解消耗選項,請參閱「選擇消耗選項」。
建議的儲存服務
如要進行推論,必須快速讀取資料,才能在多部伺服器上快速載入推論二進位檔和權重。建議您使用 Cloud Storage,並啟用 Cloud Storage FUSE 和 Anywhere Cache,以便載入模型。Anywhere Cache 提供區域資料快取解決方案,可加快模型載入速度,並降低網路輸出費用。搭配 Cloud Storage FUSE 使用時,Anywhere Cache 特別適合用來載入多個區域和多區域的模型。如果您使用 Google Cloud Managed Lustre 進行訓練,建議您也使用 Google Cloud Managed Lustre 載入模型,因為這項服務可快速讀取資料,而且是持續性的可用區儲存空間解決方案。如要進一步瞭解儲存空間選項,請參閱「儲存空間服務」。
小型到中型模型機器學習的建議做法
對於涉及中小型模型的機器學習工作負載,在價格和效能之間取得最佳平衡是主要考量。
建議的加速器
下表列出建議用於中小型模型機器學習工作負載的加速器。
| 工作負載 | 建議 | VM 部署作業指南 | |
|---|---|---|---|
| 機器類型 | Orchestrator | ||
| 中小型模型機器學習 |
|
不適用 | 建立 G2 或 G4 執行個體 |
高效能運算 (HPC) 建議
對於 HPC 工作負載,任何加速器最佳化機器系列或運算最佳化機器系列都適用。 如果使用加速器最佳化機器系列,最佳方案取決於必須卸載至 GPU 的運算量。如需 HPC 工作負載的詳細建議清單,請參閱「執行 HPC 工作負載的最佳做法」。
建議摘要
下表摘要列出不同工作負載建議使用的加速器、消耗類型和儲存空間服務。
資源 |
建議 |
|---|---|
| 模型預先訓練 | |
| 機器家族 | 使用下列其中一種加速器最佳化機型:A4、A3 Ultra、A3 Mega 或 A3 High |
| 用量類型 | 使用預留項目 |
| 儲存空間 | 使用 Google Cloud 代管服務,例如 Google Cloud Managed Lustre 或 Cloud Storage FUSE |
| 模型微調 | |
| 機器家族 | 使用 A4X、A4 或 A3 加速器最佳化機器類型 |
| 用量類型 | 使用預留項目 |
| 儲存空間 | 使用 Google Cloud 代管服務,例如 Google Cloud Managed Lustre 或 Cloud Storage FUSE |
| 推論 | |
| 機器家族 | 使用下列其中一種加速器最佳化機型:A4、A3 Ultra、A3 Mega 或 A3 High |
| 用量類型 | 使用預留項目 |
| 儲存空間 | 使用 Google Cloud 代管服務,例如 Google Cloud Managed Lustre 或 Cloud Storage FUSE |
| HPC | |
| 請參閱執行 HPC 工作負載最佳做法的摘要部分 | |