建議設定

本文提供建議,說明哪種加速器、消耗類型、儲存服務和部署工具最適合不同的人工智慧 (AI)、機器學習 (ML) 和高效能運算 (HPC) 工作負載。請參閱這份文件,找出最適合工作負載的部署方式。

工作負載總覽

AI 超級電腦架構支援下列用途:

工作負載 說明 建議
預先訓練基礎模型 這包括使用大型資料集建構語言模型。預先訓練基礎模型後,會產生擅長執行一般工作的全新模型。
模型會依大小分類如下:
  • 前沿模型:這些機器學習模型的參數數量高達數千億到數兆以上。包括 Gemini 等大型語言模型 (LLM)。
  • 大型模型這類模型包含數十到數千億個以上的參數。
請參閱 預先訓練模型的建議做法
微調 這項技術會使用專用資料集或其他技術,調整訓練好的模型,讓模型執行特定工作。微調通常是在大型模型上進行。 請參閱 微調模型建議
推論或放送 這包括採用經過訓練或微調的模型,並提供給使用者或應用程式使用。
推論工作負載會依模型大小分類,如下所示:
  • 多主機基礎模型推論:使用訓練好的機器學習模型執行推論,這些模型包含數千億到數兆以上的參數。對於這些推論工作負載,運算負載會由多部主機共用。
  • 單一主機基礎模型推論: 使用訓練好的機器學習模型執行推論,這些模型包含數十到數千億個參數。對於這些推論工作負載,運算負載僅限於單一主機。
  • 大型模型推論使用經過訓練或微調的 ML 模型執行推論,這些模型包含數十到數千億個參數。
請參閱 推論建議
中小型模型機器學習 這包括訓練及提供較小且較不複雜的機器學習模型,通常用於更專業的工作。 請參閱 中小型模型機器學習的建議
HPC 這種做法是匯總運算資源,以獲得比單一工作站、伺服器或電腦更高的效能。HPC 可用來解決學術研究、科學、設計、模擬和商業智慧中的問題。 查看 HPC 建議

預先訓練模型的建議做法

預先訓練基礎模型需要大量加速器叢集,持續讀取大量資料,並透過正向和反向傳遞調整權重,從資料中學習。這些訓練工作會執行數週,甚至數月。

下列各節將說明預先訓練模型時使用的加速器、建議的消耗類型和儲存服務。

建議的加速器

如要在 Google Cloud上預先訓練基礎模型,建議使用 A4XA4A3 加速器最佳化機器,並使用協調器部署這些機器。如要部署這些大型加速器叢集,建議使用 Cluster DirectorCluster Toolkit。詳情請參閱下表,選擇叢集並參閱對應的部署指南。

工作負載 建議 叢集部署指南
機型 Orchestrator
  • 前沿模型訓練
  • 大型模型訓練
  • A4X
  • A4
  • A3 Ultra
GKE 使用預設設定建立 AI 最佳化 GKE 叢集
Slurm
  • 前沿模型訓練
  • 大型模型訓練
A3 Mega GKE 在標準模式叢集中,盡量提高 GPU 網路頻寬
Slurm
  • 大型模型訓練
A3 High GKE 在標準模式叢集中,盡量提高 GPU 網路頻寬
Slurm 部署 A3 High Slurm 叢集

建議的計費模式

如要以最低成本取得大量加速器叢集,建議您使用預訂功能,並長期預訂這些加速器。如要進一步瞭解消耗類型,請參閱「選擇消耗選項」一文。

建議的儲存服務

預先訓練時,需要持續快速地準備訓練資料。我們也建議您經常快速檢查訓練中的模型。對於大多數這類需求,我們建議使用 Google Cloud Managed Lustre。您也可以使用 Cloud Storage,並啟用 Cloud Storage FUSE 和 Anywhere Cache。如要進一步瞭解儲存空間選項,請參閱「儲存空間服務」。

模型微調建議

微調大型基礎模型時,需要較小的加速器叢集,讀取適量的資料,並調整模型以執行特定工作。這些微調作業會執行數天,甚至數週。

下列各節將說明微調模型時使用的加速器、建議的消耗類型和儲存服務。

建議的加速器

如要在 Google Cloud上微調模型,建議使用 A4XA4A3 加速器最佳化機器,並使用自動化調度管理工具部署這些機器。

如要部署這些加速器叢集,我們也建議使用 Cluster DirectorCluster Toolkit。詳情請參閱下表,瞭解所選機器類型的叢集部署指南。

工作負載 建議 叢集部署指南
機器類型 Orchestrator
微調大型模型
  • A4X
  • A4
GKE 使用預設設定建立 AI 最佳化 GKE 叢集
Slurm
微調大型模型 A3 Mega GKE 在標準模式叢集中,盡量提高 GPU 網路頻寬
Slurm
微調大型模型 A3 High GKE 在標準模式叢集中,盡量提高 GPU 網路頻寬
Slurm 部署 A3 High Slurm 叢集

建議的計費模式

如要微調工作負載,建議使用日曆模式中的未來預訂功能來佈建資源。如要進一步瞭解消耗選項,請參閱「選擇消耗選項」。

建議的儲存服務

微調模型時,可能需要大量資料,尤其是微調效能的讀取速度。建議您經常快速檢查微調模型。 與前置訓練類似,我們建議在大多數用途中使用 Google Cloud Managed Lustre。 您也可以搭配使用 Cloud Storage 與 Cloud Storage FUSE,並啟用 Anywhere Cache。如要進一步瞭解儲存空間選項,請參閱「儲存空間服務」一文。

建議推論工具

以下各節將說明執行推論時要使用的加速器、建議的消耗類型和儲存服務。

建議的加速器

建議用於推論的加速器取決於您執行的是多主機 Frontier 或大型模型推論,還是單一主機 Frontier 推論。

建議的加速器 (多主機)

如要在 Google Cloud上執行多主機前沿或大型模型推論,建議使用 A4XA4A3 加速器最佳化機器,並透過協調器部署這些機器。如要部署這些加速器叢集,我們也建議使用 Cluster DirectorCluster Toolkit。為協助您開始使用這些叢集,我們提供各建議機器類型的叢集部署指南連結。

工作負載 建議 叢集部署指南
機器類型 Orchestrator
多主機前沿推論
  • A4X
  • A4
  • A3 Ultra
GKE 使用預設設定建立 AI 最佳化 GKE 叢集
Slurm
多主機前沿推論 A3 Mega GKE 在標準模式叢集中,盡量提高 GPU 網路頻寬
Slurm
大型模型推論 A3 High GKE 在標準模式叢集中,盡量提高 GPU 網路頻寬
Slurm 部署 A3 High Slurm 叢集

建議的加速器 (單一主機)

下表列出執行單一主機前沿推論時建議使用的加速器。為協助您開始使用這些 VM,我們提供每個建議機器類型的 VM 部署指南連結。

工作負載 建議 VM 部署作業指南
機器類型 Orchestrator
單一主機前沿推論
  • A4
  • A3 Ultra
不適用 建立 AI 最佳化執行個體
單一主機前沿推論 A3 High 不適用 建立啟用 GPUDirect-TCPX 的 A3 VM

建議的計費模式

如要進行推論,建議您使用長期預留項目,或日曆模式的未來預留項目。如要進一步瞭解消耗選項,請參閱「選擇消耗選項」。

建議的儲存服務

如要進行推論,必須快速讀取資料,才能在多部伺服器上快速載入推論二進位檔和權重。建議您使用 Cloud Storage,並啟用 Cloud Storage FUSE 和 Anywhere Cache,以便載入模型。Anywhere Cache 提供區域資料快取解決方案,可加快模型載入速度,並降低網路輸出費用。搭配 Cloud Storage FUSE 使用時,Anywhere Cache 特別適合用來載入多個區域和多區域的模型。如果您使用 Google Cloud Managed Lustre 進行訓練,建議您也使用 Google Cloud Managed Lustre 載入模型,因為這項服務可快速讀取資料,而且是持續性的可用區儲存空間解決方案。如要進一步瞭解儲存空間選項,請參閱「儲存空間服務」。

小型到中型模型機器學習的建議做法

對於涉及中小型模型的機器學習工作負載,在價格和效能之間取得最佳平衡是主要考量。

建議的加速器

下表列出建議用於中小型模型機器學習工作負載的加速器。

工作負載 建議 VM 部署作業指南
機器類型 Orchestrator
中小型模型機器學習
  • G4
  • G2
不適用 建立 G2 或 G4 執行個體

高效能運算 (HPC) 建議

對於 HPC 工作負載,任何加速器最佳化機器系列運算最佳化機器系列都適用。 如果使用加速器最佳化機器系列,最佳方案取決於必須卸載至 GPU 的運算量。如需 HPC 工作負載的詳細建議清單,請參閱「執行 HPC 工作負載的最佳做法」。

建議摘要

下表摘要列出不同工作負載建議使用的加速器、消耗類型和儲存空間服務。


資源

建議
模型預先訓練
機器家族 使用下列其中一種加速器最佳化機型:A4、A3 Ultra、A3 Mega 或 A3 High
用量類型 使用預留項目
儲存空間 使用 Google Cloud 代管服務,例如 Google Cloud Managed Lustre 或 Cloud Storage FUSE
模型微調
機器家族 使用 A4X、A4 或 A3 加速器最佳化機器類型
用量類型 使用預留項目
儲存空間 使用 Google Cloud 代管服務,例如 Google Cloud Managed Lustre 或 Cloud Storage FUSE
推論
機器家族 使用下列其中一種加速器最佳化機型:A4、A3 Ultra、A3 Mega 或 A3 High
用量類型 使用預留項目
儲存空間 使用 Google Cloud 代管服務,例如 Google Cloud Managed Lustre 或 Cloud Storage FUSE
HPC
請參閱執行 HPC 工作負載最佳做法的摘要部分