Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

建議設定

本文提供建議，說明最適合不同人工智慧 (AI)、機器學習 (ML) 和高效能運算 (HPC) 工作負載的加速器、消耗類型和部署工具。請參閱這份文件，找出最適合工作負載的部署方式。

如要瞭解 AI、機器學習和 HPC 工作負載的基礎架構支柱，以及相關建議，請參閱下列文件：

工作負載總覽

AI Hypercomputer 架構支援下列使用情境：

工作負載	說明	建議
預先訓練基礎模型	包括使用大型資料集建構語言模型。預先訓練基礎模型後，會產生擅長執行一般工作的全新模型。模型會依大小分類如下： *前沿模型：這些機器學習模型的參數數量高達數千億到數兆以上。包括 Gemini 等大型語言模型 (LLM)。大型模型*：這類模型包含數百億至數千億個以上的參數。	請參閱預先訓練模型的建議做法
微調	這項程序會使用專用資料集或其他技術，調整已訓練的模型，讓模型執行特定工作。微調通常是在大型模型上進行。	請參閱模型微調建議
推論或服務	這包括採用經過訓練或微調的模型，並開放使用者或應用程式使用。推論工作負載會依模型大小分類，如下所示： *多主機基礎模型推論：使用已訓練的機器學習模型執行推論，這些模型包含數千億到數兆個以上的參數。對於這些推論工作負載，運算負載會分散到多部主機。單一主機基礎模型推論：使用訓練好的機器學習模型執行推論，這些模型包含數十到數千億個參數。對於這些推論工作負載，運算負載僅限於單一主體機器。大型模型推論*：使用經過訓練或微調的機器學習模型執行推論，這些模型包含數百億到數千億個參數。	請參閱推論建議
中小型模型機器學習	這包括訓練及提供較小且較不複雜的機器學習模型，通常用於更專業的工作。	請參閱中小型模型機器學習的建議
HPC	這種做法是匯總運算資源，以獲得比單一工作站、伺服器或電腦更高的效能。HPC 可用來解決學術研究、科學、設計、模擬和商業智慧中的問題。	查看 HPC 建議

預先訓練模型的建議做法

預先訓練基礎模型需要大量加速器叢集，持續讀取大量資料，並透過正向和反向傳遞調整權重，從資料中學習。這些訓練工作會執行數週，甚至數月。

以下各節將說明預先訓練模型時使用的加速器和建議的消耗類型。

建議的加速器

如要在 Google Cloud上預先訓練基礎模型，建議使用A4X Max、A4 或 A3 加速器最佳化機型，並使用協調器部署叢集。如要部署這些大型加速器叢集，建議使用 Cluster Director 或 Cluster Toolkit。詳情請參閱下表，選擇叢集並查看對應的部署指南。

工作負載	建議		叢集部署指南
	機型	Orchestrator
前沿模型訓練大型模型訓練	A4X Max A4X A4 A3 Ultra	GKE	使用預設設定建立 AI 最佳化 GKE 叢集
前沿模型訓練大型模型訓練	A4X Max A4X A4 A3 Ultra	Slurm	為 AI 工作負載建立全代管的 Slurm 叢集建立自行管理的 Slurm 叢集，用於 AI 工作負載
前沿模型訓練大型模型訓練	A3 Mega	GKE	在標準模式叢集中，盡量提高 GPU 網路頻寬
前沿模型訓練大型模型訓練	A3 Mega	Slurm	根據範本建立 AI 適用叢集部署 A3 Mega Slurm 叢集，用於機器學習訓練
大型模型訓練	A3 High	GKE	在標準模式叢集中，盡量提高 GPU 網路頻寬
大型模型訓練	A3 High	Slurm	部署 A3 High Slurm 叢集

建議的計費模式

如要以最低成本取得大量加速器叢集，建議您使用預訂功能，並長期預訂這些資源，以確保資源可用性。如要進一步瞭解用量類型，請參閱「選擇用量選項」。

微調模型的建議做法

微調大型基礎模型時，需要較小的加速器叢集、讀取適量的資料，並調整模型以執行特定工作。這些微調作業會執行數天，甚至數週。

以下各節說明微調模型時，建議使用的加速器和消耗類型。

建議的加速器

如要在 Google Cloud上微調模型，建議使用 A4X Max、A4X、A4 或 A3 加速器最佳化機型，並使用自動調度管理工具部署叢集。

如要部署這些加速器叢集，我們也建議使用 Cluster Director 或 Cluster Toolkit。詳情請參閱下表，瞭解所選機型的叢集部署指南。

工作負載	建議		叢集部署指南
	機器類型	Orchestrator
微調大型模型	A4X Max A4X A4	GKE	使用預設設定建立 AI 最佳化 GKE 叢集
微調大型模型	A4X Max A4X A4	Slurm	為 AI 工作負載建立全代管的 Slurm 叢集建立自行管理的 Slurm 叢集，用於 AI 工作負載
微調大型模型	A3 Mega	GKE	在標準模式叢集中，盡量提高 GPU 網路頻寬
微調大型模型	A3 Mega	Slurm	根據範本建立 AI 適用叢集部署 A3 Mega Slurm 叢集，用於機器學習訓練
微調大型模型	A3 High	GKE	在標準模式叢集中，盡量提高 GPU 網路頻寬
微調大型模型	A3 High	Slurm	部署 A3 High Slurm 叢集

建議的計費模式

如要調整工作負載，建議使用日曆模式的未來預留項目功能來佈建資源。如要進一步瞭解用量選項，請參閱「選擇用量選項」。

建議推論工具

以下各節將說明執行推論時建議使用的加速器和消耗類型。

建議的加速器

建議用於推論的加速器取決於您執行的是多主機前沿或大型模型推論，還是單一主機前沿推論。

建議的加速器 (多主機)

如要在 Google Cloud上執行多主機前沿或大型模型推論，建議使用 A4X Max、A4X、A4 或 A3 加速器最佳化機型，並透過協調器部署機器。如要部署這些加速器叢集，我們也建議您使用 Cluster Director 或 Cluster Toolkit。為協助您開始使用這些叢集，我們提供各建議機型的叢集部署指南連結。

工作負載	建議		叢集部署指南
	機器類型	Orchestrator
多主機前沿推論	A4X Max A4X A4 A3 Ultra	GKE	使用預設設定建立 AI 最佳化 GKE 叢集
多主機前沿推論	A4X Max A4X A4 A3 Ultra	Slurm	為 AI 工作負載建立全代管的 Slurm 叢集建立自行管理的 Slurm 叢集，用於 AI 工作負載
多主機前沿推論	A3 Mega	GKE	在標準模式叢集中，盡量提高 GPU 網路頻寬
多主機前沿推論	A3 Mega	Slurm	根據範本建立 AI 適用叢集部署 A3 Mega Slurm 叢集，用於機器學習訓練
大型模型推論	A3 High	GKE	在標準模式叢集中，盡量提高 GPU 網路頻寬
大型模型推論	A3 High	Slurm	部署 A3 High Slurm 叢集

建議的加速器 (單一主機)

下表列出執行單一主機前沿推論時建議使用的加速器。為協助您開始使用這些 VM，我們提供每個建議機型的 VM 部署指南連結。

工作負載	建議		VM 部署作業指南
	機器類型	Orchestrator
單一主機前沿推論	A4 A3 Ultra	不適用	建立 AI 最佳化執行個體
單一主機前沿推論	A3 High	不適用	建立啟用 GPUDirect-TCPX 的 A3 VM

建議的計費模式

建議您使用長期預留項目或日曆模式的未來預留項目進行推論。如要進一步瞭解用量選項，請參閱「選擇用量選項」。

小型到中型模型機器學習的建議做法

對於涉及中小型模型的機器學習工作負載，在價格和效能之間取得最佳平衡是主要考量。

建議的加速器

下表列出建議用於中小型模型機器學習工作負載的加速器。

工作負載	建議		VM 部署作業指南
	機器類型	Orchestrator
中小型模型機器學習	G4 G2	不適用	建立 G2 或 G4 執行個體

高效能運算 (HPC) 建議

對於 HPC 工作負載，任何加速器最佳化機器系列或運算最佳化機器系列都適用。如果使用加速器最佳化機器系列，最佳方案取決於必須卸載至 GPU 的運算量。如需 HPC 工作負載的詳細建議清單，請參閱「執行 HPC 工作負載的最佳做法」。

建議摘要

下表摘要列出不同工作負載建議使用的加速器和消耗量類型。

資源	建議
模型預先訓練
機器家族	使用下列其中一種加速器最佳化機型：A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High
用量類型	使用預留項目
模型微調
機器家族	使用 A4X Max、A4X、A4 或 A3 加速器最佳化機器類型
用量類型	使用預留項目
推論
機器家族	使用下列其中一種加速器最佳化機型：A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High
用量類型	使用預留項目
HPC
請參閱執行 HPC 工作負載最佳做法的摘要部分

建議設定 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

工作負載總覽

預先訓練模型的建議做法

建議的加速器

建議的計費模式

微調模型的建議做法

建議的加速器

建議的計費模式

建議推論工具

建議的加速器

建議的加速器 (多主機)

建議的加速器 (單一主機)

建議的計費模式

小型到中型模型機器學習的建議做法

建議的加速器

高效能運算 (HPC) 建議

建議摘要

建議設定