建立附加 GPU 的執行個體總覽

本文概要說明建立 Compute Engine 執行個體並附加圖形處理器 (GPU) 的必要步驟。您可以使用 GPU 加速處理特定工作負載,例如機器學習和資料處理。

您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是經過最佳化調整的超級運算系統,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立密集分配的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器,以達到最佳效能。

如要進一步瞭解 Compute Engine 上的 GPU,請參閱「關於 GPU」一文。

選取 GPU 型號

如需可用 GPU 型號的清單,請參閱 GPU 平台。此外,請記下所選 GPU 模型支援的機器類型。

建議您也查看下列各項資訊:

限制

除了所有搭載 GPU 的執行個體限制外,每個連結 GPU 的機器系列都有下列限制:

A4X 執行個體

A4 執行個體

A3 Ultra 執行個體

A3 Mega 執行個體

A3 High 執行個體

A3 Edge 執行個體

A2 Standard 執行個體

  • 您只能透過 A2 Standard 機型的支援用量選項要求容量。
  • 使用 A2 Standard 機器類型的執行個體不適用續用折扣彈性承諾使用折扣
  • 您只能在特定區域和可用區使用 A2 Standard 機器類型。
  • A2 Standard 機器類型僅適用於 Cascade Lake 平台
  • 如果執行個體使用 A2 Standard 機型,只能從一種 A2 Standard 機型切換至另一種 A2 Standard 機型。您無法變更為任何其他機器類型。 詳情請參閱「修改已最佳化加速器的執行個體」。
  • 您無法搭配使用 Windows 作業系統和 a2-megagpu-16g 機型。使用 Windows 作業系統時,請選擇其他 A2 Standard 機型。
  • 在採用 A2 Standard 機型的 Windows 執行個體上,您無法快速格式化所連線的本機 SSD。如要格式化這些本機 SSD,請使用 diskpart 公用程式並指定 format fs=ntfs label=tmpfs,執行完整格式化。

A2 Ultra 執行個體

  • 您只能使用 A2 Ultra 機型的支援用量選項要求容量。
  • 使用 A2 Ultra 機器類型的執行個體不適用續用折扣彈性承諾使用折扣
  • 您只能在特定區域和可用區使用 A2 Ultra 機器類型。
  • A2 Ultra 機型僅適用於 Cascade Lake 平台
  • 如果執行個體使用 A2 Ultra 機器類型,則無法變更機器類型。如要使用其他 A2 Ultra 機型或其他機型,請建立新的執行個體。
  • 您無法將任何其他機器類型變更為 A2 Ultra 機器類型。如要使用 A2 Ultra 機器類型建立執行個體,請建立新的執行個體。
  • 如果 Windows 執行個體使用 A2 Ultra 機器類型,您就無法快速格式化所連線的本機 SSD。如要格式化這些本機 SSD,請使用 diskpart 公用程式並指定 format fs=ntfs label=tmpfs,執行完整格式化。

G4 執行個體

  • 您只能透過 G4 機器類型的支援用量選項要求容量。
  • 使用 G4 機器類型的執行個體不適用續用折扣彈性承諾使用折扣
  • 您只能在特定區域和可用區使用 G4 機器類型。
  • 您無法在採用 G4 機器類型的執行個體上使用永久磁碟 (區域或可用區)。
  • G4 機器類型僅適用於 AMD EPYC Turin 第 5 代平台
  • 您無法建立使用 G4 機器類型的 Confidential VM 執行個體。
  • 您無法在單一用戶群節點上建立 G4 執行個體。
  • g4-standard-384 執行個體無法使用 Windows 作業系統。

G2 執行個體

N1+GPU 執行個體

如要瞭解搭載 GPU 的 N1 執行個體限制,請參閱 N1 系列機器的功能N1 系列機器的 GPU

選擇作業系統

如果您要使用 GPU 進行機器學習,請使用下列其中一種作業系統:

  • 針對 AI 工作負載最佳化的映像檔。您可以選用 Ubuntu 和 Rocky 映像檔,這些映像檔已預先安裝 NVIDIA 驅動程式和 CUDA 工具包,並提供加速器最佳化版本。請參閱 AI Hypercomputer 說明文件中的「OS 映像檔」。

  • 深度學習 VM 映像檔。每個深度學習 VM 都具備 GPU 驅動程式安裝工具,並包含 TensorFlow 和 PyTorch 等套件。您也可以將深度學習 VM 用於一般 GPU 工作負載。如要進一步瞭解可用的映像檔,以及這些映像檔上安裝的套件,請參閱深層學習 VM 說明文件中的「選擇映像檔」。

或者,您也可以使用公開或自訂映像檔。對於大多數公開映像檔自訂映像檔,您需要安裝 NVIDIA 驅動程式和 CUDA Toolkit。如要瞭解適合 GPU 型號的驅動程式,請參閱「安裝 GPU 驅動程式」。

查看 GPU 配額

為保護 Compute Engine 系統和使用者,新專案有全域 GPU 配額,這會限制您可在任何受支援區域中建立的 GPU 總數。如要查看 GPU 配額,請參閱「GPU 配額」。

如果需要更多 GPU 配額,請參閱申請提高配額的相關說明。要求 GPU 配額時,您必須為要在各個地區建立的 GPU 類型要求配額,並依據所有區域中各類 GPU 的總數要求額外的全域配額。

如果您的專案已建立帳單記錄,那麼當您提交要求之後,專案就會自動獲得配額。

GPU 執行個體和先占分配配額

使用標準佈建模型的執行個體通常無法使用先占分配配額。先占配額適用於暫時性工作負載,通常較容易取得。如果專案沒有先占配額,且您從未要求先占配額,則專案中的所有執行個體都會消耗標準分配配額。

如果您要求搶占式配置配額,則使用標準佈建模型的執行個體必須符合下列所有條件,才能消耗搶占式配置配額:

針對有時間限制的 GPU 工作負載使用先占分配量時,您可享有不間斷的執行時間,以及先占分配量配額的高取得率。詳情請參閱「先佔配額」。

建立附加 GPU 的執行個體

如要建立附加 GPU 的執行個體,請完成下列步驟:

  1. 建立執行個體。建立執行個體的方法取決於要執行的工作負載。

    GPU 機器類型
    AI 和機器學習工作負載 圖形和視覺化 其他 GPU 工作負載
    加速器最佳化 A 系列機型專為高效能運算 (HPC)、人工智慧 (AI) 和機器學習 (ML) 工作負載設計。

    對於這些機器類型,系統會自動將 GPU 型號附加至執行個體。

    加速器最佳化 G 系列機器類型專為 NVIDIA Omniverse 模擬工作負載、需要大量圖形資源的應用程式、影片轉碼和虛擬桌面等工作負載設計。這些機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)

    G 系列也可用於訓練較小的模型,以及單一主機推論。

    對於這些機器類型,系統會自動將 GPU 型號附加至執行個體。

    對於 N1 一般用途機器類型 (N1 共用核心除外,即 f1-microg1-small),您可以附加特定 GPU 模型。其中部分 GPU 型號也支援 NVIDIA RTX 虛擬工作站 (vWS)。

    如要處理 AI、機器學習和 HPC 工作負載,請選擇下列其中一個選項:

    如要建立 G2 (L4) 或 G4 (RTX PRO 6000) 執行個體,請參閱建立 G2 或 G4 執行個體 如要建立附加 NVIDIA T4、P4、P100 或 V100 GPU 的 N1 執行個體,請參閱「建立附加 GPU 的 N1 執行個體」。
  2. 如要讓執行個體使用 GPU,您需要在執行個體上安裝 GPU 驅動程式。如果您已啟用 NVIDIA RTX 虛擬工作站 (舊稱 NVIDIA GRID),請安裝虛擬工作站的驅動程式

後續步驟