本文說明您為 AI Hypercomputer 叢集和 VM 部署作業設定的網路服務。為 AI Hypercomputer 設定的特定網路服務,取決於您為 VM 或叢集選擇的部署方案。
本文適用於架構師、網路工程師和開發人員,可協助他們瞭解 AI Hypercomputer 部署作業的網路服務。本文假設您對雲端網路和分散式運算概念有基本瞭解。如要進一步瞭解部署選項,請參閱「VM 和叢集建立總覽」。
本文詳細說明您為下列部署選項設定的網路服務:
設定預設 GKE 部署作業的網路
使用預設設定建立 AI 最佳化 GKE 叢集時,您會在 Cluster Toolkit 藍圖中定義網路設定。藍圖會根據您選取的機器類型而異。舉例來說,Cluster Toolkit 藍圖會部署搭載 A4 機型的 GKE 叢集。
藍圖會透過下列方式設定網路:
- 使用預設 VPC:藍圖會使用預設的虛擬私有雲網路,做為主要 GKE 叢集的網路。
- 建立兩個額外的虛擬私有雲:藍圖會設定兩個不同的虛擬私有雲網路。一個用於第二個主機網路介面卡 (NIC),另一個則用於圖形處理器 (GPU) 對 GPU 的遠端直接記憶體存取 (RDMA) 流量。使用這項多個虛擬私有雲設定,可提升網路隔離效果。詳情請參閱「多虛擬私有雲環境」。
- 定義 IP 位址範圍:藍圖會為 GKE 節點設定私人 IP 位址空間。這會為 Pod 和服務設定次要 IP 範圍。GKE 會使用 IP 位址別名,避免 IP 位址衝突。
- 套用 RDMA 最佳化網路設定檔:藍圖會將預先設定的 Google 管理網路設定檔,套用至用於 GPU 流量的 VPC。這個設定檔會自動設定網路,以提供 RDMA 需要的高速和低延遲效能。詳情請參閱「特定用途的網路設定檔」。
- 自動建立 RDMA 子網路:為確保最佳效能,藍圖會在 RDMA 虛擬私有雲中自動建立八個專屬子網路。並為加速器 VM 上的八個 RDMA NIC 各建立一個子網路。
- 設定防火牆規則:藍圖會設定防火牆規則,允許叢集內節點之間的所有傳輸控制通訊協定 (TCP)、使用者資料包通訊協定 (UDP) 和網際網路控制訊息通訊協定 (ICMP) 流量。節點就能自由通訊。此外,為了安全起見,這項工具也會設定授權的無類別跨網域路由 (CIDR) 範圍,限制 GKE 叢集控制層的存取權。
為採用自訂設定的 GKE 部署作業建立網路
如果需要比預設 Cluster Toolkit 藍圖更精細的控制項,請手動設定 AI 最佳化 GKE 叢集的網路物件。這種做法可讓您根據工作負載的特定需求調整網路設定。
使用的設定取決於您是否打算執行分散式 AI 工作負載:
- 非分散式工作負載:建立不含 GPUDirect RDMA 的 GKE 叢集。這個方法會使用單一 VPC 網路進行所有通訊。
- 分散式工作負載:建立啟用 GPUDirect RDMA 的 GKE 叢集。啟用 GPUDirect RDMA 是大規模提升效能的必要條件。這項設定涉及多個虛擬私有雲環境,可將一般用途流量與高頻寬、低延遲的 GPU 對 GPU 通訊分開。
如需詳細的逐步操作說明,瞭解如何為這兩種情境建立自訂的 AI 最佳化 GKE 叢集,請參閱「建立自訂的 AI 最佳化 GKE 叢集」。
為部署的 Slurm 叢集建立網路
您可以使用 Cluster Toolkit,透過高度可自訂及可擴充的藍圖,在 Google Cloud 上部署高效能運算 (HPC)、AI 和機器學習工作負載。舉例來說,當您使用 A4 機型建立 AI 適用的 Slurm 叢集時,本節說明在 A4 藍圖中設定的網路服務,協助您瞭解建立 Slurm 叢集時可變更的網路設定。
部署期間,Cluster Toolkit 藍圖會使用 Packer 自動建構自訂作業系統 (OS) 映像檔。Packer 會啟動臨時 VM 並執行指令碼,自訂開機磁碟,藉此建立映像檔。您可以使用啟動指令碼、殼層指令碼或 Ansible 劇本自訂映像檔。然後,藍圖會使用這個自訂映像檔,在 Slurm 節點上安裝叢集和工作負載管理所需的系統軟體。
藍圖設定的網路元件如下:
- 建立三個不同的虛擬私有雲:藍圖會建立 Slurm 控制層的主要虛擬私有雲、一般主機層級流量的次要虛擬私有雲,以及 GPU 對 GPU 通訊專用的高效能虛擬私有雲。這樣一來,管理流量就不會干擾工作負載資料層。詳情請參閱「多虛擬私有雲環境」。
- 套用 RDMA 最佳化網路設定檔:對於 GPU 資料平面,藍圖會套用預先設定的 Google 管理網路設定檔,該設定檔已針對 RoCE 進行最佳化。系統會自動建立八個子網路,每個子網路對應加速器 VM 上的一個 RDMA NIC。詳情請參閱「特定用途的網路設定檔」。
- 為共用儲存空間保留 IP 位址範圍:藍圖會設定 Filestore 服務所需的專屬 IP 位址範圍。Filestore 會為叢集提供共用的
/home目錄。 - 提供獨立的映像檔建構網路:藍圖會建立臨時的虛擬私有雲,僅用於為叢集節點建構自訂 VM 映像檔的程序。為 Packer 作業提供隔離的網路環境。
如需更多部署選項,請參閱 Cluster Toolkit 說明文件。
Compute Engine 執行個體的網路
您可以使用 Compute Engine 建立獨立 VM、大量建立 VM 執行個體,以及建立代管執行個體群組 (MIG),適用於各種經過最佳化的加速器機器類型。
這些機器類型需要多個虛擬私有雲網路設定,才能處理不同類型的流量。這項設定可將一般主機對主機流量,與高頻寬 GPU 對 GPU 通訊分開。具體網路需求會因機器類型而異。
如要詳細瞭解機器類型的 NIC 和網路設定,請參閱「查看網路頻寬和 NIC 配置」。
如需建立這些虛擬私有雲網路的逐步操作說明,請參閱「建立虛擬私有雲網路」。
後續步驟
- 如要找出最適合工作負載的部署方式,請參閱建議設定。
- 如要瞭解各部署選項的用途,請參閱「VM 和叢集建立總覽」。
- 如要使用預設設定建立 AI 適用 GKE 叢集,請參閱「使用預設設定建立 AI 適用 GKE 叢集」。
- 如要建立自訂的 AI 最佳化 GKE 叢集,請參閱建立自訂的 AI 最佳化 GKE 叢集。
- 如要使用 A4 機型建立 AI 適用的 Slurm 叢集,請參閱使用 A4 機型建立 AI 適用的 Slurm 叢集。
- 如要使用 A4 或 A3 Ultra 建立 AI 適用的執行個體,請參閱使用 A4 或 A3 Ultra 建立 AI 適用的執行個體。
- 如要使用 A3 Mega 或 A3 High 建立 AI 適用的執行個體,請參閱「使用 A3 Mega 或 A3 High 建立 AI 適用的執行個體」。