網路

如要使用 Vertex AI 訓練叢集,請與業務代表聯絡以取得存取權。

Vertex AI 訓練叢集是一項代管服務,可在虛擬私有雲中以 Compute Engine 執行個體的形式佈建。 Google Cloud這個部署模型可讓服務安全地連線至虛擬私有雲、Google 管理的服務或多雲網路中的其他工作負載。

網路 MTU 需求

如要為訓練基礎架構達到最佳網路效能,您必須設定虛擬私有雲網路的傳輸單位上限 (MTU)。

建議的 MTU 值取決於叢集中的 GPU 機器類型:

  • A3 Ultra 和 A4 節點:使用 8896 的 MTU。
  • A3 Mega 節點:使用 8244 的 MTU。

您可以建立新的虛擬私有雲,或使用現有虛擬私有雲。

在新 VPC 中部署訓練叢集 (建議)

建議您將訓練叢集部署到預先設定的新虛擬私有雲網路。這可確保系統自動套用正確的 MTU 設定,避免影響現有工作負載。

如要在新的 VPC 中部署訓練叢集,主要有兩個步驟:

  1. 建立虛擬私有雲網路:建立新的虛擬私有雲網路。如要啟用巨型封包,請將 MTU 設為 8896。

  2. 部署叢集:將訓練叢集部署至這個新設定的網路。

按照這個順序,叢集的 VM 執行個體在首次啟動時,就會自動沿用正確的 MTU 設定。

建立及設定新的虛擬私有雲

  1. 建立虛擬私有雲網路。如要啟用巨型封包,請將 NETWORK_MTU 設定為 8896。
        # create VPC network
        gcloud compute networks create NETWORK \
          --project=PROJECT_ID \
          --subnet-mode=custom \
          --mtu=NETWORK_MTU
        
  2. 建立用於部署訓練叢集的子網路,並根據環境需求更新範圍。在本範例中,子網路 192.168.0.0/19 用於訓練叢集部署作業。
        # create VPC subnet
        gcloud compute networks subnets create SUBNETWORK \
          --project=PROJECT_ID \
          --network=NETWORK \
          --region=REGION \
          --enable-private-ip-google-access \
          --range=192.168.0.0/19
        
  3. 建立 IAP 防火牆規則,允許與訓練叢集建立 SSH 連線。
        gcloud compute firewall-rules create allow-ssh-ingress-from-iap \
        --direction=INGRESS   --action=allow   --rules=tcp:22 \
        --source-ranges=35.235.240.0/20 --network NETWORK
        
  4. 建立輸入防火牆規則,允許所有通訊埠和通訊協定連至訓練叢集子網路。
       gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \
       --direction=INGRESS --priority=1000 --network=NETWORK \
       --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \
       --source-ranges=192.168.0.0/19 --enable-logging
       

在現有 VPC 中部署訓練叢集

如果將訓練叢集部署到現有網路 (含 Cloud Storage 執行個體),強烈建議使用巨型封包 (MTU 8896),確保效能達到最佳狀態。開始前,請先確認現有 VM 上的作業系統和應用程式是否支援這項變更

如要實作巨型封包,必須更新 VPC 的 MTU,且必須在預先規劃的維護期間進行,以免網路不穩定。

唯一安全的方法是先停止該網路中所有正在執行的 VM 執行個體。如果 VM 處於啟用狀態時變更 MTU,會導致設定不符,連線也不穩定。

停止所有 VM 後,請按照下列步驟操作:

  1. 將網路的 MTU 變更為所選設定 (例如 8896)。
  2. 網路更新完成後,請重新啟動所有 VM。
  3. 手動更新非 Linux VM。請注意,並非所有作業系統都只要重新啟動即可。使用公開 Linux 映像檔的 VM 會自動採用新的 MTU,但您必須手動更新所有 Windows VM 的 OS 內部 MTU 設定,以及任何不使用 DHCP 進行 MTU 設定的自訂映像檔 VM。

其他規定:

  • 在用於部署叢集的子網路中啟用 Private Google Access。
  • 建立輸入防火牆規則,授予 IAP 叢集存取權。
  • 建立輸入防火牆規則,允許所有流量傳輸至叢集。

後續步驟

準備好虛擬私有雲網路,並設定正確的 MTU 設定和防火牆規則後,接下來的步驟是建立及保護訓練叢集。

  • 驗證網路設定:建立叢集前,請執行連線測試,驗證虛擬私有雲網路和 MTU 設定,尤其是修改現有虛擬私有雲時。
  • 使用服務範圍保護叢集:為提升資料安全性,請使用 VPC Service Controls,在 Vertex AI 資源周圍建立服務範圍。這有助於防止資料外洩。
  • 從混合或多雲環境連線:如要從內部部署資料中心或公有雲存取訓練叢集,請使用Google Cloud的混合連線選項。